Bioinformatica

Capa
Ficha catalográfica elaborada por Rosalia Pomar Camargo CRB 856/10
B615 Bioinformática da Biologia à flexibilidade

molecular / organização de Hugo Verli. -- Porto Alegre , 2014.
282 p. : il.
1. Bioinformática 2. Biologia Molecular
CDU 575.112
Esta obra foi licenciada sob uma Licença
Creative Commons Atribuição-Não Comercial-Sem Derivados 3.0 Não Adaptada.
Elaboração de imagens
Pablo Ricardo Arantes
pablitoarantes@gmail.com
Revisão de texto
Liana Guimarães Sachett
lianasachett@gmail.com
Conteúdos
Apresentação ............................................................................................................. vi
Autores ........................................................................................................................ viii
Agradecimentos ........................................................................................................ ix
Capítulo 1: O que é bioinformática? ..................................................................... 1
Capítulo 2: Níveis de informação biológica ......................................................... 13
Capítulo 3: Alinhamentos ........................................................................................ 38
Capítulo 4: Projetos genoma .................................................................................. 62
Capítulo 5: Filogenia ................................................................................................ 80
Capítulo 6: Biologia de sistemas ............................................................................ 115
Capítulo 7: Modelos tridimensionais ..................................................................... 147
Capítulo 8: Dinâmica molecular ............................................................................. 172
Capítulo 9: Atracamento .......................................................................................... 188
Capítulo 10: Dicroismo circular .............................................................................. 209
Capítulo 11: Infravermelho ..................................................................................... 220
Capítulo 12: RMN ...................................................................................................... 236
Capítulo 13: Cristalografia ...................................................................................... 251
Apresentação
A ideia deste livro surgiu a partir da minha experiência pessoal com duas disciplinas
em bioinformática, uma para o curso de graduação em Biomedicina e uma para o
Programa de Pós-Graduação em Biologia Celular e Molecular do Centro de
Biotecnologia, ambos na Universidade Federal do Rio Grande do Sul.
Tanto para formação em nível de graduação quanto pós-graduação, desde cedo me

deparei com uma ausência quase total de materiais didáticos em português (e naci-
onais!), de perfil mais geral, aplicável a cursos de graduação, com poucas e
importantes excessões, que devem ser mencionadas pelo seu papel pioneiro, dentre
as quais destaco:
MORGON, Nelson H.; COUTINHO, K. Métodos de Química Teórica e Modelagem Molecular. São
Paulo: Editora Livraria da Física, 2007.
MIR, Luis Genômica. São Paulo: Atheneu, 2004.
À primeira vista, química teórica e bioinformática são assuntos sem correlação. E,

de fato, as pesquisas nestas áreas "puras" frequentemente apresentam pouca ou
nenhuma sobreposição. De um lado, temos o estudo das propriedades estruturais e
eletrônicas de moléculas e, de outro, o estudo de sequências de nucleotídeos, ami-
noácidos e a busca por assinalamento de funções a estas sequências. Há, assim,
uma aparente separação entre, por exemplo, campos de força e árvores Bayesia-
nas. Contudo, esta separação é apenas aparente, tendo em vista que a manifesta-
ção da função gênica passa por estruturas tridimensionais de biomoléculas. Um
polimorfismo de nucleotídeo único acarreta em uma mudança na conformação e di-
nâmica de uma proteína, o que por sua vez pode interferir em sua função. Por outro
lado, a flexibilidade de regiões de proteínas pode muitas vezes ser relacionada a
eventos evolutivos, ampliando nosso entendimento do sistema em estudo e permi-
tindo, assim, a realização de extrapolações a sistemas ortólogos ou parálogos.
Assim, Bioinformática: da Biologia à Flexibilidade Molecular emprega uma

definição abrangente para bioinformática, envolvendo qualquer técnica
computacional aplicada ao estudo de sistemas biológicos (como o próprio nome
sugere). Busca, por conseguinte, oferecer uma percepção multidisciplinar (ou talvez
já estejamos beirando a transdisciplinaridade?) da área, abordando tanto aspectos
relacionados a sequências de nucleotídeos e aminoácidos quanto a estrutura e
dinâmica de proteínas. Adicionalmente, considerando que técnicas experimentais
baseadas no uso de computadores devem, idealmente, ter seus resultados
comparados a técnicas experimentais não-computacionais, este livro também inclui
capítulos com algumas das técnicas experimentais mais frequentemente
empregadas na validação dos números que os programas nos oferecem.
Nesta visão, de certa forma holística, buscamos abordar não somente ácidos nu-
cleicos e proteínas, mas carboidratos e membranas biológicas. À exceção do último,
todos são agrupados como biopolímeros buscando facilitar a construção de relações
entre monômeros formadores, suas conexões e as características dos polímeros re-
sultantes. Afinal de contas, todas as células possuem membranas, e 2/3 das proteí-
nas de eucariotos são glicosiladas. Assim, busca-se oferecer ao leitor uma percep-
ção mais próxima da importância de todas estas biomoléculas para a vida e, em
muitos casos, sua participação em processos patológicos.
A linguagem escolhida para este material foi focada nas áreas biológicas e da saúde,
tendo em vista que estas compreendem talvez o maior volume de problemas alvo
abordados por estas técnicas. Adicionalmente, destaque foi dado na aplicação das
ferramentas em detrimento do esmiuçamento de teoria, códigos, metodologias e
implementações, para as quais um grande número de livros mais avançados e
específicos está disponível. Em contrapartida, esta linguagem pode contribuir para
que alunos de cursos de áreas não-biológicas visualizem o problema por um foco
distinto, aproximando-os assim do problema alvo.
Cada capítulo foi portanto organizado com um foco principal na formação em

Bioinformática para cursos de graduação. Há, contudo, diversas inserções ao longo
do texto, em vermelho e fonte diferente, que buscam oferecer detalhes mais avançados,
potencialmente úteis a alunos de pós-graduação. Ao final, a definição dos concei-
tos-chave de cada capítulo foi incluída. Tal foco na graduação nos levou a maximizar
a tradução de expressões do inglês para o português, mencionando sempre a ex-
pressão inglesa original, para fins de referência. Contudo, em vários casos, a ampli-
tude do uso de expressões originadas no inglês nos levou a mantê-las no texto, pois
a tradução não teria eco nas demais fontes de leitura na área. Outra escolha envol-
veu a omissão de endereços na web, em decorrência de sua frequente modificação.
Contudo, a partir do nome das ferramentas, não deve haver dificuldades para que
os leitores identifiquem-nas pelos buscadores comuns na internet.
Embora tenhamos nos dedicado a empregar uma linguagem geral e acessível, creio
que este esforço estivesse fadado a ser incompleto desde seu início em decorrência
da amplitude de áreas que compõe a bioinformática. Assim, alguns capítulos serão
de leitura mais fácil para alunos de cursos com maior formação em bioquímica, ou-
tros em biologia molecular, ou ainda em programação. Vejo este esforço de cons-
trução de uma linguagem comum para a área como uma obra em constante
desenvolvimento e, caso o material seja de proveito para vocês, certamente nos
dedicaremos a evoluí-lo em uma próxima edição.
Todo o livro foi organizado para ser aproveitado de forma digital, principalmente em
tablets. Fontes maiores foram empregadas para que a leitura fosse mais fácil e me-
nos cansativa nestas telas. E a distribuição do material, gratuita, para um acesso o
mais democrático possível entre os estudantes.
Por fim, ao esperar que estes megabytes de texto e fotos possam lhe ser úteis,
contribuindo para sua aproximação à bioinformática, quiçá incentive-os a se apro-
fundarem na área, agradeço a todos os que contribuiram para a elaboração deste
material. Sem eles, seu tempo, dedicação, excelência e experiência, todo este es-
forço não seria possível.
Hugo Verli
Autores
Bruno César Feltes Ivarne L. S. Tersariol
Centro de Biotecnologia, UFRGS Departamento de Bioquímica, Unifesp
Camila S. de Magalhães João Renato C. Muniz

Pólo de Xerém, UFRJ Grupo de Biotecnologia Molecular, IFSC - USP
Charley Christian Staats Joice de Faria Poloni

Centro de Biotecnologia, UFRGS Centro de Biotecnologia, UFRGS
Dennis Maletich Junqueira Laurent E. Dardenne

Depto Genética, UFRGS Laboratório Nacional de Computação Científica
Diego Bonatto Luís Maurício T. R. Lima

Centro de Biotecnologia, UFRGS Faculdade de Farmácia, UFRJ
Edwin A. Yates Marcelo A. Lima

Instituto de Biologia Integrativa, Universidade de Departamento de Bioquímica, Unifesp
Liverpool
Marcius da Silva Almeida
Fabio Lima Custódio Instituto de Bioquímica Médica, UFRJ
Laboratório Nacional de Computação Científica
Priscila V. S. Z. Capriles
Fernanda Rabaioli da Silva PPG Modelagem Computacional, UFJF
Centro de Biotecnologia, UFRGS
Raphael Trevizani
Fernando V. Maluf Laboratório Nacional de Computação Científica
Centro de Inovação em Biodiversidade e Fármacos,
IFSC - USP Rafael V. C. Guido
Glaucius Oliva IFSC - USP
IFSC - USP Rodrigo Ligabue Braun
Gregório K. Rocha
Laboratório Nacional de Computação Científica Rogério Margis
Guilherme Loss de Morais
Laboratório Nacional de Computação Científica Yraima Cordeiro
Faculdade de Farmácia, UFRJ
Helena B. Nader
Departamento de Bioquímica, Unifesp
Hugo Verli
Isabella A. Guedes
Laboratório Nacional de Computação Científica
Agradecimentos
O esforço de elaboração deste livro não seria possível sem a dedicação de todos os
autores. Por isso agradeço inicialmente a todos que contribuíram para este material
e acreditaram na proposta de um material gratuito e digital, em sua origem. Tal
esforço implicou em meses de trabalho gratuito, para o benefício dos alunos.
Agradeço especificamente ao Pablo, Rodrigo e Liana que, gastaram incontáveis

horas na elaboração de figuras e revisão do texto.
Este livro é fruto da excelência acadêmica de seus autores, originada de anos

dedicados à atividade científica no mais alto nível. E tal atividade só foi possível
através do fomento de órgão como CNPq, CAPES, FAPERGS, FAPESP e FAPERJ aos
quais, em nome de todos os autores, agradeço.
Este reconhecimento se estende às Universidades e Institutos de Pesquisa nas quais

os autores estão sediados, com seus apoios físicos, logísticos, administrativos e fi-
nanceiros. Nominalmente, estas instituições incluem: UFRGS, UFRJ, Universidade de
Liverpool, LNCC, Unifesp, IFSC-USP e UFJF.
1. O que é Bioinformática?
“O todo sem a parte não é todo, Hugo Verli

A parte sem o todo não é parte,
Mas se a parte o faz todo, sendo parte,
Não se diga, que é parte, sendo todo.”
Gregório de Matos Guerra (1636-1696) proteína codificada. Esta estrutura é então

empregada para guiar o planejamento racio-
1.1. Introdução nal de novos compostos, como se um chavei-
ro construísse uma chave (o fármaco) a partir
1.2. Origens da fechadura. Por mais que a analogia seja
simples, ainda serve como base para algumas
1.3. Problemas alvo das mais frequentes estratégias de planeja-
mento de fármacos. E, embora a ideia de que
1.4. Tendências e desafios este processo é flexível, e não rígido (mais
como uma mão encaixando em uma luva,
sendo a mão o fármaco e a luva o receptor)
date da década de 1960, são processos tão
1.1. Introdução complexos que demoramos em torno de 15
anos para lançar um novo fármaco no mer-
Gregório de Matos, poeta brasileiro que cado (e este tempo não está diminuindo).
viveu no século XVII, há quase 400 anos Assim, ao invés de procurar definições
apresentou, na frase de epígrafe deste capí- restritivas, este livro se propõe a empregar
tulo, seu entendimento sobre a indissociabili- definições amplas, que sirvam de suporte pa-
dade das partes para compreensão do todo. ra um entendimendo da grande gama de po-
No nosso caso, o todo é a bioinformática. As tencialidades e aplicações da bioinformática,
partes, contudo, não são tão óbvias quanto se buscando suportar inclusive futuras aplica-
possa imaginar em um primeiro momento. ções da metodologia, ainda em desenvolvi-
Tampouco há consenso sobre estas. Assim, mento ou por serem desenvolvidas.
nossa discussão sobre o que é bioinformática Ao mesmo tempo que sequências codi-
não pretende estabelecer definições rígidas, ficantes geram seus efeitos biológicos como
mas guias para que o leitor entenda o quão estruturas tridimensionais, o estudo destas
complexa e dinâmica é esta jovem ciência. pode e muito se beneficiar do estudo de se-
Esta complexidade usualmente nos quências de proteínas relacionadas (por
passa despercebida. Por exemplo, quando exemplo, alças flexíveis tendem a apresentar
pensamos no impacto do projeto genoma hu- uma elevada variabilidade filogenética). Mes-
mano, uma das principais implicações é a me- mo o estudo de sequências não codificantes
lhoria dos processos terapêuticos acessíveis à pode se beneficiar do conhecimento de estru-
população. Mas a identificação de um novo turas tridimensionais, visto que a regulação
gene ou mutação em um gene conhecido, por de sua expressão é realizada por fatores de
mais que seja associado a um processo pato- transcrição proteicos. Assim, há uma retro-
lógico, está a uma grande distância de um no- alimentação entre as informações originadas
vo fármaco. A partir da sequência, o em sequências biológicas e em suas respecti-
paradigma mais moderno para desenvolvi- vas estruturas 3D.
mento de novos fármacos passa pela carac- Em linhas gerais, este livro parte do en-
terização da estrutura tridimensional da tendimento de que a bioinformática se refere
ao emprego de ferramentas computacionais

no estudo de problemas e questões biológi-
cas, abrangendo também as aplicações rela-
cionadas à saúde humana como o
planejamento de novos fármacos.
Neste caminho, da sequência de nucleo-
tídeos até estruturas proteicas, alcançando
por fim fármacos, diversas áreas do conheci-
mento estão envolvidas. Biologia molecular,
biologia celular, bioquímica, química, física e
computação são talvez as principais grandes
áreas do saber envolvidas nesse processo,
cada uma contribuindo com diversas especia-
lidades.
1.2. Origens
O que apresentaremos neste livro como
bioinformática pode ser separado em duas Figura 1-1: Watson e Crick em frente a um
grandes vertentes: modelo da hélice de DNA. Cavendish
i) a bioinformática tradicional, ou clás- Laboratory, Universidade de Cambridge, 1953.
sica (pela primazia do nome bioinfor-
mática), que aborda principalmente tacam-se os trabalhos de Linus Pauling e
problemas relacionados a sequências de Robert Corey, no início da década de 1950, e
nucleotídeos e aminoácidos, e de Gopalasamudram N. Ramachandran, no
ii) a bioinformática estrutural, que a- início da década de 1960, que ofereceram as
borda questões biológicas de um ponto bases para a compreensão da estrutura tridi-
de vista tridimensional, abrangendo a mensional de proteínas.
maior parte das técnicas compreendidas Desde estes trabalhos até a primeira
pela química computacional ou modela- vez em que se relatou o uso de programas de
gem molecular. computadores para visualizar estruturas tri-
dimensionais de moléculas passaram-se mais
Podemos traçar como momento chave de 10 anos quando, em 1966, Cyrus Levinthal
para ambas as vertentes da bioinformática o publica na revista Scientific American o tra-
início da década de 1950, quando a revista balho desenvolvido no Massachusetts
Nature publicou o trabalho clássico sobre a Institute of Technology por John Ward e
estrutura em hélice da molécula de DNA por Robert Stotz (Figura 2-1).
James Watson e Francis Crick (Figura 1-1). Ainda nesta década se dá o primeiro es-
Neste momento, as bases moleculares para o forço de sistematização do conhecimento
entendimento estrutural da replicação e tra- acerca da estrutura tridimensional dos efeto-
dução do material genético foram apresenta- res da informação genética, as proteínas, em
das, permitindo-nos entender como aquela 1965, com o Atlas of Protein Sequence and
"sequência de letras" (as bases do DNA) se Structure, organizado por diversos autores,
organizam tridimensionalmente. dentre os quais destacaremos Margaret
Este trabalho, contudo, deve ser visto Dayhoff.
como parte de um momento histórico, com- Este destaque se deve ao fato do papel-
posto por diversas contribuições fundamen- chave exercido pela Dra. Dayhoff na forma-
tais para o nosso entendimento de moléculas ção das raízes do que entendemos hoje por
biológicas e suas funções. Dentre estas des- bioinformática, tanto em sua faceta voltada
Tabela 1-1: Nomes dos 20 aminoácidos codifi-

cadores de proteínas junto a suas represen-
tações em 1 e 3 letras.
Aminoácido Representação Representação
de 3 letras de 1 letra
Alanina Ala A
Cisteína Cys C
Ác. aspártico Asp D
Ác. glutâmico Glu E
Figura 2-1: Primeiro programa de visualização Fenilalanina Phe F
da estrutura 3D de moléculas, em fotografia Glicina Gly G
publicada na revista Scientific American, Histidina His H
em 1966.
Isoleucina Ile I
para sequências quanto para estruturas. Foi Lisina Lys K
uma das pioneiras no uso de computadores Leucina Leu L
para o estudo de biomoléculas, incluindo tan- Metionina Met M
to ácidos nucleicos quanto proteínas. Por Asparagina Asn N
exemplo, é ela que inicia o uso da representa- Prolina Pro P
ção de uma única letra para descrever cada
Glutamina Gln Q
aminoácido (Tabela 1-1), ao invés das usuais
três letras, em uma época em que os dados Arginina Arg R
eram armazenados em cartões perfurados Serina Ser S
(Figura 3-1). Desenvolveu as primeiras matri- Treonina Thr T
zes de substituição e fez importantes contri- Valina Val V
buições no desenvolvimento dos estudos Triptofano Trp W
filogenéticos. Também teve participação im-
Tirosina Tyr Y
portante no desenvolvimento de métodos
para o estudo de moléculas por cristalografia sobre a estrutura 3D de biomoléculas vem
de raios-X (como veremos no capítulo 13). servindo de suporte para o desenvolvimento
Com o desenvolvimento de computado- de campos de força cada vez mais precisos,
res mais poderosos e com o avanço no en- enquanto novas abordagens vêm possibilitan-
tendimento dos determinantes da estrutura e do o alinhamento de sequências cada vez
da dinâmica proteica, tornam-se possíveis os mais distantes evolutivamente.
primeiros estudos acerca da dinâmica e do Contudo talvez possamos afirmar que, a
enovelamento de proteínas por simulações de partir destas bases, os maiores impactos da
dinâmica molecular por Michael Levitt e Arieh área na ciência estejam se delineando neste
Warshel, nos anos de 1970, estudos estes exato período da história, em que dois impor-
agraciados com o prêmio Nobel de Química tantes fatores se manifestam: o avanço (e
em 2013 (Figura 4-1). barateamento) no poder computacional e os
A partir dos trabalhos destes e de ou- projetos genoma.
tros pesquisadores, diversos avanços foram Computadores cada vez mais rápidos e
feitos progressivamente nos anos que se se- mais baratos nos permitem abordar proble-
guiram, tanto no entendimento de biomolé- mas, literalmente, inimagináveis há poucos
culas quanto no emprego de técnicas anos. Os métodos e a dimensão dos proble-
computacionais para retroalimentar este en- mas abordados por um aluno de iniciação ci-
tendimento. Por exemplo, o aumento na ob- entífica serão, em sua maioria, totalmente
tenção de informações de alta qualidade obsoletos ao final de seu doutoramento
Figura 3-1: IBM 7090, computador que Mar-

garet Dayhoff utilizou no início de seus
trabalhos (NASA Ames Resarch Center, 1961).
Figura 4-1: Agraciados pelo prêmio Nobel de
(considerado o mesmo nível de impacto dos química de 2013, os Professores Martin
veículos de divulgação). A cada ano que passa Karplus, Michael Levitt e Arieh Warshel.
podemos abordar problemas mais comple-
xos, de forma mais completa, e mais pesqui- para o aumento explosivo do emprego de es-
sadores com menos recursos podem tratégias computacionais no estudo de siste-
trabalhar nestas áreas de pesquisa, o que mas biológicos, o que é principalmente devido
torna a bioinformática uma das áreas do co- ao projeto Genoma Humano. A partir deste, e
nhecimento mais acessíveis para pesquisado- da popularização de outros projetos genoma
res em início de carreira. (capítulo 4), criou-se um gigantesco e cres-
Em contrapartida, esta situação acarre- cente volume de sequências de genes cujas
ta na necessidade de atualização e renovação relações evolutivas e funcionais precisam ser
dos procedimentos computacionais constan- elucidadas, como ponto de partida para novos
temente para nos mantermos competitivos desenvolvimentos terapêuticos. Hoje, é pos-
na comunidade científica da área. O trabalho sível identificar um novo candidato a receptor
que alguém tenha publicado com simulações alvo de novos fármacos a partir de organis-
por dinâmica molecular (capítulo 8) alguns mos muito distantes evolutivamente de nós,
anos atrás, com uma simulação de, digamos, como leveduras, bactérias ou mesmo plantas.
10 ns, hoje estaria totalmente desatualizado, O crescimento deste volume de infor-
exigindo no mínimo uma ordem de grandeza a mações ainda está longe de cessar. Estudos
mais (idealmente, com replicatas e/ou condi- de transcriptoma, metaboloma ou glicoma
ções adicionais como controle). Como conse- ainda têm muito a agregar no nosso conheci-
quência, as conclusões obtidas em um mento do funcionamento de sistemas bioló-
trabalho não necessariamente se manteriam gicos, potencializando tanto aplicações
em um novo trabalho. Similarmente, uma ár- terapêuticas quanto biotecnológicas. Contudo,
vore filogenética obtida a partir de um deter- isto exigirá cada vez mais avanços da bioin-
minado alinhamento e matriz de pontuação há formática, seja em hardware, software ou em
20 anos poderia ser diferente hoje, com fer- estratégias de análise de dados e construção
ramentas mais robustas de alinhamento (co- de modelos.
mo será visto no capítulo 3). Esta é uma Um exemplo neste sentido envolve a gi-
situação bastante desafiadora, assim como gantesca defasagem entre nossa capacidade
uma grande oportunidade, para os futuros bi- de lidar com sequências e com estruturas 3D.
oinformatas. Enquanto em um computador pessoal sim-
Mas esta situação por si não é suficiente ples podemos realizar alinhamentos com al-
gumas centenas de sequências sem maiores Inicialmente, como veremos adiante

dificuldades, localmente ou na web, depen- (item 1.4 e capítulo 2), o enovelamento de
dendo do método, e recebendo a resposta proteínas é um fenômeno extremamente
quase que imediatamente, para realizar uma complexo e ainda não totalmente compreen-
simulação por dinâmica molecular de uma dido, de forma que não somos capazes de
única proteína precisaríamos, neste mesmo transformar uma sequência linear de amino-
computador, de alguns meses. ácidos (codificada por seu gene) em uma es-
Um último aspecto importante nesta trutura 3D (salvo para algumas situações
contextualização inicial da bioinformática, específicas, que serão vistas ao longo do li-
dentro da proposta apresentada por este livro).
vro, diz respeito à importância relativa das di- Outro aspecto importante é que o eno-
ferentes biomoléculas na manifestação da velamento de proteínas, em muitas situações,
informação genética, mantendo a homeosta- depende de mais do que sua sequência de
sia e servindo como alvo de modulação far- aminoácidos, envolvendo aspectos como o
macológica ou emprego biotecnológico. ambiente e o local onde a proteína estará na
Tradicionalmente, os ácidos nucleicos e as célula ou organismo, a ocorrência de modifi-
proteínas receberam a maior atenção en- cação co- ou pós-traducionais e a sua intera-
quanto alvos da bioinformática, os primeiros ção com chaperonas. Para ilustrar o quanto
como repositórios da informação biológica e este fenômeno é complexo, embora diversas
as últimas como efetores desta informação. sequências com identidade mínima possam
Esta percepção, contudo, vem sendo pro- ter estruturas 3D extremamente parecidas,
gressivamente relativizada. Membranas e em alguns casos a troca de um ou poucos re-
carboidratos, a despeito de não estarem co- síduos de aminoácidos pode modificar total-
dificados diretamente no genoma (não há um mente a função, chegando até a interferir na
códon para um fosfolipídeo ou para um mo- forma tridimensional que uma proteína adota.
nossacarídeo), são fundamentais à homeos- Em contrapartida, algumas informações
tasia da grande maioria dos organismos em presentes em sequências gênicas ou mesmo
todos os domínios da vida. E entender estes peptídicas não são necessariamente observá-
papéis vem se tornando um importante alvo veis em estruturas tridimensionais. Por
da bioinformática. exemplo, regiões promotoras ou reguladoras
da expressão gênica são facilmente descritas
1.3. Problemas alvo como informações 1D, e peptídeos sinal ou ín-
trons estão normalmente ausentes nas for-
Considerando o tipo de informação ma- mas nativas de proteínas, sendo mais
nipulada, os problemas e questões abordados facilmente observáveis por sequências das
pela bioinformática podem ser agrupados en- biomoléculas em questão.
tre aqueles relacionados a sequências de bio- Adicionalmente, estruturas 3D de mo-
moléculas e aqueles relacionados à estrutura léculas são formas muito mais complexas de
de biomoléculas (Figura 5-1). À primeira vista, serem manipuladas que sequências 1D, o que
considerando que de forma geral estruturas agrega uma série de dificuldades nos estudos
de proteínas são determinadas por seus ge- de bioinformática. Assim, diversas tarefas
nes, poderíamos imaginar que lidar com es- tendem a ser muito simplificadas (ou mesmo
truturas 3D seria redundante a manipular de outra forma não seriam possíveis atual-
sequências, conjuntos de informações 1D. Esta mente) quando trabalhamos com sequências
percepção é limitada e não se configura como em vez de estruturas. Por exemplo, a identifi-
verdade para diversas questões. Na verdade, cação de uma assinatura para modificação
existem aspectos únicos em cada conjunto de pós-traducional é muito mais ágil em uma
informação, não diretamente transferíveis sequência do que em um conjunto de milhares
para o outro. de átomos distribuídos em um espaço tridi-
Figura 5-1: Representação de algumas das principais áreas da bioinformática. As metodologias

que lidam majoritariamente com estruturas 3D estão representadas em laranja, enquanto as
metodologias envolvidas principalmente com sequências estão representadas em verde.
Devemos lembrar, contudo, que esta separação é imperfeita. Por exemplo, a modelagem
comparativa parte de sequências, a função de um gene pode ser determinada pela estrutura da
proteína associada.
mensional. organismo, tecido ou tipo celular. Em linhas

Por fim, talvez o motivo mais prático gerais, os objetos de estudo relacionados a
para separarmos as duas abordagens se re- sequências de biomoléculas incluem:
fere à facilidade de obtenção das informa- i) comparações entre sequências (ali-
ções. Os métodos experimentais para nhamento);
sequenciamento de ácidos nucleicos estão ii) identificação de padrões em se-
muito mais avançados do que os métodos quências (assinaturas);
para determinação da estrutura 3D de bio- iii) caracterização de relações evoluti-
moléculas. A diferença de capacidade de de- vas (filogenia);
terminação dos dois conjuntos de dados é de iv) construção e anotação de geno-
ordens de grandeza. mas;
v) construção de redes (biologia de
Questões relacionadas a sequências sistemas).
A manipulação de sequências é menos

custosa computacionalmente, nos possibili- Vale destacar que estas análises podem receber a
tando lidar com genomas inteiros. Isto permi- contribuição de estudos envolvendo a estrutura das bi-
te realizar análises em indivíduos ou mesmo omoléculas de interesse ou mesmo ser validadas por
populações de indivíduos, nos aproximando do estas. Por exemplo, resíduos conservados evolutiva-
entendimendo dos organismos em sua com- mente possuem grande chance de possuírem papel
plexidade biológica. Podemos traçar a história funcional (como atuando na catálise) ou estrutural
evolutiva de um conjunto de organismos ou (estabilizando a estutura proteica). Assim, comparar
construir redes de interação entre centenas um alinhamento à estrutura 3D pode tanto explicar
ou milhares de moléculas de um determinado quanto oferecer novas abordagens e considerações ao
significado de conservações de resíduos maiores ou mente ineficientes comparados a novas fer-

menores em conjuntos de sequências. ramentas ou mesmo obsoletos. Avanços de
hardware podem (e na verdade vem fazendo
Questões relacionadas a estruturas isso) catapultar o nível de exigência metodo-
lógica pelas revistas de ponta. E há algumas
Ao contrário da manipulação de se- áreas em específico nas quais a comunidade
quências, estruturas exigem um maior poder científica vem concentrando esforços. São por
de processamento para serem manipuladas. conseguinte áreas de grande impacto poten-
Na prática, podemos manipular uma ou um cial e grande competição na literatura cientí-
pequeno punhado de estruturas simultanea- fica, dentre as quais destacaremos algumas
mente (embora este número venha crescendo abaixo.
progressivamente). Neste caso, o foco costu-
ma ser o entendimento de moléculas e dos Processamento em CPU e GPU
eventos mediados por estas, individualmente,
incluindo: CPUs (Central Processing Units ou uni-
i) obtenção de modelos 3D para pro- dades de processamento central) ou sim-
teínas e outras biomoléculas (por plesmente processadores (ou ainda
exemplo, modelagem comparativa); microprocessadores) são partes dos compu-
ii) identificação do modo de interação tadores responsáveis pela execução das ins-
de moléculas (atracamento); truções estabelecidas pelos programas.
iii) seleção de compostos com maior Desde seu surgimento em torno da metade
potencial de inibição (atracamento); do século XX, as CPUs tornaram-se progres-
iv) caracterização da flexibilidade mo- sivamente mais complexas, confiáveis, rápi-
lecular (dinâmica molecular); das e baratas. Esse processo foi previsto
v) avaliação do efeito de mudanças na pioneiramente por Gordon E. Moore, no que
estrutura e ambiente molecular na di- ficou sendo conhecido desde então como a lei
nâmica e função de biomoléculas (dinâ- de Moore. Segundo esta lei, o número de
mica molecular). transistores em um processador (na verdade
em qualquer circuito integrado) dobra aproxi-
O uso de sequências para alimentar estudos estru- madamente a cada 2 anos (Figura 6-1). O im-
turais é mais comum na construção de modelos tridi- pacto do fenômeno descrito nesta
mensionais de proteínas a partir de suas sequências observação na vida moderna é enorme, en-
codificadoras, no método denominado modelagem volvendo desde nossos computadores, celu-
comparativa (capítulo 7). Contudo, outras relações ex- lares e câmeras digitais até a precisão de
tremamente úteis podem ser estabelecidas. Por exem- estudos climáticos (com impacto na preven-
plo, por serem estruturas usualmente flexíveis, alças ção de catástrofes e na agricultura), medicina,
tendem a possuir uma maior capacidade de acomodar engenharia, indústria bélica e aeroespacial.
mutações ao longo da evolução. Isto permite uma Com o aumento da velocidade e barateamen-
comparação entre resultados de alinhamentos e, por to das CPUs, podemos a cada ano construir
exemplo, perfis de flexibilidade observáveis através de modelos mais precisos de fenômenos bioló-
simulações por dinâmica molecular. gicos progressivamente mais complexos. Na
prática, o avanço da bioinformática está liga-
1.4. Tendências e desfios do intrinsecamente à lei de Moore.
Em uma CPU podemos encontrar não
Como uma área em rápido desenvolvi- somente um microprocessador, mas mais de
mento, a bioinformática exige de seu prati- um, o que é chamado multi-processamento e
cante uma constante atenção a novas estas CPUs de processadores de múltiplos
abordagens, métodos, requerimentos e ten- núcleos (multi-core processing). Hoje, a gran-
dências. Programas podem se tornar rapida- de maioria dos processadores empregados
Atualmente, enquanto CPUs possuem até em

torno de uma dezena de núcleos de proces-
samento, GPUs podem facilmente alcançar
centenas ou mesmo milhares de núcleos de
processamento, permitindo uma grande ace-
leração na manipulação de polígonos e for-
mas geométricas, encontradas em aplicações
3D (como os jogos) e sua renderização (Figura
7-1). Tal aumento de performance ao dividir a
carga de trabalho em um grande número de
núcleos de processamento abriu um grande
horizonte de possibilidades em computação
científica, implicando em grande aumento na
Figura 6-1: Representação da lei de Moore, in- velocidade de manipulação de dados.
dicando o aumento no número de transistores Diversos aplicativos em bioinformática
em microprocessadores no período de 1971 a vêm sendo portados para trabalhar com
2011. Adaptada de William Wegman, 2011 GPUs. Desde o alinhamento de sequências à
(Creative Commons). filogenia, do atracamento molecular à dinâ-
mica molecular, múltiplos pacotes estão dis-
em computadores, notebooks e celulares já poníveis, tanto pagos quanto gratuitos,
possui múltiplos núcleos. Se o programa que capazes de explorar a computação em GPU, e
estamos utilizando for adaptado para este ti- este número vem crescendo a cada ano,
po de processamento, o cálculo poderá ser apontando para uma nova tendência na área.
distribuído pelos núcleos de processamento, O usuário deve, contudo, observar seu pro-
tornando o cálculo significativamente mais blema alvo, pois a aceleração fornecida pela
rápido. A grande maioria dos aplicativos em GPU dependerá das características do pro-
bioinformática já possui versões compatíveis blema em questão e da eficiência e portabili-
com processamento em múltiplos núcleos, e dade do código empregado.
devemos estar atentos à escolha destas ver- A combinação de CPUs e GPUs com
sões e à instalação de forma que essa carac-
terística esteja funcional, sob pena de
subutilização da CPU.
Já GPUs (Graphical Processing Units ou
unidades de processamento gráfico) são mi-
croprocessadores desenvolvidos inicialmente
como unidades especializadas na manipulação
de representações gráficas em computado-
res. Estão, assim, normalmente localizadas
nas placas de vídeo de nossos computadores.
O termo GPU foi popularizado a partir de 1999
com o lançamento da placa de vídeo
GeForce256, comercializada pela Nvidia.
O desenvolvimento das GPUs remonta
ao início dos anos de 1990, com o aumento do
emprego de gráficos em 3D nos computado-
res e videogames. De fato, alguns dos pri- Figura 7-1: Representação dos núcleos de
meiros exemplos de hardware dedicado ao processamento em CPUs e GPUs. O grande
processamento em 3D estão associados a número de núcleos em GPUs permite a reali-
consoles como PlayStation e Nintendo 64. zação de cálculos complexos rapidamente.
múltiplos núcleos fez com que a capacidade chegamos neste momento.

de processamento de alguns supercomputa- Predições de energia livre tem impacto
dores de há alguns anos já esteja disponível direto na identificação da estrutura 2ária de
para computadores pessoais, nos chamados moléculas de RNA, na localização de regiões
supercomputadores pessoais. do DNA para ligação de reguladores da
transcrição, para a especificidade de enzimas
Predições a partir de sequências por substratos e receptores por ligantes ou
moduladores (fisiológicos ou terapêuticos, is-
Quando estudamos uma sequência de to é, fármacos). Assim, diversos métodos fo-
nucleotídeos de DNA desconhecida é impor- ram desenvolvidos para a obtenção destas
tante determinar seu papel funcional, por medidas, tais como a perturbação da energia
exemplo, se codificante de proteínas ou não. livre, a integração termodinâmica, a energia
E, sendo codificante, qual proteína é produzida de interação linear, a metadinâmica e diversas
ao final da tradução e qual sua função. Tais estratégias empíricas voltadas ao pareamen-
predições são realizadas a partir de algorit- to de nucleotídeos ou atracamento molecular.
mos construídos a partir de bancos de dados
existentes, relacionando determinada se- A despeito desta diversidade de estra-
quência a características e propriedades es- tégias, a predição da energia livre em proces-
pecíficas. Contudo, somente uma pequena sos moleculares continua sendo um grande
quantidade de organismos teve seu genoma desafio. Em decorrência do elevado custo
sequenciado até o momento e, destes, so- computacional associado a estes cálculos, di-
mente uma pequena parte de genes teve sua ferentes tipos de simplificações e generaliza-
função determinada experimentalmente. De- ções precisam ser realizadas,
vemos, portanto, lembrar que as predições comprometendo nossa capacidade de em-
destes modelos estão relacionadas a quão pregá-los de forma ampla e fidedigna.
completos foram os bancos de dados que os
basearam. E que estes estão em contínuo Enovelamento de proteínas
avanço (ou seja, uma predição feita há 5 anos
não necessariamente será igual a uma predi- Como veremos adiante no livro, o eno-
ção hoje que, por sua vez, pode ser diferente velamento de proteínas é um dos processos
de uma predição de função gênica daqui a 5 mais complexos conhecidos pelo ser humano.
anos - discutiremos no capítulo 3 alguns indi- O número de estados conformacionais possí-
cadores da qualidade dessas associações). veis para uma proteína pequena é gigantesco,
dos quais um ou alguns poucos serão obser-
Predição de energia livre váveis em solução em condições nativas. Os
métodos experimentais usualmente empre-
Os fenômenos moleculares são regidos gados para tal, a cristalografia de raios-X e a
pela termodinâmica, tanto para reações quí- ressonância magnética nuclear, são métodos
micas na síntese de um novo fármaco quanto caros e ainda possuem algumas limitações
à ação da DNA polimerase ou ao enovela- importantes em determinadas situações,
mento de proteínas. Entender termos como apontando para a Bioinformática um potencial
entropia, entalpia e energia livre torna-se, as- e importante papel na determinação da es-
sim, fundamental na adequada descrição trutura de biomoléculas.
destes fenômenos e, a partir desta, sua pre- Mas para que precisamos saber como é
visão computacional. Quando a medida destas a estrutura tridimensional de uma determi-
variáveis se tornar precisa o bastante, pode- nada biomolécula? Esta pergunta possui mui-
remos esperar a substituição de diversos ex- tas respostas, incluindo a compreensão de
perimentos em bancada por cálculos em como a natureza evoluiu, como os organis-
computadores mas, infelizmente, ainda não mos funcionam, como os processos patológi-
cos se desenvolvem (e podem ser tratados) e são observáveis nos experimentos usuais ca-
como as enzimas exercem suas funções capazes de determinar estruturas com resolu-
talíticas. Tomemos este último caso como ção atômica, embora através de simulações
exemplo. por dinâmica molecular tenham suas estru-
Com o entendimento de como proteínas turas descritas com elevada fidelidade.
se enovelam, será possível construir novas Outro caso em que os métodos compu-
proteínas, capazes de adotar formas que a tacionais parecem possuir vantagens em re-
natureza não previu até o momento, enzimas lação aos experimentais envolve os
aptas a catalizar reações de importância eco- carboidratos. Embora sejam moléculas em
nômica, com menor toxicidade, o que terá por vários aspectos mais complexos que proteí-
si impacto ambiental. Ainda, abre-se a possi- nas, carboidratos biológicos não parecem so-
bilidade de planejamento racional de enzimas frer enovelamento nem adotar tipos de
e proteínas envolvidas na detoxificação de estrutura 2ária em solução (embora o façam
áreas. Esta linha de pesquisa está em seu iní- em ambiente cristalino), o que os torna na
cio, e o número de grupos de pesquisa dedi- prática um problema estrutural mais simples
cados ao redor do mundo para trabalhar na que proteínas. De fato, vem sendo possível
engenharia de proteínas vem aumentando prever a estrutura de glicanas com graus va-
gradativamente. Mas, infelizmente, ainda não riados de complexidade com grande precisão,
possuimos uma base teórica que nos permita um campo no qual os métodos experimentais
entender e prever, com precisão e de forma possuem grandes dificuldades em abordar.
ampla, a estrutura 3D de proteínas.
Contudo, esta problemática vem sendo Validação experimental
abordada a cada ano com maior sucesso. Pa-
ra proteínas com no mínimo em torno de Em linhas gerais, métodos computacio-
30% de identidade com outras proteínas de nais devem ser comparados a dados experi-
estrutura 3D já determinada, podem ser obti- mentais para validação. Esta afirmação,
dos modelos de qualidade próxima àquela de embora tomada geralmente como um axio-
métodos experimentais. Em outros casos, ma, é bastante simplista, e não expressa cla-
estruturas cristalográficas podem ser refina- ramente a complexidade e desafio nesta
das por métodos computacionais, agregando tarefa. Alguns pontos específicos incluem:
explicitamente informações ausentes nos ex- i) nem sempre há dados experimentais
perimentos (como a flexibilidade molecular). disponíveis para validar os cálculos e si-
Outro exemplo é a construção de alças flexí- mulações realizados. Por exemplo, este
veis, de difícil observação experimental mas é o caso com frequência para alinha-
que podem ser abordadas por diferentes mé- mentos de sequências, para relações fi-
todos computacionais. logenéticas, para predições ab initio da
Para ácidos nucleicos, a construção estrutura de proteínas e para a descri-
computacional de estruturas 3D de moléculas ção da flexibilidade de biomoléculas ob-
de DNA é tarefa relativamente simples, que tidas por dinâmica molecular. Nem
usualmente não requer os custos associados sempre há fósseis ou outras evidências
a experimentos de cristalografia e ressonân- arqueológicas para validar antepassa-
cia magnética. Para moléculas de RNA, con- dos evidenciados por estudos filogené-
tudo, a elevada flexibilidade traz consigo ticos. Por outro lado, não há métodos
desafios adicionais. Mesmo assim, em diver- experimentais com resolução atômica e
sos casos as estratégias computacionais temporal, de forma que a validação de
possuem vantagens em lidar com moléculas simulações por dinâmica molecular é
muito flexíveis. Talvez o caso mais emblemá- em grande medida indireta (uma estru-
tico neste sentido sejam as membranas bio- tura obtida por cristalografia é única,
lógicas. Estas macromoléculas biológicas não sem variação temporal, enquanto os
modelos oriundos de ressonância mag- mellifera) aparece como uma hélice em

nética nuclear correspondem a médias estudos cristalográficos mas é deseno-
durante o período de coleta do dado); velada no plasma humano, como pode
ii) os dados experimentais devem ser ser confirmado por experimentos de di-
adequados ao estudo computacional croismo circular com força iônica com-
empregado. Assim, se estamos estu- patível com o plasma.
dando a formação de um complexo fár-
maco-receptor, resultados in vivo Assim, a despeito do axioma da exigên-
devem ser evitados, enquanto os expe- cia de validação experimental para estudos
rimentos in vitro preferidos. Se adminis- computacionais, não é infrequente que um
tramos um determinado fármaco por dado computacional apresente maior preci-
via oral a um camundongo, este fárma- são que um dado obtido na bancada. Na reali-
co passará por diversos processos far- dade, um modelo computacional,
macocinéticos (absorção, distribuição, frequentemente chamado de teórico em opo-
metabolização e excreção) que muito sição aos métodos ditos experimentais, não é
provavelmente irão interferir na ação nada além de um experimento computacional
frente ao receptor alvo. Portanto, para que, infelizmente, nem sempre tem contra-
estudos de atracamento, dados in vivo parte em experimentos de "bancada". E esses
devem ser evitados; adjetivos não carregam consigo qualificações
iii) a margem de erro do dado experi- quanto à confiabilidade dos resultados gera-
mental deve ser considerada quando dos.
comparada aos dados computacionais.
Frequentemente a margem de erro para 1.5. Leitura recomendada
experimentos na bancada é maior que
para aqueles realizados em computa- KHATRI, Purvesh; DRAGHICI, Sorin. Ontological
dores, limitando a extensão da valida- Analysis of Gene Expression Data: Current
ção. Usando novamente o exemplo de Tools, Limitations, and Open Problems.
estudos de atracamento, se a afinidade Bioinformatics, 21, 3587-3593, 2005.
experimental de um fármaco por seu
receptor é de 0,11 ± 0,04 μM, valores MORGON, Nelson H.; COUTINHO, K. Métodos
teóricos de 97 nM a 105 nM estarão de Química Teórica e Modelagem Mo-
corretos. Por outro lado, frequente- lecular. São Paulo: Editora Livraria da Fí-
mente os resultados experimentais são sica, 2007.
expressos como a menor dose testada,
por exemplo, > 5 μM. Assim, qualquer MIR, Luis. Genômica. São Paulo: Atheneu,
valor maior que 5 μM será validado pelo 2004.
dado experimental, o que cria uma
grande dificuldade de validação (como
comparar 5 a, digamos, 1.000?);
iv) as condições nas quais os experi-
mentos foram realizadas devem ser
observadas com estrito cuidado. Tem-
peratura, contaminantes, sais e concen-
trações diferentes daquelas no
ambiente nativo são frequentemente
requeridas por alguns métodos experi-
mentais, e podem interferir nos resulta-
dos. Por exemplo, a melitina (principal
componente do veneno da abelha Apis
2. Níveis de Informação Biológica
Hugo Verli
Representação do fluxo de informação em sistemas a vida se manifesta, a informação que a rege

biológicos. está armazenada nas moléculas de DNA.
Contudo, tais dados não são usados direta-
2.1. Introdução mente, mas através de uma molécula inter-
mediária, o RNA (mais precisamente o
2.2. Macromoléculas biológicas RNAm), sintetizado por um processo denomi-
nado transcrição (uma molécula de ácido
2.3. Níveis de organização nucleico é transcrita em outra molécula de
ácido nucleico). Esta molécula de RNAm irá
2.4. Descritores de forma servir como molde para a síntese de proteí-
nas, em um processo chamado de tradução
2.5. Formas de visualização (uma molécula de ácido nucleico é traduzida
em uma molécula de proteína). As proteínas,
2.6. Conceitos-chave assim expressas, irão reger a maioria dos fe-
nômenos relacionados à função dos organis-
mos e à perpetuação da vida (embora
diversos outros processos sejam modulados
2.1. Introdução por outras biomoléculas). Esta informação
segue um sentido tão conservado na natureza
Por mais que possam apresentar enor- que foi convencionado denominá-lo como
mes diferenças em suas características os dogma central da biologia molecular (Figura
seres vivos, desde bactérias a mamíferos, 1-2).
passando por plantas e fungos, são compos- A importância do dogma central no en-
tos aproximadamente pelos mesmos tipos de tendimento da informação e função biológicas
moléculas. Estes compostos incluem proteí- pode ser exemplificada no fato de que ele
nas, ácidos nucleicos, lipídeos e carboidratos, aborda os três tipos mais comuns de molé-
moléculas nas quais a vida como conhecemos culas estudadas por técnicas de bioinformáti-
é baseada. ca, o DNA, o RNA e as proteínas,
Cada uma destas classes de biomolécu- estabelecendo um fluxo de informação uni-
las apresenta, contudo, enormes variações de versal à vida como conhecemos. Adicional-
forma, estrutura e função na natureza, o que mente, a efetivação da informação genética,
possibilita a gigantesca variedade e complexi- através das proteínas, acarreta na construção
dade de manifestações da vida em nosso pla- e manutenção de outras biomoléculas, igual-
neta. Mesmo em estruturas que não são mente essenciais ao desenvolvimento da vida,
normalmente consideradas vivas, como é o como carboidratos e lipídeos. Em decorrência
caso dos vírus, estas biomoléculas são tam- de sua elevada massa molecular, proteínas,
bém encontradas e se mostram essenciais à ácidos nucleicos, lipídeos agregados em
execução de suas funções, sejam estas pato- membranas e carboidratos complexos são
lógicas ou não. chamados de macromoléculas.
Independentemente da forma pela qual Embora carboidratos e lipídeos não estejam explici-
forma, se a bioinformática se dedica ao estudo, por

ferramentas computacionais, dos fenômenos relacio-
nados à vida, o estudo de micromoléculas também
torna-se foco da bioinformática ao abordar compostos
relacionados à manutenção fisiológica ou terapêutica
(neste caso, no planejamento de novos candidatos a
agentes terapêuticos).
As técnicas modernas de bioinformática
são capazes de lidar com todas estas biomo-
léculas que, contudo, possuem particularida-
des derivadas de suas diferenças químicas.
Tais aspectos devem ser conhecidos de forma
a permitir a construção de modelos compu-
tacionais mais precisos e adequados ao estu-
do dos mais diversos aspectos relacionados à
vida.
Figura 1-2: Representação do dogma central Não há uma forma única de representar
da biologia molecular, no qual o fluxo de as diferentes moléculas biológicas. Cada es-
informação em sistemas biológicos é tratégia de representação possui suas vanta-
descrito, desde seu armazenamento no DNA gens e desvantagens, que devem ser
até a manifestação da função biológica. O es- avaliadas de acordo com o estudo em anda-
quema tradicional sofreu a adição do proces- mento. Estratégias com menor volume de in-
so de enovelamento de de reconhecimento formação associado possuem menor custo
molecular devido ao seu caráter fundamental computacional e, portanto, nos permitem
para a manifestação da função gênica. avaliar rapidamente grandes quantidades de
dados, por exemplo, genomas inteiros de di-
tamente inseridos no dogma central, não devemos mi- ferentes organismos, cada um contendo de-
nimizar sua importância. Apesar de por muito tempo zenas de milhares de proteínas. Por outro
estes compostos terem sido reconhecidos simples- lado, estratégias com maior volume de infor-
mente por papéis energéticos e estruturais, ambos mação associado acarretam em custo com-
vêm sendo demonstrados como envolvidos em inúme- putacional gigantesco nos limitando a, por
ros fenômenos biológicos, como na glicosilação de exemplo, um punhado de proteínas, de dois ou
proteínas e na formação de jangadas lipídicas. Estes, três organismos. O trânsito por tal disparida-
por sua vez, podem interferir diretamente na execução de é um dos grandes desafios atuais para o
da função de proteínas e na homeostasia dos organis- profissional que trabalha com bioinformática.
mos.
Não somente macromoléculas são importantes bi- 2.2. Macromoléculas biológicas
ologicamente. Proteínas sintetizam uma infinidade de
compostos de baixa massa molecular, ou micromolé- As biomoléculas descritas no dogma
culas, que atuam como neurotransmissores, sinaliza- central da biologia molecular, proteínas, DNA
dores e moduladores dos mais variados tipos e RNA, são o que chamamos de biopolímeros,
representando, portanto, diferentes tipos de informa- isto é, polímeros produzidos pelos seres vi-
ção em sistemas biológicos. Por exemplo, a infecção vos. Somam-se a este grupo de moléculas os
do nosso organismo por bactérias desencadeia um carboidratos, que também podem ser encon-
processo inflamatório mediado por derivados lipídicos trados como polímeros em meio biológico.
denominados prostaglandinas. Para combater micro- As propriedades de um polímero tor-
-organismos competidores, fungos e bactérias produ- nam-se consequência das propriedades de
zem pequenos compostos com atividade antibiótica, suas unidades monoméricas constituintes. No
muitos destes usados até hoje como fármacos. Desta caso dos biopolímeros, os monômeros podem
ser aminoácidos, nucleotídeos e monossaca- timidina. A estes compostos podem ainda se

rídeos. Assim, o conhecimento destas unida- ligar diferentes números de grupos fosfato.
des básicas irá auxiliar diretamente no estudo Assim, a adenosina pode se apresentar mo-
de suas formas poliméricas e, por conseguin- nofosfatada (AMP, do inglês adenosine
te, das funções biológicas destes polímeros monophosphate), difosfatada (ADP, do inglês
sintetizados na natureza. adenosine diphosphate) ou ainda trifosfatada
(ATP, do inglês adenosine triphosphate).
Ácidos nucleicos Conforme veremos adiante, carboidratos apresen-
tam características conformacionais específicas, como
Os compostos denominados ácidos sua capacidade de deformar seu anel em diferentes
nucleicos são polímeros sintetizados a partir estados conformacionais. Esta característica se soma
de unidades denominadas nucleotídeos. Os à grande flexibilidade da ligação fostodiéster na criação
nucleotídeos são formados por três partes de um esqueleto bastante flexível para ácidos
constituintes: uma base nitrogenada, um car- nucleicos. Em contrapartida a esta flexibilidade da par-
boidrato e um grupo fosfato. A base nitroge- te sacarídica dos nucleotídeos, cada base nitrogenada é
nada pode ser adenina (A), guanina (G), essencialmente planar, uma vez que constituem-se de
citosina (C), uracila (U) ou timina (T), enquanto anéis aromáticos, e portanto apresentam flexibilidade
a parte sacarídica poderá ser β-D-ribose (fre- bastante reduzida.
quentemente abreviada simplesmente como
ribose, para o RNA) ou a 2-desoxi-β-D-ribose Proteínas
(usualmente abreviada como desoxirribose,
para o DNA) (Figura 2-2). Nas moléculas de As proteínas são polímeros sintetizados
ácidos nucleicos, os nucleotídeos são ligados pelas células a partir de aminoácidos. São
através da denominada ligação fosfodiéster talvez as biomoléculas mais versáteis na na-
(ver adiante). tureza, sendo capazes de adotar uma gigan-
Quando a base nitrogenada está ligada tesca possibilidade de arranjos
ao carboidrato, na ausência do grupo fosfato, tridimensionais, não encontrada nos demais
os compostos gerados são denominados nu- biopolímeros. Não por acaso, constituem-se
cleosídeos. Formados por ligação de diferen- no principal produto direto da informação ge-
tes nucleotídeos à β-D-ribose temos a nética, a partir da tradução do RNAm.
adenosina, a guanosina, a citidina, a uridina e a O genoma codifica diretamente 20 ami-
noácidos (22 contando selenocisteína e pirro-
lisina, que são codificadas por codons de
parada) para composição de proteínas (Figura
3-2), embora outros resíduos de aminoácidos,
não codificados no genoma (Figura 4-2), pos-
sam ser sintetizados a partir destes e exercer
funções bastante específicas, como o ácido γ-
amino butírico (GABA), um neurotransmissor
inibitório no sistema nervoso central, ou co-
mo o resíduo ácido γ-carbóxi glutâmico (GLA),
constituinte de diversas proteínas plasmáti-
cas e fundamental na hemostasia.
Os aminoácidos codificados no genoma
apresentam algumas características bem de-
finidas e compartilhadas entre si. Todos os
Figura 2-2: Representação esquemática de resíduos apresentam uma região comum, in-
um nucleotídeo e suas variações na base ni- dependente do resíduo. Esta região é denomi-
trogenada e no carboidrato. nada esqueleto peptídico, e é composta pelo
Figura 3-2: Estrutura dos aminoácidos codificados no genoma, organizados segundo as propri-
edades de suas cadeias laterais. No topo o esqueleto peptídico é representado como encontra-
do dentro de uma proteína, tanto em sua forma 2D quanto 3D. Nesta última, o grupo R (cadeia
lateral) está apresentado como uma esfera amarela, enquanto a continuação da cadeia poli-
peptídica como esferas verde-escuras. As cadeias laterais estão apresentadas em sua ionização
mais comum, plasmática.
grupo amino, pelo grupo ácido carboxílico e À exceção da glicina, todos os aminoácidos são qui-
pelo átomo de carbono que liga estes dois rais, em decorrência da presença de quatro substiuin-
grupos, denominado carbono α (Cα). A dife- tes diferentes ligados ao Cα. Salvo casos específicos,
rença entre estes resíduos está no grupa- todos os aminoácidos quirais são encontrados em so-
mento ligado ao Cα, chamado cadeia lateral mente uma forma enantiomérica, L. Como conse-
(Figura 3-2). quência, todas as proteínas são quirais, e isto tem
Enantiômeros são compostos que, diferindo so- implicações importantes em fenômenos bioquímicos e
mente no arranjo de seus átomos no espaço (como no na prática terapêutica.
caso de L-Ser e D-Ser), correspondem um à imagem Dois enantiômeros interagem de forma idêntica
especular do outro (isto é, uma é o reflexo em um es- com compostos que não sejam quirais. Por exemplo, a
pelho da outra). interação de L-Ser e D-Ser com a água é idêntica. Em
com sua acidez ou basicidade, a carga dos resíduos po-

de ser modificada e, por conseguinte, algumas propri-
edades da proteína. Assim, dependendo do
compartimento celular, uma mesma proteína pode
apresentar ionização distinta de seus resíduos de ami-
noácidos e, por conseguinte, propriedades eletrostáti-
cas diferentes. Tais características destacam a
importância de uma avaliação adequada do estado de
ionização dos resíduos de aminoácidos das proteínas
em estudo, principalmente o resíduo de histidina.
Durante a síntese proteica, os aminoáci-
dos são conectados através da denominada
ligação peptídica (ver adiante). Neste proces-
so, o grupo carboxilato de um resíduo e o o
grupo amino de outro resíduo de aminoácido
reagem, dando origem a um grupo amida que
Figura 4-2: Exemplos de aminoácidos encon- compõe a ligação peptídica.
trados em nosso organismo mas não codifi-
cados no genoma humano. Carboidratos
contrapartida, compostos quirais interagem diferente- Carboidratos compõem um terceiro
mente com cada enantiômero. Assim, a interação de L- grupo de biomoléculas. São compostos que,
Ser e D-Ser com uma dada proteína seria diferente. ao contrário das proteínas, não estão codifi-
Assim, se tivermos um fármaco quiral, uma de suas cados diretamente no genoma. Enquanto a
formas enantioméricas será ativa e a outra provavel- síntese de proteínas é guiada por um molde (a
mente inativa, menos ativa ou mesmo tóxica. molécula de RNAm), a síntese de carboidra-
O esqueleto peptídico de aminoácidos apresenta um tos não segue uma referência direta, mas um
grupo do tipo ácido carboxílico somente em aminoáci- processo complexo e menos específico.
dos livres, monoméricos, ou na posição terminal da Embora o genoma não codifique a sequência oli-
proteína, denominada região C-terminal (o final da se- gossacarídica, ele determina a expressão de diversas
quência polipeptídica). Da mesma forma, só encontra- enzimas que sintetizam carboidratos, ligam-os a outras
mos o grupo amino na região demominada N-terminal estruturas polissacarídicas ou ainda modificam os re-
(o início da sequência polipeptídica). À exceção destas síduos monossacarídicos, adicionando ou removendo
extremidades, os grupos amino e carboxílico reagem, grupamentos substituintes nos anéis furanosídicos ou
dando origem a um grupo amida. Assim, dentro de piranosídicos (Figura 5-2). Todo este processo é bas-
uma proteína, cada aminoácido contribui com um um tante específico, envolvendo tipos de monossacarídeos
átomo de nitrogênio e com uma carbonila para a for- ou ainda posições específicas dentro destas moléculas.
mação de uma amida contida no esqueleto peptídico. Uma das principais famílias de enzimas envolvidas nes-
Os aminoácidos frequentemente são te processo são as denominadas glicosil transferases.
agrupados de acordo com as propriedades de Esta família de biomoléculas apresenta
suas cadeias laterais (Figura 3-2). Inicialmen- uma grande variedade de formas (e, por con-
te, podem ser separados em resíduos polares seguinte, funções), desde suas formas mo-
e apolares. Os resíduos polares incluem ami- noméricas até grandes polímeros com
noácidos não-carregados e carregados (com centenas de unidades monossacarídicas. São
carga positiva ou negativa), enquanto os resí- encontrados ligados a proteínas, formando as
duos apolares incluem aminoácidos aromáti- chamadas glicoproteínas; sulfatados, dando
cos e alifáticos (não aromáticos). origem aos glicosaminoglicanos; ligados a li-
As propriedades dos aminoácidos são altamente in- pídeos em membranas celulares (os glicolipí-
fluenciadas pelo pH do meio circundante. De acordo deos) e como exopolissacarídeos da parede
Figura 5-2: Os dois principais grupos de carboidratos envolvem monossacarídeos compostos

por anéis de 5 (furanoses) e 6 membros (piranoses). São apresentados 3 tipos de visualização
para estas moléculas, duas 2D e uma 3D.
celular de fungos, dentro outros. presentes em biomoléculas (Figura 7-2).

A forma majoritária de monossacaríde- Em analogia à ligação peptídica, carboi-
os biológicos em solução é um ciclo, mais co- dratos são ligados entre si (ou a outras mo-
mumente composto por 5 ou 6 átomos. Os léculas) através da denominada ligação
carboidratos com anéis de 5 membros são glicosídica. Contudo, aminoácidos possuem
denominados furanoses (como a ribose e a somente um grupo amino e um grupo ácido
desoxirribose), por semelhança ao composto carboxílico em seu esqueleto peptídico, de
furano, enquanto os carboidratos com anéis forma que somente um tipo de ligação peptí-
de 6 membros são denominados piranoses dica é possível entre dois resíduos (o mesmo
(como a glicose, a manose e a galactose), pe- se dá com nucleotídeos). Como a ligação gli-
la sua similaridade com o composto pirano cosídica entre dois monossacarídeos é for-
(Figura 5-2). mada pela reação entre dois grupos
Estes anéis apresentam características conforma- hidroximetileno (CHOH), e cada monossacarí-
cionais importantes. No caso das furanoses, podem ser deo possui vários destes grupos, múltiplas li-
as formas em envelope e torcida. No caso das pirano- gações entre dois monossacarídeos
ses, podem ser as formas em cadeira e bote torcido consecutivos tornam-se possíveis. Cria-se,
(Figura 6-2). Cada uma destas formas pode apresentar assim, um complexo espectro de possíveis li-
ainda variações, específicas para cada carboidrato em gações entre os mesmos dois monossacarí-
solução. Esta transição entre diversos estados confor- deos.
macionais de monossacarídeos é denominada de equi- O átomo de carbono na posição 1 (C1) de um mo-
líbrio pseudo-rotacional. nossacarídeo apresenta propriedades específicas, sen-
Os carboidratos possuem algumas dido denominado carbono anomérico. Para um mesmo
ferenças importantes em relação aos amino-
ácidos. São, em geral, compostos mais
polares, o que indica que irão interagir forte-
mente com a água. Outra diferença impor-
tante se refere à sua diversidade. Em Figura 6-2: Equilíbrio conformacional entre a
comparação aos 20 aminoácidos codificados forma de cadeira e bote torcido para o resí-
no genoma, mais de 100 possíveis unidades duo de ácido idurônico, componente da hepa-
monossacarídicas já foram observadas como rina.
Figura 7-2: Exemplo da complexidade de possíveis monossacarídeos encontrados na natureza.
monossacarídeo, o carbono anomérico pode ser en- agregados moleculares de lipídeos anfipáticos
contrado em duas possíveis configurações, α e β (Figu- organizando uma bicamada (Figura 8-2).
ra 5-2). Assim, uma ligação glicosídica entre o carbono Apresentam papel fundamental à vida, com-
anomérico (C1) de uma manose e o átomo C3 de outra partimentalizando a célula, definindo seus li-
manose poderia ocorrer de duas formas, α-Man-(1→3)- mites, propriedades e organizando estruturas
Man ou β-Man-(1→3)-Man. No caso de glicoproteínas, celulares.
contudo, a forma α é aquela usualmente encontrada É importante ter em mente que mem-
para o resíduo de manose (para outros resíduos, a for- branas são muito mais do que simples "pare-
ma anomérica preferencial pode ser diferente). des" delimitadoras da célula. Os
Tomando como exemplo o tetrassacarídeo α-Man- componentes de membranas são variados,
(1→2)-α-Man-(1→2)-α-Man-(1→3)-Man, comumente incluídos diferentes tipos de lipídeos, proteí-
encontrado em glicoproteínas do tipo oligomanose, o nas e carboidratos. A presença e localização
primeiro resíduo de manose (denominada extremidade destes componentes pode ser modulada de
não-redutora) possui seu carbono anomérico ocupado forma dinâmica em função de necessidades
na ligação glicosídica, tendo sua configuração (neste da célula, tecido ou organismo, sinalizando e
exemplo α) fixa. Em contrapartida, o quarto resíduo de modulando cadeias de eventos e definindo
manose possui seu carbono anomérico livre. Esta por- regiões da célula com propriedades específi-
ção é denominada redutora, e tem a configuração do cas (a chamada polaridade celular).
carbono anomérico variável, isto é, pode estar tanto na Moléculas anfipáticas apresentam como
forma α quanto β. característica a presença simultânea de uma
região polar, também chamada de cabeça po-
Membranas lar (hidrofílica ou lipofóbica) e de uma região
apolar, também chamada de cauda hidrofóbi-
Diferentemente dos ácidos nucleicos, ca (hidrofóbica ou lipofílica). Assim, membra-
proteínas e carboidratos, membranas não se nas celulares possuem superfícies polares e
constituem em polímeros biológicos, mas em interiores apolares. As características destas
secundários em plantas e uma infinidade de

compostos, em decorrência de sua importân-
cia biológica (e terapêutica), são potenciais
alvos de estudos computacionais. Contudo,
justamente em decorrência de sua grande
variedade química, torna-se difícil estabelecer
padrões ou referências estruturais, como é o
caso das biomacromoléculas vistas anterior-
mente. Frequentemente, esta característica
cria uma série de dificuldades e desafios no
Figura 8-2: Representação de uma membrana emprego de ferramentas computacionais no
POPE (palmitoil oleil fosfatidil etanolamina) estudo de micromoléculas. Dentre estas difi-
contendo a enzima PglB (oligossacaril culdades destaca-se a necessidade de desen-
transferase) de Campylobacter lari. Os volvimento de parâmetros específicos para
átomos de oxigênio estão representados em cada molécula (como veremos no capítulo 8).
vermelho, os átomos de carbono em verde,
os átomos de hidrogênio em branco e 2.3. Níveis de organização
nitrogênios em azul. A enzima está
representada como cartoon verde. A classificação da estrutura de bioma-
cromoléculas envolve, didaticamente, quatro
duas regiões, contudo, podem variar bastante diferentes níveis de complexidade. Esta sepa-
em função da composição dos lipídeos, inter- ração facilita o nosso entendimento do como
ferindo na carga, espessura e fluidez da e do porquê macromoléculas adotarem de-
membrana (e, por conseguinte, na sua capa- terminadas formas em meio biológico e, a
cidade de modular fenômenos biológicos). partir destas, desempenharem funções espe-
cíficas. Adicionalmente, cada nível traz volu-
"Micromoléculas" biológicas me e tipos de informação diferentes, exigindo
poder computacional e abordagens distintas,
Quando pensamos nos efetores da in- como veremos adiante.
formação genética é natural que a primeira Em princípio, estes níveis apresentam
família de biomoléculas que venha a nossa um componente hierárquico, ou seja, a infor-
mente seja a das proteínas, codificadas dire- mação de um nível é importante ou necessá-
tamente no genoma. Contudo, como vimos ria para o nível de complexidade seguinte.
anteriormente, outros tipos de biomoléculas Contudo, outros fatores podem participar
são fundamentais ao funcionamento dos or- neste processo.
ganismos, mesmo que estas não estejam co- Por exemplo, no caso das proteínas, embora nor-
dificadas diretamente no DNA. malmente consideremos que a informação contida na
Da mesma forma como não há um con- estrutura 1ária (isto é, a sua sequência de aminoácidos)
junto de bases nitrogenadas que codifique seja determinante para a sua estrutura 2ária, ela não é o
monossacarídeos ou lipídeos, diversos com- único determinante. Concessões podem ser realizadas
postos de baixa massa molecular (por isso para permitir uma estrutra 3ária ou mesmo 4ária mais
muitas vezes chamados de micromoléculas, estável.
em oposição às macromoléculas, compostos Assim, uma determinada região em hélice pode ser
de elevada massa molecular) não possuem parcialmente desestruturada para facilitar a formação
codificação direta no genoma, mas são pro- de um determinado domínio (ver adiante). Este tipo de
duzidos a partir de enzimas que, estas sim, consideração é importante na validação de modelos
têm suas sequências de aminoácidos defini- teóricos para a estrutura de proteínas, como veremos
das pela molécula de DNA. Neurotransmisso- no capítulo 7.
res, hormônios, metabólitos primários e Adicionalmente, fatores externos à própria sequên-
cia proteica podem interferir nestes níveis de organiza- DNA:

ção. Um dos fatores mais comuns é a glicosilação de GGTATAGGCGCTGTTCTTAAGGTGCTAACAACGGGGT
proteínas, que frequentemente estabiliza partes da TACCCGCGTTGATCTCGTGGATAAAACGCAAACGCCA
mesma e, assim como as chaperonas, pode interferir ACAG
na forma proteica tridimensional existente em meio bi-
ológico.
RNA:
GGUAUAGGCGCUGUUCUUAAGGUGCUAACAACGGG
Estrutura 1ária GUUACCCGCGUUGAUCUCGUGGAUAAAACGCAAAC
GCCAACAG
O nível inicial de complexidade, a estru-
tura 1ária, consiste num padrão de letras (ou
Aminoácidos:
pequenos conjuntos de letras) que representa
a composição do biopolímero. Esta sequência GIGAVLKVLTTGLPALISWIKRKRQQ
de letras representa uma informação de na-
tureza unidimensional (1D), em que a única di- Sequência sacarídica:
mensão descrita é a ordem de aparecimento α-D-GlcNAc,6S-(1→3)-β-D-GlcA-(1→4)-α-D-
dos monômeros. GlcNS,3S,6S-(1→4)-α-L-IdoA,2S-(1→4)-α-D-
Para ácidos nucleicos, a estrutura 1ária GlcNS,6S
consiste numa sequência de nucleotídeos, en-
quanto para proteínas em uma sequência de Figura 9-2: Representação da estrutura 1ária
aminoácidos e, para carboidratos, em uma de diferentes biomacromoléculas: DNA, RNA,
sequência de monossacarídeos (Figura 9-2). proteína (estas três representando o peptídeo
Este último caso é o único para o qual não há melitina, componente do veneno da abelha
uma descrição de uma única letra para cada Apis mellifera) e carboidratos (representando
monômero, principalmente em face do eleva- uma sequência repetitiva de heparina). A letra
do número de possíveis monômeros encon- S na sequência oligossacarídica indica
trados na natureza, maior que o número de sulfatação.
letras no alfabeto.
Embora de menor complexidade, a es- Estrutura 2ária
trutura 1ária nos oferece um grande volume de
informações sobre a forma nativa da biomo- A partir da sequência de monômeros
lécula e, por conseguinte, sobre suas funções. descritos, em uma determinada ordem espe-
Tais informações advém principalmente da cífica, na estutura 1ária surgem interações en-
comparação de sequências de biomoléculas tre monômeros vizinhos e com as moléculas
(aminoácidos ou nucleotídeos) em busca de de solvente circundantes. Por exemplo, en-
padrões específicos associados a determina- quanto dois nucleotídeos vizinhos tendem a
das características ou funções. Uma vez "empilhar" os anéis das bases, uma cadeia la-
identificados, esses padrões ou assinaturas teral de um aminoácido polar vai se expor à
podem ser usados na busca das mesmas ca- água, maximizando interações por ligação de
racterísticas em outras proteínas, desconhe- hidrogênio com este solvente. De forma se-
cidas. Estas comparações ainda nos permitem melhante, uma cadeia apolar irá se expor aos
estudar a evolução destas biomoléculas e de lipídeos em uma membrana, maximizando in-
seus organismos, contribuindo no entendi- terações hidrofóbicas com este outro solven-
mento de como a vida se desenvolveu e atin- te.
giu o seu estágio atual de complexidade (ver Estas interações entre monômeros
capítulo 5). acabam por dar origem a padrões repetitivos
de organização espacial, denominados de es-
trutura 2ária (Figura 10-2). Estes padrões ou
elementos aparecem em número relativa-
mente pequeno de tipos, de forma que a es- Tabela 1-2: Tipos de alças mais comuns
trutura tridimensional de biomoléculas pode encontrados em proteínas.
ser descrita como uma combinação de con-
juntos destes elementos. Tipo Tamanho
Diferentes composições de estrutura (n de resíduos)
o
1 podem gerar um mesmo tipo de estrutura

ária voltas γ 3
2ária. Não por acaso, as propriedades destas voltas β 4
estruturas 2árias, mesmo que formadas por
voltas α 5
sequências diferentes, apresentam seme-
lhanças. Por exemplo, uma alça em proteínas voltas π 6
é frequentemente uma estrutura 2ária bastan- alças Ω 6-16a
te flexível, enquanto folhas e hélices tendem
alças ζ 6-16a
a ser mais rígidas.
As estuturas 2árias mais frequentemente a
A despeito de tamanhos semelhantes, as formas
lembradas são aquelas relacionadas a proteí- destas alças se aproximam das letras que as
nas. Incluem três grupos de elementos prin- denominam. Na volta Ω os resíduos das extremidades
cipais: as alças, as hélices e as folhas β. da alça estão próximos, e na volta ζ observa-se uma
As alças ou voltas são elementos en- distorção na geometria.
volvidos na conexão entre hélices e folhas.
Tendem a ser, portanto, estruturas flexíveis Por exemplo, sua flexibilidade permite que atuem como
para acomodar as mais variadas orientações tampas ou abas, cobrindo sítios ativos e regulando o
que estas hélices e fitas podem adotar entre acesso de moduladores ou substratos. De forma ainda
si. Embora alças pequenas possam ser bas- mais direta, alças são frequentemente os elementos de
tante rígidas, suas flexibilidades tendem a au- estrutura 2ária mais expostos ao solvente. Assim, mui-
mentar conforme o tamanho da alça aumenta tas vezes envolvem-se em contatos proteína-proteína
(Tabela 1-2). Justamente em função desta (ou com outras biomoléculas), os quais podem ser de-
elevada flexibilidade, alças são mais susceptí- terminantes para a função proteica. Assim, embora
veis evolutivamente a sofrerem mutações mais susceptíveis evolutivamente a mutações, não são
(salvo se estiverem sob alguma pressão evo- incomuns alças com resíduos conservados, fundamen-
lutiva, determinada por alguma função espe- tais para suas respectivas funções biológicas.
cífica). Em outras palavras, a troca de um A hélice α e as folhas β foram inicial-
resíduo por outro de propriedades distintas mente descritos por Linus Pauling e Robert B.
pode ser mais facilmente acomodada nesta Corey em 1951, embora as primeiras propos-
estrutra flexível do que nos outros tipos de tas para as estruturas em folhas datem de
estrutura 2ária, mais rígidos. décadas mais cedo, em 1933, por Astbury e
Enquanto hélices e folhas apresentam periodicidade Bell. As folhas β são formadas por sequênci-
ao longo de suas estruturas (semelhança nos pares de as de aminoácidos (cada sequência é denomi-
ângulos φ e ψ a cada aminoácido, ver adiante), alças se nada de fita) quase completamente
distinguem por não apresentarem periodicidade. Ainda, extendidas. Estas fitas, quase lineares, inte-
embora alças sejam frequentemente consideradas co- ragem lado a lado ao longo de seus eixos lon-
mo elementos sem estrutura definida (as chamadas gitudinais, através de uma série de ligações de
random coils), ou mesmo com estrutura aleatória, isto hidrogênio entre o grupamento N-H de uma
não é sempre verdade. Alças podem adotar formas fita e o grupamento C=O da fita vizinha (Figura
mais definidas, dependendo de seu tamanho e compo- 10-2). Para que esta organização seja possí-
sição. vel, os átomos de Cα adotam orientação in-
De forma semelhante, é equivocado subestimar a tercalada, acima e abaixo do plano da folha.
importância das alças, considerando somente seu pa- Esta organização se assemelha a uma série
pel como elemento de conexão. Alças apresentam dide dobraduras em uma folha de papel, de
versos impactos funcionais importantes em proteínas. forma que este tipo de estrutura 2ária é tam-
bém denominado de folhas β do, enquanto nas folhas β estas

pregueadas (Figura 10-2). interações se dão com resíduos
A forma pregueada de folhas β em fitas vizinhas, nas hélices es-
também é acompanhada pelas cadei- tas interações acontecem com
as laterais dos resíduos de aminoáci- resíduos mais próximos na se-
dos, ora acima do plano da folha, ora quência, entre as voltas da hélice.
abaixo. Contudo, resíduos em fitas vi- Diversos tipos de hélices
zinhas orientam suas cadeias laterais podem ser encontrados em pro-
para o mesmo lado, frequentemente teínas (Tabela 2-2). A hélice mais
de forma justaposta (Figura 10-2). Is- comum, denominada de hélice α,
to permite, por exemplo, que uma fa- Linus Pauling apresenta 3,6 resíduos de amino-
ce da folha seja hidrofóbica e a outra ácidos por volta da hélice, e cada
hidrofílica. aminoácido (n) realiza ligação de
A organização das fitas em folhas pode hidrogênio com o quarto resíduo seguinte (n +
seguir duas orientações possíveis: i) a porção 4), que perfaz (aproximadamente) uma volta
N-terminal de uma fita interagindo com a completa da hélice. Outro tipo de hélice co-
porção N-terminal da fita vizinha (e, conse- mum em alguns tipos de proteína é a hélice de
quentemente, o C-terminal interagindo com o poli-prolina II encontrada, por exemplo, em
C-terminal), ou ii) a porção N-terminal de uma proteínas de parede celular de plantas e no
fita interagindo com a porção C-terminal da colágeno. Neste tipo de hélice, contudo, como
fita vizinha. Estas duas possibilidades de inte- o átomo de nitrogênio da prolina está ligado a
rações de fitas dão origem a dois tipos de fo- três átomos de carbono, não há formação de
lhas β: as paralelas e as antiparalelas. ligação de hidrogênio durante a organização
As folhas β paralelas e antiparalelas di- da hélice.
ferem em outras características. Esta organi- Existem, ainda, outros tipos de hélice, menos co-
zação diferenciada das fitas acarreta, por muns, como a hélice π e a hélice 310 (Tabela 2-2). Quan-
exemplo, em um padrão distinto de ligações to à nomenclatura, a hélice 310 foge ao padrão de uso
de hidrogênio. Enquanto nas folhas antipara- de letras gregas das hélices α e π. O número 3 repre-
lelas as ligações de hidrogênio formam um senta o número de resíduos por volta da hélice, en-
ângulo de 90o com as fitas, nas folhas para- quanto o número 10 reflete o número de átomos entre
lelas estes ângulos se tornam maiores (e as duas ligações de hidrogênio vizinhas dentro da hélice.
interações mais fracas) (Figura 10-2). Assim, segundo esta nomenclatura, a hélice α seria
As folhas β podem ser encontradas em formas pu- chamada de 3,613 e a hélice π de 4,416. Tais nomencla-
ras, paralelas ou antiparalelas, ou mistas, em que fo- turas, contudo, não são normalmente empregadas.
lhas paralelas pareiam com folhas antiparalelas. Não são só as proteínas que que apre-
Contudo, folhas β paralelas tendem a ser menos está- sentam estruturas 2árias. Ácidos nucleicos e
veis conformacionalmente que folhas β antiparalelas. carboidratos também podem apresentar pa-
Esta diferença pode ser bastante significativa, suficien- drões repetitivos de organização espacial,
te para acarretar na desnaturação de proteínas por definidos pela sequência de monômeros que
seus inibidores, como foi proposto na ação de serpinas os constituem.
sob suas proteses alvo. A molécula de DNA pode adotar três ti-
O trabalho pioneiro de Pauling e Corey pos de estrutura 2ária, denominados A, B e Z
no início dos anos 50 do século XX identificou (Figura 11-2), embora a forma B seja a estru-
não somente as folhas, mas também hélices tura mais comum e a partir dela sejam defini-
em sequências polipeptídicas. A formação da das as fendas maior e menor do DNA (Tabela
hélice, de forma similar às folhas, também 3-2). A transição entre estas formas é deter-
envolve a realização de ligações de hidrogênio minada pela hidratação, tipos de cátions e da
entre grupos N-H e C=O vizinhos no espaço própria sequência de nucleotídeos. Contudo, a
(mas não na sequência) (Figura 10-2). Contu- dificuldade em mimetizar as interações bioló-
Figura 10-2: Representação dos tipos mais comuns de estrutura 2ária encontrados em proteínas.
Em verde estão as hélices α (A), em azul as hélices 310 (B), em salmão as hélices π (C), em ciano
as folhas β paralelas (D) e roxo as antiparalelas (E). As ligações de hidrogênio entre átomos do
esqueleto peptídico estão apresentadas como linhas tracejadas em marrom. As estruturas são
partes que compõe as proteínas descritas pelos códigos PDB 18D8, 1ABB, 2QD1, 1EE6 e 1PC0, e
para cada uma duas diferentes orientações são apresentadas. Note que as cadeias laterais
apontam para fora do eixo das hélices e, para as folhas, para cima e para baixo do plano
definido pelas fitas.
gicas, envolvidas no DNA e em complexos nos específicos in vivo.

DNA-proteínas, durante a determinação de Diferentes tipos de estrutura 2ária acar-
estruturas 3D dificulta associações mais cla- retam em diferentes propriedades estruturais
ras de cada tipo de estrutura 2ária a fenôme- na molécula de DNA, como na largura e pro-
Tabela 2-2: Tipos de hélices encontrados em proteínas.
Tipo de hélice Resíduos / Ligação de Elevação / Elevação / Direção mais

volta hidrogênio resíduo (Å) volta (Å) comum
hélice α 3,6 n+4 1,5 5,4 direita
hélice 310 3 n+3 2,0 6,0 direita
hélice π 4,4 n+5 1,2 5,3 direita
poli-Pro I 3,3 - 1,7 5,6 direita
poli-Pro II 3 - 3,1 9,3 esquerda
fundidade das fendas maior e menor e na dis- giões de bases pareadas, alças de grampos,
posição e orientação dos grupos fosfato, pro- alças internas, bojos (do inglês bulge) e jun-
priedades estas que, por sua vez, estão ções. Quando o RNA se dobra sobre si, ele
diretamente relacionadas à especificidade da forma pareamentos entre bases complemen-
interação do DNA com proteínas e fármacos. tares de forma análoga àquelas vistas no
A forma B do DNA pode assumir dois sub-estados, DNA. Quando uma das fitas no RNA pareado
denominados BI e BII, definidos por diferenças em tor- apresenta bases que não possuem uma con-
ções na parte sacarídica e no grupo fosfato (ver adian- trapartida para formar um par A-U ou C-G,
te). Essa região, formada por carboidrato e fosfato, é forma-se uma protuberância ou bojo.
também denominada de esqueleto do DNA, em analo- Estes bojos, isto é, bases não pareadas em uma du-
gia ao esqueleto peptídico. A lógica é a mesma: o es- pla-fita, também podem ser encontradas em folhas β.
queleto é composto pela região comum a todos os Neste caso, resíduos de aminoácidos de uma fita dei-
monômeros formadores do biopolímero. Adicional- xam de interagir com a fita vizinha, dando origem a es-
mente, outras formas de DNA já foram identificadas te outro tipo de estrutura 2ária de proteínas.
(alguns autores afirmam inclusive que poucas letras As alças de grampos em moléculas de
do alfabeto sobram para nomear novas formas de RNA são análogas às voltas observadas em
DNA que por ventura venham a ser identificadas), em- proteínas, conectando duas fitas β por um
bora muitas ainda não tenham papel biológico claro. pequeno segmento de poucos resíduos. No
A maioria dos genomas eucarióticos está sujeita a RNA, quando a fita dobra-se sobre si mesma,
um fenômeno de metilação do DNA, que consiste na deixa alguns resíduos (no mínimo 4) projeta-
adição de um grupo metila no átomo de carbono na dos para fora, formando uma alça. Neste tipo
posição 5 dos resíduos de citosina. Como uma modifi- de estrutura 2ária, a alça está vizinha a so-
cação estrutural epigenética envolvida na regulação do mente uma região de pareamento de bases,
potencial regulatório e transcricional do DNA, deve-se enquanto que há duas regiões, a cada lado do
estar atento à necessidade de incluir tal modificação na bojo, de bases pareadas.
descrição deste ácido nucleico. As alças internas podem ser entendidas
Não somente o DNA, mas também o como uma dupla fita de DNA em que, no seu
RNA possui estrutura 2ária. Contudo, ao con- meio, as bases não são complementares e,
trário do DNA, que é uma molécula contendo por isso, não pareiam. Assim, ambas as fitas
duas fítas de ácidos nucleicos, na maioria das apresentam bases que não estão pareadas, o
situações o RNA é uma molécula composta que a diferencia do bojo. Por fim, as junções
por uma única fita. Assim, enquanto no DNA conectam 3 ou mais regiões de bases parea-
os pareamentos entre bases que dão origem das.
à estrutura 2ária surgem da interação de mo- O terceiro tipo de biopolímero constitu-
léculas (fitas) diferentes e complementares, inte de biomacromoléculas, os carboidratos
no RNA a estutura 2ária surge de interações podem, similarmente a proteínas e ácidos
na própria fita, que dobra-se sobre si mesma. nucleicos, adotar padrões repetitivos de or-
As estruturas 2árias de RNA incluem re- ganização de suas unidades formadoras, mo-
Figura 11-2: Representação dos tipos mais comuns de estrutura 2ária encontrados no DNA, ilus-
tradas para sequências de 12 nucleotídeos. Em vermelho estão as hélices B (A), em azul as
hélices A (B) e em magenta as hélices Z (C). As estruturas pelos códigos PDB 3BSE, 3V9D e
279D. Para cada uma duas diferentes orientações são apresentadas, e o esqueleto das
moléculas de DNA está representado como fitas.
nossacarídeos, isto é, em elementos de es- Esta é uma condição adequada à descrição, por exem-
trutura 2ária. plo, da quitina, polissacarídeo encontrado na natureza
Polissacarídeos lineares desenvolvem em condições semelhantes. Contudo, quando estes po-
estruturas de hélices, similarmente à proteí- lissacarídeos são transpostos para soluções biológicas,
nas e ácidos nucleicos. No caso destas molé- estas moléculas adotam uma elevada flexibilidade e,
culas, contudo, a variabilidade de por conseguinte, grande variação conformacional. Não
organizações possíveis é muito maior, de for- raramente, perdemos a capacidade de identificar for-
ma que não há definição específica para um mas repetitivas, e a denominação de alças desordena-
ou alguns tipos de hélices, como vimos ante- das pode também ser aplicada a polissacarídeos.
riormente. Ao invés disto, cada tipo de polis- Adicionalmente, carboidratos não se apresentam
sacarídeo apresentará um número de somente como polissacarídeos lineares, mas como oli-
resíduos por volta, elevação por resíduo e go- ou polissacarídeos ramificados. Esta ramificação
elevação por volta, assim como seu sentido agrega um grau adicional de complexidade na descri-
para a direita ou para a esquerda (vide tabela ção da forma destes compostos. Mesmo assim, ainda é
2-3). possível descrever a forma destes compostos, caso a
Estas características, contudo, são normalmente caso, como veremos adiante.
determinadas experimentalmente através de difração
de raios-X, na qual a amostra está na fase cristalina.
Tabela 2-3: Tipos de hélices encontrados em ácidos nucleicos.
Tipo de pb / Elevação / Elevação / Fenda maior (Å) Fenda menor (Å) Direção
hélice volta pb (Å) volta (Å) Largura Profundidade Largura Profundidade
DNA A 11 2,9 32 2,7 13,5 11,0 2,8 direita
DNA B 10 3,4 34 11,7 8,5 5,7 7,5 direita
DNA Z 12 3,8 45 - convexa 4 9 esquerda
Estrutura 3ária 3ária que nenhuma outra biomolécula possui.
Isso faz todo o sentido, tendo em vista que
A importância do conhecimento da es- são as proteínas os principais efetores da in-
trutura 2ária de biomoléculas reside, principal- formação gênica. Em proteínas, o enovela-
mente, no fato de que estes elementos se mento envolve a aproximação mútua de
organizam no espaço tridimensional, dando resíduos hidrofóbicos, que buscam se escon-
origem ao que chamamos de estrutura 3ária. der da água (também chamado de colapso
Em outras palavras, a estrutura 3ária de uma hidrofóbico), ocasionando a expulsão deste
dada biomolécula corresponde à montagem solvente da região central da proteína.
dos seus elementos de estrutura 2ária. Por Simultaneamente, os resíduos polares
outro lado, é a estrutura 3ária (ou a 4ária, que são expostos ao solvente, e interações inter-
veremos a seguir) que irá exercer a função resíduo são estabelecidas. Assim, a estrutura
biológica da molécula em questão. enovelada, nativa, terá uma quantidade míni-
Os diversos elementos de estrutura 2ária ma de moléculas de água em seu interior e
de uma dada molécula se organizam em uma um número máximo de contatos inter-resíduo
estrutura 3ária através de um fenômeno de- (Figura 12-2).
nominado enovelamento (também chamado A ideia de ambiente molecular para o enovelamento
em português de dobramento, do termo em ou para que uma dada biomolécula exerça sua função é
inglês folding). Neste processo, uma combi- mais complexa do que parece à primeira vista. Embora
nação de forças converge para que a biomo- a ideia usual seja de que o meio aquoso seja predomi-
lécula adote uma conformação mais estável nante, diversos tipos de ambientes aquosos podem ser
no meio biológico alvo. encontrados dentro de um organismo, tecido ou célula.
O termo conformação é usado para descrever a Por exemplo, o pH pode apresentar grandes variações
forma de uma dada molécula, como já empregado entre vacúolos lisossomais, citoplasma, plasma, se-
neste capítulo. Contudo, deve-se adotar uma distinção creção gástrica ou duodenal. Por outro lado, a força
entre conformação e estrutura, importante para o en- iônica da solução pode mudar drasticamente na proxi-
tendimento de propriedades moleculares. Estrutura se midade de membranas com diferentes cargas.
refere a uma única forma, bem definida e conhecida. Outro tipo de ambiente molecular que deve ser
Conformação se refere a uma forma dentre múltiplas destacado é definido pelas membranas biológicas.
possíveis, em um determinado meio ou ambiente mo- Membranas são fluidos, e moléculas inseridas em
lecular. Assim, é comum nos referirmos a estrutura membranas estão solvatados pelas moléculas de fos-
cristalina de uma dada proteína, pois no cristal temos folipídeos. Assim, sendo o interior de membranas apo-
uma única forma 3D, como uma foto única que compõe lar (ou seja, lipofílico), o colapso hidrofóbico pode
um filme. Em solução, contudo, há diversas formas si- acontecer ao inverso, com a exposição de resíduos
multaneamente co-existindo. Neste caso, cada forma apolares para o solvente (neste caso, a membrana).
pode ser denominada de conformação. Podemos, de Ambientes mais específicos para o enovelamento de
forma mais precisa, dizer que a forma de uma biomo- proteínas podem ainda ser criados por outras proteí-
lécula, determinada por cristalografia de raios-X, é nas, denominadas chaperonas. Como um barril, chape-
uma conformação cristalográfica. ronas podem isolar uma proteína do meio aquoso,
O processo de enovelamento é mais es- levando a formação de interações inter-resíduo que
tudado para proteínas, biopolímeros que não seriam observáveis de forma significativa em sua
apresentam uma versatilidade de estrutura ausência. Por conseguinte, podem contribuir direta-
mente na formação de estruturas 3árias. químicas, enzimáticas e, por fim, pode tam-
bém exercer papel importante em suas fun-
ções biológicas.
A glicosilação de proteínas ocorre em mais de 70%
das proteínas de eucariotos. Diversos aminoácidos po-
dem estar envolvidos na ligação a carboidratos, mais
comumente resíduos de asparagina ou serina, embora
também possam participar resíduos de treonina, hidro-
xiprolina, tirosina, arginina, triptofano e cisteína. De-
pendendo do aminoácido, a parte sacarídica pode estar
ligada a átomos de nitrogênio, oxigênio, carbono ou en-
xofre, dando origem às glicosilações chamadas de N-,
O-, P-, C- ou S-ligadas.
Estrutura 4ária
A despeito da função de um gene ser
Figura 12-2: Representação 2D do exercida por uma proteína com estrutura 3D,
enovelamento de uma proteína hipotética, envolvendo a transmissão de informação de
com o direcionamento de resíduos uma estrutura 1ária para uma estrutura 3ária,
hidrofóbicos (círculos pretos) para o interior ainda há um quarto e último nível de organi-
da proteína e dos resíduos hidrofílicos para zação de biomacromoléculas, denominado de
sua superfície (círculos brancos). Reproduzida estrutura 4ária. Nem todas as biomoléculas,
de Tomixdf, 2008 (Creative Commons). contudo, apresentam este grau de organiza-
ção.
Além de interações não covalentes en- A estrutura 4ária é constituída por agre-
tre os resíduos de aminoácidos de uma dada gados macromoleculares, principalmente de
proteína (ou as bases de um ácido nucleico e proteínas. Estas biomoléculas podem adotar
os monossacarídeos de um polissacarídeo) e estados oligoméricos, sejam estes compostos
destes com o solvente, o enovelamento de por 2 (dímeros), 3 (trímeros), 4 (tetrâmeros),
proteínas também é influenciado por intera- 5 (pentâmeros), 6 (hexâmeros) ou mais su-
ções covalentes, associadas a modificações bunidades necessárias à realização de deter-
co- ou pós-traducionais. minada função em condições nativas. No caso
Durante ou após a síntese proteica (tra- de ácidos nucleicos, a estrutura 4ária também
dução), podem ser formadas ligações dissul- pode ser observada, por exemplo, em com-
feto entre grupamentos sulfidrila (SH) de plexos entre DNA e proteínas, como histonas.
resíduos de cisteína, cofatores como o gru- Não é porque uma proteína se mostra como um
pamento heme podem ser adicionados ou oligômero em ambiente cristalino que em solução a
mesmo processos reversíveis podem ocorrer, mesma organização, necessariamente, será observada.
nos quais reações como N-acetilação ou fos- Mesmo in vivo, diferentes ambientes fisiológicos po-
forilação podem ser observadas de forma dem acarretar em mudanças no estado oligomérico de
transiente. Mas o tipo mais abundante de mo- uma proteína. Por exemplo, um peptídeo que se mostra
dificação co- ou pós-traducional na natureza é como monômero no plasma pode formar tetrâmeros
a glicosilação de proteínas, ou seja, a adição quando inserido em membranas.
de uma estrutura oligossacarídica a um de- Portanto, assim como no caso da estrutura 3ária, a
terminado aminoácido. Assim, a adição destas estrutura 4ária frequentemente se constitui em uma
ligações covalentes e grupamentos altera não complexa combinação de múltiplas possibilidades que
somente a forma 3D da proteína, mas sua podem ser modificadas ou reguladas em função de
flexibilidade e múltiplas propriedades fisico- inúmeras variáveis químicas e biológicas. Reproduzir
com precisão este comportamento dinâmico é um dos favorecidas correspondem às estruturas 2árias
principais desafios para a bioinformática. de proteínas que nós conhecemos e ofere-
cem, assim, uma medida quantitativa para
2.4. Descritores de forma definir hélices, fitas, alças e voltas. O gráfico
que combina os valores de ângulos φ e ψ para
O uso dos conceitos de níveis hierár- um determinado dipeptídeo ficou assim sendo
quicos nos permite entender as organizações conhecido como mapa de Ramachandran (Fi-
básicas da estrutura 3D de macromoléculas. gura 13-2).
Estes níveis, contudo, nos oferecem defini- O uso de ângulos de torção para descrever a estru-
ções qualitativas, gerais, que não abordam tura e a conformação molecular não se limita somente
nuances ou variações dentro dos níveis. Por a proteínas, mas também pode ser aplicado a ácidos
exemplo, definir uma região da proteína como nucleicos e carboidratos. Em cada caso, o número de
uma hélice α não nos informa se esta hélice ângulos de torção é definido pelas características das
apresenta ou não algum grau de deformação. ligações entre os monômeros, isto é, se é uma ligação
Similarmente, podemos saber que uma de- peptídica, glicosídica ou fosfodiéster.
terminada sequência de nucleotídeos de DNA Para a descrição da forma de uma ligação peptídica
assume uma hélice do tipo B, mas esta clas- em uma proteína são empregados três ângulos: ω, ψ e
sificação simplemsente não avalia a defor- φ. Os ângulos ψ e φ são aqueles descritos no mapa de
mação provocada nesta hélice por um Ramachandran, localizando-se antes e depois do Cα
fármaco intercalador do DNA. (porções N- e C- terminais da ligação, respectivamen-
Portanto, em acréscimo aos níveis hie- te). O ângulo ω, por sua vez, corresponde ao grupa-
rárquicos de classificação da estrutura de mento amida, ou seja, a ligação entre os grupamentos
macromoléculas, há a necessidade de intro- N-H e C=O (Figura 14-2).
duzir medidas quantitativas da forma destes A ligação glicosídica pode ser descrita por dois ou
compostos. Podemos, assim, calcular preci- três ângulos torcionais. Em analogia à ligação peptídi-
samente formas associadas a determinados ca, podem ser empregados os ângulos φ e ψ (porção
eventos biológicos (como a regulação da ex- não-redutora e porção redutora, respectivamente). A
pressão de um gene) e, por conseguinte, in- exceção é quando descrevem-se ligações envolvendo o
terferir nestes processos de forma racional átomo de carbono na posição 6 de piranoses (como
(como no desenho de novos fármacos capa- glicose, manose, fucose e etc.) e na posição 5 de fura-
zes de inibirem a expressão deste gene). noses (como na ribose e na desoxirribose). Nestes ca-
Considerando que proteínas, carboidra- sos, há a necessidade de se considerar um terceiro
tos e ácidos nucleicos são biopolímeros, suas ângulo torsional, denominado ω.
formas tridimensionais são definidas, basica- O terceiro caso de biopolímeros usualmente des-
mente, pelas conectividades entre seus mo- critos por ângulos torcionais, os ácidos nucleicos, con-
nômeros constituintes (isto é, aminoácidos, sistem em um caso à parte. Como podemos observar
monossacarídeos e bases nitrogenadas, res- na Figura 14-2, o grupamento fosfato agrega grande
pectivamente). flexibilidade à cadeia, exigindo assim sete ângulos tor-
Esta forma de compreender a estrutura sionais para sua adequada caracterização, a saber: α, β,
de biomacromoléculas foi proposta inicial- γ (na região 5'), δ (entre os átomos 3' e 4' da pentose), ε
mente em 1963 por Gopalasamudram e ζ (na porção 3'). Há, ainda, o ângulo χ, formado entre
Narayan Ramachandran. Neste trabalho, G. N. o carbono 1' da pentose e a base nitrogenada.
Ramachandran descreve a forma de dois Ângulos torsionais não são, contudo, a
aminoácidos vizinhos como fruto dos ângulos única forma de descrever e avaliar a forma de
de torção ao redor do Cα (Figura 13-2), deno- biomacromoléculas. A despeito de serem bi-
minados φ e ψ. Assim, em função das cadeias opolímeros, proteínas, carboidratos e ácidos
laterais de cada aminoácido, algumas combi- nucleicos apresentam suas particularidades,
nações de ângulos φ e ψ seriam favorecidas, exigindo assim descritores específicos, capa-
enquanto outras proibidas. As combinações zes de lidar com as propriedades fisico-quí-
Figura 13-2: Mapas de Ramachandran para casos gerais (resíduos que não sejam prolina ou
glicina), para resíduos de glicina e para resíduos de prolina. Os pontos correspondem às
distribuições de ângulos φ e ψ de cerca de 100 mil resíduos componentes de 500 estruturas
proteicas obtidas em alta resolução. As regiões onde se localizam as estruturas secundárias
típicas estão destacadas nos mapas. [Figura baseada em LOVELL, Simon C. et al. Structure
Validation by Cα Geometry: φ, ψ and Cβ Deviation. Proteins, 50, 437-450, 2003; e Hollingsworth,
Scott A. & Karplus, P. Andrew. A fresh look at the Ramachandran plot and the occurrence of
standard structures in proteins. Biomol. Concepts, 1, 271–283, 2010].
micas particulares de cada tipo de monômero uma cartacterização precisa da estrutura

(e, por conseguinte, em lidar com as diferen- destas biomoléculas (Figura 15-2). Isto ocorre
tes propriedades biológicas resultantes). em decorrência de movimentos de translação
Como mencionado anteriormente, biomoléculas em ou rotação que cada base ou par de bases
condições biológicas apresentam não somente uma, pode sofrer dentro da região pareada. Assim,
mas múltiplas conformações que coexistem, simulta- moléculas ou regiões de ácidos nucleicos não
neamente. Assim, os valores de ângulos torsionais de- pareadas não são descritas por estes parâ-
vem ser considerados como médias, referências metros.
geométricas em torno das quais o comportamento da Considerando um espaço cartesiano definido pelos
molécula em questão irá variar em solução. eixos x, y e z, sendo z o eixo maior da região de parea-
mento e bases (Figura 15-2), os parâmetros geométri-
Ácidos nucleicos cos oriundos da translação de bases em uma dupla fita
envolvem: i) o deslocamento do par de bases ao longo
Em acréscimo aos ângulos torcionais os do eixo x ou do eixo y; ii) o deslocamento de uma base
ácidos nucleicos, ao formarem pares de ba- em relação à outra, seja como uma distensão ao longo
ses, definem quase duas dezenas de parâme- do eixo y (do inglês stretch), seja como cisalhamento
tros geométricos distintos, importantes para ao longo do eixo x (do inglês shear), ou ainda um esca-
se enovela para adotar uma determinada es-

trutura 3ária, alguns aminoácidos se localizam
em pontos chave para a estabilização da es-
trutura 3D. Assim, sua modificação poderia
desestabilizar total ou parcialmente a con-
formação nativa da proteína. Como conse-
quência, algumas posições na sequência de
aminoácidos tornam-se conservadas evoluti-
vamente como decorrência de determinantes
estruturais. Ao mesmo tempo, podem haver
determinantes funcionais para a conservação
de posições na sequência ao longo da evolu-
ção.
Em contrapartida, como os aminoácidos
podem ser agrupados de acordo com a se-
melhança em suas propriedades fisico-quími-
cas, diferentes combinações de resíduos
Figura 14-2: Ângulos torsionais para podem levar a uma mesma estrutura 3D. De
proteínas, carboidratos e ácidos nucleicos fato, sabe-se que a estrutura 3ária de proteí-
ilustrados para, respectivamente, um nas é mais conservada ao longo da evolução
tripeptídeo, um trissacarídeo e um que a estrutura 1ária. Em outras palavras, pro-
trinucleotídeo. teínas com identidade muito baixa entre suas
sequências podem possuir estruturas 3árias
lonamento acima ou abaixo do plano xy (do inglês muito semelhantes.
stagger); iii) o deslocamento de um par de base em Conclui-se, assim, que sequências de
relação a outro par de base, seja como uma elevação aminoácidos podem arranjar-se em um con-
ao longo do eixo z (do inglês rise), seja como um desli- junto de formas 3D mais ou menos definidos
zamento ao longo do eixo y (do inglês slide) ou ao longo e finitos. Estas formas são denominadas mo-
do eixo x (chamada em inglês de shift). tivos (ou no inglês fold), e possuem diversas
Os parâmetros originados da rotação de bases ou classificações a partir de suas características
pares de bases entre si produzem diferentes tipos de (Figura 16-2). Dada a relação entre forma e
inclinação (definidas em inglês como tip, inclination, roll função, o conhecimento do motivo de uma
e tilt), dependendo do vértice e do eixo ao longo dos dada proteína (diretamente por métodos ex-
quais ocorre o movimento do par de bases. Pares de perimentais como cristalografia de raios-X,
bases podem ainda sofrer modificações caracterizan- ver capítulo 13, ou por inferência a partir de
do-os como: i) torcidos (chamadas em inglês de twist, similaridade de sequência, ver capítulo 3) é
propeller twist ou buckle), e ii) abertos (definida em in- um passo importante para a elucidação de
glês como opening). seu mecanismo de ação em nível molecular.
Por exemplo, um barril-β é um motivo
Proteínas que se assemelha a um barri, onde as tiras de
madeira correspondem a fitas β (Figura 16-2).
Considerando os 20 aminoácidos codifi- Define, assim, uma cavidade central que pode
cados no genoma, poderíamos imaginar que tanto servir como carreador de substâncias,
teríamos 20n possíveis proteínas diferentes, como no caso das nitroforinas, ou como poro,
sendo n o número de aminoácidos. A situação, como no caso das porinas. Embora o número
felizmente, não é tão complexa por uma série de fitas β possa mudar (8 no caso das nitro-
de motivos. forinas e 16 no caso das porinas), a caracte-
Um primeiro aspecto a ser observado é rística geral do motivo se mantém. Essas
que, quando uma sequência de aminoácidos relações são ilustradas visualmente de forma
Figura 15-2: Parâmetros geométricos empregados como descritores da geometria de ácidos

nucleicos.
muito elegante na "tabela periódica" de pro- Membranas

teínas, desenvolvida pelos professores
Richard Garratt e Christine Orengo. Para Não temos falado muito de membranas
acessar as classificações dos diferentes mo- até este momento por alguns motivos. Pri-
tivos já identificados, os bancos de dados meiramente, membranas não são biopolíme-
CATH e SCOP são as fontes mais completas ros, mas agregados de múltiplas moléculas, o
de informações. que tira de cena a ideia de análise de uma
Um outro conceito, que se confunde e molécula a partir de suas sub-unidades for-
em vários momentos é usado como sinônimo madoras. Segundo, estes agregados apre-
de motivo, é o de domínio proteico. Um domí- sentam-se como um fluido, diferentemente
nio é uma parte da sequência polipeptídica de das outras biomoléculas que vimos. Assim,
enovelamento independente (e, potencial- não faz sentido analisar cada molécula de li-
mente, de função também independente). As- pídeo individualmente em uma membrana,
sim, se um domínio for recortado de um gene mas o seu comportamento como um todo ou
e expresso separadamente ele deve, em prin- como uma média ao longo de múltiplos lipí-
cípio, manter suas características estruturais. deos.
Um domínio proteico pode ser compos- Contudo, a despeito da natureza fluida
to por mais de um motivo intrinsecamente de membranas e da sua capacidade de adotar
associado. Por outro lado, um mesmo motivo múltiplas formas, os lipídeos (e também pro-
pode ser encontrado e mais de um domínio de teínas) não se distribuem homogeneamente
uma mesma proteína. ao longo das membranas, podendo formar
regiões ou domínios enriquecidos em um de-
terminado componente. Assim, para o estudo
das propriedades de membranas biológicas
torna-se necessário caracterizá-las estrutu- do grau de compactação das moléculas que constitu-
ralmente. Isto pode ser feito através de di- em uma membrana, ou seja, uma área menor indica
versas medidas, tais como a área por lipídeo, uma membrana mais compacta. Isto, por sua vez, su-
espessura da membrana e coeficientes de di- gere uma interação mais intensa entre os componentes
fusão lateral de lipídeos ou proteínas embe- da membrana.
bidas na membrana, dentre outros (Figura Embora proteínas inseridas em membranas adap-
8-2). tem-se a este meio, são as membranas que fazem a
A área por lipídeo nos oferece informações acerca maior parte do ajuste em sua estrutura para receber
Figura 16-2: Exemplos de motivos proteicos, coloridos por cada elemento de estrutura 2ária. São
apresentados barris compostos por fitas-β, em A a proteína verde fluorescente (do inglês green
fluorescent protein, GFP, código PDB 1EMG), em D a porina OMP32 (código PDB 2FGQ) e em G o
transportador FECA (código PDB 1KMO); feixes de hélices α, em B a bacteriorodopsina (código
PDB 1AP9), em E a proteína SERCA1 (código PDB 1WPG) e em H parte do sistema fotossintético
de uma cianobactéria (código PDB 1JB0); e ferraduras compostas por hélices α, em C um inibidor
de crescimento tumoral (código PDB 1BD8), em F uma repetição rica em resíduos de leucina,
associada à fixação de nitrogênio (código PDB 1LRV) e em H a lipovitelina (código PDB 1LSH).
Partes das estruturas foram omitidas buscando maior clareza na imagem. Adaptado de "The
Protein Chart", de Richard C. Garratt e Christine A. Orengo, 2008, Wiley-VCH.
as proteínas (esse processo está relacionado às dife- nucleotídeos, aminoácidos ou monossacarídeos não
renças de compressibilidade entre estas biomoléculas). nos ofereça muitos artifícios visuais, devemos nos
Como consequência, a inserção de proteínas em mem- lembrar que as formas apresentadas na Figura 17-2
branas biológicas promove uma perturbação na orga- não informam o leitor facilmente sobre quais resíduos
nização da bicamada lipídica, podendo tanto aumentar compõe a nossa macromolécula. É difícil distinguir, em
quanto reduzir a espessura desta na região ao redor da representações de arames, bastões ou esferas, uma Ile
proteína. de uma Leu, e mesmo impossível em cartoon ou su-
perfície. Portanto, pode ser muito útil combinar estas
2.5. Formas de visualização representações tridimensionais a alinhamentos de se-
quências da região de interesse.
O corolário uma imagem fala mais do O mesmo vale para a apresentação de sequências
que mil palavras também se aplica ao estudo isoladas de estruturas. Enquanto uma mutação em um
de moléculas. E, de fato, o desafio de repre- único nucleotídeo pode interferir na função proteica, is-
sentar graficamente proteínas vem acompa- so não é feito pela troca de uma letra por outra na se-
nhando os pesquisadores desde o início dos quência, mas por mudanças que esta troca acarretam
estudos da estrutura destas moléculas. Os na estrutura da proteína. O entendimento deste pro-
primeiros relatos do uso de representações cesso pode depender simplesmente da nossa imagina-
em cartoon para proteínas datam da década ção ou da visualização da respectiva mudança na
de 1960. Atualmente, múltiplas representa- proteína.
ções estão à nossa disposição, com qualidade Existem diversas formas de apresentar
gráfica a cada momento superior, e gerados estruturas tridimensionais de macromolécu-
através de ferramentas gratuitas (Figura 17- las, e escolher entre estas formas envolve
2). tanto escolhas metodológicas quanto pesso-
Podemos definir hélices de proteínas ais. Algumas propriedades são mais facil-
por suas características geométricas, nomes mente observadas em alguns tipos de
ou pelos pares de ângulos φ e ψ. Mas visuali- visualização. Por exemplo, o volume da ca-
zar uma hélice proteica, tridimensionalmente, deia lateral de um resíduo de Val é muito mais
não deixa dúvidas quanto ao seu significado. facilmente observável enquanto seus átomos
Portanto, o cuidado com a maneira pela qual
iremos apresentar, visualmente, os aspectos
estruturais que estudamos e tenhamos rela-
cionados a alguma função biológica, é uma
parte fundamental no trabalho do bioinfor-
mata.
Formas de visualização, contudo, são representa-
ções muitas vezes incapazes de descreverem detalhes
sobre a molécula em estudo. É difícil distinguir visual-
mente uma hélice α de uma hélice 310 ou de uma hélice
π. Por outro lado, estas hélices podem apresentar de-
formações importantes, também de difícil visualização.
Assim, a combinação de representações visuais, quali-
tativas, com medidas precisas, quantitativas, da estru-
tra molecular é uma estratégia bastante útil no estudo
de macromoléculas.
A ideia de combinar múltiplas estratégias na apre-
sentação de um determinado aspecto molecular não Figura 17-2: Exemplo das formas de
se limita somente às formas de descrever visualmente visualização mais comumente empregadas na
ou numericamente a estrutura molecular. Embora a vi- descrição de biomoléculas, aplicadas a uma
sualização de estruturas 1árias, isto é, de sequências de proteína.
são apresentados como esferas do que como mas não no sentido oposto. Envolve prin-
bastões ou arames (Figura 17-2). Diferentes cipalmente os fenômenos de replicação,
tipos de moléculas, similarmente, se benefi- transcrição e tradução.
ciam de algumas formas de visualização. Por
exemplo, a forma de cartoon é a mais comum Enovelamento: processo segundo o qual uma
para descrever proteínas, mas é pouco útil na sequência polipeptídica adquire sua estru-
descrição de carboidratos ou membranas. tura tridimensional nativa, isto é, equiva-
Em muitos casos poderemos empregar lente àquela observada em seu local
combinações destas formas, como na descri- biológico de ação e funcional. Também
ção por cartoon de uma proteína e de sua es- chamado por alguns autores de dobra-
trutura de glicosilação como bastões. mento.
2.6. Conceitos-chave Equilíbrio pseudo-rotacional: processo de inter-

conversão entre as diferentes conforma-
Anfipatia: propriedade de moléculas que possu- ções adotadas por carboidratos.
em tanto regiões hidrofílicas quanto hi-
drofóbicas. Esqueleto do DNA: parte da molécula de DNA
composta pelas partes comuns a todos os
Cadeia lateral: região variável dos aminoácidos nucleotídeos, isto é, o carboidrato e o
codificados no genoma, responsável pela grupo fosfato (ou seja, são excluídas as
variação de suas propriedades. regiões das bases nitrogenadas).
Carbono anomérico: átomo de carbono nume- Esqueleto peptídico: estrutura de peptídeos ou

rado como 1 em carboidratos. A mudança proteínas sem as cadeias laterais dos
em sua estereoquímica dá origem às for- aminoácidos (ou seja, somente as regiões
mas anoméricas α e β em carboidratos. comuns aos aminoácidos).
Carbono α: átomo de carbono do esqueleto Estrutura 1ária: sequência de letras que compõe
peptídico no qual a cadeia lateral de cada biomoléculas (principalmente DNA, RNA e
aminoácido está ligada (referindo-se aos proteínas, mas também carboidratos).
20 aminoácidos codificados no genoma
para síntese proteica). É o primeiro átomo Estrutura 2ária: padrões estruturais definidos pe-
de carbono vizinho ao grupo carbonila. la organização das unidades monoméricas
(isto é, nucleotídeos, aminoácidos e mo-
Conformação em bote torcido: forma adotada nossacarídeos) de cada biomolécula em
pelo anel de alguns monossacarídeos. formas tridimensionais. Estes padrões po-
dem classificados segundo suas diferentes
Conformação em cadeira: forma adotada pelo formas.
anel de alguns monossacarídeos, seme-
lhante a uma cadeira quanto vista de lado. Estrutura 3ária: estrutura 3D completamente
enovelada.
Conformação em envelope: forma adotada pelo
anel de alguns monossacarídeos, destaca- Estrutura 4ária: organização definida pela agre-
damente as furanoses. gação de múltiplas estruturas 3árias.
Dogma central da biologia molecular: represen- Furanoses: monossacarídeos cujo anel é com-
tação do fluxo de informação em sistemas posto por 5 átomos, quatro de carbono e
biológicos, começando na molécula de um de oxigênio. O nome vem da seme-
DNA e culminando na síntese proteica - lhança deste anel com o composto furano.
Ligação fosfodiéster: ligação formada entre dois

nucleotídeos, através de seus grupos fos-
fato.
Ligação glicosídica: ligação formada entre dois

monossacarídeos.
Ligação peptídica: ligação formada entre dois

aminoácidos, através do grupo amino de
um resíduo e do grupo carboxila do outro,
dando origem a uma função amida.
Mapa de Ramachandran: um gráfico que des-

creve a variação da energia em função da
rotação dos ângulos de diedro φ e ψ, ao
redor do Cα.
Nucleosídeo: molécula formada por uma base

nitrogenada ligada a um carboidrato (ri-
bose ou desoxirribose), sem o grupo fos-
fato.
Nucleotídeo: molécula formada por uma base

nitrogenada ligada a um carboidrato (ri-
bose ou desoxirribose) e a um grupo fos-
fato.
Piranoses: monossacarídeos cujo anel é com-

posto por 6 átomos, cinco de carbono e
um de oxigênio. O nome vem da seme-
lhança deste anel com o composto pirano.
2.7. Leitura recomendada

ALBERTS, Bruce; et al. Biologia Molecular da
Célula. 5.ed. Porto Alegre: Artmed, 2010.
BLOOMFIELD, Victor A.; CROTHERS, Donald M.;

TINOCO, JR., Ignacio. Nucleic Acids
Structure, Properties, and Functions.
Sausalito: University Science Books, 2000.
GARRATT, Richard C., ORENGO, Christine A. The

Protein Chart. Nova Iorque: Wiley-VCH,
2008.
PETSKO, Gregory A.; RINGE, D. Protein

Structure and Function. New York:
Oxford University Press, 2009.
3. Alinhamentos
Dennis Maletich Junqueira

Rodrigo Ligabue Braun
Hugo Verli
Alinhamento de múltiplas sequências. dentre estes, as técnicas de alinhamento de

sequências tornaram-se ferramentas essen-
3.1. Introdução ciais e primordiais na análise de sequências
biológicas. Atualmente, diversos programas
3.2. Alinhando sequências online, ou mesmo de instalação local, são ca-
pazes de alinhar centenas de sequências em
3.3. Tipos de alinhamento poucos minutos.
Devido à extensão de suas aplicações, o
3.4. Alinhamento simples alinhamento de sequências biológicas é um
processo de fundamental importância para a
3.5. Alinhamento múltiplo global bioinformática. Conceitualmente, os alinha-
mentos são técnicas de comparação entre
3.6. Alinhamento múltiplo local duas ou mais sequências biológicas, que bus-
cam séries de caracteres individuais que se
3.7. BLAST encontram na mesma ordem nas sequências
analisadas.
3.8. Significância estatística Em geral, as moléculas consideradas
por estes programas, sejam elas formadas
3.9. Alinhamento de 2 estruturas por nucleotídeos (DNA ou RNA) ou aminoáci-
dos (peptídeos e proteínas), são polímeros
3.10. Alinhamento de >2 estruturas representados por uma série de caracteres, e
a comparação entre as moléculas depende
3.11. Alinhamento flexível apenas da comparação entre as respectivas
letras. Apesar da facilidade e da aparente
3.12. Conceitos-chave simplicidade do processo, a análise de simila-
ridade das sequências é uma tarefa complexa
e uma etapa decisiva para grande parte dos
métodos de bioinformática que fazem uso de
3.1. Introdução sequências biológicas.
Durante o alinhamento, as sequências
O avanço nas técnicas de sequencia- são organizadas em linhas e os caracteres
mento do DNA tem permitido um crescente biológicos integram as colunas do alinha-
aumento no número de genomas disponíveis mento (Figura 1-3). Seguido à organização ini-
em bancos de dados públicos. Esta maior dis- cial, algoritmos específicos buscarão a
ponibilidade exigiu um grande aumento na ca- melhor correspondência para as sequências
pacidade computacional de armazenamento e em questão, permitindo a criação de espaços
no investimento em desenvolvimento de téc- entre estes caracteres para que, ao final, to-
nicas de processamento adequadas para a das as sequências tenham o mesmo compri-
análise destes dados. Algoritmos de análise mento. Isto possibilita uma fácil visualização
tiveram de ser criados e aperfeiçoados e, da similaridade, permitindo que caracteres
3. Alinhamentos
Figura 1-3: Alinhamento de quatro sequências de nucleotídeos envolvendo 55 caracteres. a)

Grupo de sequências não alinhadas, cada sequência ocupando uma linha individual. b) Grupo de
sequências alinhadas, onde caracteres idênticos são dispostos em uma mesma coluna e estas
são identificadas por asteriscos (dispostos na parte inferior do alinhamento). Nucleotídeos
ausentes em determinadas sequências são substituídos por hifens para identificar eventos de
inserção/deleção.
idênticos ou similares em cada uma das se- acumulou diferentes variações ao longo do
quências integrem a mesma coluna. A ideia processo evolutivo. O termo homologia é uti-
central destes algoritmos é minimizar as dife- lizado frequentemente para definir estes
renças entre as sequências, buscando um ali- eventos onde, através da relação de ances-
nhamento ótimo. Comumente, a similaridade tralidade, dois indivíduos distintos possuem
entre as sequências envolvidas é expressa regiões em seu DNA (incluindo regiões codifi-
pelo termo identidade, que quantifica a por- cantes) herdadas de um ancestral comum.
centagem de caracteres idênticos entre duas Neste caso, a similaridade deve-se à descen-
sequências. dência comum e, portanto, as sequências en-
A relevância e abrangência do uso do volvidas na análise são ditas homólogas.
método tornam os procedimentos de alinha- Cabe ressaltar que a homologia não re-
mento o cerne para diferentes campos dentro quer necessariamente alta identidade de ca-
da grande área da bioinformática. Além de racteres entre as sequências, uma vez que a
fundamentais em pesquisas de filogenética e maior ou menor identidade entre elas depen-
análise evolutiva, os alinhamentos são exigi- derá da taxa de evolução do organismo ou da
dos em estudos de inferência estrutural e espécie (consultar capítulo 5). Ainda, a simi-
funcional de proteínas, análises de similarida- laridade entre sequências pode ser gerada
de e identificação de sequências e em estudos não somente por descendência, mas por
aplicados ao campo da genômica. pressão seletiva de um determinado ambien-
Através dos métodos de alinhamento, é te. Nestes casos, teremos regiões similares
possível obter informações a respeito da re- na sequência de nucleotídeos (ou aminoáci-
lação evolutiva entre organismos, indivíduos, dos) que surgiram de maneira independente,
genes ou entre sequências diversas (Figura sem qualquer relação de descendência, e
2a-3). Se duas sequências distintas podem evoluíram por convergência, não sendo por-
ser alinhadas com certo grau de similaridade, tanto homólogas. Assim, não é possível
é possível inicialmente assumir que elas com- quantificar a homologia entre as sequências
partilharam, em algum momento do tempo envolvidas, somente dizer se há ou não.
passado, um ancestral comum e, por isso, Quando identificamos quantos caracteres se
são evolutivamente relacionadas. A partir da repetem nas mesmas posições entre duas ou
separação destas sequências de seu ances- mais sequências estamos, de fato, verificando
tral comum, individualmente cada uma delas a identidade entre estas, e não a homologia.
3. Alinhamentos
Figura 2-3: Aplicações dos métodos de alinhamento de sequências biológicas. a) Inferência

filogenética a partir do alinhamento de quatro sequências de nucleotídeos. b) Inferência da
estrutura de uma proteína alvo (Desconhecida) a partir do alinhamento com uma sequência de
aminoácidos cuja estrutura tridimensional é conhecida (Conhecida). c) Inferência da função de
um domínio proteico a partir da comparação de sequências de aminoácidos. d) Comparação de
sequências de uma porção de determinado gene de indivíduos afetados e não afetados por uma
doença genética. Os asteriscos identificam colunas com total similaridade dos caracteres.
As técnicas de alinhamento vêm se centagem) revela padrões referentes à com-

mostrando fundamentais na construção de posição química e podem fornecer
algoritmos que visam comparar a informação embasamento para a definição de um arranjo
de diversas sequências biológicas. À exemplo tridimensional semelhante, principalmente no
do programa BLAST, estes algoritmos permi- caso de proteínas (Figura 2b-3). A mesma
tem comparar uma sequência alvo com mi- relação é feita para inferir a função de domí-
lhares de dados disponíveis em grandes nios de uma proteína recém-descoberta, ain-
bancos de armazenamento, fornecendo um da sem função definida. Sabendo que sua
valor de significância estatística associada a forma está diretamente relacionada à sua
esta comparação de similaridade. Devido à função, através da comparação com outras
facilidade de acesso e rapidez no processa- proteínas com estrutura e função já estabe-
mento de dados, estes programas vêm cada lecidas, é possível inferir a função realizada
vez mais ampliando as possibilidades e op- por determinado domínio da proteína sob in-
ções para o tipo de comparação ou pesquisa a vestigação (Figura 2c-3). Nestes casos, as
ser realizada. sequências envolvidas no alinhamento não
Os métodos de alinhamento podem ain- são necessariamente homólogas. Através do
da ser necessários para fornecer informa- fenômeno da evolução convergente, diferen-
ções a respeito da função e da estrutura de tes regiões codificantes do DNA podem gerar
sequências biológicas, particularmente nos produtos proteicos com funções similares,
alinhamentos de ribonucleotídeos e aminoáci- sem obrigatoriamente compartilharem um
dos (Figura 2-3). Nestes casos, a similaridade ancestral comum.
entre duas ou mais sequências (dada em por- Finalmente, as técnicas de alinhamento
3. Alinhamentos
têm grande importância para a análise de ge- entre tais estruturas. É importante destacar
nes e genomas. Com o aumento da disponibi- também a diferença entre alinhamento e so-
lidade de sequências nucleotídicas de breposição de estruturas. Apesar desses ter-
genomas completos, e mesmo com o surgi- mos ainda serem empregados na literatura
mento de modernas técnicas de biologia mo- como sinônimos, eles se referem a procedi-
lecular, como o microarray e deep mentos diferentes. Conforme mencionado
sequencing, os métodos de comparação per- acima, enquanto o alinhamento de estruturas
mitiram o entendimento a respeito da variabi- busca identificar equivalências entre pares de
lidade genética de indivíduos e populações. aminoácidos nas estruturas a serem sobre-
A comparação entre genomas de dife- postas, a sobreposição necessita desse co-
rentes espécies, ou até mesmo de indivíduos nhecimento prévio sobre as equivalências.
da mesma espécie, possibilita a análise de va- Sendo assim, a sobreposição estrutural busca so-
riações (mutações ou polimorfismos) nas se- lucionar um problema muito mais simples, ou seja, mi-
quências e, em alguns casos, permite a nimizar a distância entre dois resíduos já reconhecidos
identificação de relações entre variações no como equivalentes. Isso se dá por encontrar transfor-
DNA e susceptibilidade a determinadas doen- mações que satisfazem o menor desvio médio quadrá-
ças, beneficiando o campo da genética e áreas tico (RMSD) ou as equivalências máximas dentro de um
relacionadas. Adicionalmente, como um re- valor limite para o RMSD.
curso para a caracterização de eventos evo- Considerando que a estrutura das pro-
lutivos, os alinhamentos permitem análises teínas é mais conservada que a sequência, o
comparativas entre genomas. A abrangência alinhamento de estruturas confere maior es-
e importância evolutiva dos eventos de que- pecificidade ao alinhamento de sequências
bra e reparo de DNA, ou mesmo dos eventos quando comparado ao alinhamento de se-
de recombinação, inversões e translocações, quências independente de estrutura. A maio-
tem sido desvendados, primariamente, atra- ria dos métodos de sobreposição de
vés dos métodos de alinhamento. estruturas é adequado para identificar simi-
Além do alinhamento de sequências, o laridades entre estruturas proteicas. O ali-
alinhamento de estruturas constitui outra im- nhamento de duas ou mais estruturas,
portante ferramenta em estudos de bioinfor- porém, constitui uma tarefa mais difícil, e sua
mática. A metodologia é bastante diferente precisão depende tanto do método usado
daquela empregada em alinhamentos de se- quanto do objetivo do usuário.
quências, pois passamos de um problema uni-
dimensional para um problema 3.2. Alinhando sequências
tridimensional. Sua utilização passou a ser di-
fundida a partir de 1978, com o trabalho de À primeira vista, o processo de alinha-
Rossmann e Argos, comparando os sítios ati- mento entre diferentes sequências parece
vos de enzimas cujas estruturas eram conhe- simples e não sujeito a qualquer tipo de erro.
cidas até aquele momento. Os métodos de No entanto, esta afirmativa só é verdadeira
sobreposição simples de estruturas estão em casos onde os organismos envolvidos
disponíveis há mais tempo, tendo sido pro- possuem uma baixa taxa evolutiva (Figura 3a-
postos a partir da década de 1970, enquanto 3). Quando consideramos sequências homó-
os métodos de comparação e alinhamento se logas amostradas de organismos com alta
desenvolveram posteriormente, principal- taxa evolutiva, ou até mesmo sequências si-
mente a partir da década de 1990. milares, porém não homólogas, nos depara-
A comparação de estruturas se refere à mos com casos particulares que tornam o
análise de similaridades e diferenças entre processo de alinhamento complexo e, muitas
duas ou mais estruturas, enquanto o alinha- vezes, sujeito a uma interpretação especial-
mento de estruturas se refere à determina- mente subjetiva por parte do usuário (Figura
ção de quais aminoácidos seriam equivalentes 3b-3).
3. Alinhamentos
A comparação de sequências homólo- e nas proteínas, onde poderão gerar conse-

gas de organismos evolutivamente distantes quências moleculares. Erros de replicação
é um desafio para os programas de alinha- gerados pela DNA-polimerase durante a re-
mento. As diferentes pressões seletivas mol- plicação do DNA, ou mesmo os eventos de
dam os genomas de maneira imprevisível e, recombinação, são os principais fatores atre-
muitas vezes, acarretam a perda ou ganho de lados à geração destes indels nos genomas.
nucleotídeos ao longo do processo evolutivo. Em regiões codificadoras, estes eventos po-
Para estes casos, a adição de lacunas (gaps) dem acarretar mudanças no quadro de leitura
em matrizes de alinhamento, representadas da proteína e torná-la não funcional.
por “-”, é possível e muitas vezes necessária. Em termos analíticos, a inserção de la-
As lacunas representam um ou mais eventos cunas dificulta o processo de alinhamento e
de inserção ou deleção de nucleotídeos. Estes exige interpretações cautelosas. Para deter-
eventos, comumente chamados de “indels” (in minados casos, especialmente em análises
para inserção, e del para deleção), são fruto evolutivas e filogeográficas, é comum que
de processos mutagênicos (espontâneos ou regiões do alinhamento com determinado ní-
induzidos) e, dependendo da região atingida, vel de incerteza, especialmente regiões com
podem ser expressos nas moléculas de RNA grande número de lacunas, sejam eliminadas
Figura 3-3: Alinhamentos de nucleotídeos. a) Duas sequências homólogas originadas de

organismos com baixa taxa de evolução são dadas e seu alinhamento é proposto. b) Duas
sequências homólogas amostradas de organismos com alta taxa de evolução são dadas e
diferentes alinhamentos são propostos. Os hifens representam eventos de inserção ou deleção
únicos na sequência. Os asteriscos identificam colunas com total similaridade dos caracteres.
3. Alinhamentos
da análise. Contudo, até o momento não exis- e aplicadas para os mais diversos casos de
tem programas capazes de lidar com as lacu- comparação entre sequências de aminoácidos
nas de forma coerentemente biológica. (Figura 4b-3).
Apesar de sabermos que se tratam de even-
tos evolutivos comuns e bem caracterizados,
as incertezas sobre o número de eventos e
sua intensidade tornam as lacunas, em gran-
de parte dos casos, um fator de confusão pa-
ra análises de alinhamento.
Conforme mostrado na Figura 3-3, dife-
rentes alinhamentos são possíveis para um
mesmo grupo de sequências. A pergunta que
se segue é: como reconhecer o melhor resul-
tado quando nos deparamos com diversos Figura 4-3: Matrizes de custo utilizadas no
alinhamentos possíveis para um mesmo con- cálculo de pontuação dos alinhamentos. a)
junto de dados? Buscou-se resolver este pro- Matriz de custo exemplo utilizada para
blema através da criação de um sistema de cálculos de pontuação em alinhamentos de
pontuação para comparar os resultados de nucleotídeos. b) Matriz de custo BLOSUM62
diferentes alinhamentos. Caracteres idênticos utilizada para cálculo da pontuação em
em sequências diferentes representam igual- alinhamentos de aminoácidos.
dades ou correspondências (matches) e, por
serem resultados preferenciais durante o Ainda, é necessário que as lacunas de
processo de alinhamento, são pontuados po- alinhamentos recebam determinadas pontu-
sitivamente. Pelo contrário, caracteres não ações, pois são frequentemente encontradas
idênticos que ocupam a mesma coluna são em alinhamentos de dados biológicos. Se la-
chamados de desigualdades, ou mismatches, cunas podem ser adicionadas em qualquer
e recebem atribuições negativas. Como resul- posição sem qualquer restrição, tanto nas
tado, o melhor alinhamento possível para du- extremidades quanto no interior das sequên-
as sequências é aquele que maximiza a cias, é possível gerar alinhamentos com mais
pontuação total, somando os valores de lacunas do que propriamente caracteres a
matches e debitando os valores de serem comparados (Figura 3b-3, alinhamento
mismatches. 2). Com o intuito de prevenir inserção exces-
Do ponto de vista biológico, as mudan- siva, a adição de lacunas é penalizada durante
ças entre as bases nitrogenadas nas sequên- a atribuição da pontuação de uma sequência,
cias de nucleotídeos não ocorrem com a conforme um conjunto de parâmetros, cha-
mesma probabilidade (Figura 4a-3). Sendo mado de penalidades por lacuna (gap
assim, podemos atribuir valores de penalties, PL). A abrangência da lacuna é
mismatches diferentes às transições (trocas pontuada pelo respectivo número de indels
de purinas por purinas ou pirimidinas por piri- presentes no alinhamento. A fórmula mais
midinas) e às transversões (trocas de purinas comum para cálculo destas penalizações se-
por pirimidinas ou pirimidinas por purinas). gue abaixo:
Para sequências de aminoácidos, é necessário
escolher ativamente uma matriz de pontua- PL = g + e (L – 1)
ção específica. Essas matrizes são resultados
diretos de estudos de variação proteica e es- onde L é o tamanho da lacuna (número de
tão diretamente relacionadas à probabilidade indels presentes na lacuna), g é a penalidade
de substituição de um aminoácido por outro pela abertura da lacuna (necessária para evi-
(matrizes BLOSUM e PAM). Atualmente, as tar que os alinhamentos contenham lacunas
matrizes BLOSUM são as mais disseminadas desnecessárias) e e é a penalidade atribuída a
3. Alinhamentos
cada indel (novamente para evitar grandes enumerar todas as possibilidades. Os alinha-
lacunas sem necessidade). Os valores de pe- mentos gerados por estes programas são
nalidade por lacuna são desenhados para re- chamados heurísticos, e compreendem mé-
duzir a pontuação de um alinhamento quando todos aproximados de busca pelo resultado
este possui uma quantidade de indels desne- ótimo. Diferentes métodos foram criados pa-
cessária. Apesar da disseminação deste con- ra diferentes tipos de alinhamento (Figura 6-
ceito, não há qualquer relação matemática ou 3). Entre estes, devido à eficiência e à rapidez
biológica sustentando este cálculo. É impor- de processamento das informações de um
tante destacar que, através da propriedade de alinhamento, incluindo o cálculo de pontua-
“alinhamento livre de colunas em branco” (ou ção, os algoritmos de programação dinâmica
seja, gaps não são alinhados), as penalizações são, atualmente, os mais utilizados para este
ainda impedem o alinhamento de indels entre fim, tanto em alinhamentos simples como in-
as sequências envolvidas na análise. Assim, o tegrado aos algoritmos de alinhamentos
melhor alinhamento entre as sequências será múltiplos.
dado por um valor que resulta da soma dos É fundamental assumirmos, para a mai-
valores associados a cada um dos matches, or parte dos problemas em bioinformática, o
mismatches e lacunas, de acordo com um alinhamento como um modelo de relação
critério pré-definido (Figura 5-3). evolutiva entre as sequências envolvidas. E
O método de pontuação foi a solução como modelo, está sujeito à presença de cer-
encontrada para avaliar e classificar diferen- tos problemas na explicação dos eventos
tes alinhamentos em busca da melhor expli- evolutivos reais. Portanto, os alinhamentos
cação para a relação evolutiva entre as devem ser avaliados com extrema cautela. A
sequências. O próximo problema encontrado facilidade e a aparente simplicidade na análise
foi enumerar todas as possibilidades de ali- dos programas tornam o processo mecânico
nhamentos para um grupo de dados. Assu- e desvinculado de análises críticas pela maior
mindo-se duas sequências com tamanho de parte dos usuários. A associação dos méto-
100 caracteres cada, poderíamos enumerar dos de alinhamento a outras análises de bio-
até 1077 possíveis alinhamentos, diferentes informática tende a desvincular a real
entre si. A extensão de possibilidades inviabi- importância desta técnica e a coloca apenas
liza a enumeração de todos os casos devido como um procedimento, e não formalmente
ao tempo e ao requerimento de enorme pro- como uma técnica sujeita à análise crítica. Isto
cessamento destes dados. Apesar da exigên- pode ocasionar na obtenção de modelos in-
cia computacional, alguns algoritmos são corretos ou mesmo de falsos positivos.
capazes de realizar tal tarefa e ainda aplicar o
método de pontuação para cada um dos ca- 3.3. Tipos de alinhamento
sos, em busca do melhor resultado. No en-
tanto, estes algoritmos não são capazes de Em estudos de bioinformática, é comum
lidar com sequências que contenham mais compararmos moléculas de dois ou mais in-
que algumas dezenas de caracteres. Em vir- divíduos, sejam eles da mesma espécie ou de
tude da capacidade de explorar todas as so- espécies diferentes. Quanto maior o número
luções do problema, o processo realizado por de sequências comparadas, maior o tempo
estes algoritmos é chamado de “alinhamento exigido para conclusão do alinhamento e, de-
ótimo”. pendendo das sequências envolvidas, maior a
Contudo, em virtude da inerente demora dificuldade dos algoritmos em encontrar o
do processo, foi necessário desenvolver al- melhor resultado. Conforme a quantidade de
goritmos que acelerassem a busca de um ali- sequências envolvidas, podemos dividir os
nhamento capaz de explicar de maneira ótima alinhamentos em dois tipos: alinhamentos
os processos evolutivos para um determina- simples, ou par-a-par, e alinhamentos múlti-
do grupo de sequências sem, no entanto, plos, ou de múltiplas sequências (Figura 7-3).
3. Alinhamentos
Figura 5-3: Esquema de pontuação para avaliação de alinhamentos. a) Duas sequências de

desoxirribonucleotídeos não alinhadas. b) Proposição de um alinhamento para as sequências
dadas em a. O alinhamento possui 24 colunas de matches, 4 colunas de mismatches e duas
lacunas com 3 e 4 indels. A pontuação total para o alinhamento desta sequência é -7. c)
Proposição de um segundo alinhamento para as sequências dadas em a. O alinhamento possui
24 colunas de matches, 4 colunas de mismatches e três lacunas com 1, 2 e 4 indels. A
pontuação total para o alinhamento desta sequência é -8. A partir deste exemplo, o
alinhamento com a maior pontuação é o mostrado em b. Os valores de pontuação utilizados
neste exemplo são especificados na parte inferior da figura.
Os alinhamentos simples descrevem especifi- (Figura 7-3). Em algoritmos que buscam o

camente a relação de similaridade entre duas alinhamento global de duas sequências, re-
sequências quaisquer. Já os alinhamentos força-se a busca do alinhamento completo
múltiplos incluem três ou mais sequências na das sequências envolvidas, procurando incluir
análise de similaridade e, dependendo do ob- o maior número de matches do início ao final
jetivo do usuário, podem envolver até cente- das sequências. Quando necessário, estes al-
nas de sequências. goritmos permitem a inserção de lacunas pa-
Conceitualmente, ainda podemos dividir ra que as sequências tenham o mesmo
os alinhamentos, tanto simples, como múlti- tamanho no resultado do alinhamento (Figura
plos, em dois grandes tipos. Os alinhamentos 7b-3).
que levam em consideração toda a extensão Graficamente, os sítios com caracteres
das sequências são conhecidos como globais, idênticos são representados ligados por bar-
enquanto aqueles que buscam pequenas re- ras verticais, enquanto os sítios que possuem
giões de similaridade são chamados de locais caracteres diferentes nas duas sequências, ou
3. Alinhamentos
da disponibilidade de sequências completas

de proteínas, foi necessário buscar métodos
de alinhamento que privilegiassem a busca de
similaridade, não entre sequências completas,
mas apenas entre porções isoladas destas
sequências. Durante a década de 1980 iniciou-
se o desenvolvimento de novos algoritmos de
alinhamento, já que os desenvolvidos até
Figura 6-3: Tipos de alinhamento e os aquele momento não eram aplicáveis para
algoritmos aplicados à bioinformática. esta particularidade. Entre estes novos algo-
ritmos, o desenvolvido por Smith e
mesmo a presença de uma lacuna em uma Waterman, em 1981, ganhou maior destaque
delas, permanecem sem qualquer notação e atualmente é o principal algoritmo utilizado
(Figura 7-3). O principal algoritmo envolvido por programas para realização de alinhamen-
no processamento de alinhamentos globais é tos locais. Nestes casos, privilegia-se o ali-
aquele desenvolvido por Needleman e nhamento de partes da sequência, buscando
Wunsch durante a década de 1970. Além de apenas as regiões com a maior similaridade
ter uma notável importância metodológica, (Figura 7c-3). Em algoritmos para busca lo-
este algoritmo tem grande importância na cal, o alinhamento pára no final das regiões
história do alinhamento, pois foi o primeiro de alta similaridade e substitui as regiões ex-
algoritmo a aplicar o método de programação cluídas por hifens (lacunas) no resultado final
dinâmica para a comparação de sequências (Figura 7c-3).
biológicas.
Em seu início, os métodos de alinha- 3.4. Alinhamento simples
mento eram utilizados especialmente para a
comparação par-a-par de sequências de pro- Para entender como se processa um
teínas inteiras. No entanto, com a ampliação alinhamento par-a-par e como o grau de si-
Figura 7-3: Diferenças entre alinhamento local e global. a) Duas sequências de nucleotídeos de
tamanhos diversos são amostradas e alinhadas por algoritmos diferentes. b) No alinhamento
local, a prioridade é encontrar as regiões altamente similares, independentemente do tamanho
desta região. Neste caso, porções da sequência que não foram alinhadas com alta similaridade
foram excluídas do resultado final. c) No alinhamento global, as duas sequências são alinhadas
por completo, independentemente do número de lacunas que tenham que ser inseridas.
3. Alinhamentos
milaridade entre elas pode ser computado, um esquema de pontuação, seja ele referente
apresentamos três dos principais algoritmos a nucleotídeos ou aminoácidos. Da mesma
desenvolvidos para este fim: algoritmos de forma, é necessário fornecer um valor de pe-
programação dinâmica, análise de matriz de nalidade para a abertura e extensão das la-
pontos (dot matrix) e método de palavra ou k- cunas. A partir destas informações, o
tuple. algoritmo calculará uma relação entre todos
A programação dinâmica é, atualmente, os caracteres das sequências e fornecerá o
o método mais utilizado por programas para melhor alinhamento como resultado final.
realizar o alinhamento de sequências. Em ca- Como exemplo, consideraremos a Figu-
sos simples (par-a-par), é capaz de encontrar ra 8-3. São dadas duas sequências, sequência
o melhor alinhamento para duas sequências 1 e sequência 2, um esquema de pontuação e,
através da aplicação da pontuação de simila- para facilitar o entendimento do cálculo, um
ridades. É, portanto, um método de execução valor único de penalidade por lacuna de -8. O
relativamente rápida nos computadores mo- algoritmo toma as sequências e transforma a
dernos, requerendo um tempo e memória de relação entre elas em uma tabela, onde as li-
processamento proporcional ao produto do nhas são definidas pelos caracteres da se-
tamanho das duas sequências envolvidas. quência 01, e as colunas pelos caracteres da
O método é baseado no princípio de oti- sequência 02. A fim de permitir lacunas no
mização de Bellmann, e propõe a solução de início do alinhamento, o algoritmo impõe a in-
problemas complexos através da resolução serção de uma coluna e de uma linha iniciais
dos seus diversos subproblemas. Os subpro- contendo o símbolo de indel. A partir deste
blemas são resolvidos e seus resultados são ponto, para cada um dos elementos da ma-
armazenados pelo algoritmo. A vantagem triz, o algoritmo calculará a melhor pontua-
funcional da resolução em partes é que, ge- ção dos subcaminhos associados ao
ralmente, problemas complexos combinam alinhamento: uma substituição, uma inserção
uma série de subproblemas. Como o algorit- na sequência 01 ou uma inserção na sequência
mo acumula os resultados dos diferentes 2. Assim, o melhor subcaminho será calcula-
subproblemas, acelera a resolução do pro- do segundo uma função de pontuação, con-
blema complexo. Assim, a designação “pro- forme abaixo:
gramação” nada tem a ver com programação
de computadores, mas com a organização
dos resultados já solucionados para resolu-
ção de um problema maior. A partir do elemento (1,1) da matriz e ao
Conforme discutimos anteriormente, em longo da primeira linha, apenas a terceira
determinados casos, duas sequências podem condição é satisfeita (valor da célula à es-
apresentar diferentes alinhamentos. Se não querda + valor da penalidade por lacuna). Na
há indels e as sequências são similares, o ali- primeira coluna, apenas a segunda condição é
nhamento é rápido e não deixa dúvidas. No satisfeita. Para outros elementos, as três
entanto, quando existe certa diversidade en- condições devem ser calculadas e aquela que
tre as sequências envolvidas e uma quantida- resultar no maior valor é escolhida para for-
de suficiente de indels, a solução para o mar a matriz. Além disso, os procedimentos
alinhamento é menos óbvia visualmente. dos algoritmos de programação dinâmica po-
Nestes casos, os algoritmos de programação dem ser representados por pequenas setas
dinâmica buscarão solucionar os subproble- para indicar qual subcaminho obteve o melhor
mas envolvidos e fornecerão o melhor resul- valor (Figura 8-3).
tado. Outro método importante na área de
Para cálculo do melhor alinhamento en- alinhamento de sequências é a análise de ma-
tre duas sequências, o algoritmo de progra- triz de pontos ou matriz dot. É um método
mação dinâmica necessita da especificação de simples e bastante eficiente em análises de
3. Alinhamentos
Figura 8-3: Alinhamento de duas sequências de nucleotídeos através do método de

programação dinâmica. a) As sequências a serem alinhadas são dispostas em uma tabela onde
o número de colunas corresponde ao número de caracteres da sequência 1 mais um (devido à
adição de uma coluna para uma lacuna) e o número de linhas corresponde ao número de
caracteres da sequência 2 mais um. O caractere atribuído à primeira linha e à primeira coluna é,
por definição, o símbolo “-“, atribuído a uma lacuna. Através da matriz de penalidades calculam-
se os valores para as três possibilidades F(i,j), buscando a equação que resulte no maior valor.
O valor arbitrário de penalidade por lacuna (PL) é de -8. Em virtude de a primeira linha não
possuir valores de comparação na diagonal superior esquerda e acima, considera-se apenas a
terceira equação. b) O valor demarcado em verde é o primeiro a ser calculado após o
preenchimento da primeira linha e primeira coluna, representando o menor valor encontrado no
cálculo para F(i,j). Além do cálculo, o algoritmo de programação dinâmica insere informações a
respeito da direção da informação. Como o valor “1” foi o maior valor encontrado e representa o
cálculo utilizando a informação situada na diagonal superior esquerda, demarcada em verde,
insere-se uma seta nesta direção. c) O preenchimento completo da tabela e as respectivas setas
ilustrando a direção da informação. Algumas casas estão demarcadas com duas setas, pois
apresentaram dois valores máximos idênticos na resolução das equações. Ao final dos cálculos,
iniciando pelo canto inferior direito, seguem-se as setas em busca dos maiores valores. d)
Relacionando os dados da tabela com a simbologia apresentada, chega-se ao alinhamento final
entre as sequências 1 e 2.
3. Alinhamentos
deleções/inserções e para detectar repetições sequências é disposta na vertical e a outra na

diretas ou inversas, especialmente em se- horizontal (Figura 9-3). Regiões do gráfico
quências de nucleotídeos. Além disso, vem que possuam o mesmo caractere tanto na
sendo utilizado para buscar regiões de parea- sequência disposta na horizontal, quanto na
mentos intra-cadeia capazes de formar es- sequência disposta na vertical, serão assina-
truturas 2árias em moléculas de RNA. Este lados. Esta marcação representa os possíveis
método permite a visualização gráfica das correspondências (matches) entre uma se-
regiões de similaridade entre sequências quência e outra.
através da construção de uma matriz de Qualquer região de similaridade entre as
identidade. O número de linhas desta matriz é duas sequências será evidenciada por uma li-
definido pelo número de caracteres de uma nha diagonal de assinalações. Pontos não dis-
das sequências, e o número de colunas é de- postos na diagonal representam
finido pelo número de caracteres da outra correspondências aleatórias que não estão
sequência a ser comparada (Figura 9-3). É relacionadas com a similaridade entre as se-
primariamente um método visual, e não for- quências. A detecção de regiões de alta simi-
nece o alinhamento propriamente dito como laridade pode ser beneficiada, em alguns
resultado final, embora seja frequentemente casos, através da comparação de dois ou
utilizado quando se deseja visualizar as re- mais caracteres ao mesmo tempo. Nestes
giões de similaridade entre duas sequências. casos, é necessário escolher um número de
caracteres como janela.
Além disso, arbitrariamente, um número
de correspondências deve ser escolhido. Por
exemplo, para comparar duas sequências
com 100.000 caracteres, podemos escolher
uma janela de 15 caracteres e 10 correspon-
dências requeridas. O algoritmo varrerá a
matriz de 15 em 15 caracteres e, quando, en-
tre estes quinze caracteres, existirem 10 for-
mando correspondências entre as duas
sequências, o algoritmo inserirá uma marca-
ção de similaridade. Geralmente, esta varia-
ção do método é utilizada para a comparação
de longas sequências de DNA.
Por último, outro algoritmo bastante
Figura 9-3: Análise de matriz de pontos de comum no alinhamento par-a-par de dados
duas sequências de DNA. Os pontos biológicos é o k-tuple, ou método de palavras.
assinalados em cinza representam a Este método é geralmente mais rápido que o
concordância de caracteres entre a sequência método de programação dinâmica, embora
1 e a sequência 2. A partir da diagonal direita não garanta o melhor alinhamento como re-
inferior, são traçadas diferentes retas. Aquela sultado. Este tipo de algoritmo é especial-
que atingir o maior número de pontos mente útil em casos onde se busca
assinalados deve ser escolhida como similaridade de uma única sequência contra
resultado para o alinhamento entre as duas um grande conjunto de dados. Para isso, o al-
sequências. A linha contínua representa a goritmo dividirá uma sequência alvo em pe-
possibilidade mais adequada a esta análise e quenas sequências, geralmente conjuntos de
as linhas tracejadas representam dois a seis caracteres, chamados de palavras.
possibilidades de insucesso. Da mesma forma, o conjunto total de se-
quências do banco de dados terá cada uma
Neste método, inicialmente, uma das das sequências subdivida em pequenas pala-
3. Alinhamentos
vras. As palavras da sequência alvo serão Alinhamento progressivo

comparadas às palavras oriundas do banco
de dados. Após a busca de identidade, o algo- Leva em consideração a relação evolu-
ritmo alinhará as duas sequências completas tiva entre as sequências. Os algoritmos utili-
(sequência oriunda do banco de dados que te- zam as relações filogenéticas para gerar o
ve uma palavra similar com umas das pala- resultado de alinhamento. Inicialmente, são
vras da sequência alvo e a própria sequência realizados alinhamentos par-a-par de todos
alvo) a partir das palavras similares e esten- os possíveis pares. Nesta comparação, verifi-
derá a análise de similaridade para as regiões ca-se apenas o número de caracteres dife-
vizinhas, antes e depois da palavra similar. rentes entre as duas sequências (verificar o
Através de uma matriz de penalidade, o algo- conceito de distância evolutiva observada no
ritmo calculará o alinhamento que teve o capítulo 6). Estas distâncias serão utilizadas
maior valor de pontuação. É comum, para es- para a construção de uma filogenia (geral-
ta segunda etapa dos cálculos de similarida- mente através do método de neighbor-
de, a utilização de algoritmos de programação joining). A partir desta filogenia o alinhamento
dinâmica. será construído progressivamente, depen-
dendo da relação entre as sequências sendo,
3.5. Alinhamento múltiplo global por isso, chamado de alinhamento progressi-
vo.
Da mesma forma que no caso dos ali- Tomemos como exemplo um ramo de
nhamentos simples, o método de programa- uma dada filogenia que inclui duas sequências.
ção dinâmica é usualmente utilizado para lidar O algoritmo construirá um alinhamento atra-
com múltiplas sequências. Nestes casos, uti- vés de programação dinâmica para estas du-
liza-se o conceito de soma ponderada dos pa- as sequências. A partir deste primeiro
res (weighted sum of pairs, WSP). Através alinhamento, estas duas sequências serão
deste conceito, para qualquer alinhamento agora tratadas como uma, e serão alinhadas
múltiplo de sequências, uma pontuação para à próxima sequência filogeneticamente rela-
cada par possível formado por estas sequên- cionada. Devemos notar que todo o restante
cias será calculada (Figura 8-3) e, ao final, os das sequências será alinhado baseando-se
valores de similaridade para cada um dos pa- neste primeiro par. É um método rápido e
res serão somados. Apesar de conceitual- amplamente utilizado para alinhar um grande
mente simples, este método exige grande número de sequências. Atualmente, os pro-
capacidade computacional e, dependendo da gramas mais populares de alinhamento pro-
quantidade de sequências envolvidas, pode gressivo são o CLUSTALW e CLUSTALX.
requerer longo tempo para processamento.
Métodos alternativos tiveram que ser Pontuação baseada em consistência
criados para acelerar os cálculos para alinha-
mento de sequências, incluindo-se: alinha- Baseado no algoritmo de alinhamento
mento progressivo, pontuação baseada em progressivo, não leva em consideração ape-
consistência (consistency-based scoring), nas o primeiro par de sequências alinhadas.
métodos iterativos de refinamento, algorit- Durante a realização do cálculo, realiza outros
mos genéticos e modelos ocultos de Markov. alinhamentos par-a-par para aperfeiçoar as
Cabe ressaltar que todos estes métodos rea- comparações entre as sequências. O principal
lizam buscas aproximadas pelo resultado óti- programa a utilizar este algoritmo é o T-
mo e, portanto, se tratam de métodos COFFEE.
heurísticos.
Métodos iterativos de refinamento
Funcionam como os algoritmos de ali-
3. Alinhamentos
nhamento progressivo, mas os grupos de se- ra avaliar a probabilidade em cada posição ou

quências são realinhados constantemente ao para buscar sequências com o mesmo padrão
longo das análises, garantindo que o alinha- em um banco de dados.
mento inicial não defina o resultado final. O A desvantagem do método de perfis
principal programa a utilizar este algoritmo está na especificidade da nova matriz de custo
como base para os cálculos de alinhamento é obtida. Se o alinhamento inicial contiver pou-
o MUSCLE. cas sequências, pode não representar ade-
quadamente a variabilidade de caracteres em
Algoritmos genéticos uma determinada posição e prejudicar o al-
goritmo na busca por similaridade com outras
Estes algoritmos buscam simular o sequências. Este método é principalmente
processo evolutivo no conjunto de sequências utilizado para alinhamentos de aminoácidos.
a serem alinhadas, aplicando conceito de se-
leção e recombinação. É ainda um método Análise de blocos
lento e, devido à aleatoriedade do processo,
não garante o mesmo resultado para dife- Assim como a análise de perfis este
rentes alinhamentos do mesmo conjunto de método requer, inicialmente, a seleção da re-
dados. O programa SAGA é um dos poucos a gião de maior similaridade de um alinhamento
implementar algoritmos genéticos. múltiplo. Estas regiões podem ser chamadas
de blocos e diferem dos perfis por não aco-
Modelos ocultos de Markov modarem indels, que serão automaticamente
eliminados das análises. Este método é tam-
Modelo baseado em probabilidades es- bém capaz de realizar a busca de pequenas
tatísticas, destacando os eventos de substi- regiões de similaridade entre sequências, de
tuição e inserção ou deleção de caracteres. maneira semelhante ao método de palavras.
3.6. Alinhamento múltiplo local Análise de motivos

Na busca por regiões localizadas de si- Este método é especialmente utilizado
milaridade entre diferentes sequências, são na busca por motivos proteicos em sequênci-
aplicados principalmente os seguintes algo- as de aminoácidos. O método foi desenvolvido
ritmos: análise de perfis, análise de blocos e através do alinhamento de milhares de se-
análise de motivos. quências de aminoácidos extraídas de gran-
des bancos de dados de proteínas. A partir
Análise de perfis deste alinhamento, analisou-se cada uma das
colunas para buscar um padrão de substitui-
A partir de um alinhamento primário de ção entre os aminoácidos. Estes padrões de
todas as sequências envolvidas na análise e mudança refletem uma maior probabilidade
utilizando uma matriz de custo padrão, o al- de substituição. Para proceder ao alinhamen-
goritmo seleciona as regiões altamente con- to, os algoritmos que aplicam a análise de
servadas e produz uma nova matriz de motivos iniciam o processo por uma análise
pontuação (matriz de custo), chamada de de blocos. As regiões de alta similaridade são
perfil. A construção deste perfil pode ser re- então analisadas para buscar os padrões de
alizada através de dois métodos diferentes substituição descritos inicialmente. O conjunto
(método das médias e método evolutivo) e de padrões resultante da análise das colunas
inclui pontuações para matches, mismatches é chamado de motivo. A probabilidade de
e lacunas. Assim que produzido, este perfil existência de cada motivo em uma sequência
pode ser utilizado para alinhar sequências en- de proteína é estimada através do banco de
tre si utilizando as pontuações calculadas pa- dados do SwissProt.
3. Alinhamentos
3.7. BLAST proteica genérica incluem:

i. Remoção de repetições ou regiões de
O BLAST, ou Ferramenta de Busca por baixa complexidade na sequência de
Alinhamento Local Básico (Basic Local busca.
Alignment Search Tool) é um algoritmo capaz Uma região de baixa complexidade é definida como
de realizar buscas baseadas em alinhamento uma região composta por poucos tipos de elementos.
que, apesar de não serem exatas, são confiá- Essas regiões normalmente apresentam pontuações
veis e muito rápidas, sendo estas suas vanta- altas que podem confundir o programa em sua busca
gens em relação a outros métodos. Ele é um por sequências com similaridade significativa. Por esse
dos programas mais usados em Bioinformá- motivo, tais regiões são identificadas antes da próxima
tica devido à velocidade em que consegue etapa e ignoradas.
responder a um problema fundamental em ii. Estabelecer uma lista de palavras
biologia celular e molecular: comparar uma com k-letras.
sequência desconhecida com aquelas deposi- Sendo este um caso envolvendo sequências protei-
tadas em bancos de dados. cas, k = 3, ou seja, cada palavra tem tamanho 3. Como
O algoritmo do BLAST aumenta a velo- mostrado na Figura 10-3, são listadas palavras com
cidade do alinhamento de sequências ao bus- comprimento de 3 caracteres, sequencialmente, até
car primeiro por palavras comuns (ou que a última letra da sequência de busca seja incluída.
k-tuples) na sequência de busca e em cada
sequência do banco de dados. Em vez de bus-
car todas as palavras de mesmo tamanho, o
BLAST limita a busca àquelas palavras que
são mais significantes. O tamanho de palavra
é fixado em 3 caracteres para sequências de
aminoácidos e em 11 para sequências de nu-
cleotídeos (3 se as sequências forem traduzi-
das nos 6 quadros de leitura possíveis). Esses
são os tamanhos mínimos para obter uma
pontuação por palavras que seja alta o sufici- Figura 10-3: Exemplo de lista de palavras
ente para ser significativa sem perder frag- geradas pelo BLAST.
mentos menores, mas importantes, de
sequência. iii. Listar as possíveis palavras corres-
pondentes.
Funcionamento do algoritmo BLAST Diferente de outros algoritmos (como o FASTA), o
BLAST considera apenas as palavras de maior pontua-
Para funcionar, o BLAST necessita de ção. As pontuações são estabelecidas por comparação
uma sequência de busca (query) e de sequên- das palavras listadas na etapa ii com todas as outras
cias alvo. Comumente, as sequências alvos palavras de 3 letras. Uma matriz de substituição
são o conjunto de sequências depositadas em (BLOSUM62) é usada para pontuar as comparações
um banco de dados, local ou na web. Um dos entre pares de resíduos. Existem 203 possíveis pontua-
conceitos principais empregados pelo BLAST ções de correspondência considerando uma palavra de
é de que alinhamentos estatisticamente signi- 3 letras. Como exemplo, a comparação das palavras
ficantes contêm pares de segmentos de alta PQG e PEG tem pontuação de 15, enquanto a compara-
pontuação (HSP, high-scoring segment pairs), ção de PQG com PQA pontua como 12. A seguir, um li-
e são esses HSPs que o algoritmo busca entre miar T para pontuação de palavras vizinhas é usado
a sequência sendo analisada e aquelas depo- para reduzir o número de possíveis palavras corres-
sitadas no banco de dados. pondentes. As palavras cujas pontuações forem maio-
As principais etapas do funcionamento res que o limiar T serão mantidas na lista de possíveis
do algoritmo BLAST, para uma sequência correspondências, enquanto aquelas cujas pontuações
3. Alinhamentos
forem menores serão descartadas. Considerando o ex- regiões de correspondência exata com distância menor
emplo anterior, se T = 13, PEG será mantida, enquanto que A na mesma diagonal serão unidas como uma nova
PQA será abandonada. região, mais extensa. Posteriormente, essas regiões
iv. Organizar as palavras de alta pontu- são estendidas da mesma maneira como ocorre no
ação. BLAST original, com os HSPs sendo pontuados com
As palavras remanescentes, com alta pontuação, base em uma matriz de substituição.
são organizadas em uma árvore de busca. Isso permite
que o programa compare as palavras com as sequên-
cias do banco de dados de maneira rápida.
v. Repetir os passos iii e iv para cada
palavra de k-letras originadas da se-
quência de busca.
vi. Varrer as sequências do banco de
dados em busca de correspondências
com as palavras remanescentes.
O BLAST realiza uma varredura das sequências de-
positadas no banco de dados, buscando pelas palavras
de alta pontuação (como PEG, no exemplo anterior). Se
uma correspondência exata for encontrada, ela será
empregada para nuclear um possível alinhamento sem Figura 12-3: Esquema da extensão de zonas
lacunas (gaps) entre a sequência de busca e a deposi- de correspondência entre sequências
tada no banco de dados. identificadas pelo BLAST.
vii. Estender as correspondências exa-
tas entre pares de segmentos de alta viii. Listar todos os HSPs do banco de
pontuação. dados cuja pontuação seja alta o sufici-
A versão original do BLAST estende o alinhamento ente.
para a esquerda e para a direita de onde ocorre uma Nessa etapa são listados todos os pares de seg-
correspondência exata. A extensão é parada apenas mentos cuja pontuação seja maior que um determina-
quando a pontuação acumulada pelo HSP começa a dido ponto de corte S. A distribuição de pontuações
minuir (um exemplo pode ser visto na Figura 11-3). obtidas por alinhamento de sequências aleatórias é a
base para determinação desse ponto de corte.
ix. Avaliar a significância da pontuação
dos HSPs.
A avaliação estatística de cada par de segmentos de
alta pontuação explora a Distribuição de Valores Extre-
mos de Gumbel. O valor de confiança estatística e
apresentado pelo BLAST, chamado de valor de expec-
tativa, reflete o número de vezes que uma sequência
não relacionada presente no banco de dados pode ob-
ter, ao acaso, um valor maior que S (ponto de corte).
Figura 11-3: Exemplo do esquema de Ou seja, o e reflete o número de falsos positivos entre
pontuação empregado pelo BLAST. os resultados de similaridade encontrados. Para p < 0,1,
o valor e se aproxima da distribuição de Poisson (ver
Para acelerar o processo, a versão atual do BLAST item 4.8).
(BLAST2 ou Gapped BLAST) emprega um limiar mais x. Transformar duas ou mais regiões de
baixo para a vizinhança das palavras, mantendo a sen- HSP em um alinhamento maior.
sibilidade na detecção de similaridade de sequências. Em alguns casos, duas ou mais regiões de HSP po-
Assim, a lista de possíveis correspondências obtidas na dem ser combinadas em um trecho maior de alinha-
etapa iii é maior. Como observado na Figura 12-3, as mento (uma evidência adicional da relação entre a
3. Alinhamentos
sequência de busca e a encontrada no banco de dados). sentes no banco de dados especificado

Existem dois métodos para comparar a significância pelo usuário.
das novas regiões ligadas. Se, por exemplo, forem en- ii. blastp: BLAST proteína-proteína.
contradas duas regiões de HSP combinadas com pares Usando uma sequência proteica como
de pontuação (67 e 41) e (53 e 45), cada método se entrada, dá como resultado as sequên-
comportará de maneira diferente. O método de Poisson cias proteicas mais similares presentes
conferirá maior significância ao conjunto com valor mí- no banco de dados especificado pelo
nimo maior (45 em vez de 41). O método de soma dos usuário.
pontos, ao contrário, dará preferência ao primeiro con- iii. blastpgp: BLAST iterativo com espe-
junto, pois 108 (67+41) é maior que 98 (53+45). O cificidade de posição (PSI-BLAST). Usado
BLAST original usa o primeiro método, enquanto o para encontrar proteínas distantemente
BLAST2 emprega o segundo. relacionadas. Nesse caso, uma lista de
xi. Exibir os alinhamentos locais entre a proteínas proximamente relacionadas é
sequência de busca e cada uma das criada. Essa lista serve de base para a
correspondências no banco de dados. criação de uma sequência média, que
O BLAST original produz apenas alinhamentos sem resume as características importantes
lacunas (gaps), incluindo cada um dos HSPs encontrado conjunto de sequências. A sequência
dos inicialmente, mesmo que mais de uma região de média é usada para buscar sequências
correspondência seja encontrada numa mesma se- similares no banco de dados e um grupo
quência do banco de dados. O BLAST2 produz um único maior de proteínas é encontrado. O gru-
alinhamento com lacunas, podendo incluir todas as re- po maior é usado na construção de uma
giões de HSP encontradas. É importante destacar que o nova sequência média e o processo é
cálculo da pontuação e do valor e leva em conta as pe- repetido. Ao incluir proteínas relaciona-
nalidades por abertura de lacunas no alinhamento. das na busca, o PSI-BLAST é muito mais
xii. Registrar as correspondências en- sensível na percepção de relações evo-
contradas. lutivas distantes que o BLAST proteína-
Quando o valor e dos alinhamentos encontrados proteína tradicional.
entre a sequência de busca e as do banco de dados sa- iv. blastx: tradução de nucleotídeos em
tisfazem o ponto de corte estabelecido pelo usuário, a 6 quadros-proteína. Compara os produ-
correspondência é registrada. Os resultados da busca tos de tradução conceitual nos 6 qua-
são apresentados de forma gráfica, seguidos por uma dros de leitura de uma sequência de
lista de correspondências organizada pela pontuação e nucleotídeos contra o banco de dados
pelo valor e, e finalizam com os alinhamentos. A Figura de sequências proteicas.
13-3 traz um exemplo de resultado obtido pelo BLAST. v. tblastx: tradução de nucleotídeos em
6 quadros-tradução de nucleotídeos em
Diferentes tipos de BLAST 6 quadros. O mais lento dos programas
BLAST, tem por objetivo encontrar rela-
O BLAST constitui uma família de pro- ções distantes entre sequências de nu-
gramas, que podem ser usados para diferen- cleotídeos. Ele traduz a sequência de
tes fins, dependendo das necessidades do nucleotídeo nos 6 possíveis quadros de
usuário. Esses programas variam quanto ao leitura e compara os resultados contra a
tipo de sequência de busca, o banco de dados tradução nos 6 quadros de leitura das
a ser empregado, e o tipo de comparação a sequências de nucleotídeos depositadas
ser realizada. As diferentes aplicações dispo- no banco de dados.
níveis pelo BLAST incluem: vi. tblastn: proteína-tradução de nucle-
i. blastn: BLAST nucleotídeo-nucleotí- otídeos em 6 quadros. Compara uma
deo. Usando uma sequência de DNA co- sequência de proteína contra a tradução
mo entrada, dá como resultado as nos 6 quadros de leitura das sequências
sequências de DNA mais similares pre- de nucleotídeos depositadas no banco
3. Alinhamentos
Figura 13-3: Exemplo de um resultado de busca realizada pelo BLAST. Diferentes informações
são apresentadas: 1) representação gráfica de domínios conservados identificados na
sequência; 2) representação gráfica de matches, indicando qualidade do alinhamento e
cobertura das sequências identificadas; 3) informações estatísticas dos resultados encontrados,
incluindo identidade e valor e; 4) alinhamento de cada sequência encontrada com a sequência de
busca (query).
de dados. dados. Os resultados são pós-analisa-

vii. megablast: para empregar um gran- dos em busca de alinhamentos individu-
de número de sequências de busca. ais.
Quando se compara um grande número
de sequências de busca (especialmente 3.8. Significância estatística
no BLAST por linha de comando), o
megablast é muito mais rápido que o Em determinados casos, especialmente
BLAST executado por várias vezes separa buscar evidência de homologia entre se-
guidas. Ele agrupa muitas sequências de quências, o alinhamento é analisado sob o
busca, formando uma grande sequência, ponto de vista estatístico. Nessa óptica, po-
antes de realizar a busca no banco de demos calcular quão bom pode ser um ali-
3. Alinhamentos
nhamento simplesmente levando em consi- a homologia destas sequências, dado que se-
deração as razões de chance de alinhamento quências não relacionadas podem conter si-
entre nucleotídeos quaisquer. Para isso, se- milaridades devido à evolução convergente.
quências de nucleotídeos ou aminoácidos são
geradas aleatoriamente, alinhadas em con- 3.9. Alinhamento de 2 estruturas
junto e avaliadas, segundo um determinado
esquema de pontuação. Para alinhamentos O alinhamento de estruturas é um pro-
globais, pouco se sabe a respeito destas dis- blema matematicamente complexo que só
tribuições randômicas. No entanto, felizmen- pode ser resolvido por algoritmos heurísticos.
te, estas técnicas são bem entendidas para A Figura 14-3 apresenta um exemplo de ali-
casos de alinhamentos locais e, atualmente, nhamento estrutural simples. Diferentes al-
são amplamente utilizadas para a avaliação goritmos oferecem resultados diferentes
de similaridade, especialmente em bancos de para o alinhamento, e algumas vezes essas
dados que comportam grande quantidade de diferenças são grandes. Por esse motivo é
sequências. importante testar diferentes programas de
Para analisar a probabilidade associada alinhamento estrutural. Cada um deles tem
a determinado alinhamento é necessário, ini- pontos fortes e fracos, que podem ser explo-
cialmente, gerar um modelo aleatório das se- rados a partir da leitura dos artigos que os
quências em análise. Esses novos propuseram originalmente.
alinhamentos serão pontuados seguindo um
determinado esquema de pontuação. Neste
contexto, será calculada a probabilidade de se
obter aleatoriamente uma pontuação pelo
menos igual à pontuação do alinhamento ori-
ginal. O valor associado aos múltiplos testes
realizados é chamado de valor e (e-value).
Para banco de dados, este valor corresponde
ao número de distintos alinhamentos, com
uma pontuação igual ou melhor, que são es-
perados ocorrer na busca por sequências si-
milares simplesmente por razões de chance
(aleatórios). Estes cálculos estatísticos levam
em consideração a pontuação do alinhamento
e o tamanho do banco de dados. Quanto me-
nor o valor e, menor o número de chances de
uma determinada sequência ser alinhada ale-
atoriamente com outras e, portanto, mais
significante é o resultado. Por exemplo, um Figura 14-3: Exemplo de alinhamento de duas
valor e de 1e-3 (1x10-3 ou 0,001) significa que estruturas proteicas, oriundas de diferentes
há a chance de 0,001 de que a sequência alvo organismos: hemoglobina humana e
seja alinhada com uma sequência aleatória do mioglobina de elefante-asiático.
banco de dados. Por exemplo, em um banco
de dados que contém 10.000 sequências, Existem três etapas essenciais para as
neste caso, esperaríamos encontrar até 10 diferentes estratégias de alinhamento estru-
outras sequências que alinharão significativa- tural: a representação, a otimização e a pon-
mente com a sequência alvo. É importante tuação. A representação se refere às
ressaltar que o fato de encontrarmos um va- maneiras de representar as estruturas de
lor e próximo de zero na comparação entre uma forma que não seja dependente de coor-
duas sequências não necessariamente denota denadas espaciais e que seja adequada ao ali-
3. Alinhamentos
nhamento. A otimização lida com a amostra- SARF2: transforma as coordenadas em um conjun-

gem do espaço de possíveis soluções para o to de elementos de estrutura 2ária. Posteriormente,
alinhamento entre as estruturas. A pontuação avalia pares desses elementos comparando o ângulo
lida com a classificação dos resultados obti- entre eles, a menor distância entre seus eixos e as dis-
dos e com sua significância estatística. A se- tâncias mínimas e máximas entre cada elemento e a li-
guir apresentamos as características nha média. Um otimizador baseado em grafos é
específicas de alguns dos métodos mais utili- empregado para obter o maior número de conjuntos
zados para o alinhamento de duas estruturas. mutuamente compatíveis, e então o alinhamento final é
DALI: emprega matrizes de distâncias para repre- calculado por adição de mais resíduos até que um valor
sentar as estruturas, transformando as estruturas 3D mínimo de RMSD, definido pelo usuário, seja atingido. A
em conjuntos 2D de distâncias entre Cα. Se imaginar- pontuação final do alinhamento é calculada como fun-
mos a sobreposição das matrizes, as regiões de sobre- ção do RMSD e do número de Cα pareados entre as es-
posição na diagonal representam similaridades na truturas. A significância estatística é obtida por
estrutura 2ária (similaridades no esqueleto polipeptídi- comparação à distribuição de pontuações obtidas pelo
co), e similaridades fora da diagonal representam simi- alinhamento da proteína leghemoglobina a centenas de
laridades na estrutura 3ária. As matrizes são então estruturas não redundantes.
divididas em matrizes menores, de tamanho fixo, com CE: representa as proteínas como conjuntos de dis-
base nas similaridades encontradas. Cada submatriz é tâncias entre Cα de oito resíduos consecutivos na es-
unida a outras que sejam adjacentes para obter a ma- trutura. Primeiramente, são identificados todos os
triz de sobreposição com maior abrangência. A signifi- pares de octâmeros compatíveis entre as estruturas.
cância estatística do alinhamento é calculada com base Posteriormente, um algoritmo de extensão combina-
na distribuição encontrada em uma comparação de tória identifica e combina os pares mais similares entre
centenas de estruturas de baixa identidade. A pontua- as estruturas, adicionando mais pares a cada etapa do
ção é apresentada como número de desvios-padrão cálculo até a obtenção do melhor alinhamento. A signi-
em relação a tal distribuição. ficância estatística é dada por comparação às pontua-
SSAP: cria vetores ligando resíduos a partir dos Cβ, ções obtidas em um conjunto de alinhamentos entre
representando a estrutura em duas dimensões, consi- estruturas com menos de 25% de identidade de se-
derando posição e direção. Um algoritmo de progra- quência.
mação dinâmica identifica similaridades entre as MAMMOTH: transforma as coordenadas da proteína
matrizes de vetores, gerando uma nova matriz que é em um conjunto de vetores unitários a partir dos Cα de
posteriormente recalculada considerando as diferen- heptâmeros consecutivos. A similaridade entre heptâ-
ças entre cada posição de similaridade encontrada na meros é calculada pela sobreposição de seus vetores,
primeira etapa em relação às outras posições de simi- a matriz de similaridade ótima é identificada e então o
laridade, até que uma matriz ótima seja atingida. A melhor alinhamento local entre estruturas é identifica-
pontuação do SSAP não é estatística, mas foi calibrada do dentro de um valor de RMSD pré-definido. A signifi-
em relação ao banco de dados CATH. Assim, uma pon- cância estatística é dada pelo valor p, baseado na
tuação maior que 70 indica similaridade entre as estru- comparação com a pontuação de alinhamentos obtidos
turas comparadas. aleatoriamente.
VAST: cria vetores a partir de elementos de estru- SALIGN: representa as proteínas por um conjunto
tura 2ária cujo tipo, direção e conexão estão relaciona- de propriedades ou características calculadas a partir
dos com a topologia da proteína. Esses elementos da sequência e da estrutura ou definidas arbitraria-
(fragmentos) de estrutura 2ária são alinhados e compa- mente pelo usuário. Tais propriedades incluem tipo de
rados com alinhamentos gerados aleatoriamente. Ali- resíduo, distância entre resíduos, acessibilidade da ca-
nhamentos com boa pontuação são agrupados e deia lateral, estrutura 2ária, conformação local da es-
depois realinhados usando um procedimento de otimi- trutura e característica a ser definida pelo usuário. O
zação por Monte Carlo. A significância estatística é da- programa calcula uma matriz de dissimilaridade entre
da pelo valor p (assim como ocorre no BLAST). O valor propriedades equivalentes, e a pontuação da dissimila-
p é proporcional à probabilidade de se obter o alinha- ridade é calculada pela soma das matrizes de cada ca-
mento ao acaso. racterística. A melhor sobreposição de matrizes é
3. Alinhamentos
obtida por um algoritmo baseado em programação di- CE-MC: realiza o refinamento de um conjunto de ali-
nâmica. A significância estatística não é calculada pelo nhamentos de pares de estruturas empregando uma
SALIGN e o usuário obtém apenas os valores da pontu- técnica de otimização de Monte Carlo. O algoritmo mo-
ação de dissimilaridade. O programa fornece, entre- difica o alinhamento múltiplo aleatoriamente, e as mo-
tanto, um valor adicional de qualidade, apresentado dificações são aceitas se houver melhoria na
como porcentagem de Cα cuja distância é menor que pontuação do alinhamento. O processo encerra quando
3,5 Å entre os pares de estruturas alinhadas. o alinhamento múltiplo não puder mais ser melhorado
por modificações aleatórias.
MAMMOTH-Mult: essa extensão do MAMMOTH gera
inicialmente todos os alinhamentos de estruturas aos
3.10. Alinhamento de >2 estruturas pares. Um procedimento de organização por médias é
empregado para agrupar as estruturas com base em
A maior parte dos métodos disponíveis suas similaridades aos pares, gerando uma árvore. O
para o alinhamento múltiplo de estruturas alinhamento múltiplo é gerado por reorganização des-
inicia-se estabelecendo todos os alinhamentos sa árvore, onde ramos similares vão sendo agrupados
entre pares de estruturas e, então, emprega- aos pares, iterativamente.
os para estabelecer um alinhamento consen- SALIGN: pode realizar alinhamentos múltiplos de
so entre todas as estruturas. A Figura 15-3 duas maneiras, baseado em uma árvore ou por alinha-
apresenta um exemplo de alinhamento estru- mento progressivo. O primeiro caso é muito similar ao
tural múltiplo. Os métodos para obter o ali- MAMMOTH-Mult. No alinhamento progressivo, as es-
nhamento consenso variam entre os truturas são alinhadas na ordem em que são forneci-
programas de alinhamento. A seguir apre- das para o programa. A vantagem desse método é o
sentamos as características específicas de de seu custo computacional ser menor que o do méto-
alguns dos métodos mais utilizados para o do baseado em uma árvore.
alinhamento de estruturas múltiplo.
3.11. Alinhamento flexível
O alinhamento de estruturas conside-
rando sua flexibilidade está se tornando cada
vez mais importante devido à melhor com-
preensão do enovelamento proteico. Cada vez
mais, percebe-se que não existem enovela-
mentos estanques, mas sim um gradiente
densamente populado por variantes confor-
macionais. Desta forma, torna-se mais difícil
definir domínios proteicos, sendo mais ade-
quado descrever as estruturas como conjun-
tos de estruturas supra-secundárias. Com
base nessa proposta, a diferença entre prote-
ínas relacionadas reside na orientação relativa
desses subdomínios. A Figura 16-3 demonstra
as diferenças que podem ser observadas ao
alinhar um par de estruturas de maneira rígi-
da ou flexível. A seguir apresentamos as ca-
Figura 15-3: Exemplo de alinhamento de racterísticas específicas de alguns dos
múltiplas estruturas proteicas, oriundas de métodos mais utilizados para este tipo de ali-
diferentes organismos (histonas H3 de nhamento de estruturas.
levedura, mosca-da-fruta, homem, frango, FATCAT: o algoritmo adiciona “torções” entre pares
sapo-de-garras). de fragmentos proteicos alinhados, que são tratados
3. Alinhamentos
3.12. Conceitos-chave
Algoritmo: sequência lógica de instruções ne-
cessárias para executar uma tarefa.
Alinhamento: método de organização de se-

quências ou estruturas biológicas para
evidenciar regiões similares e dissimilares.
Estes métodos estão geralmente atrelados
a inferências funcionais ou evolutivas.
Alinhamento Múltiplo: alinhamento que envolve

mais de duas sequências ou estruturas
Figura 16-3: Comparação entre alinhamento Alinhamento Simples: alinhamento que envolve
estrutural rígido e flexível. A estrutura da apenas duas sequências ou estruturas.
proteína HasA (um captador bacteriano de
grupamentos heme) foi obtida para suas BLAST: Basic Local Alignment Search Tool (Fer-
formas intra- e extra-celular. Observe que o ramenta de Busca por Alinhamento Local
alinhamento rígido identifica similaridade Básico), empregado para buscar sequên-
parcial entre as estruturas, enquanto o cias em bancos de dados com base em
alinhamento flexível detecta o rearranjo sua similaridade.
espacial de parte da proteína, evidenciando
sua identidade. Homologia: é um termo essencialmente qualita-
tivo que denota uma ancestralidade co-
como corpos rígidos. De maneira geral, o programa mum de determinada sequência.
permite a inclusão dessas torções quando elas diminu-
em o valor final do RMSD, refletindo em um melhor HSP: pares de segmentos de alta pontuação
alinhamento estrutural. O alinhamento final é obtido (high-scoring segment pairs), zonas de
por programação dinâmica e se baseia na matriz de si- similaridade entre sequências identificadas
milaridade entre os fragmentos pareados, obtidos na pelo BLAST.
primeira etapa do cálculo.
FLEXPROT: mantém uma das proteínas rígida, en- Identidade: Porcentagem de caracteres similares
quanto a outra pode sofrer alterações em busca de entre duas sequências (excluindo-se as
maior similaridade estrutural. As regiões potencial- lacunas).
mente flexíveis da proteína são detectadas automati-
camente e empregadas nas alterações Indels: identifica inserções e deleções de carac-
conformacionais. teres ao longo do processo evolutivo.
ALADYN: alinha pares de estruturas com base em
sua dinâmica interna e similaridade entre seus movi- Lacunas: regiões identificadas por hifens que
mentos de grande escala. O posicionamento ótimo en- representam a inserção/deleção de carac-
tre as proteínas é encontrado ao maximizar as teres ao longo do processo evolutivo.
similaridades entre os padrões de flutuação estrutural,
que são calculados pelo modelo de redes elásticas. Matches: regiões que apresentam caracteres
POSA: uma variante do FATCAT para o alinhamento idênticos entre diferentes sequências.
múltiplo flexível de estruturas. Emprega uma metodo-
logia combinada, introduzindo grafos de ordem parcial Mismatches: regiões que apresentam caracteres
para visualizar e agrupar regiões similares entre as es- não idênticos entre diferentes sequências.
truturas.
3. Alinhamentos
Penalidades por lacuna (PL): conjunto de parâ-

metros necessários para atribuir a pontu-
ação para uma lacuna em um sistema de
alinhamento por pontuação.
RMSD: desvio médio quadrático.
Tradução: tradução (in silico) de uma sequência

de mRNA em sua possível sequência pro-
teica correspondente

BOGUSKI, Mark S. A molecular biologist visits
Jurassic Park. Biotechniques, 12, 668-
669, 1992.
CARUGO, Oliviero. Recent progress in measuring

structural similarity between proteins.
Curr. Protein. Pept. Sci., 8, 219-241,
2007.
MADDEN, Tom. The BLAST sequence analysis

tool. In: McENTYRE, Jo; OSTELL, Jim
(Org.). The NCBI Handbook. Bethesda:
National Center for Biotechnology
Information, 2002.
MARTI-RENOM, Marc A.; et al. Structure

comparison and alignment. In: GU, Jenny;
BOURNE, Philip E. (Org.). Structural
Bioinformatics. 2.ed. Hoboken: John
Wiley & Sons, 2009.
MAYR, Gabriele; DOMINGUES, Francisco S.;

LACKNER, Peter. Comparative analysis of
protein structure alignments. BMC Struct.
Biol., 7, 50, 2007.
MOUNT, David W. Bioinformatics: Sequence

and Genome Analysis. 2.ed. Cold Spring
Harbor: Cold Spring Harbor Laboratory
Press, 2004.
ROSSMANN, Michael G.; ARGOS, Patrick. The

taxonomy of binding sites in proteins.
Mol. Cell. Biochem., 21, 161-182, 1978.
4. Projetos Genoma
Charley Christian Staats

Guilherme Loss de Morais
Rogério Margis
Representação da montagem de genomas. gias de sequenciamento cada vez menos one-

rosas, muito tem se investido na geração de
4.1. Introdução algoritmos e programas para analisar as se-
quências genômicas geradas. Previamente às
4.2. Montagem de genomas análises do genoma de H. influenzae, progra-
mas para montagem de genomas já existiam,
4.3. Montagem de transcriptomas tendo sido desenvolvidos para análise de vo-
lumes de sequências relativamente pequenos,
4.4. Identificação/anotação gênica como os dos fagos λ e CMV, com tamanhos
de aproximadamente 48.000 pares de bases
4.5. Identificação/anotação RNAnc (pb) e 229.000 pb, respectivamente. Para
genomas maiores, novos programas tiveram
4.6. Conceitos-chave que ser desenvolvidos em virtude da maior
complexidade e quantidade das sequências
analisadas. Neste capítulo, serão abordados
os conceitos básicos e as principais ferra-
4.1. Introdução mentas para montagem e anotação de geno-
mas, assim como alguns programas para a
A análise in silico das sequências nucle- sua análise.
otídicas de cromossomo(s) de um dado orga-
nismo, ou simplesmente genoma, constitui 4.2. Montagem de genomas
uma da mais importantes aplicações da bioin-
formática. Tem como objetivo desenvolver e Nos primeiros anos da era genômica, o
utilizar ferramentas para identificar e carac- sequenciamento de genomas era baseado na
terizar genes, elementos genéticos móveis e metodologia de Sanger, ou método dideóxi.
outros elementos presentes em um determi- Para obtenção da sequência dos genomas, os
nado genoma, assim como fazer intercorre- fragmentos de DNA gerados após fragmen-
lações entre diferentes genomas com o tação química, física ou enzimática eram sub-
intuitodebuscaraspectosevolutivoscomuns. clonados em vetores plasmidiais. Esta estra-
O primeiro organismo a ter a sequência tégia, denominada sequenciamento shotgun, é
de nucleotídeos de seu genoma determinado baseada na fragmentação aleatória dos cro-
foi a bactéria Gram negativa Haemophilus mossomos em fragmentos de DNA com ta-
influenzae, em um projeto liderado por J. manho relativamente pequeno. Estes
Craig Venter. Desde 1995, ano de publicação fragmentos, cujo tamanho geralmente varia-
desta análise genômica, as sequências de mi- va de 2.000 a 5.000 pb, eram submetidos ao
lhares de genomas de outros organismos já sequenciamento. As sequências obtidas a
foram determinadas e analisadas, não apenas partir de cada clone (chamadas de reads),
de espécies, mas também de variedades de com tamanho médio de 600 a 800 pb, eram
espécies, raças e linhagens, entre outros. submetidos a um processamento para retira-
Com a grande disseminação de estraté- da de sequências de baixa qualidade e, então,
4. Projetos Genoma
utilizadas na montagem de contigs e genomas um destes reads é alinhado entre si na procu-

(ver abaixo). ra de regiões de identidade ou de sobreposi-
Com o advento das metodologias deno- ção, de maneira a construir fragmentos
minadas next-generation sequencing – NGS contíguos (contigs), os quais podem ser defi-
(pirossequenciamento, Illumina, SOLiD, dentre nidos como a união de duas ou mais sequên-
outros), também ocorre fragmentação alea- cias (reads) formadas por sobreposição de
tória do DNA genômico, mas geralmente não elementos comuns a pelo menos duas se-
são necessários os passos de clonagem. quências (Figura 1-4).
Comparativamente, estes novos métodos Os primeiros algoritmos para montagem de geno-
permitem a obtenção de reads de maneira mas se baseavam no alinhamento dos reads e na con-
muito mais rápida. Entretanto, o tamanho dos catenação de sequências obtidas dos reads com os
reads é menor, variando de algumas dezenas maiores alinhamentos. O processo se dava de forma
a poucas centenas de pares de base, depen- cíclica, concatenando as sequências com o maior ali-
dendo da metodologia. Assim como no se- nhamento até que todos estes alinhamentos fossem
quenciamento por Sanger, os reads obtidos utilizados. Esta montagem de genomas a partir de
passam por um controle de qualidade e então reads tem como base os seguintes passos:
podem ser utilizados na montagem de geno- i) cálculo de alinhamentos aos pares de todos os
mas. fragmentos;
Independente da metodologia de se- ii) escolha de dois fragmentos com a maior so-
quenciamento utilizada, como resultado se breposição;
tem uma grande lista de sequências nucleotí- iii) fusão dos dois fragmentos;
dicas - os reads - de tamanhos que podem iv) repetição dos passos anteriores até obtenção
variar de 50 a 800 pb. Para montagem das de uma única sequência.
sequências genômicas a partir destes reads,
diferentes estratégias são utilizadas, depen- Para as novas metodologias de sequenciamento,
dendo da metodologia empregada. Para o se- devido ao tamanho relativamente menor dos fragmen-
quenciamento convencional (Sanger), cada tos, algoritmos diferentes foram desenvolvidos. Os
Figura 1-4: Montagem de genomas utilizando a estratégia de sequenciamento de genomas por

shotgun. O painel à esquerda ilustra um esquema utilizado para genomas de menor tamanho e
reduzido conteúdo de sequências repetitivas. O painel à direita ilustra uma estratégia mais
complexa, usado para organismos com genoma maior.
4. Projetos Genoma
programas de montagem atuais utilizam grafos de so- Tabela 1-4: Principais programas utilizados na
breposição ou grafos de Bruijn. Estes grafos identifi- montagem de genomas e transcriptomas.
cam reads com possibilidade de compartilharem Nome Análise
trechos de sobreposição entre si utilizando uma estra- ABySS grandes genomas
tégia baseada no alinhamento em sementes.
ALLPATHS-LG grandes genomas
Com esta abordagem, pequenos fragmentos de
comprimento fixo obtido de cada read, os k-mers, são Celera WGS Assembler grandes genomas
usados como um índice, e apenas pares de leituras que CLC Genomics genomas e
partilham uma semente são posteriormente avaliados. Workbench trancriptomas
Os grafos de Bruiijn baseiam-se na decomposição de Geneious genomas
reads em k-mers (por exemplo dodecâmeros, ou seja Newbler genomas e
fragmentos de 12 nucleotídeos), os quais são utilizados transcriptomas
como nodos destes grafos. Uma ligação direta entre os genomas e
Phrap
nodos indica que estes k-mers ocorrem consecutiva-
transcriptomas
mente em um ou mais reads.
SOAPdenovo genomas e
Uma série de programas foram desen-
transcriptomas
volvidos para a montagem de genomas, utili-
Staden gap4 package genomas pequenos e
zando diferentes algoritmos (Tabela 1-4). No
transcriptomas
caso de sequenciamento de genomas proca-
Trans-ABySS transcriptomas
rióticos, ao final do processo é esperada a
obtenção de uma sequência única, a qual re- Velvet genomas pequenos e
presenta toda a sequência nucleotídica do transcriptomas
cromossomo. Sabe-se, todavia, que plasmí-
deos podem ser encontrados em diversos mais de 3 bilhões de pares de base (ca-
micro-organismos. Assim o número de so do genoma humano).
contigs será dependente do número de plas-
mídeos e, em casos menos frequentes, do Para sobrepujar estas dificuldades, pas-
número de cromossomos presentes naquela sos intermediários se tornam necessários,
bactéria. como a construção de sub-bibliotecas genô-
Ao ser analisado o genoma de organis- micas. Cada uma destas sub-bibliotecas é se-
mos eucariotos, nos quais se encontra uma quenciada, de forma a gerar contigs. O
grande variação no número de cromossomos, conjunto de diferentes contigs oriundos de di-
um número maior de contigs é esperado. Te- ferentes sub-bibliotecas será utilizado para a
oricamente, cada cromossomo deveria ser geração de scaffolds (Figura 1-4). Geralmen-
representado por um contig. Entretanto, nos te, são necessários passos adicionais de clo-
passos iniciais de montagem de genomas são nagens de regiões específicas do genoma e
observados dezenas a centenas de contigs, posterior sequenciamento destas para o “fe-
dependendo da complexidade do organismo chamento” do genoma.
cujo genoma esta sendo sequenciado. Os ge- Um dos maiores desafios, entretanto, para o se-
nomas de eucariotos, em especial de eucari- quenciamento de genomas reside na adequada monta-
otos superiores, possuem pelo menos duas gem de regiões repetitivas. No genoma humano, por
características que tornam o processo de exemplo, existem pelo menos seis classes de sequên-
montagem mais complexo: cias repetitivas:
i) uma quantidade considerável de se- i) minissatélites, microssatélites ou satélites;
quências repetitivas que dificulta o pro- ii) SINEs (elementos nucleares pequenos inter-
cesso de montagem devido a calados);
alinhamentos de alto escore com diver- iii) LINEs (elementos nucleares longos intercala-
sas sequências; dos);
ii) o seu tamanho, podendo chegar a iv) transposons;
4. Projetos Genoma
v) retrotransposons; os mesmos se baseiam na circularização do fragmento

vi) clusters de genes DNAr (genes responsáveis de DNA do tamanho desejado, sendo as extremidades
pela síntese dos RNA ribossômicos – RNAr). posteriormente reconhecidas devido à etiqueta (tag)
utilizada para propiciar a circularização por meio da li-
Estas diferentes classes, cujos tamanhos podem gação. Com a determinação das sequências flanquea-
variar de centenas de pares de base, caso de micros- doras de uma repetição, há maior chance de conseguir
satélites e SINEs, a dezenas de milhares de pares de determinar a sua localização em um genoma.
base, observado em clusters de genes DNAr, podem A qualidade de montagem do genoma
constituir mais de 50 % do tamanho de cada cromos- pode ser acompanhado por alguns índices. A
somo humano. cobertura reflete a quantidade de reads as-
O grande desafio na montagem de sequências ge- sociados a um determinado fragmento de
nômicas com alto conteúdo de elementos repetitivos DNA. Por exemplo, uma cobertura de 10X in-
se refere a correta quantificação e localização destes dica que, para o genoma sendo avaliado, cada
elementos nos cromossomos. Desta forma, o desafio nucleotídeo foi encontrado em pelo menos 10
central da montagem de genomas reside na resolução reads.
destas sequências repetitivas, estando este desafio di- Outro valor importante refere-se ao
retamente associado à metodologia de sequenciamen- N50. Trata-se de uma medida estatística mui-
to utilizada. Por exemplo, se forem obtidos reads de to utilizada para avaliar a qualidade da mon-
tamanho menor que uma unidade de repetição, todos tagem, visto que revela o quanto de um
estes reads serão utilizados para formar um contig que genoma é coberto por contigs grandes. Um
contém apenas a sequência de repetição. Entretanto, valor de N50 igual a n significa que 50% dos
ao serem obtidos reads com tamanho maior que a uni- reads estão montados em um contig de ta-
dade de repetição, os mesmos podem ser utilizados na manho n ou maior. Por exemplo, na monta-
resolução da localização destas sequências repetitivas gem do genoma de cão doméstico,
em um determinado cromossomo. depositado no NCBI sob o número de acesso
Alguns programas permitem montar genomas AAEX03, o sequenciamento dos 40 cromos-
complexos com repetições baseados em reads maio- somos, com uma sequência total de
res (como os obtidos pela metodologia de Sanger ou 2.410.976.875 bases gerou 27.106 contigs
pirosequenciamento). Para tal, estes programas reali- com um N50 de 267.678. Isto significa que
zam a montagem em duas ou mais fases distintas, nas mais de 50% dos reads estão associados a
quais as sequências repetitivas são processadas sepa- contigs de 267.678 bases ou maiores.
radamente. Em um primeira fase do processo de mon-
tagem, reads contendo sobreposição de sequências 4.3. Montagem de transcriptomas
não ambíguas são agrupados em contigs, cujas extre-
midades contém as regiões limítrofes das sequências Em análises de novos genomas, um
de repetição. A segunda fase se caracteriza pela mon- ponto importante se refere à identificação de
tagem de contigs não ambíguos em sequências maio- transcritos. Além de fornecer indícios sobre
res, usando dados de reads mate-pair. quais genes estão sendo expressos em uma
Dados de sequenciamento paired-end oferecem a determinada situação fisiológica a qual as cé-
possibilidade da determinação exata de sequências que lulas ou tecidos estão sendo expostos, o se-
flanqueiam uma determinada sequência de repetição. quenciamento de transcritos tem uma
Em experimentos tradicionais associados ao sequenci- aplicação importante na procura de sequên-
amento de Sanger, um protocolo paired-end inicia-se cias codificantes em genomas. Esta estratégia
com longos fragmentos de DNA clonados em vetores tem uma aplicabilidade muito grande em or-
para sua replicação em Escherichia coli. As extremida- ganismos em que o conteúdo de íntrons por
des destes fragmentos poderiam assim ser facilmente gene é grande, como em eucariotos mais
determinadas por sequenciamento. Protocolos paired- complexos.
end para as estratégias de sequenciamento atuais não Ao contrário de genomas, em transcrip-
requerem passos de clonagem em E. coli. Entretanto, tomas o material de partida geralmente é
4. Projetos Genoma
cDNA, obtido a partir de transcrição reversa lação à porção do genoma que contém um gene. Al-
de RNA. A grande maioria dos trabalhos se dá guns dos programas para este tipo de mapeamento in-
em torno de RNAm mas, cada vez mais, RNAs cluem Bowtie, Tophat e SOAP, dentre outros. Como
não codificantes, com possível papel regula- resultado, uma determinada sequência do genoma é
tório, estão sendo avaliados por esta meto- representada por um grande número de reads, no caso
dologia (ver abaixo). O pool de cDNAs pode de genes mais expressos, ou um baixo número de
então ser subclonado e ser submetido ao se- reads, no caso de genes menos expressos.
quenciamento pela metodologia de Sanger ou Deve ser levado em consideração, entretanto, que
diretamente fragmentado e ser submetido ao quanto maior o tamanho do gene mais se espera en-
sequenciamento NGS. Uma grande lista de contrar reads associados a este gene. Desta forma, a
reads é então obtida, os quais podem ser uti- maneira mais comum para se calcular a expressão re-
lizados para realizar a montagem do trans- lativa de um determinado gene é o RPKM (reads per ki-
criptoma de novo ou ser ancorados a lobase of transcript per million mapped reads – reads
sequência de um genoma para ajudar na por kilobase de transcrito por milhões de reads mape-
identificação de sequências codificantes e de ados). Esta abordagem permite uma análise compara-
extremidades éxon/íntron. tiva baseada em uma série de análises estatísticas para
No caso da montagem de novo, os comparação de transcritos com diferentes RPKMs de
reads são alinhados e aqueles que apresen- diferentes amostras biológicas ou diferentes tempos
tam alinhamento positivo são fusionados, de tratamento, por exemplo.
dando origem a contigs. Entretanto, diferen- Quando são considerados organismos cujo genoma
temente da análise de genomas, muitos ainda não foi determinado, uma construção do trans-
contigs são gerados, cada um possivelmente criptoma a partir de dados de RNAseq é realizada (de
representando um mRNA maduro. novo). A partir das sequências dos transcritos gerados,
Adicionalmente, alguns programas po- é possível então fazer o cálculo do RPKM de cada
dem, além de realizar a montagem de trans- transcrito identificado.
criptomas ou alinhamento a genomas, fazer
uma análise da representatividade de cada 4.4. Identificação/anotação gênica
transcrito dentro do conjunto total de RNA
analisado, por meio do cálculo da frequência A anotação de genomas é o passo se-
relativa de cada transcrito identificado. Com guinte à montagem dos genomas. Trata-se de
estes cálculos é possível realizar análises de um conjunto de protocolos e fluxos de traba-
expressão diferencial de genes. Dentre os pa- lho utilizados para delimitar, em uma deter-
cotes de programas utilizados, podem ser ci- minada sequência genômica, possíveis genes
tados Cufflinks-Cuffdiff, DegSeq, DESeq, e predizer a sua função com base na similari-
EdgeR, entre outros. dade com sequências conservadas. Basica-
A análise desta expressão relativa de transcritos mente, existem dois grande grupos de genes
pode ser realizada com base em duas estratégias prin- avaliados nestas metodologias. O primeiro
cipais: grupo se refere àqueles cujo produto é reco-
i) mapeamento a uma sequência genômica pre- nhecido pelos ribossomos e dará origem a
viamente conhecida; uma proteína (ou seja, RNAm). Já o segundo
ii) análise de novo, independente da sequência engloba os genes cujo produto terá funções
genômica e baseada na montagem dos transcri- estruturais e funcionais dependentes da pró-
tos diretamente a partir dos reads. pria molécula de RNA, como RNAt e RNAr. Di-
ferentes abordagens são utilizadas para
Na primeira estratégia, os reads são mapeados ao identificar as sequências de cada um destes
genoma, ou seja, as regiões de identidade nucleotídica grupos de genes, como será visto abaixo.
são ancoradas à sequência genômica, sendo identifica-
das por metodologias de sequenciamento que levam
em consideração o número de reads mapeados em re-
4. Projetos Genoma
Identificação de regiões codifican- mente, contudo, determinou-se que os íntrons

tes exercem um importante papel regulatório na
expressão gênica.
O mecanismo de delimitação da se- Íntrons são elementos gênicos que, du-
quência gênica é drasticamente influenciado rante o processo de expressão gênica, são
pelo Domínio ao qual pertence o organismo excisados durante o processamento do RNA,
cuja sequência genômica foi determinada. Isto em um grande complexo de reações denomi-
se deve ao fato de que existe uma grande di- nado splicing. Os íntrons podem variar em
ferença nas estruturas de genes procarióticos número e tamanho, dependendo da comple-
e eucarióticos. xidade do organismo. Assim, em organismos
Genes procarióticos codificantes de mais simples, como leveduras e fungos fila-
proteínas são colineares com seus produtos mentosos, o número de íntrons por gene é
gênicos. Esta característica permite inferir pequeno (geralmente de 1 a 4 por gene), as-
que toda região delimitada por um códon de sim como o seu tamanho (geralmente girando
inicío e um códon de término, região esta de- em torno de 50 pb).
nominada de ORF (Open Reading Frame), po- Ao contrário, em organismos mais
tencialmente constitui uma região codificante complexos como humanos e plantas, tanto o
de uma proteína em um genoma procariótico. número de íntrons por gene quanto o seu ta-
Por sua vez, genes eucarióticos codifi- manho aumentam significativamente, de for-
cantes de proteínas são mais complexos, ge- ma que grande parte do gene é constituído
ralmente sendo caracterizados pela presença por íntrons (mais de 90%, dependendo do
de sequências intervenientes ou íntrons. Até organismo). Um comparativo entre as estru-
pouco tempo, acreditava-se que íntrons cons- turas básicas de genes codificantes de proteí-
tituíam um produto da evolução que povoou nas procarióticos e eucarióticos, assim como
as sequências gênicas com o chamado “DNA os seus respectivos processos de expressão,
lixo”, de modo que uma mutação que eventu- é apresentado na Figura 2-4.
almente viesse a acontecer tivesse maior Associado ao grande número de íntrons,
possibilidade de ocorrer em regiões do gene genes de organismos eucarióticos mais com-
que não têm capacidade codificante. Recente- plexos geralmente são caracterizados pelo
Figura 2-4: Esquema representando os elementos encontrados em genes procarióticos (quadro

superior) e eucarióticos (quadro inferior). Os genes estão representados no sentido 5’-3’ e
podem ser notadas as principais diferenças entre estas classes de genes, como a presença de
íntrons e regiões regulatórias mais complexas em eucariotos.
4. Projetos Genoma
splicing alternativo. Este processo é caracte- organismos eucarióticos.

rizado pela incorporação diferencial de íntrons Os detectores de sinais procuram por
e éxons no RNAm maduro, de forma a produ- caracteres funcionais específicos de genes,
zir diferentes proteínas a partir do mesmo tanto associados à transcrição quanto à tra-
gene. dução. Sinais transcricionais incluem sequên-
Diferentes estratégias para procura de cias canônicas conservadas que delimitam as
genes em genomas foram desenvolvidas regiões necessárias para que se inicie o pro-
considerando estas características diferenci- cesso de transcrição. Os sinais mais comu-
ais na estrutura de genes procarióticos e eu- mente descritos em procariotos são as
carióticos. A procura de ORFs em genomas regiões -35 e -10 e as sequências de associa-
procarióticos constitui uma estratégia simples ção com a RNA Polimerase. Já os sinais pro-
e direta. Entretanto, é uma estratégia sujeita a curados em sequências eucarióticas
uma diversidade de erros. geralmente constituem a região TATA box,
Nestas predições, não são considerados assim como o sítio de clivagem e poliadenila-
elementos canônicos clássicos presentes na ção, que caracteriza o terminador.
estrutura de genes (isto é, sequências con- Os sinais traducionais, por sua vez, se
servadas para ligação do fator sigma, região referem basicamente às regiões importantes
de ligação do ribossomo, sítio de início de tra- para recrutamento de ribossomos, como o
dução e sítio de término de tradução) e ope- RBS (ribosome binding site, ou sitio de ligação
rons, os quais poderiam auxiliar na procura ab a ribossomos) em procariotos. Como este
initio (ou seja, diretamente a partir de se- mecanismo é diferente em organismos euca-
quência, sem informações experimentais di- rióticos, uma região conservada, denominada
retas sobre o produto gênico) de genes em sequência de Kozak, é utilizada como sinal
genomas procarióticos. Assim, a procura de traducional em eucariotos. Estas duas regiões
genes baseada apenas na identificação de se localizam imediatamente a montante
ORFs geralmente leva a um número grande (upstream) aos respectivos códons de início, e
de resultados falsos positivos e falsos nega- desempenham um papel importante nos me-
tivos (Figura 3-4). canismos de delimitação de genes.
Para sobrepujar estas limitações, me- Adicionalmente, a detecção de sinais
canismos de delimitação das sequências gê- que delimitam os íntrons também são utiliza-
nicas em genomas procarióticos foram então dos pois, como abordado anteriormente, os
desenvolvidos e se baseiam em algoritmos genes de eucariotos são amplamente povoa-
característicos para detectar, na sequência de dos por íntrons. Desta forma, a correta predi-
DNA, dois tipos fundamentais de informações: ção da posição de íntrons é fundamental para
sinais e conteúdo. Estes mecanismos foram correta anotação do gene, sendo que os
então expandidos para procura de genes em principais sinais a serem avaliados são os nu-
Figura 3-4: A simples procura de ORFs pode gerar resultados falso positivos na procura de
genes em organismos procarióticos. Como exemplo, uma sequência de DNA de 2357 pb da
bactéria E. coli HS (nucleotídeos 3027764 ao 3030120 – Código de Acesso junto ao NCBI
NC_009800.1), o qual contém o gene xdhA, foi avaliada quanto à presença de ORFs com mais
de 150 pb com o programa ORF Finder. A sequência anotada do gene encontra-se em vermelho,
ao passo que as possíveis ORFs estão demarcadas em azul.
4. Projetos Genoma
cleotídeos que compõem as extremidades cer sequências codificantes. Com base nos
conservadas 5’ e 3’ do íntron, mais comu- mecanismos discutidos acima, dois principais
mente GT e AG (ver abaixo). sistemas para procura de genes em genomas
Já os detectores de conteúdo classifi- de eucariotos foram construídos, denomina-
cam a sequência de DNA em codificante e dos empírico e ab initio.
não-codificante. Como região não-codificante
entendem-se íntrons, regiões intergênicas e Procura empírica de genes
regiões não traduzidas dos genes. Os detec-
tores de conteúdo podem ainda ser subdividi- A predição empírica ou baseada em evi-
dos em detectores extrínsecos e detectores dência leva em consideração buscas por si-
intrínsecos. Os detectores de conteúdo ex- milaridade com outros bancos de dados
trínsecos se baseiam no fato de que regiões (genômicos, transcritômicos ou proteômicos)
codificantes são mais conservadas em rela- para identificar e delimitar as sequências gê-
ção às não-codificantes propiciando, desta nicas. Métodos de identificação de genes ba-
forma, a identificação de éxons conservados seados em similaridade são considerados de
com base em procuras por homologia. alta confiabilidade para localizar e construir
O mecanismo básico desta busca é modelos gênicos, desde que existam relatos
através do programa BLAST (ver capítulo 3). prévios de estruturas gênicas do próprio or-
Contudo, uma limitação nesta metodologia se ganismo (como, por exemplo, sequências de
refere à avaliação adequada da presença de RNAm) ou baseado em análises de conserva-
ortólogos diretos. Desta forma, a distância fi- ção provenientes de alinhamentos de geno-
logenética (isto é, evolutiva, ver capítulo 5) mas de espécies filogeneticamente
entre o organismo cujo genoma está sendo relacionadas.
analisado e aqueles organismos cujas se- Especialmente para o caso de organis-
quências estão depositadas nos bancos de mos eucarióticos, alinhamentos de sequências
dados pode influenciar diretamente no resul- oriundas de bancos de dados de proteínas ou
tado. de transcritos contra o genoma em anotação
Detectores de conteúdo intrínseco, por permitem aferir que, geralmente, os gaps
sua vez, tem como foco principal algumas constituem os íntrons. Esta premissa é fre-
características inatas do DNA, as quais per- quentemente acompanhada pela observação
mitem a predição do potencial de uma se- de que as sequências limítrofes dos íntrons
quência codificar ou não uma proteína. Como identificados constituem os dinucleotídeos
exemplos de características avaliadas em de- consenso GT e AG, característicos sítios 5’ e
tectores intrínsecos podem ser citados: 3’ dos íntrons. Estes alinhamentos geram
i) em muitos organismos há uma prefe- forte evidência dos componentes das estru-
rência das bases G ou C em relação às turas dos genes, muitas vezes definindo
bases A ou T na terceira posição do có- completamente a localização de cada éxon e
don; cada íntron (Figura 4-4).
ii) a utilização diferencial de códons si-
nônimos, ou seja, diferentes códons que Procura ab initio de genes
codificam para o mesmo aminoácido;
iii) frequência de distintas sequências A predição ab initio, por sua vez, depen-
nucleotídicas hexaméricas; de tanto da informação de detectores de si-
iv) a periodicidade de ocorrência de ba- nais quanto de conteúdo para delimitar a
ses, dentre outros. sequência gênica. Para tal, os algoritmos que
se valem desta estratégia utilizam redes neu-
Estes caracteres são utilizados, por rais, transformadas de Fourier e, mais comu-
exemplo, em modelos de Markov para a mente, modelos de Markov. Para realizar
construção de modelos capazes de reconhe- estas detecções, os algoritmos são treinados
4. Projetos Genoma
com sequências conhecidas do genoma em e ao alto número de sequências genômicas

questão. Por exemplo, a Figura 5-4 ilustra o disponibilizadas a cada dia, há um consenso
grau de conservação dos nucleotídeos pre- de que a anotação automática está se tor-
sentes na sequência de Kozak de Drosophila nando indispensável.
melanogaster, perfil este que pode ser utili- A forma mais simples de anotação au-
zado na predição de novas sequências codifi- tomática se dá pela análise de uma série de
cantes neste organismo. Outro exemplo pode diferentes mecanismos de predição e delimi-
ser observado no grau de conservação das tação de sequências gênicas e, então, utiliza-
regiões 5’ e 3’ provenientes de íntrons de ge- ção de um algoritmo de seleção, também
nes humanos (Figura 6-4). denominado de combiner. Este algoritmo tem
Dentre as limitações da predição ab a função de selecionar a predição que melhor
initio está o fato de que, usualmente, o resul- represente os modelos gênicos frente os al-
tado obtido se refere às regiões codificantes, goritmos utilizados. Para tanto, os combiners
sem informações sobre regiões não traduzi- estimam os tipos e as frequências de erros
das ou transcritos provenientes de splicing oriundos de cada programa de predição, es-
alternativo. colhendo posteriormente as combinações de
Assim, para sobrepujar estas limitações evidências que minimizam tais erros. Após as
a combinação das duas estratégias parece ser predições ab initio e baseados em evidência,
a mais eficaz nos fluxos de trabalho utilizados alguns dos combiners devem ser treinados
para predição de genes em genomas sequen- com sequências não previamente utilizadas
ciados. Para tanto, alguns destes algoritmos nos programas de predições de genes.
são treinados com modelos gênicos já conhe- Os combiners mais atuais utilizam téc-
cidos, de organismos filogeneticamente pró- nicas que combinam evidências não estocás-
ximos e, assim, provavelmente possuem uma ticas ponderadas (nonstochastic weighted
estrutura gênica muito parecida com a do or- evidence) que computam tanto o tipo quanto
ganismo que está em análise. a abundância de uma evidência para o cálculo
da sequência gênica consenso. Uma lista dos
Anotação de regiões codificantes algoritmos mais utilizados para confecção de
fluxos de trabalho para identificação de ge-
O passo seguinte à identificação de se- nes está disponível na Tabela 2-4.
quências que possivelmente constituem ge- A anotação da função de genes é um
nes é a sua anotação. A anotação manual foi processo basicamente comparativo, sendo
bastante utilizada na análise dos primeiros utilizados bancos de dados de proteínas, co-
genomas. Entretanto, devido à complexidade mo o NCBI ou o UniProt (trEMBL + Swiss-Prot)
Figura 4-4: Identificação de genes baseada em evidência. Utilizando BLASTn com base em dados
de transcritoma (cDNA, em azul), pode ser alcançada uma aproximação da sequência do gene
(vermelho), inclusive permitindo a delimitação de éxons e íntrons. As regiões de identidade
estão delimitadas por traços verticais. Com base na sequência de íntrons (quadros na porção
inferior), é possível construir modelos para sua predição. Modelo construído com base no gene
F10E9.5 de Caenorhabditis elegans (código de acesso NCBI NC_003281).
4. Projetos Genoma
Figura 5-4: Padrão de conservação de

nucleotídeos da sequência de Kozak, baseado
no alinhamento de 30 sequências de cDNA
obtidas de D. melanogaster e analisados junto
ao servidor WebLogo. A medida de
conservação é refletida pela altura da base.
Os números abaixo representam o códon de
início de tradução (1 a 3), o segundo códon do
mRNA (4 a 6) e a região a montante (-8 a -1). Figura 6-4: Padrão de conservação de
nucleotídeos nas regiões 5’ (painel superior) e
ou de domínios proteicos (PFAM, NCBI CDD, 3’ (painel inferior) de íntrons humanos.
Interpro). Uma das vantagens da utilização do Resultado obtido pelo alinhamento de 100
Swiss-Prot como banco de dados para identi- sequências intrônicas e analisados junto ao
ficação dos produtos gênicos se refere ao fa- servidor WebLogo. A medida de conservação
to deste ser um banco de dados é refletida pela altura da base. Os números
manualmente curado, ou seja, inspecionado abaixo de cada esquema indicam o início e o
contra possíveis erros decorrentes da anota- fim do íntron (0 e 1 no esquema superior; -2 e
ção automática. Com base nestas análises, -1 no esquema inferior), assim como as
quatro grupos distintos de anotações podem regiões adjacentes.
ser realizadas:
i) a existência de um ortólogo direto genes se refere à predição da localização da
previamente caracterizado, revelado proteína codificada por este gene. Por exem-
por BLAST, gerará a anotação com base plo, se uma proteína possui muitas regiões hi-
no nome do ortólogo; drofóbicas, compatíveis com sua inserção em
ii) a inexistência de um ortólogo direto, membrana, possivelmente esta será uma
mas a presença de um domínio proteico proteína integral de membrana. Adicional-
conservado, revelado por análises em mente, proteínas secretadas ou endereçadas
PFAM ou Interpro, gerará a anotação a alguma organela geralmente apresentam
“domain containing protein” ou proteína uma sequência sinal.
contendo o domínio; Diversas ferramentas estão disponíveis
iii) a inexistência de ortólogos diretos para localização de domínios transmembrana
previamente caracterizados ou domínios (TMHMM, TMPred, HMMTOp), baseando-se
conservados confere as anotações pro- em métodos estatísticos para aferição da
teína predita (predicted protein) ou pro- presença destes domínios. Métodos mais ro-
teína hipotética (hypothetical protein); bustos para determinar a localização celular
iv) quando um gene codificante de pro- de um produto gênico foram desenvolvidos e
teína hipotética possui ortólogos diretos, se baseiam em uma diversidade de métodos
eles são denominados codificadores de estatísticos, geralmente treinados com se-
proteína hipotética conservada quências proteicas conhecidamente perten-
(conserved hypothetical protein). centes a algum sub-compartimento celular
(Tabela 3-4). De uma maneira geral, todas
Outro passo na anotação da função de estas ferramentas são utilizadas na constru-
4. Projetos Genoma
Tabela 2-4: Principais algoritmos utilizados na predição de genes e a sua funcionalidade.

Algoritmo Descrição Aplicação
Predições ab initio e baseados em evidência
Augustus Aceita evidências baseadas em transcriptomas e banco de dados de Eucariotos
proteínas
FGNESH Arquivos para treino derivados de análise do fabricante Eucariotos
fgenesB Predição de genes e operons em bactérias baseadas em padrões e Procariotos

cadeias de Markov
Genemark Arquitetura de busca baseada em self-training Procariotos e
eucariotos
Twinscan Extensão do algoritmo Genscan que utiliza homologia entre dois Eucariotos
genomas para guiar a predição de genes
GenomeScan Extensão do algoritmo Genscan que utiliza BLASTx para guiar a Eucariotos
predição de genes
Glimmer Utiliza modelos de Markov interpolados Procariotos
Combiners
Evidence Modeler Tem como resultado um modelo gênico pela combinação de Eucariotos
evidências obtidas a partir de alinhamento de dados transcriptômicos
e proteômicos com predições ab initio
Evigan Algoritmo de evidências probabilísticas que usa redes Bayesianas Eucariotos
para pontuar e integrar predições ab initio e baseadas em evidência
para produzir modelos gênicos.
ção de fluxos de trabalho que integram dife- ficantes - RNAnc (RNAt, RNAr, dentre outros)
rentes ferramentas para analisar o resultado ainda não apresenta um grande número de
da predição de cada gene, conferindo uma programas quando comparada às estratégias
anotação geral (Figura 7-4). disponíveis para anotação de genes codifican-
tes de proteínas. Isto se deve, principalmente,
4.5. Identificação/anotação RNAnc à grande heterogeneidade e à pequena con-
servação dos RNAnc quando comparados a
Considerando o dogma central da biolo- sequências de proteínas. Ao contrário de ge-
gia molecular, no processo de síntese proteica nes codificantes de proteínas, RNAnc geral-
(tradução) há a participação direta de pelo mente não apresentam conservação de
menos três classes distintas de RNAs: sequência 1ária, dificultando a detecção destes
i) o RNA mensageiro, que servirá de genes.
molde para síntese da proteína; Um dos mecanismos mais utilizados na
ii) o RNA ribossômico que, como indica o busca de RNAt em genomas é o tRNAscan-SE.
nome, é um componente estrutural e Este algoritmo se baseia em uma série de
funcional dos ribossomos; cálculos estatísticos que avaliam, entre ou-
iii) o RNA transportador, que funciona tros parâmetros, o potencial local para for-
como adaptador, carreando aminoáci- mação das estruturas 2árias típicas de tRNAs
dos para serem incorporados na cadeia em forma de trevo, assim como a presença
nascente da proteína durante o proces- de bases invariantes que definem regiões
so de tradução. conservadas presentes nos promotores des-
tes genes. Outro mecanismo de busca de
A anotação de genes de RNAs não codi- RNAts se refere ao algoritmo ARAGORN. A
4. Projetos Genoma
Tabela 3-4: Principais algoritmos utilizados na predição da localização celular de proteínas.

Algoritmo Descrição Aplicação
BaCelLo Com base na composição de aminoácidos e sequências de treino, Plantas, animais e
prediz em 5 localizações (secretada, citoplasmática, nuclear, fungos
mitocondrial e cloroplástica)
LOCtree Com base na sequência N-terminal, prediz a localização em Eucariotos e
secretada, citoplasmática, nuclear, mitocondrial, cloroplástica e procariotos
organelar.
TARGETp Com base na sequência N-terminal, prediz a localização como Eucariotos e
secretada, mitocondrial e cloroplástica, dentre outras. procariotos
Wolf PSORT Com base na sequência N-terminal e regras empíricas, classifica o Animais, fungos e
endereçamento em cloroplástico, citosólico, citosesqueleto, plantas
retículo endoplasmático, extracelular, golgi, lisossômico,
mitocondrial, nuclear, peroxissomal, membrana plasmática e
membrana vacuolar. Permite localização múltipla.
Cell-PLoc Permite realizar a localização de proteínas em mais de 25 Eucariotos,
diferentes locais, baseados em treino com sequências cuja procariotos e vírus
proteína tem localização conhecida.
estratégia deste programa para a procura de ii) elementos estruturais regulatórios

tRNAs em sequências nucleotídicas se baseia em cis, característicos de alguns RNAm
em algoritmos heurísticos para a predição da que desempenham função de regulação
estrutura do tRNA baseada na homologia com da expressão gênica principalmente por
sequências conservadas, assim como a po- meio da formação de estruturas 2árias;
tencialidade de formar estruturas 2árias típicas iii) RNAs que podem sofrer o processo
do tRNA. Por fim, o tRNAfinder se baseia em de auto-splicing.
cálculos para detecção da estrutura 2ária do
RNA predito para identificar genes de tRNA. Cada uma destas famílias é representa-
Já a predição de RNArs é baseada em da por alinhamentos múltiplos, consensos de
conservação de sequências. Ao passo que or- estruturas 2árias e modelos de covariância. Por
ganismos procarióticos possuem geralmente meio de comparação de sequências com os
três moléculas de RNAr (23S, 16S e 5S) com- consensos obtidos para os modelos de cada
pletamente maduras e funcionais, eucariotos família, é possível identificar genes responsá-
possuem quatro (28S, 18S, 5.8S e 5S). Cada veis pelos rRNAs, tais como os snoRNAs, que
uma destas sequências apresenta grande são componentes do spliceossomo. Existe
grau de conservação com os ortólogos de di- ainda, contudo, uma grande gama de outros
ferentes organismos. Desta forma, ferra- RNAnc que não apresentam grau de conser-
mentas baseadas em Modelos Ocultos de vação necessário para formar uma família.
Markov, como o RNAmmer, foram construí-
das para delineamento dos genes responsá- Identificação de pequenos RNAs
veis pelos RNArs. Adicionalmente, um grande
banco de dados com famílias de RNA foi O termo “pequeno RNA” é, conceitual-
construído, e a cada ano novas adições de semente, muito vago e acaba englobando dife-
quências de RNAs são feitas ao RFam. Estas rentes classes destes, como microRNAs,
famílias podem ser classificadas em três siRNAs, TAS-siRNAs, tRFs, entre outras. Con-
grandes grupos: tudo, existem características dos pequenos
i) RNAs não codificantes (RNAnc); RNAs que podem ser utilizadas para identifi-
4. Projetos Genoma
car as classes distintas: não codificam proteí- nhar um papel funcional, regulando a expres-
nas (apesar de alguns serem originados de são gênica em vários níveis. Devido ao papel
regiões codificadoras), possuem tamanho va- de forte regulador da expressão gênica, muita
riando entre poucas dezenas de nucleotídeos, atenção tem sido dada aos pequenos RNAs,
suas rotas de biogênese e seus papéis funcio- com um número crescente de trabalhos sen-
nais. do feitos relacionando estes com patologias e
Os pequenos RNAs fazem parte de um controlando processos básicos do desenvol-
grupo de pequenas moléculas, sendo conhe- vimento.
cidos há décadas, e inicial e erroneamente O RNAi, algumas vezes denominado de
creditados como produtos de degradação de “silenciamento gênico”, é um mecanismo que
RNA, não possuindo um papel biológico espe- induz a diminuição da expressão gênica de um
cífico. Com a identificação do fenômeno de si- transcrito alvo através da clivagem do trans-
lenciamento gênico (RNAi) foi observado que crito alvo e sua posterior degradação, ou
pequenos RNAs poderiam, de fato, desempe- através da repressão da maquinaria de tra-
dução. Estes mecanismos são denominados
também de Silenciamento Gênico Pós-Trans-
cricional (PTGS – no inglês) (Figura 8-4). Exis-
tem adicionalmente alguns pequenos RNAs
que induzem silenciamento gênico em nível
transcricional, ligando-se em regiões de DNA,
impedindo sua transcrição. Este mecanismo é
denominado de Silenciamento Gênico Trans-
cricional (TGS – no inglês).
As metodologias de sequenciamento de
alta eficiência tem auxiliado de maneira con-
tundente na caracterização de pequenos
RNAs, sendo que variações de protocolos
também possibilitaram validar alvos (técnica
de degradoma) e identificar pequenos RNAs
associados com proteínas específicas (se-
quenciamento de ácidos nucleicos associados
a proteínas imunoprecipitadas).
Existe uma grande diversidade de pe-
quenos RNAs em células eucarióticas, sendo
os principais listados na Tabela 4-4. Dentre
estas, os microRNAs são a classe de peque-
nos RNAs melhor descrita. Caracterizam-se
por serem transcritos a partir de genes MIR,
geralmente intergênicos, por uma RNA poli-
merase II, resultando em um pri-miRNA, o
qual recebe um 5'-CAP e um 3'-poli-A. Este
pri-miRNA é processado por um complexo
proteico, denominado D-body, o qual é or-
questrado por uma enzima classicamente de-
nominada DICER ou DROSHA (RNAses classe
III), resultando na liberação do pré-miRNA.
Este apresenta estrutura em forma de gram-
Figura 7-4: Um fluxo de trabalho genérico po devido à alta complementaridade que suas
para anotação de genes. extremidades 5' e 3' possuem. O pré-miRNA é
4. Projetos Genoma
novamente processado por uma enzima sário uma RNA polimerase dependente de
DICER, liberando o microRNA maduro, dupla- RNA, a qual utiliza o microRNA como iniciador
fita, de aproximadamente 20 nucleotídeos de da transcrição e a sequência transcrito alvo
comprimento, o qual é reconhecido por uma como molde. O longo RNA dupla-fita resul-
enzima ARGONAUTA e direcionado ao PTGS tante é reconhecido também por uma enzima
(Figura 9-4). DICER, a qual cliva o tasiRNA, resultando na
Outra classe bastante estudada se re- sua forma madura (aproximadamente 20 nt).
fere aos siRNA (small interfering RNAs), os Os siRNAs são reconhecidos por enzi-
quais tem a biogênese bastante variada, po- mas argonautas e podem tanto induzir o si-
dendo ser derivados de regiões de sobreposi- lenciamento gênico por PTGS, mas também o
ção de genes em orientação inversa remodelamento de cromatina, controlando a
natsiRNAs (natural anti-sense small expressão gênica em nível trancricional (TGS).
interfering RNAs). A transcrição de ambos A interação entre microRNAs e transcrito alvo
transcritos resulta em uma região de dupla- é a melhor caracterizada, não sendo neces-
fita complementar, a qual é reconhecida por sário uma complementariedade perfeita entre
uma enzima DICER que cliva o natsiRNA, re- o microRNA e transcrito alvo, apesar disto ser
sultando na sua forma madura (aproximan- mais comum em plantas. Em animais existe
damente 24 nt). uma região de maior complementariedade
Existem também os tasiRNA (trans- denominada seed a qual se localiza entre a 2a
acting small interfering RNAs), derivados do e 7a bases no microRNA, e está relacionada à
processamento do transcrito alvo de um mi- especificidade do microRNA com seu trans-
croRNAs. Para a síntese de tasiRNA, é neces- crito alvo. Outra característica é o fato de ha-
Figura 8-4: Mecanismo de PTGS. A) clivagem: 1, uma proteína argonauta reconhece uma fita do
pequeno RNA; 2, O microRNA associado com uma argonauta reconhece um transcrito alvo; 3,
ocorre a clivagem do transcrito alvo na posição medial do microRNA; 4, degradação do
transcrito alvo clivado por nucleases. B) repressão da tradução: 1, uma proteína argonauta
reconhece uma fita do pequeno RNA; 2, o microRNA associado com uma argonauta reconhece
um transcrito alvo; 3, ocorre repressão da maquinaria de tradução.
4. Projetos Genoma
Tabela 4-4: Principais classes de pequenos RNAs com função regulatória.
Classe Tamanho (nt) Função Mecanismo de ação Origem Organismos

biológica
microRNA 21-24 PTGS Clivagem e repressão Intergênica e íntrons Plantas, animais,
ou miRNA da maquinaria de fungos e vírus
tradução
siRNA 21-24 PTGS, TGS Clivagem, repressão da Intergênica, éxons e Plantas, animais,
maquinaria de tradução íntrons fungos e vírus
e metilação de DNA
tasiRNA 21-22 PTGS Clivagem Transcritos alvo de Plantas, animais
microRNAs e fungos
natsiRNA 21-22 PTGS Clivagem Transcritos Plantas
convergentes
parcialmente
sobrepostos
ver pareamento guanina – uracila (G-U), tam- bastante comum laboratórios que pesquisam
bém denominado de wobble entre o transcri- pequenos RNAs desenvolverem suas próprias
to alvo e o microRNA (Figura 9-4). ferramentas.
Existem dois desafios principais no em- Já os programas de predição de alvos de
prego da bioinformática a pequenos RNAs. O microRNAs e siRNAs podem ser baseadas em
primeiro é relativo à identificação da região, ferramentas como o BLAST, procurando re-
ou precursor, que dá origem ao pequeno RNA. giões complementares ao pequeno RNA. O
O segundo envolve a identificação dos genes problema é que esta técnica gera um número
alvos regulados por estes. As metodologias muito grande de falsos-positivos. Com isso,
de identificação da região que resulta no pe- algumas ferramentas começaram a utilizar
queno RNA variam com a classe de pequenos outros aspectos envolvidos na interação entre
RNAs e estão intimamente relacionadas às pequenos RNAs e transcritos alvos, tais como
suas biogêneses. características energéticas, a presença da re-
Os microRNAs são a classe melhor ca- gião seed (em humanos), o pareamento per-
racterizada, de forma que há uma maior dis- feito entre 10-11 pares de base do microRNA
ponibilidade de ferramentas para identificação (válido somente para PTGS, por clivagem) e a
destes, como os algoritmos miRTools, conservação de microRNAs e transcritos alvo
miRDeep, miRExpress, miRAnalyser e miRCat. em organismos diferentes.
A funcionalidade geral destes programas se Mesmo assumindo estas regras, exis-
baseia na análise de reads de sequenciamento tem muitas interações entre microRNA e
de bibliotecas de pequenos RNAs e na delimi- transcrito alvo que são excluídas, e muitas
tação das regiões de ancoramento com o ge- falsas que são incluídas, fazendo como que
noma. Com base no conjunto de sequências seja necessário a validação experimental
ancoradas, são realizados cálculos para ava- desta interação. Especialmente para organis-
liação da estabilidade da possível estrutura mos modelo, existem bancos de dados pró-
em forma de grampo gerado pelo transcrito. prios que disponibilizam, baseados em
Para as demais classes, não existe uma ferramentas de predição, os possíveis alvos
metodologia padrão, sendo que variações da para um determinado miRNA. Um importante
ferramenta BLAST são geralmente utilizadas. banco de dados é o microRNA.org, cujas pre-
Para a identificar siRNAs, por exemplo, pode- dições foram realizadas pelo algoritmo
se empregar a ferramenta SiLoCo. Mas é miRanda.
4. Projetos Genoma
estatísticos ou em conservação de se-

quência. Compreendem detectores extrín-
secos e intrínsecos.
Detectores de sinais: sistemas para delimitação

de regiões codificantes baseados em ca-
racteres funcionais de genes, como ele-
mentos canônicos necessários à
transcrição ou tradução.
N50: índice associado à qualidade de montagem

de um sequenciamento. Um valor de N50
igual a N significa que 50% dos reads es-
tão montados em um contig de tamanho N
ou maior.
ORF: open reading frame ou fase aberta de lei-

tura. Refere-se a toda sequência nucleotí-
dica delimitada por um códon de início e
um códon de término de tradução.
Predição baseada em evidência: identificação de

sequências codificantes baseada em ex-
perimentos prévios, como transcriptomas.
Figura 9-4: Modelo simplificado da biogênese
de microRNAs. A partir de um gene MIR, um Predição ab initio: identificação de sequências
pré-miRNA é transcrito e processado num D- codificantes baseada unicamente em cál-
body, por uma enzima DICER, liberando o pré- culos estatísticos.
miRNA, o qual é processado novamente por
uma enzima DICER, liberando a forma madura Reads: resultado obtido do sequenciamento de
do miRNA. Este é reconhecido por uma um determinado clone ou fragmento de
enzima argonauta e direcionado ao transcrito DNA/cDNA.
alvo, induzindo o silenciamento gênico.
Sequenciamento por Shotgun: metodologia de
4.6. Conceitos-chave sequenciamento caracterizado por frag-
mentação aleatória de um grande seg-
Anotação funcional: conjunto de abordagens que mento de DNA, determinação individual da
predizem a função e classificam uma pro- sequência de cada um dos fragmentos e
teína codificada por um genoma. agrupamento dos reads obtidos em
contigs.
Contig: conjunto de segmentos de DNA com so-
breposição de sequência que, conjunta- Sinais transcricionais: sequências conservadas
mente, representam uma sequência associadas ao processo de transcrição,
consenso de DNA como por exemplo TATA box, Sítios de cli-
vagem e poliadenilação, etc.
Detectores de conteúdo: sistemas para delimi-
tação de regiões codificantes baseados na Sinais traducionais: sequências conservadas as-
classificação da sequência em codificante sociadas ao processo de tradução, como a
ou não codificantes, baseada em cálculos sequência de Kozak, códon de início de
4. Projetos Genoma
tradução, sítio de ligação de ribossomo,

etc.
Transcriptoma: sequenciamento e avaliação ge-

ral de transcritos de uma célula/tecido
com o intuito de descrever os RNAs pre-
sentes naquele momento. Além de trazer
informações sobre a situação fisiológica
daquele conjunto de células, permite
construir modelos para procura de genes
baseados em evidência.

GARBER, M. et al. Computational methods for
transcriptome annotation and
quantification using RNA-seq. Nat.
Methods, 8, 469-477, 2011.
RICHARDSON, E. J.; WATSON, M. The automatic

annotation of prokaryotic genomes. Brief.
Bioinform., 14, 36-45, 2013.
SLEATOR, R. D. An overview of the current

status of eukaryotic prediction strategies.
Gene, 461, 1-10, 2010.
WILLIANSON, V. et al. Detecting miRNAs in

deep-sequencing data: a software
performance comparison and evaluation.
Brief Bioinform., 14, 36-45, 2013.
YANDELL, M.; ENCE, D. A beginner’s guide to

eukaryotic genome annotation. Nat. Rev.
Genet., 13, 329-342, 2012.
5. Filogenia Molecular
Rodrigo Ligabue Braun

Dennis Maletich Junqueira
Hugo Verli
Estabelecimento de relações evolutivas a partir de estava associada à perfeição, representada

sequências de aminoácidos ou nucleotídeos. em sua forma plena pelo homem. O sistema
classificatório de Lineu, por sua vez, se base-
5.1. Introdução ava em características visíveis, arbitraria-
mente selecionadas para classificar os seres
5.2. Aplicações vivos (por exemplo, número de patas ou de
pétalas), sendo o ser humano o organismo do
5.3. Representação de árvores topo da cadeia. Sistemas como este são con-
siderados sistemas artificiais, pois estão su-
5.4. Distância genética jeitos à tendência de seu autor em considerar
um caractere em detrimento de outro(s),
5.5. Inferência filogenética conforme sua vontade ou necessidade. En-
tretanto, como o próprio Lineu reconheceu,
5.6. Abordagens quantitativas tais sistemas foram absolutamente necessá-
rios para a fase inicial (descritiva) da biologia,
5.7. Abordagens qualitativas servindo de base para o sistema natural de
classificação e para as hipóteses de similari-
5.8. Confiabilidade dade que surgiriam a seguir.
Ao final do século XVIII e início do século
5.9. Interpretação de filogenias XIX, surgem os sistemas naturais de classifi-
cação. Estes buscavam refletir sobre a ordem
5.10. Conceitos-chave natural dos seres vivos através de poucas
características intrínsecas, geralmente asso-
ciadas à forma. No entanto, com o objetivo de
tornar a classificação mais racional, tomaram
5.1. Introdução lugar debates sobre a real necessidade de
haver um sistema hierárquico de organização
Desde seus primórdios, a humanidade dos organismos. Opositores da ideia conside-
se mostrou inclinada a organizar e classificar ravam que a classificação era, muitas vezes,
o mundo à sua volta com o objetivo de facili- inadequada e desnecessária, e que não deve-
tar o entendimento e a comunicação. Em re- ria ser um fim em si mesma, senão um mé-
lação ao mundo natural, diferentes sistemas todo para o levantamento de novas perguntas
foram empregados para compor métodos de à Biologia.
organização e classificar os organismos, utili- Em 1818, a introdução do conceito de
zando critérios naturais ou artificiais. homologia por E.G. Saint-Hillaire causa uma
Um dos sistemas de maior influência no revolução nas ciências biológicas. Para ele e
período pré-Darwiniano foi a Escala Natural seus colegas, partes homólogas correspon-
de Platão. Neste sistema, do fogo ao ser hu- diam às partes de animais diferentes com
mano, diferentes níveis eram organizados à uma estrutura essencialmente semelhante,
maneira de uma escada. A ideia de ascensão mesmo com forma ou função distintas. Por
exemplo, as asas de um morce- Willi Hennig. Na proposta de

go, as nadadeiras de uma baleia e Hennig (1950), organismos que
os braços de um macaco, segun- compartilhassem característi-
do esta lógica, são considerados cas derivadas (apomórficas)
órgãos homólogos e podem ser- poderiam ser considerados
vir como critério para agrupar descendentes do organismo
morcegos, baleias e macacos em ancestral, na qual a caracterís-
um mesmo grupo. Assim, a ho- tica em seu estado primitivo (ou
mologia serviria como critério plesiomórfico) passou para o
principal para uma classificação estado derivado.
natural dos organismos. A primeira árvore filogenética Desde a origem dos siste-
A partir da famosa publi- moderna (esboço de Darwin mas de classificação até a Cla-
cação de Darwin, “A Origem das no manuscrito de A Origem dística, os métodos
Espécies”, em 1859, a classificadas Espécies) baseavam-se essencialmente
ção dos organismos passou a ser no fenótipo dos organismos, ou
não apenas natural, mas também a apresen- seja, em suas características físicas clara-
tar uma condição essencial de ancestralidade mente discerníveis. Entretanto, com o adven-
comum. Segundo este pensamento, os orga- to dos métodos de sequenciamento, tanto
nismos são derivados uns dos outros, desde protéico quanto genômico, cada vez mais os
o surgimento da vida na terra. Darwin repre- dados moleculares foram se tornando im-
sentou este padrão através de um esquema portantes nas análises evolutivas de ances-
de ramificação, onde os galhos representam tralidade. Neste sentido, a ciência passa de
o tempo entre o organismo ancestral e o no- um ponto de vista macroscópico a um ponto
vo organismo, e os nós representam os pró- de vista molecular de análise.
prios organismos. Mais tarde, esta viria a ser O método de sequenciamento de ami-
a primeira árvore filogenética utilizada para noácidos, iniciado por Sanger em 1954, abriu
representar processos evolutivos. caminho para que proteínas de uma mesma
Com influência direta da teoria evolutiva classe, em diferentes organismos, pudessem
de Darwin (e colaborações de Wallace e ser comparadas quanto às suas origens evo-
Lamarck), desenvolve-se a Taxonomia Evolu- lutivas. Da mesma forma, ao decodificar a
tiva. Este sistema de classificação incorporou primeira longa sequência de DNA, em 1977,
o vetor tempo (caráter temporal normal- Sanger deu início à explosão do sequencia-
mente inferido por meio de fósseis) e, além mento de ácidos nucleicos, permitindo a
disto, adicionou uma quantificação da diver- comparação de genes em larga escala. É im-
gência estrutural entre os grupos (a chamada portante destacar que as sequências molecu-
distância patrística). Já em meados do século lares podem tanto ser comparadas entre si,
XX, inicia-se a Fenética (taxonomia numérica buscando conhecer a história evolutiva de um
ou neodansoniana). Esta escola buscava in- gene ou proteína (por exemplo, relações entre
cluir na classificação dos organismos o máxi- hemoglobinas de diferentes mamíferos),
mo possível de características, quanto podem ser associadas a outros dados
atribuindo-lhes o mesmo peso na tentativa de na reconstrução da história evolutiva de or-
eliminar qualquer subjetividade ou arbitrarie- ganismos (por exemplo, associando as rela-
dade. Seu impacto, entretanto, foi limitado ções obtidas por comparação de DNA
devido às dificuldades em traduzir os índices ribossomal de aves com datação de fósseis,
(valores) obtidos em informações relevantes buscando estabelecer relações de ancestrali-
do ponto de vista biológico (como a separa- dade).
ção de espécies, por exemplo). Na mesma No entanto, ao lidar com sequências
época, surge a Cladística (ou sistemática filo- moleculares, diferentes questões podem
genética), liderada pelo entomólogo alemão surgir. Por exemplo, o conceito de gene é di-
nâmico e mudou muito desde sua primeira são usadas para descrever a dinâmica das
definição. Além disso, genes podem sofrer di- mudanças em uma linhagem ao longo de vá-
ferentes processos evolutivos que alteram rias gerações.
sua estrutura e/ou função, como mutações e As taxas evolutivas são empregadas
rearranjos, ou ainda duplicações e perdas de quando se buscam estimativas temporais pa-
função. Esses fatores fazem com que a rela- ra datação de eventos evolutivos. Normal-
ção 1:1 entre gene e organismo seja perdida. mente, se assume que as mudanças nas
Por exemplo, uma mesma leguminosa pode sequências se acumulam a uma taxa mais ou
possuir duas cópias do gene para a proteína menos constante ao longo do tempo. Esse
leghemoglobina (genes parálogos). Além dis- conceito é chamado de Hipótese do Relógio
so, muitas sequências do genoma não che- Molecular. Entretanto, é conhecido que as ta-
gam à etapa de tradução, podendo conter xas evolutivas são dependentes de vários fa-
elementos regulatórios ou transponíveis. Tais tores, tais como o tempo de geração, o
variações aumentam a complexidade e difi- tamanho da população e do próprio metabo-
cultam a interpretação das relações de des- lismo, o que normalmente viola o modelo es-
cendência. trito de relógio molecular. Com base nestas
informações, diversos modelos foram pro-
5.2. Aplicações postos para lidar com desvios no comporta-
mento temporal de diferentes linhagens
Ao classificarmos os organismos, atri- moleculares e, hoje em dia, são referidos co-
buímo-lhes uma história evolutiva. Essa his- mo relógios moleculares relaxados.
tória, entretanto, é frequentemente Atualmente, a inferência filogenética é
desconhecida. Sendo assim, é necessário in- um campo de pesquisa à parte das outras ci-
ferir a sequência de mudanças que levaram ências. Tornou-se uma ferramenta comple-
ao surgimento de um novo organismo ou pro- mentar para diversas áreas e indispensável
teína. Contudo, existe apenas uma história para outras. Apesar de ter sido idealizada pa-
verdadeira, que talvez jamais seja conhecida. ra desvendar apenas as relações evolutivas
Assim, ao empregarmos as técnicas filogené- entre organismos, atualmente a filogenética
ticas, o objetivo é coletar e analisar dados ca- molecular é aplicada a problemas muito mais
pazes de fornecer a melhor estimativa para diversos que este. Com o advento do relógio
chegarmos à filogenia verdadeira. De certa molecular estrito, foi possível aplicar a esti-
forma, a obtenção de filogenias lembra a atu- mativa de tempo às filogenias e datar surgi-
ação de um historiador. Baseando-se em damento de espécies, disseminação de
dos disponíveis no presente (tais como organismos e, até mesmo, entender grandes
organismos vivos, fósseis e sequências mole- eventos biológicos que ocorreram no passa-
culares), tenta-se obter uma imagem de co- do. Com a abordagem relaxada do relógio
mo teria sido o passado. molecular, iniciou-se a utilização de modelos
Quando analisamos sequências de nu- de dinâmica populacional que comportam os
cleotídeos ou aminoácidos para inferir uma fi- eventos coletivos de grupos específicos. Ain-
logenia, utilizamos informações derivadas das da, com o avanço da capacidade de processa-
taxas evolutivas para determinar a sequência mento computacional, vem sendo possível
de eventos que levaram ao surgimento de no- criar algoritmos capazes de reconstruir ge-
vos organismos. A taxa de evolução molecu- nomas ancestrais. Também a partir da filoge-
lar refere-se à velocidade na qual os nética molecular desenvolveu-se o campo da
organismos acumulam diferenças genéticas filogeografia. Segundo esta área do conheci-
ao longo do tempo. Essa taxa é frequente- mento, as filogenias podem ser utilizadas pa-
mente definida pelo número de substituições ra verificar a distribuição geográfica de
por sítio (ou posição no alinhamento de se- indivíduos. Neste contexto, outras técnicas,
quências) por unidade de tempo e, portanto, além das filogenias, são incorporadas às aná-
lises, incluindo a estruturação de genes, as quências de nucleotídeos ou aminoácidos. As

análises de redes e as análises de haplótipos. hipóteses sobre a história evolutiva são o re-
A filogenia molecular busca inferir a his- sultado dos estudos filogenéticos e se cha-
tória evolutiva de organismos ou outras enti- mam Filogenia.
dades biológicas (como proteínas e genes) a As filogenias ou árvores filogenéticas
partir de sequências de ácidos nucleicos ou representam o contexto evolutivo dos orga-
aminoácidos. Ao investigar as relações entre nismos de forma gráfica. São formadas por
diferentes espécies, análises de genes ribos- nós (pontos) ligados por diversos ramos (li-
somais são comumente empregadas, pois in- nhas) (Figura 1-5). Os nós terminais, mais ex-
dependentemente da espécie ou do ternos na filogenia, identificam os indivíduos,
organismo, os indivíduos possuirão genes co- genes ou proteínas que foram amostrados e
dificantes de RNA ribossômico. Em contra- incluídos na análise filogenética. Geralmente
partida, quando se busca compreender as representam o alvo de estudo do pesquisador
relações entre diferentes enzimas de uma e estão ligados aos nós mais internos na filo-
mesma família é necessário utilizar sequênci- genia através de traços horizontais, chama-
as de aminoácidos, e não de nucleotídeos. Em dos de ramos terminais (Figura 1-5).
determinadas situações, o genoma completo Os nós internos, pelo contrário, repre-
pode ainda ser utilizado para inferir a filoge- sentam indivíduos não amostrados. Eles
nia. Este é o caso de diversos vírus, especial- identificam uma inferência evolutiva do an-
mente quando se busca compreender a cestral comum mais recente dos ramos deri-
origem de novas variantes ou a disseminação vados daquele nó e se ligam a nós cada vez
de uma cepa. O alvo de estudo (isto é, se- mais internos, através dos ramos internos.
quência de nucleotídeos ou aminoácidos, gene Por exemplo, na Figura 1-5, os grupos de nós
ou genoma) depende, exclusivamente, do ob- terminais representados em verde possuem
jetivo da análise e é um dos principais fatores como ancestral comum o nó laranja, mais in-
a ser definido primariamente pelo pesquisa- terno, enquanto os nós terminais azuis pos-
dor. suem como ancestral comum o nó lilás. Da
Atualmente, as filogenias funcionam co- mesma forma, o nó vermelho é a represen-
mo importantes ferramentas para diferentes tação do indivíduo, gene ou proteína mais an-
áreas do conhecimento, incluindo as áreas de cestral da filogenia que, através de processos
evolução, genética, epidemiologia, microbio- evolutivos, deu origem aos nós laranja e lilás.
logia, virologia, parasitologia, botânica e zoo- O tamanho dos ramos horizontais pode
logia, dentre outras. Adicionalmente, de ter diferentes significados, dependendo do
maneira inédita, a inferência filogenética foi método para inferência da filogenia, conforme
utilizada como evidência para a resolução de
crime e principal prova durante um impasse
internacional envolvendo diferentes países.
Em resumo, dependendo do objetivo, os mé-
todos de construção de filogenias (inferência
filogenética) são a base para diversas áreas e
importantes objetos para o avanço computa-
cional na análise de dados biológicos.
5.3. Representação de árvores

A Filogenética (termo obtido por união
dos termos gregos para tribo e origem) é a
ciência que busca reconstruir a história evolu- Figura 1-5: Nomenclatura associada a árvores
tiva dos organismos, levando em conta as se- filogenéticas.
veremos a seguir. No entanto, os ramos re- Partindo do princípio de derivação evo-

presentados na vertical (Figura 1-5) não ex- lutiva, onde um organismo dá origem a outro
pressam qualquer significado, e seu tamanho (ou outros), podemos reconhecer dois princi-
não altera em nada a idéia filogenética. Como pais processos na representação de filogeni-
a análise pode ser feita em diferentes níveis, as: derivação dicotômica e derivação
utilizando dados moleculares de genes, pro- politômica. No primeiro caso, cada nó interno
teínas, indivíduos, espécies, gêneros, famílias, dá origem a apenas dois ramos. Para espéci-
ou qualquer outro taxon, os nós terminais são es, por exemplo, a ramificação de um ances-
amplamente denominados OTUs (operational tral comum em dois ramos evidencia o
taxonomical units), ou unidades taxonômicas processo de especiação. No segundo caso,
operacionais (também chamados de folhas, três ou mais ramos surgem de um mesmo nó
Figura 2-5). A ordem e disposição exata das interno.
OTUs em uma filogenia é denominada topolo- Apesar de árvores dicotômicas serem mais comuns
gia. e normalmente esperadas, em alguns casos, como a
dispersão explosiva do HIV e do HCV, árvores politômi-
cas representam melhor o processo evolutivo. Casos
como estes, onde um ancestral comum origina simul-
taneamente várias linhagens descendentes, são cha-
madas de politomias verdadeiras (hard polytomies).
Por outro lado, as politomias falsas (soft polytomies)
são casos onde a topologia não foi bem resolvida por
não haver certeza do padrão de ancestralidade, tor-
nando múltipla uma divisão que se esperaria ser for-
mada por uma série de divisões dicotômicas.
Figura 2-5: Árvore dicotômica dos grupos de Assim, ao agruparmos as OTUs segun-
vertebrados. As OTUs (nós terminais) estão do a sua ancestralidade, podemos reconhecer
representadas por ícones (peixes diferentes padrões: grupos monofiléticos, pa-
pulmonados, anfíbios, mamíferos, tartarugas, rafiléticos e polifiléticos (Figura 2-5). Os gru-
lagartos e serpentes, crocodilos e aves). pos monofiléticos incluem todos os membros
Observe que o grupo dos répteis é descendentes de um único ancestral, assim
parafilético (destacado em vermelho). O como o próprio ancestral. Na Figura 2-5, por
grupo seria considerado monofilético se exemplo, as aves e os crocodilos são consi-
incluísse as aves. derados um grupo monofilético, pois com-
partilham o mesmo ancestral comum. Da
Além da forma gráfica, as árvores filogenéticas po- mesma forma, as aves, os crocodilos e os la-
dem também ser descritas na forma textual. Em vez gartos também podem ser considerados um
do diagrama com linhas e pontos, as relações evoluti- grupo monofilético, pois se originaram de um
vas são representadas por notações com parênteses. mesmo ancestral. A análise das relações en-
A estrutura da árvore da Figura 2-5, por exemplo, po- tre os grupos, neste caso, dependerá do ob-
de ser descrita linearmente como (Peixes pulmonados, jetivo do pesquisador. Adicionalmente, os
(Anfíbios, (Mamíferos, (Tartarugas, (Lagartos, (Croco- grupos monofiléticos podem ser denomina-
dilos, Aves)))))) ou (Peixes pulmonados + (Anfíbios + dos clados por agruparem duas ou mais se-
(Mamíferos + (Tartarugas + (Lagartos + (Crocodilos + quências que são descendentes de um
Aves)))))). Estas notações foram desenvolvidas para mesmo ancestral (Figura 3-5a e b). A organi-
utilização computacional da informação filogenética. zação da topologia em que um clado está
Algoritmos e programas que realizam análises mole- contido em outro é comumente chamada de
culares necessitam da informação na forma textual e, clados aninhados ou clados embutidos (Figu-
quando necessário, fornecem a saída para o usuário na ra 3-5c).
forma gráfica. Os grupos parafiléticos, por sua vez, se
destes grupos permite descrever caracterís-

ticas resultantes de convergência evolutiva,
pois uma mesma característica se desenvol-
veu independentemente em diferentes gru-
pos.
Sabendo das relações evolutivas entre
os táxons e da existência de ancestrais co-
muns, as árvores podem ser representadas
de maneira a evidenciar o ancestral mais an-
tigo (árvore com raiz ou enraizada), ou apenas
destacar as relações evolutivas entre os tá-
xons, sem destacar qual a OTU mais ances-
tral (árvore sem raiz ou não enraizada)
(Figura 4-5).
A raiz da filogenia é a espécie ou se-
quência ancestral a todo o grupo que está sob
análise. Quando presente, a raiz aplica uma
Figura 3-5: (a) Exemplos de clados direção temporal à árvore, permitindo obser-
destacados em verde. (b) Exemplos de var o sentido das mudanças evolutivas da raiz
organizações da topologia que não (mais antigo) aos ramos terminais (mais mo-
caracterizam a existência de um clado, dernos). Uma árvore não enraizada, pelo
destacados em laranja. (c) Diferentes níveis contrário, reflete apenas a topologia estabe-
de clados que podem estar embutidos em um lecida entre as OTUs, sem indicar o ancestral
clado de maior ordem. Observe que os clados do grupo. Árvores não enraizadas podem ser
de diferentes ordens, quando embutidos, confusas, e sua interpretação requer mais
formam clados monofiléticos. cuidado devido à facilidade em cometer erros
de análise (Figura 4-5).
originam de um único ancestral, mas nem to-
dos os organismos derivados deste ancestral
fazem parte do grupo. Na Figura 2-5, os rép-
teis são um grupo formado pelas tartarugas,
lagartos e crocodilos, e seu ancestral comum
está na base do ramo que dá origem às tarta-
rugas. No entanto, este ancestral comum
também deu origem às aves e, por isso, os
répteis não podem ser considerados um gru-
po monofilético, mas um grupo parafilético.
Finalmente, os grupos polifiléticos pro-
vêm de dois ou mais ancestrais diferentes.
Nestas relações se encontram OTUs que
apresentam características comuns, mas que
possuem diferentes ancestrais comuns. Por
exemplo, a condição endotérmica (animais
que mantém a sua temperatura corporal
constante) é apenas apresentada por aves e Figura 4-5: Comparação de árvores (a)
mamíferos. Por este critério, poderíamos enraizadas e (b) não enraizadas. No primeiro
agrupar estes dois grandes grupos sem, no caso, é possível definir a direção das
entanto, compartilharem o mesmo ancestral mudanças evolutivas, devido à presença do
comum direto (Figura 2-5). A organização vetor tempo dado pela presença da raiz.
A identificação de uma raiz nas filogeni-

as geralmente requer a inclusão de uma ou
diversas OTUs que representem grupos ex-
ternos. Os grupos externos devem ser an-
cestrais comuns das OTUs em estudo, já
conhecidos, que indicarão caracteres presen-
tes em organismos mais próximos aos an-
cestrais, provendo um direcionamento para a
interpretação dos processos evolutivos. Para
o caso do estudo de HIV, por exemplo, é co-
mum que os vírus da imunodeficiência de sí-
mios (SIV) sejam utilizados como grupo
externo nas filogenias, pois sabidamente es-
tes vírus deram origem ao HIV.
A adição de grupos externos aumenta o número de
topologias diferentes que uma filogenia pode assumir.
O número de árvores possíveis varia com o número de
OTUs e com a presença ou ausência de raiz. Para mais
de duas OTUs, a quantidade de possíveis árvores com
raiz é sempre maior que o número de árvores sem raiz.
A possibilidade de inferência de diferentes topologias
para os mesmos dados moleculares ressalta a extre-
ma variabilidade de cenários possíveis na busca do
verdadeiro evento evolutivo. É importante também
ressaltar que, assim como a complexidade, o tempo
computacional envolvido na construção das filogenias
aumenta exponencialmente com o aumento de OTUs.
Em relação à topologia das árvores, a
inversão de ramos derivados de um mesmo
nó não altera a relação evolutiva apresentada
pela árvore (Figura 5-5). Nesse sentido, a ár-
vore filogenética pode ser comparada a um
móbile: cada peça suspensa é livre para girar
em seu eixo, ficando mais próxima ou mais Figura 5-5: A porção terminal da árvore dos
distante espacialmente das outras peças, sem vertebrados (representada na Figura 2-5) foi
alterar a estrutura geral do objeto. Indepen- rearranjada de diferentes maneiras (as setas
dentemente da posição destas OTUs, após o indicam o ponto de rotação). Conforme a
giro dos ramos, o mesmo ancestral comum analogia de um móbile, todas elas
será identificado e, por isso, não há qualquer representam a mesma relação evolutiva.
alteração no significado da filogenia.
Quanto à nomenclatura de árvores filo- gum atributo, como quantidade de mudança.
genéticas, diferentes termos são emprega- Por sua vez, uma árvore ultramétrica (ou
dos, tais como cladogramas, filogramas e dendrograma) constitui um tipo especial de
dendrogramas (Figura 6-5). Um cladograma filogenia devido aos seus ramos serem equi-
é uma árvore simples, que retrata as relações distantes da raiz. Os dendrogramas podem,
entre os nós terminais. Pelo contrário, uma desta forma, retratar o tempo evolutivo. É
árvore aditiva (árvore métrica ou filograma) importante ressaltar que alguns autores de-
apresenta informações adicionais, pois o nominam qualquer filogenia como cladogra-
comprimento dos ramos é proporcional a al- ma, o que pode ser confuso.
centes do ponto de vista evolutivo.

É preciso, assim, conhecer o caso de
estudo e o tipo de pergunta que se busca
responder com cada filogenia. Ao lidarmos
com genes de diferentes espécies, por exem-
plo, é importante saber da existência e dispo-
sição de íntrons, da necessidade de lidar com
o gene inteiro ou apenas parte dele ou da ne-
cessidade de incluir regiões regulatórias para
a análise.
Um exemplo recente da aplicação de
análises filogenéticas está no caso da identi-
ficação da origem da linhagem do vírus influ-
enza H1N1, envolvido no surto de gripe de
2009. Para tanto, Smith e colaboradores
empregaram genomas completos de influen-
Figura 6-5: Nomenclatura de árvores za isolados de diferentes localidades e hos-
filogenéticas. Observe que os cladogramas a pedeiros, e construíram árvores filogenéticas
e b são equivalentes, mas o filograma c e o para cada uma das oito regiões do genoma
dendrograma d não o são. buscando identificar a fonte de cada rearranjo
presente no vírus envolvido no surto. Por
O tipo de dado molecular a ser empre- meio das árvores obtidas, foi possível rastre-
gado nas análises também deve ser levado ar a contribuição genética dos vírus isolados
em conta. Sequências de aminoácidos são de aves, suínos e humanos (Figura 7-5). As-
mais conservadas que sequências de ácidos sim, o emprego da filogenia neste trabalho
nucleotídeos em decorrência da degeneração permitiu não apenas caracterizar o vírus do
do código genético. São, portanto, úteis em ponto de vista molecular, como também re-
análises de produtos de genes ou espécies construir a história evolutiva do agente etio-
que visam entender fenômenos que aconte- lógico de uma pandemia.
ceram há amplos períodos de tempo evoluti-
vo. Além disso, por formarem um conjunto de 5.4. Distância genética
pelo menos 20 membros (contra quatro
membros presentes em DNA ou RNA), sua A formulação de modelos evolutivos é
variação pode ser mais significativa. uma maneira de descrever matematicamente
A despeito desta diferença no volume os processos que moldam as mudanças nas
de informação, com a popularização do se- sequências de nucleotídeos ou aminoácidos
quenciamento de ácidos nucleicos, especial- dos organismos ao longo do tempo. Do ponto
mente DNA, sequências de nucleotídeos de vista molecular, estas mudanças podem
passaram a ser as mais empregadas em es- ser resultado de diferentes forças evolutivas
tudos de filogenia. Ácidos nucleicos são mais que reorganizam a sequência e a própria es-
propensos a alterações, podendo sofrer tran- trutura dos genes.
sições (quando ocorre a troca de uma purina Um modelo geral para descrever de
por outra purina, ou de uma pirimidina por maneira eficaz estas alterações evolutivas
outra pirimidina) e transversões (quando deveria considerar os processos de substitui-
ocorre a troca de uma purina por uma pirimi- ção, inserção, deleção e duplicação, bem co-
dina ou vice-versa), além de inserções ou de- mo ocorrência de transposição ou até mesmo
leções de pares de base que interferem no de retrotransposição. Contudo, apesar de es-
quadro de leitura. Essa variabilidade pode ser tes fenômenos serem claros agentes na mo-
interessante no estudo de eventos mais re- delagem dos genomas, matematicamente
Figura 7-5: Representação esquemática das recombinações que originaram o vírus Influenza
envolvido no surto de gripe suína em 2009. Diferentes linhas representam diferentes regiões
do genoma do vírus. Observe a interação entre vírus de origens aviária, suína e humana em
eventos que datam, pelo menos, desde 1990. Os eventos de recombinação e as análises
temporais foram baseadas em análises filogenéticas (Adaptado de Smith e colaboradores,
Origins and evolutionary genomics of the 2009 swine-origin H1N1 influenza A epidemic. Nature,
459, 1122-1125, 2009).
ainda não é factível colocá-los como compo- as mudanças nas sequências de nucleotídeos
nentes de modelos que expliquem inteira- de forma independente (Figura 8-5). Uma
mente o processo evolutivo. medida tradicional para expressar o número
Assim, devido à grande relevância dos de substituições de nucleotídeos que se acu-
mecanismos de substituição para a evolução mularam nas sequências desde a divergência
dos genomas em diferentes organismos e da é chamada de distância genética. Esta infor-
disponibilidade de modelos de probabilidade mação é uma medida quantitativa da dissimi-
estatística que expliquem este processo, as laridade genética entre diferentes OTUs, e
trocas têm sido o principal alvo para o de- permite estabelecer uma estimativa relativa
senvolvimento de modelos matemáticos e da quantidade de mudanças que ocorreram
compõem a base de diversos métodos de in- desde a divergência.
ferência filogenética. A distância é também um importante
Após a divergência de duas sequências a conceito na construção de filogenias, pois está
partir de seu ancestral comum, de forma di- diretamente relacionada com a relação evo-
cotômica, fenômenos evolutivos garantirão lutiva entre duas OTUs: uma menor distância
quências homólogas com tamanho de 100pb,

a distância p obtida será 0,08. Este resultado
reflete a porcentagem de sítios diferentes em
relação ao tamanho total da sequência, e ge-
ralmente é utilizado na especificação da es-
cala de distância das filogenias (Figura 8-5).
A variação genética em um determinado
sítio pode decorrer de diferentes processos e
resultar em mais de uma substituição. As
múltiplas substituições, ou multiple hits,
ocorrem naturalmente e podem subestimar o
verdadeiro número de mudanças no cálculo
da distância p, já que “escondem” as diversas
trocas de nucleotídeos ou aminoácidos. Na
Figura 8-5: Após a divergência de dois Figura 8-5b, por exemplo, apesar de ocorre-
organismos a partir de seu ancestral comum, rem duas substituições no mesmo sítio ao
seus genomas acumularão diferenças longo de um dos ramos, aparentemente a se-
independentemente. (a) A medida da quência derivada parece ter sofrido somente
dissimilaridade genética entre duas um evento evolutivo. Sendo assim, a relação
sequências homólogas ao longo do tempo é entre as diferenças nas sequências e o tempo
chamada de distância genética, e a relação decorrido da divergência nem sempre é linear,
temporal entre duas sequências divergentes especialmente devido à ocorrência das múlti-
é dada por 2t. (b) A ocorrência de múltiplas plas substituições em um mesmo sítio.
substituições ao longo do tempo na Devido à ineficácia da distância p em
divergência de sequências homólogas pode efetivamente estimar a distância genética en-
mascarar as verdadeiras diferenças entre as tre duas sequências, diferentes modelos pro-
sequências. Apesar de ocorrerem dois babilísticos foram desenvolvidos para
eventos de mutação na sequência derivada 1, descrever as mudanças entre os nucleotídeos
apenas o último evento é observado, pois e corrigir a distância observada. Tais modelos
ocorreram no mesmo sítio. Os quadrados em implicam no uso de diversas suposições sim-
vermelho evidenciam as diferenças em ples a respeito das probabilidades de substi-
relação às sequências ancestrais. tuição de um nucleotídeo por outro, mas
garantem uma aproximação da realidade
genética indica uma relação evolutiva mais quando sustentadas por uma taxa de muta-
próxima, enquanto que um valor maior sugere ção fidedigna.
uma derivação evolutiva proporcionalmente Estas técnicas de correção são comu-
maior. Tipicamente, a informação da distância mente conhecidas por modelos de substitui-
genética é incorporada à inferência filogenéti- ção (ou matrizes de substituição), e garantem
ca na definição do tamanho dos ramos. No a conversão da distância observada em medi-
entanto, além desta informação é necessária das de distâncias evolutivas próximas da rea-
uma escala de distância que especifique o nú- lidade, permitindo reconstruir a história
mero de mudanças que ocorreram ao longo evolutiva dos organismos.
do ramo. Diversos modelos de substituição foram propostos
O método mais simplista para avaliar a para explicar as trocas de nucleotídeos em sequências
distância genética entre duas sequências é de DNA, reduzindo a complexidade do processo evolu-
conhecido como distância p. Este método é tivo a um padrão de mudança simples que consegue
baseado na contagem das diferenças dividida ser explicado através de poucos parâmetros. Todos
pelo número total de sítios do alinhamento. estes modelos, no entanto, de alguma forma são inter-
Se oito sítios são diferentes entre duas se- relacionados, diferindo principalmente no número de
parâmetros utilizados para explicar estas substitui- cria as variáveis α e β para representar, respectiva-
ções. Devido à influência do modelo de substituição na mente, as taxas de transição e de transversão. Apesar
inferência de filogenias, a escolha de um método partida inclusão de dois parâmetros, as frequências de
cular deve ser justificada. A estratégia mais simples é equilíbrio se mantêm constantes em ¼ para cada nu-
utilizar os modelos que comportam o maior número de cleotídeo. Em 1981, Kimura adiciona um terceiro parâ-
variáveis, embora a complexidade não esteja direta- metro (γ) ao modelo já proposto, passando a ser
mente relacionada à melhor qualidade de análise das identificado como K3P. A atualização do modelo permi-
sequências. Com o aumento de parâmetros, o sistema tiu dividir as taxas de transversão em duas variáveis.
se torna mais complexo, aumentando a probabilidade Alguns genomas apresentam uma grande quanti-
de erro e exigindo um maior processamento computa- dade de guaninas e citosinas em relação a timinas e
cional. Assim, é necessário verificar os alinhamentos adeninas. Se algumas bases são mais frequentes que
caso-a-caso para atribuir o melhor modelo de substi- outras, será esperado que algumas substituições
tuição na inferência filogenética. ocorram com mais frequência que outras. O modelo
A substituição de nucleotídeos ou aminoácidos em criado por Felseinstein (F81) acomoda essas observa-
uma sequência é usualmente modelada sob a forma de ções e permite que as proporções individuais de cada
um processo quase aleatório. Devido ao caráter dinâ- nucleotídeo (frequência estacionária) sejam diferentes
mico desta aleatoriedade, é necessário enquadrar as de ¼. É importante ressaltar que este modelo conside-
substituições, seguindo certos pressupostos. Assim, as rará a mesma proporção de bases em todas as se-
substituições são descritas por um processo de Mar- quências envolvidas no alinhamento. Se diferentes
kov homogêneo, onde a probabilidade de substituição sequências possuem diferente composição de bases, a
de um nucleotídeo X pelo Y não depende do estado pressuposição principal do modelo será violada.
prévio do nucleotídeo X. O modelo HKY85, proposto por Hasegawa, Kishino
As probabilidades de mudança de um nucleotídeo e Yano, essencialmente mistura os modelos K2P e F81.
para outro (ou de um aminoácido para outro) são es- Além de supor que a frequência das bases é variável,
pecificadas através de uma matriz 4x4 das taxas de este modelo permite que transições e transversões
substituição (ou 20x20 no caso dos aminoácidos) que ocorram com taxas diferentes.
especificam com qual taxa cada um dos nucleotídeos Posteriormente, o modelo GTR (generalised time-
ou aminoácidos poderá mudar para outro. É necessário reversible), o mais complexo dos modelos aqui apre-
assumir também que os eventos de substituição sejam sentados, foi desenvolvido a partir do HKY85 com o in-
independentes ao longo dos sítios das sequências, e tuito de acomodar diferentes taxas de substituição e
ainda, possuam um caráter reversível. Além disso, de- diferentes frequências de bases. Este modelo requer
vem especificar a frequência estacionária dos nucleotí- seis parâmetros para taxa de substituição e quatro pa-
deos, ou frequência de equilíbrio, onde será atribuída a râmetros para a frequência das bases, misturando to-
provável proporção de cada um dos caracteres na se- dos os modelos aqui descritos.
quência. Atualmente, além destes mais de 200 modelos de
Para sequências de nucleotídeos, o modelo de substituição podem ser aplicados a alinhamentos de
substituição mais simples foi proposto por Jukes e nucleotídeos. Alguns programas, como Modeltest e
Cantor em 1969 (JC69). Segundo este modelo, as mu- Jmodeltest, são capazes de selecionar o modelo de
danças entre os nucleotídeos podem ocorrer com a substituição que melhor se ajusta a um dado alinha-
mesma probabilidade, assumindo uma frequência es- mento.
tacionária igual para todos (cada nucleotídeo tem 25% Uma importante extensão desses modelos de
de chance de ocorrer na sequência). substituição incorpora a possibilidade de variação nas
Com o advento da publicação das primeiras se- taxas evolutivas entre os sítios, permitindo ao modelo
quências de genoma mitocondrial, na década de 1980, mais realismo. Assim, para cada sítio no DNA será atri-
se observou que as transições eram muito mais co- buída uma probabilidade de evolução a uma taxa conti-
muns que as transversões. Devido à uniformidade do da em um intervalo discreto de probabilidades. O
método proposto por Jukes e Cantor, foi necessário método que garante a heterogeneidade de taxas evo-
criar um modelo que acomodasse essas diferenças. lutivas é modelado através de uma distribuição gama
Assim, o modelo proposto por Kimura (K80 ou K2P) (Γ), que considera um número específico de taxas de
evolução para os sítios do DNA. 5.5. Inferência filogenética

A aplicabilidade deste modelo nas inferências filo-
genéticas é facilitada pela simplicidade do método, já A reconstrução filogenética, ou seja, a
que apenas um único parâmetro (α) controla a forma reconstrução da história evolutiva de orga-
da distribuição gama. Quando α < 1, existe um grande nismos, é um complexo processo que envolve
número de taxas de evolução entre os sítios das se- uma série de etapas. O alinhamento, além de
quências em análise, ou seja, quanto maior α, menor a ser o primeiro passo, é um importante ponto
heterogeneidade. Algumas vezes, uma proporção de para a inferência de filogenias (ver capítulo 3).
sítios invariáveis (I), no qual uma determinada propor- Um alinhamento preciso, além de garantir
ção de sítios é assumida como incapaz de sofrer subs- maior confiabilidade nas análises posteriores,
tituição, pode também ser usada para modelar a é requerido por todos os métodos de inferên-
heterogeneidade entre os sítios. cia filogenética para construção da árvore.
Ao contrário dos modelos de substituição de nucle- Depois que o alinhamento foi proposto,
otídeos, os modelos que explicam as trocas de amino- diversos métodos podem ser usados para
ácidos são tradicionalmente empíricos. A partir da estimar a filogenia das sequências estudadas.
análise de alinhamentos de proteínas com identidade Podemos dividir estes métodos em dois prin-
mínima de 85% Dayhoff, em 1970, desenvolveu uma cipais grupos: métodos quantitativos e méto-
série de matrizes de probabilidade que explicavam as dos qualitativos (Tabela 1-5). Estes grupos
mudanças de aminoácidos ao longo do tempo. diferem na forma como os dados são trata-
As matrizes PAM, como ficaram conhecidas, cor- dos, refletindo diretamente como os dados do
respondem a modelos de evolução nos quais os ami- alinhamento serão inicialmente processados.
noácidos são substituídos aleatoriamente e Os métodos quantitativos se baseiam na
independentemente, de acordo com uma probabilidade quantidade de diferenças entre as sequências
predefinida que depende do próprio aminoácido. do alinhamento para calcular uma árvore fi-
Em 1992, um novo modelo de substituição de ami- nal. Já os métodos qualitativos constroem di-
noácidos é criado por Henikoff e Henikoff. A análise de versas filogenias que são classificadas
sequências de proteínas distantes evolutivamente, seguindo uma determinada qualidade (crité-
possibilitada pelo modelo de Henikoff-Henikoff, estabe- rio). A filogenia que obtiver o maior valor as-
leceu as bases para a criação das matrizes BLOSUM. sociado à tal qualidade será a filogenia
As matrizes desta série foram identificadas por núme- resultante.
ros (por exemplo, BLOSUM62) que se referem à por- Os métodos quantitativos compreen-
centagem mínima de identidade dos blocos dos dem os métodos de distância. Estes métodos
aminoácidos utilizados para construir o alinhamento. convertem o alinhamento em matrizes de
Matrizes similares, como GONNET e JTT, surgiram na distância par-a-par para todas as sequências
mesma época. incluídas. Dentro destes algoritmos desta-
Em 1996, foi proposto um modelo de substituição cam-se dois métodos principais: UPGMA e
específico para proteínas codificadas pelo DNA mito- aproximação dos vizinhos. Devido à grande
condrial, onde foi observado desvio de transições entre eficiência computacional, estes métodos ge-
aminoácidos em relação às proteínas codificadas pelo ralmente são utilizados para construção de
material genético nuclear. Essa matriz, criada por uma filogenia inicial, que posteriormente é
Adachi e Hasegawa, foi chamada de mtREV. submetida a algum método do grupo qualita-
Finalmente, em 2001, Whelan e Goldman propõem tivo. Como principal ponto negativo, estes
a matriz WAG, baseada em combinação e ampliação de métodos apresentam apenas uma filogenia
vários modelos de substituição anteriores. Tal matriz é como resultado final (ver adiante).
considerada superior às suas antecessoras para des- Idealmente, todas as possíveis árvores
crever filogenias de proteínas globulares. para um dado alinhamento deveriam ser ana-
lisadas para garantir a escolha da melhor fi-
logenia. Para isso, é necessário atribuir certos
parâmetros que avaliem, dentre todas as ár-
Tabela 1-5: Comparação entre os tipos de métodos para inferência de filogenias.

Tipo Método Princípio Programa
Agrupa sequencialmente as OTUs com Geneious
UPGMA
menor distância evolutiva entre si MEGA
Métodos MEGA
Busca a árvore com a menor
Quantitativos Aproximação dos vizinhos Geneious
soma total de ramos
HyPhy
PAUP
Busca a filogenia com menor número de
Máxima Parcimônia MEGA
eventos evolutivos
Mesquite
PAUP
Busca a árvore com o valor de maior
Métodos Máxima Verossimilhança verossimilhança entre todas as filogenias PAML
Qualitativos phyML
construídas
MEGA
Amostra um número representativo de Mr. Bayes

Estatística Bayesiana filogenias a partir do espaço amostral total BEAST
de árvores e busca a mais provável BAMBE
vores, aquela que explica as relações evoluti- ao tempo e à exigência computacional, os métodos
vas de forma mais precisa. heurísticos são preferidos aos exatos. No entanto,
Assim, os métodos qualitativos envol- qualquer um deles pode ser aplicado aos métodos
vem algoritmos que atribuem um critério de qualitativos de inferência filogenética. Como desvanta-
otimização para escolher a melhor filogenia. gem dos métodos qualitativos, repetidos processos de
Nestes métodos, diversas filogenias são procura em um mesmo conjunto de sequências podem
construídas e, seguindo um critério definido levar a resultados diferentes, dependendo da árvore
pelo algoritmo utilizado, uma filogenia será que é construída inicialmente pelo algoritmo.
identificada como a que melhor explica a re- Os métodos exatos buscam todas as filogenias
lação evolutiva entre os OTUs. O critério é possíveis para um grupo de sequências. O funciona-
utilizado para atribuir um valor a cada filoge- mento destes métodos geralmente envolve a seleção
nia e ordená-las segundo este valor. aleatória inicial de três OTUs para a construção de uma
Estes métodos têm a vantagem de re- árvore filogenética não enraizada. Por tentativa, um a
querer uma função explícita para escolha das um, novas OTUs, também tomadas aleatoriamente do
filogenias, sendo portanto independente da alinhamento, são inseridas em diferentes posições na
escolha do operador. No entanto, devido ao árvore. Esse procedimento é repetido até todos os tá-
caráter de sua análise, são métodos mais re- xons serem inseridos, garantindo que todas as filogeni-
finados e intrinsecamente mais demorados as possíveis para o alinhamento dado sejam geradas.
computacionalmente. Três critérios de otimi- A partir da aplicação de um critério de otimização
zação são tradicionalmente empregados na (dado pelo método qualitativo) para classificar as filo-
inferência de filogenias: (a) Máxima Parcimô- genias e ordená-las segundo este valor, é possível or-
nia, (b) Máxima Verossimilhança e (c) Inferên- ganizar um espaço virtual que contém todas as
cia Bayesiana. filogenias possíveis para o alinhamento empregado. É
Por se tratarem de métodos que buscam uma única importante lembrar que, tomando poucas sequências,
filogenia entre diversas árvores, os métodos qualitati- milhões de árvores podem ser geradas. Este conjunto
vos exigem algoritmos que vasculhem o maior número total de filogenias é comumente chamado de espaço
possível de filogenias em busca da melhor árvore. Dois amostral. Como exemplo, podemos organizar o espaço
grupos de algoritmos são destacados: os algoritmos amostral de filogenias originadas a partir de um ali-
exatos e os algoritmos heurísticos. Atualmente, devido nhamento de dez sequências em um gráfico bidimensi-
onal baseado no valor atribuído pelo critério de otimi- computacionalmente, estes métodos não garantem
zação a cada árvore (Figura 9-5). Nestas condições, que a filogenia correta seja encontrada, pois apenas al-
será possível observar que algumas árvores possuem gumas árvores do espaço amostral total serão consi-
valores maiores que outras, formando picos que agru- deradas. Ainda assim, estes métodos tem mostrado
pam as melhores filogenias. Da mesma forma, entre grande eficiência.
diferentes picos existem vales representados por ár- Atualmente, os principais métodos qualitativos de
vores com valores menores e, portanto, menos con- inferência filogenética incorporam algoritmos de busca
sistentes. heurística para amostrar as filogenias do espaço
amostral virtual. Usualmente, estes algoritmos de
busca são executados em dois passos. Primeiramente,
diferentes árvores são construídas e, após encontrar a
melhor árvore guiada por um critério de otimização,
aplica-se um algoritmo para modificar aleatoriamente
o arranjo dos ramos. Este método permite testar se
outros arranjos são ou não mais consistentes.
Devido ao grande número de métodos
para inferência filogenética, a decisão quanto
ao uso de cada um é de grande importância
para a interpretação do resultado final: a filo-
genia. Ao escolher um método, é fundamental
verificar o poder (tamanho e quantidade de
sequências necessária para resolver a filoge-
Figura 9-5: Descrição de parte do espaço nia), a eficiência (habilidade de estimar a filo-
amostral das possíveis filogenias para um genia correta com um número limitado de
determinado sistema, ordenadas segundo um dados), a consistência (habilidade de estimar a
valor atribuído pelo critério de otimização. filogenia correta com um número de dados
Cada ponto no gráfico representa uma ilimitado) e a robustez (habilidade de estimar
topologia diferente inferida a partir de um a filogenia correta quando certos pressupos-
conjunto de dez sequências homólogas. O tos da análise são violados).
espaço amostral, neste caso, é definido por Até o momento, não existe um método
2.027.025 filogenias e apresenta, segundo o que apresente todas estas características si-
critério de otimização, dois máximos locais e multaneamente e garanta a reconstrução fi-
um máximo global, que contém as melhores logenética correta. É importante, sobretudo,
filogenias. Em destaque, algumas filogenias conhecer a biologia do organismo (ou dos or-
exemplificando as possibilidades de arranjo ganismos) em questão para que a escolha do
dos ramos. A seta indica a mudança de método tenha, além de tudo, uma justificativa
topologia da filogenia e o consequente biológica.
aumento de seu valor dado pelo critério de
otimização. 5.6. Abordagens quantitativas
Os métodos de busca exaustiva construirão um es- UPGMA
paço amostral de árvores através de métodos especí-
ficos de modificação das filogenias. Por acumularem O método baseado em distâncias
um grande número de resultados, estes métodos exi- UPGMA (unweighted pair-group method using
gem um tempo computacional muito elevado, por ve- arithmetic averages, ou método de agrupa-
zes tornando-se proibitivos. mento par a par usando médias aritméticas
Os algoritmos de busca heurística procuram pela não ponderadas) foi proposto por Sneath e
melhor filogenia em um subconjunto de todas as filo- Sokal, em 1973, e é o método mais simples
genias possíveis. Apesar de serem muito mais rápidos para reconstrução filogenética. O UPGMA
parte do pressuposto de que todas as linha- uma nova sequência composta. O mesmo
gens evoluem a uma taxa constante (hipótese procedimento é repetido até que existam
do relógio molecular). apenas duas sequências a serem agrupadas
No UPGMA, uma medida de distância (comumente, uma sequência simples e uma
evolutiva é computada para todos os pares de entidade composta).
sequências utilizando um modelo evolutivo. Ao empregar sequências de DNA ou
Após, estas distâncias são organizadas na proteína proximamente relacionadas, o
forma de uma matriz, conforme ilustrado UPGMA pode construir duas ou mais “árvores
abaixo: empatadas” (tie trees). Essas árvores surgem
Sequências 1 2 3 4 quando dois ou mais valores de distância na
matriz se mostram idênticos. É possível re-
2 d1,2 presentar todas as árvores empatadas, mas
essa abordagem é pouco útil, uma vez que
3 d1,3 d2,3 tais árvores são muito semelhantes e surgem
por erros de estimativa das distâncias. Para
4 d1,4 d2,4 d3,4 tais casos, sugere-se apresentar uma única
árvore, geralmente a árvore consenso do
5 d1,5 d2,5 d3,5 d4,5 bootstrap (ver seção 5.8).
Por se basear na hipótese do relógio
O agrupamento das sequências é inicia- molecular, o UPGMA pode levar à obtenção de
do pelo par com menor distância. Supondo topologias falsas quando tal hipótese não for
que d1,2 seja a menor distância no exemplo satisfeita pelos dados. Sabe-se que o método
acima, as sequências 1 e 2 são agrupadas é muito sensível a variações nas taxas evolu-
com um ponto de ramificação na metade tivas entre linhagens, fato este que levou a
dessa distância (d1,2/2). As sequências 1 e 2 são proposição de métodos onde as variações são
então combinadas em uma entidade compos- ajustadas para a obtenção de sequências que
ta, agora denominada y, e a distância entre satisfaçam o relógio molecular. Apesar disso,
esta entidade y e as outras sequências é devido ao surgimento de métodos mais ro-
computada (observe abaixo). bustos e mais eficientes em lidar com dados
não uniformes, o UPGMA encontra-se prati-
Sequências y(1,2) 3 4
camente abandonado como alternativa para
3 dy,3 reconstrução filogenética.
4 dy,4 d3,4 Aproximação dos Vizinhos
5 dy,5 d3,5 d4,5 O método de aproximação dos vizinhos

(neighbor joining ou NJ) foi proposto por
Saitou e Nei em 1987. Este método se baseia
Supondo que dy,3 seja a menor distância, em um aceleramento dos algoritmos de evo-
y e 3 são combinados em uma nova entidade lução mínima que existiam até então. Em sua
composta, digamos, z. Seu ponto de ramifica- versão original, estes algoritmos buscavam a
ção é calculado levando em conta a distância árvore com menor soma total de ramos, de
de cada membro de y (1 e 2) em relação a 3 e maneira que todas as árvores possíveis pre-
dividindo por 2, ou seja, (d1,3+d2,3)/2. O mesmo cisavam ser construídas para que se verifi-
procedimento se repete, calculando a menor casse qual delas apresentava a menor soma.
distância entre z e outra sequência (suponha- O algoritmo de NJ facilitou esse processo,
mos que seja a sequência 4). Calculam-se a tendo o princípio de evolução mínima implícito
distância de cada membro de z até 4, divide-se no processo e produzindo apenas uma árvore
o somatório das distâncias por dois e cria-se final.
Para construir a filogenia, o NJ começa 5.7. Abordagens qualitativas

por uma árvore totalmente não resolvida (to-
pologia em estrela) (Figura 10-5). Tendo como Parcimônia
base uma matriz de distâncias (semelhante à
matriz inicial construída pelo método de O princípio de parcimônia foi proposto
UPGMA) entre todos os pares de sequências, por Guilherme de Occam (ou William of
construída a partir da aplicação de um modelo Ockham) no século XVII. Occam defendia que
de substituição (conforme descrito na seção a natureza é por si só econômica e opta por
5.4), o par que apresentar a menor distância é caminhos mais simples. O pensamento se es-
identificado, unido por um nó (que represen- palhou por diversas áreas do conhecimento e,
tará o ancestral comum deste par de se- atualmente, seu princípio é conhecido como
quências) e incorporado na árvore (na Figura Navalha de Occam.
10-5, f e g são unidos pelo nó u). As distâncias Historicamente, a parcimônia teve um
de cada sequência do par são recalculadas papel muito importante no estabelecimento
em relação ao novo nó u, assim como as dis- da disciplina de filogenética molecular. Desde
tâncias de todas as outras sequências são re- 1970, foi o critério de otimização mais utiliza-
calculadas em relação ao novo nó u. O do para inferência de filogenias.
algoritmo reinicia, substituindo o par de vizi- Contudo, atualmente a máxima parci-
nhos unidos pelo novo nó e usando as distân- mônia foi substituída por outros métodos,
cias calculadas no passo anterior. como máxima verossimilhança e inferência
Quando duas somatórias de ramos são Bayesiana devido, principalmente, às simplifi-
iguais, a decisão sobre quais ramos unir de- cações nos processos evolutivos assumidas
pende do programa empregado. Alguns op- pelo método e, sobretudo, nas limitações de
tam pela primeira sequência apresentada no seu uso. Apesar disso, a máxima parcimônia
arquivo de dados, enquanto outros escolhem ainda está integrada ao campo da inferência
aleatoriamente qual dos pares deve ser unido filogenética por ser um método rápido e, em
primeiro. Árvores empatadas (tie trees) são alguns casos, muito efetivo.
raras com o uso de NJ, e recomenda-se o A aplicação do princípio de máxima par-
emprego da árvore consenso do bootstrap cimônia nas reconstruções filogenéticas é
(ver seção 5.8) para evitá-las. Uma variação conceitualmente simples: dentro de um con-
do algoritmo NJ, o BIONJ tem se mostrado li- junto de filogenias, aquela filogenia que apre-
geiramente melhor que o NJ em casos pontu- sentar o menor número de eventos evolutivos
ais; no entanto, conserva o mesmo princípio (substituições) deve ser a mais provável para
do algoritmo. explicar os dados do alinhamento.
Figura 10-5: Começando com uma árvore em estrela (a), a matriz de distâncias é calculada para
identificar o par de nós a ser unido (nesse caso, f e g). Estes são unidos ao novo nó u (b). A
porção em vermelho é fixada e não será mais alterada. As distâncias do nó u até os nós a-e são
calculadas e usadas para unir o próximo vizinho. No caso, u e e são unidos ao recém criado nó v
(c). Mais duas etapas de cálculo levam à árvore em (d) e então à árvore em (e), que está
totalmente resolvida, encerrando o algoritmo.
Metodologicamente, o critério de parci-

mônia deve determinar a quantidade total de
mudanças na filogenia, descrevendo o tama-
nho dos ramos. Adicionalmente, a parcimônia
guia a busca, entre todas as árvores possí-
veis, daquela filogenia que minimiza os passos
evolutivos de forma máxima sendo, portanto,
a filogenia de máxima parcimônia.
Assim que uma determinada filogenia é
proposta, o método calculará as probabilida-
des de mudanças dos nucleotídeos desde os
ramos terminais até os ramos mais ances-
trais da árvore. Por se tratar de um método
qualitativo, a parcimônia considera cada sítio Figura 11-5: Matrizes de custo aplicadas ao
do alinhamento individualmente e calcula as método de máxima parcimônia para penalizar
probabilidades de ocorrência dos quatro nuas substituições de um nucleotídeo por outro.
cleotídeos nos táxons ancestrais. (a) Matriz de custos iguais para todas as
Devido ao caráter probabilístico do mé- mudanças entre nucleotídeos. (b) Matriz de
todo, é necessário que certas pressuposições custo desigual, considerando a maior
sejam estabelecidas para especificar o custo probabilidade de ocorrência de transições em
de substituição dos nucleotídeos. A forma relação às transversões ao longo do
mais simples do método (Parcimônia de processo evolutivo.
Wagner) assume que as substituições de nu-
cleotídeos tem custo 1, enquanto que a não necessário que algoritmos fossem desenvolvidos para
alteração não é penalizada (Figura 11-5a). No acelerar os cálculos na busca pela árvore de máxima
entanto, esquemas um pouco mais complexos parcimônia. Algoritmos de programação dinâmica são
que levam em consideração as questões bio- capazes de lidar com a atribuição de custos e realizar
lógicas envolvidas no processo evolutivo fo- os devidos cálculos para escolha da filogenia com o
ram propostas. Um esquema comum de menor custo. Diversos algoritmos foram desenvolvi-
matriz com custo desigual, proposto para es- dos, embora a parcimônia de Sankoff, desenvolvida em
pecificar as transições e as transversões, leva 1975, tenha se tornado uma das mais populares.
em consideração a diferença na probabilidade Após a atribuição de uma matriz de
de mudança entre purinas e pirimidinas (Figu- custo e a proposição de uma filogenia, o al-
ra 11-5b). Comumente, a matriz é especificada goritmo utilizará cada um dos sítios informa-
sem que constem os respectivos nucleotíde- tivos do alinhamento independentemente
os, no entanto, por convenção são atribuídos para cálculo dos custos (Figura 11-5).
nas linhas e colunas em ordem alfabética (A, Considere a matriz desigual da Figura 11-
C, G e T). 5b e a filogenia inicialmente proposta na Fi-
Para o método de parcimônia, apenas gura 12-5a. O esquema demonstra que para
sítios variáveis são considerados informati- cada sítio informativo será construída uma fi-
vos. Estes sítios devem apresentar dois ca- logenia com a mesma topologia da árvore
racteres diferentes presentes em, no mínimo, proposta em 12-5a (ver adiante).
dois indivíduos (Figura 12-5b). Aqueles sítios Tomando, por exemplo, o sítio 28, iden-
que não apresentam variação ou apresentam tificamos a presença de três ancestrais não
autapomorfias (caracter diferente presente amostrados que, no entanto, para o cálculo
em apenas um indivíduo) serão descartados dos custos, terão que ter seus caracteres in-
automaticamente das análises. feridos. Segundo o algoritmo de Sankoff, os
Devido ao tamanho dos alinhamentos e ao número cálculos devem iniciar tomando os clados
de OTUs incluídas para a inferência de filogenias, foi mais derivados (isto é, mais recentes). Em 12-
Figura 12-5: Determinação dos custos de substituição pelo método de parcimônia para um sítio
do alinhamento de nucleotídeos. (a) Topologia da filogenia proposta para quatro táxons (ver
adiante). (b) Alinhamento de nucleotídeos de quatro sequências homólogas. Destacados em
cinza estão os sítios informativos para o método de parcimônia. Os demais sítios são
considerados não informativos e serão descartados durante os cálculos. (c) Cálculo dos custos
para os dois clados presentes na filogenia proposta em “a”. O método supõe que a posição “Y”
possa ser ocupada por qualquer um dos quatro nucleotídeos. (d) Exemplo do procedimento
adotado pelo método, supondo que a posição “X” na filogenia foi ocupada pelo nucleotídeo A. É
necessário considerar todas as possibilidades de caracteres nos sítios ancestrais e calcular os
respectivos custos. (e) Arranjo de menor custo para a posição 28 do alinhamento de
nucleotídeos.
5c, a posição “Y” da filogenia necessariamen- liza 8. O mesmo procedimento será repetido
te foi ocupada por um dos quatro nucleotíde- considerando os outros três nucleotídeos na
os. Em cada uma das proposições (A, C, G ou posição “Y”.
T), o custo associado à substituição é consul- Após o cálculo dos custos para as posi-
tado na matriz. No primeiro caso, a hipótese ções “Y” e “Z”, é necessário verificar os cus-
para ocupação da posição “Y” é A. O custo da tos de substituição de “X” para “Y” e “X” para
substituição em cada um dos ramos deve ser “Z”. A Figura 12-5d apresenta a primeira hi-
verificado e somado. Por exemplo, a substi- pótese para ocupação da posição “X”: o nu-
tuição de A por T possui custo 4. Como a cleotídeo A. Aqui, o algoritmo somará os
mesma substituição ocorreu em dois ramos custos de substituição de todos os ramos,
diferentes, somamos o custo total, que tota- novamente considerando cada um dos quatro
nucleotídeos na posição “X”, mas também filogenias.

considerando a variação nas posições “Y” e
“Z”. A Figura 12-5e identifica a filogenia com o Máxima Verossimilhança
menor custo para o sítio 28. Note que o ca-
ractere mais ancestral pode ser tanto o nu- Idealmente, os métodos de inferência
cleotídeo T quanto C. Os mesmos cálculos filogenética devem resgatar o máximo de in-
serão realizados para todos os sítios do ali- formações contidas em um dado conjunto de
nhamento, tomando a topologia dada em 12- sequências homólogas, buscando desvendar a
5a e, ao final, os menores custos para cada verdadeira história evolutiva dos organismos.
sítio serão somados para encontrar o tama- Quando um grande número de mudan-
nho dos ramos da árvore. A árvore que pos- ças evolutivas em diferentes linhagens é de-
suir os ramos mais parcimoniosos será masiadamente desigual, o método de máxima
tomada como a árvore de máxima parcimô- parcimônia tende a inferir filogenias inconsis-
nia. tentes, proporcionalmente convergindo à ár-
Computacionalmente, o cálculo dos ta- vore errada quanto maior o número de
manhos de ramos mais parcimoniosos não é sequências no alinhamento. Assim, abre-se
um problema. O desafio da maioria dos mé- espaço para uma técnica de inferência filoge-
todos de reconstrução filogenética está na in- nética mais robusta, que alie as informações
ferência da topologia. Assim como no método do alinhamento a um modelo estatístico ca-
de máxima verossimilhança, discutido a se- paz de lidar com a probabilidade de mudança
guir, o método de máxima parcimônia contará de um nucleotídeo para outro de maneira
com algoritmos heurísticos para arranjo das mais completa.
topologias. A filogenia é então proposta pelo Dentro do campo da filogenética com-
algoritmo, e o critério de parcimônia avalia a putacional, o método de máxima verossimi-
árvore. A partir de perturbações realizadas lhança primeiramente ocupou este espaço e,
nesta topologia, uma nova topologia é pro- desde então, tem sido amplamente utilizado
posta e novamente o critério qualifica a filo- devido à qualidade da abordagem estatística
genia. empregada.
Apesar de velozes, os métodos de par- A implementação de uma concepção
cimônia falham ao estimar a relação evolutiva estatística para a máxima verossimilhança,
entre um grande número de táxons, especial- originalmente desenvolvida para estimar pa-
mente se diferentes linhagens possuem taxas râmetros desconhecidos em modelos proba-
evolutivas variáveis ou taxas evolutivas muito bilísticos, se deu entre 1912 e 1922 através
rápidas. Nestes casos, é comum que o méto- dos trabalhos de A. R. Fisher.
do agrupe incorretamente os táxons com Apesar de utilizado para dados molecu-
maiores taxas de evolução, levando à infe- lares na década de 1970, o método de máxi-
rência da filogenia errada (atração de ramos ma verossimilhança só se tornou popular na
longos). área da filogenética a partir de 1981, com o
Ainda, por não ter um modelo de subs- desenvolvimento de um algoritmo para esti-
tituição especificado, o método de parcimônia mar filogenias baseadas no alinhamento de
é incapaz de considerar mutações reversas ou nucleotídeos. Atualmente, diversos progra-
múltiplas substituições. Métodos que geram mas implementam este método para realizar
diferentes hipóteses a partir do alinhamento, a inferência filogenética, incluindo PAUP, ME-
considerando as observações biológicas na GA, PHYLIP, fastDNAml, IQPNNI e METAPIGA,
seleção do modo de substituição dos nucleo- dentre outros (Tabela 1-5).
tídeos e, assim, lidam com eventos aleatórios O objetivo principal do método da máxi-
de probabilidade, substituíram o uso da máxi- ma verossimilhança é inferir a história evolu-
ma parcimônia e, atualmente, são os princi- tiva mais consistente com relação aos dados
pais métodos utilizados para a inferência de fornecidos pelo conjunto de sequências. Neste
modelo, a hipótese (topologia da árvore, mo- lhança desta filogenia será necessário utilizar
delo de substituição e comprimento dos ra- um modelo evolutivo, que será importante
mos) é avaliada pela capacidade de predizer para atribuir valores e parâmetros às substi-
os dados observados (alinhamento de se- tuições e ajudará no cálculo da probabilidade
quências homólogas). Sendo assim, a veros- de que uma sequência X mude para uma se-
similhança de uma árvore é proporcional à quência Y ao longo de um segmento da árvo-
probabilidade de explicar os dados do alinha- re.
mento. Aquela árvore que com maior proba- Dado um determinado modelo evolutivo
bilidade, entre as outras árvores possíveis, (JC69, K2P, F81, HKY ou GTR, por exemplo), e
produz o conjunto de sequências do alinha- assumindo que cada sítio do alinhamento
mento, é a árvore que reflete a história evo- evolui de maneira independente dos demais,
lutiva mais próxima da realidade, mais podemos calcular o valor de verossimilhança
verossímil e, por isso, de máxima verossimi- para cada um destes sítios e, posteriormente,
lhança. multiplicar os valores de cada sítio para en-
É importante ressaltar que diferentes contrar a verossimilhança da árvore dada (Fi-
filogenias podem explicar um determinado gura 13-5 e a Figura 14-5). Sítios que
conjunto de sequências, algumas com maior apresentam deleções serão eliminados da
probabilidade e, outras, com menor probabi- análise.
lidade. No entanto, a soma das verossimi- Como os nós internos destas árvores,
lhanças de todas as árvores possíveis para geradas a partir de cada sítio do alinhamento,
um determinado conjunto de sequências nun- são a representação de OTUs não amostra-
ca resultará em 1, pois não estamos lidando dos (isto é, ancestrais) e, por conseguinte, não
com as probabilidades de que estas filogenias se conhecem suas sequências de nucleotíde-
estejam corretas, mas avaliando a probabili- os, será necessário considerar a ocorrência
dade de explicarem o alinhamento que foi de todos os nucleotídeos (A, T, C e G) nestas
fornecido. posições da árvore (Figura 13-5c).
Se, por exemplo, aplicássemos o méto- Por certo, alguns cenários são mais
do de máxima verossimilhança para inferir a prováveis que outros; no entanto, todos de-
árvore filogenética de um grupo de sequênci- vem ser considerados durante os cálculos de
as homólogas que incluem porções recombi- verossimilhança, pois apresentam alguma
nantes, encontraríamos uma árvore probabilidade de terem gerado as sequências
filogenética com um determinado valor de dadas no alinhamento. Adicionalmente, além
verossimilhança. A utilização do método, por de calcular a probabilidade de todas as mu-
si só, garantiria como resultado a inferência danças possíveis para cada um dos sítios do
de uma filogenia. No entanto, sabemos que alinhamento (Figura 13-5c), a expressão ma-
esta árvore, apesar de ser a mais plausível temática da verossimilhança ainda incluirá o
para explicar o alinhamento dado, não tem tamanho dos ramos, dentre outros elementos
qualquer relação com a realidade evolutiva do do modelo de substituição, como um fator
organismo, já que eventos de recombinação determinante para o cálculo (Figura 13-5d).
aconteceram no decorrer do tempo e impe- A probabilidade de ocorrência de cada um dos qua-
dem a explicação sob a forma dicotômica de tro nucleotídeos no nó mais interno da árvore será
uma filogenia. igual à respectiva frequência estacionária dada pelo
A aplicação do método de máxima ve- modelo de substituição, já que este parâmetro especi-
rossimilhança exige a construção de uma fi- fica a proporção esperada de cada um dos quatro nu-
logenia inicial, geralmente obtida por métodos cleotídeos. No modelo de Jukes e Cantor, por exemplo,
quantitativos. Como exemplo, considere a ár- assume-se que os quatro nucleotídeos ocorrem em
vore filogenética proposta inicialmente e o proporções iguais de 25%.
respectivo alinhamento de nucleotídeos da Conforme o exemplo da Figura 13-5d, a equação
Figura 13-5. Para calcularmos a verossimi- utilizada para calcular a verossimilhança da filogenia
proposta no sítio 28, inicialmente, leva em considera- culo computacional, os algoritmos aplicados à inferên-
ção a frequência estacionária do nucleotídeo G, já que cia filogenética (baseados no princípio de Pulley) auto-
este é o nucleotídeo que está sendo considerado como maticamente estimarão o tamanho de cada ramo de
presente no nó mais ancestral da árvore. A probabili- modo que este maximize o valor da verossimilhança da
dade de este G ser substituído por um A (PGA), ou per- árvore filogenética em construção. Nestes casos, o al-
manecer G (PGG) será dada pelo modelo de substituição goritmo atribui diversos valores de distância para um
escolhido. Da mesma forma, serão os casos PGT, PAC ramo e, a cada valor, verifica a verossimilhança da ár-
(repetido duas vezes cada pelo fato de existirem dois vore, buscando aqueles valores que resultam na filo-
ramos terminais com o mesmo nucleotídeo). genia com a maior verossimilhança.
O tamanho dos ramos entre dois nós será multipli- A probabilidade de observar os dados em um sítio
cado pelas probabilidades de substituição dos nucleotí- particular é a soma das probabilidades de todos os
deos, levando em conta variações em parâmetros do possíveis nucleotídeos que poderiam ser observados
modelo de substituição. Apesar da dificuldade de cál- nos nós internos da árvore (Figura 13-5c). O número de
Figura 13-5: Esquema do cálculo da verossimilhança para uma filogenia e seu respectivo
alinhamento de nucleotídeos. (a) Árvore filogenética proposta inicialmente para o alinhamento
em “b”. (b) Para cada posição do alinhamento é destacada a organização dos quatro sítios do
alinhamento na árvore proposta em “a”. Como exemplo, apenas o sítio do alinhamento
destacado em cinza será considerado para o cálculo da verossimilhança. Os quadrados pretos,
azuis, verdes e vermelhos nos ramos terminais das filogenias representam, respectivamente,
os nucleotídeos guanina, citosina, adenina e timina. (c) Probabilidade de cada uma das 64
possíveis combinações de nucleotídeos nos nós internos da árvore, já que estes representam os
sítios de táxons ancestrais não amostrados (PXY, PYT, PXZ, PZC). (d) O esquema para o cálculo da
máxima verossimilhança leva em conta a multiplicação do tamanho dos ramos (t1, t2, t3, t4, t5 e t6)
pelas respectivas probabilidades de transição (PGG, PGT, PGA e PAC), além da frequência
estacionária dos quatro nucleotídeos no nó mais ancestral (πX).
nós internos rapidamente se torna muito grande com o

aumento do número de OTUs. Felizmente, através de
um algoritmo criado por Felseinstein (algoritmo de
“poda”), que se aproveita da própria topologia da filo-
genia, esses cálculos podem ser realizados de uma
maneira computacionalmente eficiente.
Neste processo, propõe-se que os cálculos da ve-
rossimilhança de uma determinada árvore sejam feitos
a partir de sub-árvores dos ramos terminais em dire-
ção aos nós internos, semelhante ao algoritmo usado
para o cálculo da parcimônia. No entanto, quando apli-
cado este método à inferência por máxima verossimi-
lhança é necessário garantir que os modelos de
substituição, não presentes no método de máxima Figura 14-5: Cálculo da máxima
parcimônia, sejam reversíveis, ou seja, que a probabili- verossimilhança de uma dada filogenia,
dade de mudança de A para T (PAT) seja a mesma que T considerando seu respectivo alinhamento de
para A (PTA). A introdução deste método permitiu que nucleotídeos contendo quatro táxons e 30
as análises de verossimilhança pudessem ser aplicadas bases (Figura 13-5b). Para cada sítio (L01, L02,
a grandes conjuntos de sequências, de forma mais rá- ..., L30) será calculado um valor de
pida e efetiva. probabilidade que envolve a consideração de
Ao final, multiplicamos os valores de verossimi- todos os quatro nucleotídeos em cada um
lhança de todos os sítios e encontramos o valor de ve- dos ramos ancestrais da filogenia. Pos-
rossimilhança da árvore (Figura 14-5): teriormente, os valores de verossimilhança
A expressão matemática acima indica que a veros- de cada sítio serão multiplicados para
similhança (L) é igual à multiplicação (Π) das probabili- encontrar a verossimilhança total da filo-
dades de cada sítio i (Di, calculado conforme Figura genia.
13-5), dada a árvore filogenética (topologia, modelo
evolutivo e tamanho dos ramos). Aquela árvore que ti- cessário calcular sua verossimilhança e com-
ver o maior valor de verossimilhança entre todas as parar este valor com todas as árvores já
árvores possíveis para um determinado alinhamento construídas. Como é impossível testar a ve-
de sequências será a árvore que melhor explica o ali- rossimilhança para todas as filogenias possí-
nhamento e, por isso, a árvore de máxima verossimi- veis, os algoritmos de máxima
lhança. Por fim, é importante ressaltar que, apesar de verossimilhança incluirão buscas heurísticas
estarmos avaliando nucleotídeos neste exemplo, o para solucionar este problema (estes méto-
mesmo raciocínio poderia ser aplicado para a inferência dos construirão diferentes filogenias a partir
filogenética para um alinhamento de aminoácidos. do mesmo conjunto de dados do alinhamen-
Até o momento vimos, em linhas gerais, to).
como realizar o cálculo de verossimilhança Na problemática das filogenias, diferen-
para uma dada filogenia (Figura 13-5). No entes programas têm proposto as mais diver-
tanto, outra função importante dos métodos sas alternativas para avaliar o maior número
computacionais de inferência filogenética é de árvores do espaço amostral total e en-
apontar a topologia e encontrar a árvore de contrar aquela com o maior valor de verossi-
máxima verossimilhança entre todas as ár- milhança. No entanto, como regra geral, a
vores possíveis para o conjunto de dados. In- maioria dos programas de máxima verossi-
felizmente, não existem algoritmos que milhança segue alguns passos comuns:
garantam a localização da árvore real devido i) Uma filogenia preliminar com deter-
ao grande espaço amostral de árvores possí- minada topologia é construída (geral-
veis (Figura 9-5). mente são utilizadas árvores
Após uma árvore ser construída, é ne- construídas pelo método de aproxima-
ção de vizinhos); blicação, o reverendo apresenta o desenvol-

ii) Os parâmetros para esta árvore são vimento de um método formal para incorpo-
modificados buscando maximizar a ve- rar evidências prévias no cálculo da
rossimilhança (em alguns casos, a filo- probabilidade de acontecimento de determi-
genia vai sendo construída pela adição nados eventos.
de novos táxons aleatoriamente). Para a Inicialmente, este método foi aplicado
modificação da filogenia, os algoritmos apenas no campo da matemática e, só a partir
podem implementar técnicas de rear- de 1973, passa a ser incorporado no pensa-
ranjos de ramos, conforme descrito em mento biológico e na inferência filogenética.
5.4; Com o advento de diversos programas de
iii) O valor de máxima verossimilhança acesso livre para realizar a inferência de filo-
para esta árvore é armazenado; genias por estatística Bayesiana, o método se
iv) Outras topologias são construídas e difundiu e, atualmente, tornou-se um campo
seus parâmetros também são avalia- de estudo específico dentro da filogenética
dos; computacional.
v) Finalmente, a filogenia que possuir o A inferência Bayesiana engloba o méto-
valor de máxima verossimilhança será a do de máxima verossimilhança (Tabela 2-5)
melhor estimativa evolutiva para o dado mas, adicionalmente, inclui o uso de informa-
conjunto de sequências. ções dadas a priori. Estas informações refle-
tem características a respeito da filogenia, do
Embora estes processos simplifiquem alinhamento ou dos táxons, que o pesquisa-
os verdadeiros fenômenos biológicos que go- dor sabe de antemão.
vernam a evolução de uma sequência, apre- Entre os principais parâmetros que po-
sentando assim dificuldades em identificar a dem ser conhecidos antes da reconstrução
árvore com o maior valor de verossimilhança, filogenética pode-se destacar a taxa evoluti-
eles são normalmente robustos o bastante va, tipo de relógio molecular, parâmetros do
para estimar as relações evolutivas entre tá- modelo de substituição, datas de coleta das
xons. amostras, datas para calibração da filogenia
Como estes métodos implicam em en- (achados fósseis, datação por carbono-14,
contrar a árvore com o valor máximo de ve- aproximações arqueológicas, etc.), distribui-
rossimilhança entre todas as árvores ção geográfica, organização monofilética de
amostradas, o resultado final sempre forne- um grupo de indivíduos ou, até mesmo, parâ-
cerá apenas uma filogenia, ao contrário dos metros de dinâmica populacional.
métodos Bayesianos que serão vistos a se- Os valores atribuídos a priori são incor-
guir. Cabe ressaltar que, devido ao uso de di- porados à estatística Bayesiana na forma de
ferentes algoritmos, na prática, um mesmo probabilidades e comporão o termo chamado
conjunto de sequências submetido a diferen- de probabilidade anterior (prior probability).
tes programas para inferência filogenética Se sabemos de antemão que um determinado
por máxima verossimilhança dificilmente re- grupo de organismos é ancestral em relação
sultará na mesma árvore. Por isso, é neces- a outro, podemos atribuir uma maior proba-
sário ser cauteloso ao interpretar árvores bilidade àquelas filogenias que relacionam
geradas pelo método de máxima verossimi- estes organismos da maneira como sabemos
lhança. a priori.
Qualquer informação útil, que é forneci-
Análises Bayesianas da pelo pesquisador antes da própria recons-
trução da filogenia, poderá ser convertida em
A estatística Bayesiana nasceu com a uma probabilidade anterior para ser inserida
publicação de um ensaio matemático do re- nas análises de inferência Bayesiana. No en-
verendo Thomas Bayes, em 1793. Nesta pu- tanto, as informações cedidas a priori devem
Tabela 2-5: Comparação entre os métodos de máxima verossimilhança e inferência Bayesiana.

Método Vantagens Desvantagens
Captura totalmente a informação dos sítios Comparativamente ao método Bayesiano, o
Máxima do alinhamento para construção das algoritmo para reconstrução por máxima
Verossimilhança filogenias verossimilhança é mais lento
Tem grande ligação com a máxima Os parâmetros para as probabilidades
Estatística verossimilhança, sendo, no entanto, anteriores devem ser especificados e pode
Bayesiana geralmente mais rápida. Modelos ser difícil especificar quando as análises
populacionais podem ser incluídos para são satisfatórias
inferência das filogenias
ser distribuições de números prováveis (míni- milhança, é ainda necessário considerar também todos
mo e máximo), e não números exatos. Quan- os tópicos já discutidos na seção anterior. O denomina-
do estes valores não são conhecidos ou dor L(D) é uma integração sobre todas as possibilida-
quando, por exemplo, não se quer atribuir des de topologias, tamanhos de ramo e valores para os
maior probabilidade a uma determinada to- parâmetros do modelo evolutivo, o que garante que a
pologia, o parâmetro terá uma distribuição soma da probabilidade posterior para todos eles seja 1.
uniforme de probabilidades. O denominador atuará como um normalizador para o
Na maioria dos aplicativos que lidam numerador. Reescrevendo, temos:
com inferência Bayesiana existem distribui-
ções uniformes associadas às probabilidades
anteriores que assumem que todos os valo-
res possíveis são dados pela mesma probabi- onde o termo filogenia descreve a topologia da árvore,
lidade. o modelo de substituição e o comprimento dos ramos.
Além das probabilidades anteriores, a Assim, através da multiplicação das probabilidades an-
inferência Bayesiana é baseada nas proba- teriores pela verossimilhança, divididos pelo fator de
bilidades posteriores de um parâmetro como, normalização, o método busca a hipótese (topologia da
por exemplo, a topologia. Através da proba- árvore, o modelo de substituição e o comprimento dos
bilidade posterior é possível verificar a pro- ramos) em que a probabilidade posterior é máxima.
babilidade de cada uma das hipóteses O objetivo da inferência Bayesiana é cal-
(árvores filogenéticas). Sendo assim, ao final cular a probabilidade posterior para cada fi-
das análises, é possível estabelecer uma esti- logenia proposta. No entanto, para cada
mativa da probabilidade dos eventos retrata- árvore diversos parâmetros devem ser espe-
dos por uma determinada filogenia, ou seja, a cificados pelo usuário, incluindo topologia, ta-
probabilidade de cada filogenia. As probabili- manho dos ramos, parâmetros do modelo de
dades posteriores são calculadas utilizando a substituição, parâmetros populacionais, reló-
fórmula de Bayes: gio molecular, taxa evolutiva, etc. Dada uma
filogenia, todos os parâmetros terão sua pro-
babilidade posterior calculada. Se dadas 1000
filogenias, teremos 1000 valores de probabi-
O termo L(H | D) é chamado de distribuição de pro- lidade posterior para cada parâmetro.
babilidades posteriores, e é dado pela probabilidade da Devido à impossibilidade de construção
hipótese (topologia da árvore, modelo de substituição e de todas as filogenias possíveis para a maioria
comprimento dos ramos) a partir dos dados disponí- dos alinhamentos, a análise Bayesiana se
veis (alinhamento de sequências). O termo L(D | H) aproveita de técnicas de amostragem para
descreve o cálculo de máxima verossimilhança, en- estimar os valores esperados de cada parâ-
quanto o multiplicador L(H) é a probabilidade anterior. metro.
Para o termo que envolve a função de máxima verossi- Neste sentido, os métodos de inferência
Bayesiana utilizam as Cadeias de Markov tomado aleatoriamente. Se R é maior

Monte Carlo (MCMC, Monte Carlo Markov que o número aleatório gerado, a filo-
Chain) para aproximar as distribuições proba- genia será tomada, no entanto se for
bilísticas em uma grande variedade de con- menor, a filogenia Y é rejeitada;
textos. Esta abordagem permite realizar vi) Se a nova proposta Y for rejeitada,
amostragens a partir do conjunto total de fi- retorna-se ao estado X e novas modifi-
logenias, relacionando cada filogenia a um cações serão realizadas nesta filogenia;
valor probabilístico. Sem a aplicação de um vii) Supondo que a proposta Y tenha si-
método que obtenha amostras do espaço de do aceita, ela sofrerá uma nova pertur-
possíveis filogenias, como o modelo de MCMC, bação a fim de gerar uma nova filogenia;
a estimativa de todos os parâmetros se tor- viii) Todas as árvores amostradas são
naria analiticamente impossível nos atuais armazenadas para posterior compara-
computadores. ção. Os pontos visitados formam uma
Um dos métodos de MCMC mais usados
na inferência filogenética é uma modificação
do algoritmo Metropolis, chamado de Metro-
polis-Hastings. A ideia central deste método é
causar pequenas mudanças em uma filogenia
(topologia, tamanho dos ramos, parâmetros
do modelo de substituição, etc.) e, após a
modificação, aceitar ou rejeitar a nova hipóte-
se de acordo com o cálculo de razão das pro-
babilidades. Este método garante que
diversas árvores sejam amostradas do espa-
ço total de filogenias, amostrando filogenias
com probabilidade posterior mais alta (Figura
15-5):
i) Inicialmente, o algoritmo MCMC gera Figura 15-5: Esquema de amostragens MCMC
uma filogenia aleatória X, arbitraria- aplicada à inferência filogenética pelo método
mente escolhendo o tamanho dos ra- Bayesiano utilizando o algoritmo de
mos para dar início à cadeia; Metropolis-Hastings. (a) Após a proposição de
ii) O valor de probabilidade associado a uma filogenia inicial X, perturbações
esta filogenia é calculado (probabilidade aleatórias são realizadas para gerar a
posterior calculada através da fórmula filogenia Y. Devido à razão R>1, a nova
de Bayes); filogenia é aceita. Nova perturbação é
iii) Perturbações aleatórias são realiza- realizada para gerar a filogenia W e, devido a
das nesta filogenia inicial X (mudanças razão de probabilidades R resultar em um
na topologia, no tamanho dos ramos, número menor que 1, um número aleatório N
nos parâmetros do modelo de substi- é sorteado. Sendo R<N, a nova proposição é
tuição, etc.) e geram uma filogenia Y; rejeitada e a cadeia retorna à filogenia Y. (b)
iv) A probabilidade posterior é calculada Andamento da cadeia na amostragem de
para a filogenia Y; filogenias. Cada círculo destaca uma nova
v) A filogenia Y é tomada ou rejeitada filogenia que é proposta após a perturbação.
para o próximo passo baseado na razão As linhas conectando os círculos evidenciam a
R (probabilidade posterior de Y dividida direção do andamento da cadeia. Apesar de a
pela probabilidade posterior de X). Se R cadeia percorrer muitos passos, apenas
é maior que 1, a filogenia Y é tomada alguns serão registrados para análise final
como base para o próximo passo. Se R é (círculos pretos). Os círculos em vermelho
menor que 1, um número entre 0 e 1 é são aqueles evidenciados em (a).
espécie de cadeia ao longo do espaço e c representam um espaço amostral de filo-

amostral total de filogenias. genias, semelhante ao apresentado na Figura
15-5b, e que os pontos pretos sejam as filo-
O principal objetivo da cadeia é amos- genias que vão sendo amostradas com o de-
trar filogenias com probabilidades crescentes. senvolvimento da MCMC vemos que, ao final
No entanto, é importante que o algoritmo uti- do processo, depois de empregados 100 mil
lizado para tal permita que algumas árvores passos (Figura 16-5c), um grande número de
com menor probabilidade sejam amostradas filogenias foi amostrado.
para evitar que a cadeia fique “presa” em pi- Ainda, na região delimitada por um cír-
cos de máximo local (Figura 9-5). culo, assumimos que estão as filogenias com
Sendo assim, o cálculo da razão R con- maior probabilidade de explicar a história
siderando um valor aleatório entre 0 e 1 ga- evolutiva de um grupo de organismos, ou se-
rantirá que, em determinados momentos, ja, as filogenias reais. Note que quanto maior
uma filogenia com menor probabilidade seja o número de passos percorridos pela cadeia,
aceita. Por este método, é possível amostrar maior a amostragem do espaço de filogenias
filogenias da região de um vale passando, por e maior o número de amostras dentro da re-
exemplo, de um pico de ótimo local para o pi- gião com filogenias de alta probabilidade.
co de ótimo global (Figura 9-5). Ao final, após o término da cadeia, a
A proposta de novas árvores na cadeia distribuição das probabilidades posteriores de
de Markov é uma etapa crucial para uma boa todos os parâmetros deve ser verificada. No
amostragem de filogenias. Na abordagem
Bayesiana, uma boa amostragem inclui um
grande número de filogenias, suficientemente
diferentes entre si. Se filogenias muito dife-
rentes são propostas, serão rejeitadas com
muita frequência, pois é provável que tenham
menor probabilidade posterior. Pelo contrário,
se filogenias muito similares forem geradas, o
espaço amostral não será varrido adequada- Figura 16-5: Espaço de possíveis árvores
mente e a cadeia deverá “correr” por muitos analisadas pela MCMC. Considerando que os
passos (amostrar um maior número de filo- quadrados descrevem o espaço amostral de
genias), aumentando o tamanho da cadeia e o todas as filogenias possíveis para um dado
tempo computacional. conjunto de sequencias, os pontos pretos
Estimar o quanto a cadeia deve percor- representam as filogenias que foram
rer para amostrar um número suficiente de amostradas ao longo da cadeia. Os círculos
filogenias para as sequências dadas (espaço presentes no canto esquerdo inferior
de árvores) é um fator fundamental para ob- representam a região de máximo global (isto
ter bons resultados em uma análise Bayesia- é, maior probabilidade) neste espaço
na. Na maioria dos programas que utilizam amostral. O andamento da cadeia neste
estatística Bayesiana para inferir filogenias, o exemplo é o mesmo apresentado na Figura
usuário deve especificar o tamanho da cadeia. 15-5b (a) cento e trinta passos percorridos
Esse número é de grande subjetividade, e de- pela cadeia; (b) trinta mil passos percorridos
pende diretamente da distribuição das proba- pela cadeia; (c) cem mil passos percorridos
bilidades anteriores, do número de táxons pela cadeia. Nota-se que quanto maior o
incluídos na filogenia e da relação evolutiva número de passos percorridos, maior a
entre eles. amostragem de filogenias no espaço. Da
A Figura 16-5 exemplifica o andamento mesma forma, aumenta a probabilidade de a
da amostragem da MCMC em um espaço de cadeia amostrar aquelas filogenias de
filogenias. Supondo que os quadrados em a, b máximo global.
entanto, as amostras tomadas no início da

cadeia são tipicamente descartadas, pois es-
tão sob forte influência do local de início da
cadeia. As filogenias do início da cadeia estão
muito longe de pontos máximos no espaço
amostral e, por isso, é provável que todas as
novas filogenias sugeridas subsequentemente
sejam tomadas para o próximo passo (qual-
quer árvore proposta será mais provável que
as árvores iniciais semelhantes àquela gerada
aleatoriamente).
Esta fase inicial é conhecida como perí-
odo de burn in (Figura 17-5). Conforme a ca-
deia avança, espera-se que a probabilidade Figura 17-5: Representação gráfica das
das árvores amostradas aumente e, quando probabilidades das filogenias na cadeia ao
um número suficiente de filogenias for amos- longo de 300 milhões de amostragens. O
trado, chegue a uma distribuição estacionária. esquema demonstra duas visualizações
Em termos Bayesianos, espera-se que a ca- possíveis: à esquerda, são mostrados apenas
deia atinja a convergência. os pontos referentes às amostras tomadas
Um dos primeiros indicativos de que a ao longo da cadeia e, à direita, as
cadeia convergiu para a distribuição correta amostragens sucessivas são ligadas umas as
está na estabilidade dos valores de probabili- outras para facilitar a visualização do
dade dos parâmetros da cadeia (cada parâ- comportamento da cadeia. Em cinza, a fase
metro da filogenia poderá ter uma inicial de burn in da Cadeia de Markov Monte
distribuição independente). Portanto, a repre- Carlo.
sentação gráfica dos valores das probabilida-
des e dos respectivos passos da cadeia (trace de dados). Apesar de ser computacionalmente intensi-
plot) é uma importante ferramenta para mo- va, a última alternativa parece ser a mais confiável pa-
nitorar o desempenho da MCMC (Figura 17-5). ra verificar a convergência. Contudo, o exame de ESS é,
Devido ao aumento brusco de probabili- ainda hoje, o método mais utilizado. O tamanho amos-
dade das filogenias que são visitadas pelo an- tral efetivo é uma estimativa para verificar o número
damento da cadeia, os gráficos de amostras independentes existentes na cadeia, ou
necessariamente incluirão os valores medidos seja, quantas amostras não similares foram tomadas.
em escala logarítmica (ln L, Figura 17-5). Em Atualmente, um ESS maior que 200 é um indicativo de
estatística Bayesiana, é comum que seja atri- que a cadeia convergiu adequadamente.
buído um intervalo de credibilidade de 95% A técnica de Metropolis Coupling, conhecida como
para os parâmetros amostrados. Estes valo- MCMCMC ou (MC)³, através da introdução da corrida si-
res são obtidos através da eliminação de multânea de duas cadeias, pode ajudar na amostragem
2,5% dos valores mais baixos e de 2,5% dos de máximos globais e beneficiar na convergência da
valores mais altos para um determinado pa- cadeia. Nesta técnica uma cadeia, chamada de quente
râmetro. Um intervalo de credibilidade con- (hot chain), permite aproximar os valores de máxima e
tém o valor correto com 95% de mínima probabilidade das amostras para que a cadeia
probabilidade; no entanto, não se trata de um possa, de forma mais rápida, “saltar” entre picos de
intervalo de confiança. probabilidade, especialmente de máximos locais para
Adicionalmente, outros métodos são úteis para di- máximos globais. O aquecimento da cadeia é dado pelo
agnosticar a convergência da cadeia, tais como o exa- parâmetro β e visa diminuir a altura dos picos locais no
me do tamanho amostral efetivo (ESS) e a comparação espaço amostral. Uma segunda cadeia simultânea,
de amostras resultantes de diferentes cadeias (várias chamada de fria (cold chain), utiliza as informações
cadeias de MCMC são aplicadas para o mesmo conjunto destes saltos da cadeia quente para melhorar a sua
amostragem e garantir a convergência.

Os métodos Bayesianos de inferência filogenética
ainda têm a vantagem de aplicar modelos que envol-
vem diferentes tipos de relógios moleculares.
As distâncias genéticas, depois de “tratadas” pelos
modelos de substituição, não tem qualquer significado
sozinhas quando se deseja estimar, por exemplo, a ida-
de do ancestral comum mais recente de duas OTUs.
Esta e outras questões podem ser avaliadas quando
aplicamos uma medida de tempo nas inferências, a fim
de calibrar as taxas evolutivas. Sequenciamentos de
amostras isoladas em diferentes épocas podem forne-
cer a calibração adequada para inferências temporais,
pois se assume uma taxa evolutiva constante ao longo
de um tempo t para todos os ramos de uma filogenia
(relógio molecular estrito).
As taxas evolutivas dependem de diversos fatores
e podem variar, nem sempre seguindo a constância
proposta por este modelo. Após a introdução de um ti-
po específico de relógio molecular relaxado, as taxas
de evolução podem variar ao longo da árvore para di-
ferentes grupos e não são correlacionadas, ou seja,
grupos evolutivamente próximos não necessariamente
terão taxas de evolução semelhantes (relógio molecu-
lar relaxado não correlacionado).
Complexos modelos de dinâmica popu-
lacional podem ser analisados sob uma pers-
pectiva Bayesiana. Quando o conjunto de Figura 18-5: Árvore filogenética consenso
sequências submetido às analises são isola- gerada por inferência Bayesiana para 70
dos de uma população homogênea, os parâ- sequências de nucleotídeos. As cores nos
metros de história demográfica podem ser ramos representam diferentes clados (B-H).
usados para modelar as mudanças populaci- O grupo externo está identificado como clado
onais ao longo do tempo. Desta forma, atra- A. O Clado H foi agrupado para facilitar a
vés da estatística Bayesiana é possível, além representação. Nos nós estão especificados
da inferência filogenética, refinar as análises e os valores de probabilidade posterior acima
datar filogenias e ramos específicos (Figura de 70. Abaixo, é apresentada a escala
18-5), inferir caracteres ancestrais e analisar temporal inferida a partir da utilização de um
a dinâmica populacional sob uma ótica evolu- relógio molecular relaxado.
tiva.
Esta característica está relacionada ao núme-
5.8. Confiabilidade ro de filogenias que podem ser excluídas, a
partir do conjunto total de filogenias, por não
O papel principal das técnicas de infe- serem “verdadeiras”. Quanto maior o número
rência filogenética é desvendar as relações de filogenias excluídas neste processo, mais
evolutivas reais através de dados molecula- preciso é o método.
res, buscando garantir que esta reconstrução Em geral, na maioria dos casos de re-
seja fidedigna. Além da inferência das rela- construção filogenética, a falta de precisão
ções evolutivas entre os táxons, é igualmente das filogenias está relacionada ao conjunto de
importante que a filogenia possua precisão. dados que está sendo fornecido no alinha-
mento. O gene considerado, o tamanho das replicatas serão reconstruídas. As colunas,

sequências, o número de indivíduos e o grupo representando os sítios do alinhamento, se-
externo são atribuições fundamentais para rão aleatoriamente tomadas (amostradas)
uma reconstrução filogenética precisa e de- pelo algoritmo e, em seguida, serão agrupa-
pendem, especialmente, do objetivo do estu- das uma ao lado da outra de maneira a for-
do e da própria disponibilidade de informação. mar um novo alinhamento (com o mesmo
Em muitos casos, o pesquisador é ainda número de sítios do alinhamento original, Fi-
dependente do número de amostras e do su- gura 19-5).
cesso de coleta em campo, sobretudo, quan- Por este método, é possível que um
do seu objeto de estudo se trata de uma mesmo sítio seja amostrado mais de uma vez
espécie rara ou de indivíduos de difícil amos- e, portanto, alguns sítios não serão selecio-
tragem. No entanto, apesar de toda a infor- nados para o novo alinhamento. Um número
mação relacionada ao conjunto de dados, a fornecido pelo usuário especificará o número
dificuldade de amostragem de indivíduos pa- de pseudoreplicatas (novos alinhamentos)
rece ser, sem dúvida, o principal problema que serão construídas. Assim que uma pseu-
relacionado a precisão das filogenias, pois a doreplicata for criada, o algoritmo constrói a
falta de dados de variabilidade genética com- filogenia correspondente.
promete a inferência de história evolutiva co-
erente.
Como é possível saber se a amostragem
foi suficiente e a filogenia é confiável? Usual-
mente, a resposta para esta questão consiste
na reamostragem de dados. Se novas amos-
tras forem tomadas e a mesma filogenia for
reproduzida, a filogenia proposta tem seu va-
lor reforçado. No entanto, na maioria dos ca-
sos, a reamostragem de dados da forma
usual (coletas de novos espécimes, reamos-
tragens em campo, achado fóssil diferente,
etc) não é factível. Assim, algoritmos que
produzem diferentes amostragens utilizando
o mesmo conjunto de dados foram desenvol-
vidos para possibilitar a verificação da confia-
bilidade nos clados das filogenias. Destaca-se
entre estes algoritmos o método de
bootstrap.
Bootstrap é um método de reamostra-
gem utilizado para realizar comparações da
variabilidade das hipóteses filogenéticas, ofe-
recendo medidas de confiabilidade aos clados
propostos. A reamostragem é realizada a Figura 19-5: Método de boostrap para
partir do mesmo conjunto de dados, e novas filogenias. A partir do alinhamento original, as
amostras fictícias com o mesmo tamanho colunas que representam os sítios serão
serão geradas. aleatoriamente amostradas para construir
Segundo este método, cada sítio do ali- pseudoreplicatas (um mesmo sítio pode ser
nhamento será tratado de forma indepen- sorteado diversas vezes). Estas, por sua vez,
dente. Conforme a Figura 19-5, inicialmente o serão utilizadas para a inferência de
algoritmo reconstruirá a filogenia a partir do filogenias, da mesma forma que o
alinhamento dado e, posteriormente, diversas alinhamento original.
É importante ressaltar que a inferência atribuída pela probabilidade posterior é ge-

destas filogenias será realizada pelo método ralmente maior que aquela atribuída pelo
de construção especificado pelo usuário, seja método de bootstrap. Por isso, enquanto uma
aproximação de vizinhos, máxima parcimônia confiança acima de 70 é considerada susten-
ou máxima verossimilhança (para árvores tada para o bootstrap, apenas valores acima
bayesianas, veja adiante). Ao final, o algorit- de 90 podem ser considerados relevantes
mo analisará os clados e automaticamente para os métodos Bayesianos.
verificará a presença de determinados agru-
pamentos em todas as filogenias construídas. 5.9. Interpretação de filogenias
Se, por exemplo, encontramos as sequências
1 e 2 formando um clado em 70% das filoge- Árvores filogenéticas são diagramas
nias construídas, atribuiremos a confiabilidade que denotam a história evolutiva de diferentes
de 70 ao clado formado por estas duas se- OTUs a partir de seu ancestral comum. Mais
quências. Comumente, o valor de confiabili- do que isso, as filogenias moleculares são
dade dos clados é colocado próximo ao ferramentas que ajudam no entendimento
ancestral comum do clado (Figura 18-5). dos diversos processos evolutivos que mol-
A partir dos resultados de confiabilidade dam o genoma dos organismos. Desta forma,
dos clados é possível também construir filo- a interpretação das implicações evolutivas
genias baseando-se na árvore consenso ge- associadas a um, ou a um conjunto de táxons,
rada pela regra da maioria (majority-rule está diretamente relacionada à disposição dos
consensus tree). Neste método, o algoritmo ramos internos e externos de uma árvore. In-
tabulará todos os clados formados em todas dependentemente do método de inferência,
as replicatas geradas. Aqueles clados que ou da forma como a árvore é apresentada, a
mais aparecerem servirão para montar a fi- interpretação dos resultados será baseada
logenia consenso. nos mesmos pressupostos, ainda que méto-
Ao contrário dos métodos de aproximados diferentes possam originar filogenias di-
ção de vizinhos, máxima parcimônia e máxima ferentes.
verossimilhança, a confiabilidade de filogenias Inicialmente, é necessário observar a
construídas através de estatística Bayesiana é presença de uma raiz. Como já discutido, o
inerente ao processo. Como diversas filogeni- método de enraizamento pelo grupo externo
as são amostradas ao longo do desempenho é o mais comum e utiliza organismos sabida-
da Cadeia de Markov, não é necessário ne- mente relacionados ao grupo em evidência,
nhum método para simular reamostragens do servindo para orientar o algoritmo em rela-
mesmo conjunto de dados. As amostras se- ção às características mais ancestrais do
rão resumidas a partir da distribuição poste- grupo. O grupo externo ajudará a evidenciar o
rior de filogenias como frequência de clados tempo evolutivo. Na Figura 20-5, por exem-
individuais e serão identificadas por um nú- plo, o grupo externo é dado pelo orangotango,
mero próximo ao ancestral comum daqueles pois este compartilha o mesmo ancestral co-
clados (Figura 18-5). Portanto, o valor de mum que o restante do grupo. No caso de fi-
probabilidade posterior de um clado repre- logenias sem raiz, é necessário ter cautela
senta uma inferência a respeito da probabili- nas interpretações, pois este tipo de diagrama
dade daquele clado. apenas revela a relação entre os táxons.
A comparação dos valores de bootstrap Depois de encontrada a raiz da filogenia,
e de probabilidade posterior dos clados para é preciso avaliar os ramos. Dependendo do
filogenias construídas a partir do mesmo ali- método, os ramos podem ter significados di-
nhamento utilizando máxima verossimilhança ferentes. Na Figura 18-5, os ramos evidenci-
e o método Bayesiano, respectivamente, leva am o tempo real, apresentando OTUs
a conclusão de que o método Bayesiano su- amostradas no passado. Pelo contrário, na
perestima a confiança aos clados. A confiança Figura 20-5, os ramos evidenciam apenas um
abilidade nos ramos. O tipo de método, a for-

ma de amostragem e o número de OTUs po-
dem ser fatores de interferência e, assim,
podem prejudicar a valorização dos ramos.
O padrão de organização dos ramos de
uma filogenia denota o padrão de ancestrali-
dade. As filogenias não são escadas, onde al-
guns organismos são “mais evoluídos” que
outros, mas uma representação da história da
derivação de OTUs. Na Figura 18-5, por ex-
emplo, é possível observar que os clados B,
C, D, E, F e G possuem um ancestral comum
que compartilha um outro ancestral com o
clado A. Já o clado H, representado por um
triângulo para evidenciar um grande número
de táxons naquele ponto da filogenia, teve um
ancestral comum dentro do clado G. Este pa-
drão sugere que o clado H se originou a partir
do clado G. Da mesma forma, podemos ob-
servar a disposição do clado G em relação ao
F e concluir que o primeiro se originou a partir
do segundo.
No caso da Figura 20-5, observamos
Figura 20-5: Diferentes representações da que humanos e chimpanzés tiveram um mes-
filogenia dos primatas. mo ancestral comum. Com base nestes da-
dos, é incorreto pensarmos que humanos são
tempo evolutivo representado pelo número derivados de chimpanzés, ou que humanos
de modificações genômicas, desde o organis- são mais evoluídos que chimpanzés. Estes
mo ancestral até os ramos terminais. Além organismos estão apenas formando um
disso, deve-se perceber a escala na qual os mesmo clado dentro da filogenia dos prima-
ramos foram representados, pois estes indi- tas.
cam o número de substituições que provavel- Por último, é fundamental saber o obje-
mente ocorreram ao longo do processo tivo do estudo filogenético a ser realizado.
evolutivo e podem ajudar na interpretação Árvores filogenéticas devem ser construídas
das taxas evolutivas. para responder uma determinada questão,
Conclusões evolutivas baseadas em ár- que pode envolver apenas um, ou diversos
vores filogenéticas devem ser sustentadas organismos.
em árvore confiáveis e, por isso, a medida de Quando possível, é importante recons-
confiabilidade dos ramos deve ser denotada. truir a filogenia utilizando diferentes métodos
Inicialmente, é necessário verificar o método de inferência e compará-las entre si. A con-
utilizado para reconstrução da filogenia e, clusão desta forma será melhor sustentada.
quando necessário, verificar o algoritmo utili- Além disso, atualmente, a história retratada
zado para gerar a confiabilidade dos clados. em uma filogenia não é por si só satisfatória.
Ramos com maiores valores de confiabilidade Outras ferramentas podem ser utilizadas pa-
gerarão conclusões mais confiáveis, enquanto ra complementar e sustentar a interpretação
que clados com baixos valores deverão ser de uma filogenia, incluindo análises de re-
interpretados com maior cuidado. No entanto, combinação, pressão seletiva e estruturação
não é necessário negar totalmente conclu- populacional, verificação de coespeciação,
sões baseadas em filogenias com baixa confi- construção de redes filogeográficas, compa-
ração com dados de fósseis, eventos geológi- porte, semelhante ao guaxinim. Com o em-
cos, dados históricos e, até mesmo, análises prego de diferentes dados, incluindo fósseis,
de dados comportamentais. anatomia de mamíferos atuais, distribuição
Um exemplo da combinação de análises geográfica, sequências de DNA de diferentes
filogenéticas com dados históricos veio na porções do genoma, sequências de aminoáci-
confirmação da origem e disseminação hu- dos de diferentes proteínas e mapeamento
mana a partir da África. Através da utilização cromossômico, foi possível estabelecer uma
de dados histórico-antropológicos (como história evolutiva plausível, capaz de descre-
vestígios materiais de hominídeos ancestrais), ver a origem evolutiva do panda-gigante (Fi-
fósseis de hominídeos e análises de DNA mi- gura 21-5).
tocondrial de representantes de diferentes Por meio dessa análise combinada de
etnias, os pesquisadores puderam traçar as dados, se propôs que o panda-gigante, um
rotas de disseminação humana a partir da urso, derivou do ancestral comum dos ursos
África. há cerca de 24 milhões de anos, muito antes
Outro exemplo está na solução de um das derivações que originaram todos os ou-
enigma que perturbou zoólogos por um longo tros ursos existentes hoje. Além disso, ob-
período: a posição taxônomica do panda-gi- servou-se que os ursos e os procionídeos
gante entre os mamíferos carnívoros. Apesar (grupo que inclui o guaxinim e o panda-ver-
de esta espécie ser fisicamente muito similar melho) possuem um ancestral comum que
a um urso, outras características, como den- deu origem às duas linhagens há aproximada-
tição e anatomia das patas, levaram à propo- mente 30 milhões de anos.
sição de uma hipótese antes não imaginada. A filogenia molecular é uma ferramenta
Tal hipótese propunha que o panda-gi- útil quando empregada isoladamente, mas
gante (Ailuropoda melanoleuca) seria proxi- que pode se beneficiar de diferentes tipos de
mamente relacionado ao o panda-vermelho dados para propor uma história evolutiva. Em
(Ailurus fulgens), um mamífero de pequeno última análise, a decisão sobre que tipos de
Figura 21-5: Posição filogenética do panda-gigante, baseada na combinação de diferentes tipos

de dados. Baseado em BININDA-EMONDS, Olaf R.P. Phylogenetic position of the giant panda. Em:
LINDBURG, D.G. & Baragona, K. Giant pandas: Biology and conservation. Berkeley: University of
California Press, 2004; e em EIZIRIK, Eduardo e colaboradores: Pattern and timing of
diversification of the mammalian order Carnivora inferred from multiple nuclear gene
sequences. Mol Phylogenet Evol, 56, 49, 2010.
dados (além dos moleculares) serão empre- que inclui todas as filogenias possíveis
gados na análise filogenética dependerá da (com raiz ou sem raiz) para um determi-
pergunta a ser respondida com essa técnica. nado alinhamento.
Não existem regras pré-estabelecidas, e as
estratégias analíticas precisam ser propostas Frequência de equilíbrio: ponto em que não
caso a caso. existe mais alteração nas frequências dos
alelos.
Grupos irmãos: clados que dividem um ancestral
Ancestral: organismo ou sequência que originou comum.
novo(s) organismo(s) ou sequência(s). Em
alguns casos pode ser considerado o mes- Homologia: similaridade originada por ancestra-
mo que primitivo. lidade comum.
Apomórfico: refere-se a um caractere novo ad- Inferência filogenética Bayesiana: método qua-
quirido ao longo do processo evolutivo, litativo de inferência filogenética baseado
uma inovação. Uma apomorfia pode servir na estatística Bayesiana. Através da Ca-
de diagnóstico para separação de clados. deia de Markov Monte Carlo este método
buscará as árvores mais prováveis dentro
Aproximação dos vizinhos: neighbor joining das filogenias amostradas.
(NJ), método de inferência filogenética
quantitativo baseado em distância genéti- Máxima Parcimônia: método qualitativo de infe-
ca. rência filogenética que busca a árvore que
minimiza o número total de substituição
Autapomorfias: apomorfias específicas e restri- de nucleotídeos.
tas a um clado.
Máxima Verossimilhança: método qualitativo de
Bootstrap: método de reamostragem que per- inferência filogenética que busca a árvore
mite verificar a confiabilidade dos ramos com a máxima verossimilhança.
de uma filogenia.
Monofilia: associação entre o ancestral comum e
Cadeias de Markov Monte Carlo: método utiliza- todos os seus descendentes, formando um
do pela estatística Bayesiana para amos- clado monofilético.
trar as probabilidades de distribuição de
diferentes parâmetros das filogenias. Múltiplas Substituições: eventos múltiplos de
substituição de nucleotídeo localizado em
Clado: grupo formado por um ancestral e todos um mesmo sítio do DNA.
seus descendentes, um ramo único em
uma árvore filogenética. Modelos de Substituição: modelos matemáticos
utilizados para descrever o processo evo-
Derivado: que se originou de um ancestral e é lutivo ao longo do tempo, podendo ser
mais recente no tempo evolutivo (nota: aplicados ao alinhamento de nucleotídeos
deve-se evitar o termo “mais evoluído” e, ou aminoácidos.
em seu lugar, empregar “derivado”).
Ortólogo: genes homólogos em diferentes orga-
Distância Genética: medida quantitativa da di- nismos e que mantém a mesma função.
vergência genética entre organismos.
OTU: unidade taxonômica operacional, folha ou
Espaço Amostral de Filogenias: espaço teórico nó terminal em uma árvore filogenética.
Parafilia: associação entre o ancestral comum e

apenas parte de seus descendentes, for- 5.11. Leitura recomendada
mando um clado parafilético.
FELSENSTEIN, Joseph. Inferring Phylogenies.
Parálogo: genes homólogos de um mesmo or- Sunderland: Sinauer, 2004.
ganismo que divergiram após duplicação.
GREGORY, T. Ryan: Understanding
Plesiomórfico: dotado de características do an- Evolutionary Trees. Evo. Edu. Outreach,
cestral que são conservadas nos descen- 2008, 1,121-137.
dentes.
LEMEY, Philippe; SALEMI, Marco; Vandamme,
Polifilia: associação entre diferentes OTUs sem a Anne-Mieke (Org.). The Phylogenetic
necessidade de um único ancestral co- Handbook. 2.ed. Cambridge: Cambridge
mum, frequentemente originada por con- University Press, 2009.
vergência evolutiva.
MATIOLI, Sergio Russo; FERNANDES, Flora M.C.
Primitivo: diz-se de características ou organis- (Org.). Biologia Molecular e Evolução.
mos ancestrais, anteriores no tempo evo- 2.ed. Ribeirão Preto: Holos, 2012.
lutivo a organismos ou características mais
recentes. NEI, Masatoshi; KUMAR, Sudhir. Molecular
Evolution and Phylogenetics. Nova
Probabilidades Anteriores: distribuição dos valo- Iorque: Oxford University Press, 2000.
res de um parâmetro filogenético que é
sabido de antemão pelo pesquisador. PABÓN-MORA, Natalia; GONZÁLEZ, Favio. A
classificação biológica: de espécies a ge-
Probabilidades Posteriores: conjunto da distri- nes. In: ABRANTES, Paulo C. (Org.), Filo-
buição dos valores de parâmetros filoge- sofia da Biologia. Porto Alegre: Artmed,
néticos resultantes do método de 2011.
inferência Bayesiana.
SCHNEIDER, Horacio. Métodos de Análise Fi-
Sistemática: estudo da diversificação das formas logenética: Um Guia Prático. 3.ed. Ri-
vivas e suas relações ao longo do tempo. beirão Preto: Holos, 2007.
Taxonomia: estudo que busca agrupar os orga-

nismos com base em suas características e
nomear os grupos obtidos, classificando-
os em alguma escala.
Taxon: grupo (de qualquer nível hierárquico)

proposto pela taxonomia.
Topologia: descreve a ordem e a disposição

exata das OTUs em uma filogenia.
UPGMA: unweighted pair-group method using

arithmetic average, método de inferência
filogenética quantitativo baseado em dis-
tância.
6. Biologia de Sistemas
"Pensar a complexidade – esse é o maior Joice de Faria Poloni

desafio do pensamento contemporâneo, que Bruno César Feltes
necessita de uma reforma no nosso modo Fernanda Rabaioli da Silva
de pensar." Diego Bonatto
Edgar Morin & Jean-Louis Le Moigne for necessário para resolvê-lo de maneira
mais parcimoniosa.
6.1. Introdução É neste contexto que emerge a divisão
disciplinar no estudo da natureza. Desde os
6.2. Biologia de Sistemas tempos da escola até a universidade, o co-
nhecimento a ser ensinado manifesta-se na
6.3. Estrutura de redes separação das disciplinas. Por exemplo, no
meio acadêmico observamos a biologia com-
6.4. Propriedades de rede partimentada em botânica, zoologia, ecologia,
genética, biologia celular e essas, por sua vez,
6.5. Tipos de redes subdivididas em outras áreas. Como aspecto
positivo, o estudo das partes forma especia-
6.6. Perturbação de conectores listas e divide o trabalho, facilitando o enten-
dimento de suas partes componentes.
6.7. Conceitos-chave Contudo, neste processo tem-se uma redução
da complexidade característica dos fenôme-
nos naturais, o que pode comprometer nossa
capacidade de entendê-los.
6.1. Introdução De fato, a complexidade é inerente à bi-
ologia, ao funcionamento do nosso organismo
Uma das posturas metodológicas mais e à natureza. Há a necessidade, assim, da
significativas do pensamento científico con- construção de uma abordagem que inclua es-
temporâneo consiste em reduzir ta complexidade, de forma sis-
o todo a suas partes componen- têmica; que interligue as
tes. Por exemplo, entendemos o diversas interações presentes e
funcionamento de um organismo que, ao confrontá-las, consiga
como fruto da ação de órgãos. encontrar relações mais infor-
Estes por sua vez, são compos- mativas e completas.
tos por tecidos, que são com- A partir desta premissa,
postos por células. As células emergem na década de 1950 as
têm como componentes molé- primeiras concepções sobre a
culas que, por fim, são compos- Biologia de Sistemas (BS). Essa
tas por átomos. área, pautada nos conceitos de
Esta abordagem, especial- sistema e de complexidade, en-
mente importante e difundida na volve um estudo sistemático de
área biológica, é fruto das idéias interações em um sistema bio-
introduzidas pelo filósofo René lógico.
Descartes em meados do século XVII, indican- O conceito de sistema é entendido como
do que cada problema encontrado deve ser um conjunto de partes ou elementos que
dividido em tantas pequenas partes quanto possuem relações entre si, relações estas
que diferem-se daquelas realizadas com ou- veis e os bancos de dados e ferramentas de
tros elementos, fora do sistema. Já a idéia de análise adaptaram-se ao volume crescente de
complexidade é definida como a condição de informações, permitindo construir modelos
elementos de um sistema e a relação entre mais amplos, capazes de lidar com aspectos
esses elementos em um determinado mo- e fenômenos inacessíveis até então. Assim
mento. em 2000, quando o Instituto de Biologia de
Um sistema complexo, por conseguinte, Sistemas foi fundado, a biologia de sistemas
é um sistema composto de partes interco- emergiu como um campo próprio, estimulado
nectadas que, como um todo, exibe uma ou pelo aumento de dados “ômicos” e pelos
mais propriedades que não seriam observa- avanços da parte experimental e da bioinfor-
das a partir das propriedades dos componen- mática visando o entendimento sistemático
tes individuais, possibilitando assim a da biologia. Desde então, grupos de pesquisas
observação de novos fenômenos. Portanto, a dedicados à BS têm sido formados em todo o
BS é um campo que investiga as interações mundo.
entre os componentes de um sistema biológi- Para tal, a BS depende de ferramentas
co, buscando contribuir no entendimento de interdisciplinares para obter, integrar e anali-
como estas interações influenciam a função e sar diversos tipos de dados, exemplificados
o comportamento do sistema. na Tabela 1-6. Essa abordagem requer novas
A busca da compreensão da biologia em técnicas de análise, ferramentas de informá-
nível de sistema é um tema recorrente na co- tica, métodos experimentais e uma nova pos-
munidade científica. Norbert Wiener, em tura metodológica, articulando partes
1948, foi um dos proponentes da abordagem normalmente estudadas separadamente.
sistemática que levou ao nascimento da ci-
bernética, ou biocibernética, consolidada com 6.2. Biologia de Sistemas
os estudos do médico neurologista, William
Ross Ashby (1903-1972). A partir de 1959, Em suas análises, a BS relaciona partes
Robert Rosen, sob orientação do professor individuais de um sistema como representa-
Nicolas Rashevsky, propôs uma metodologia ções gráficas de conjuntos de nós ou vértices
baseada na “biologia relacional”, onde o mais (V), conectados entre si por conectores ou
importante na biologia era o estudo da vida arestas (E, do inglês edge). Os nós podem re-
em si. Após 20 anos, Ludwig von Bertalanffy presentar indivíduos, proteínas ou mesmo lu-
(1901-1972) criou a teoria geral dos sistemas, gares, enquanto que os conectores
tornando-se o precursor da BS. Em 1966 foi representam a conexão que está presente
formalizado o estudo da BS, com o lança- entre cada par de nós. Esta representação
mento da disciplina “Teoria e Biologia de Sis- gráfica é denominada de rede.
temas” pelo teórico de sistemas Mihajlo Muitos exemplos de rede podem ser ci-
Mesarovic (1928). tados, como redes de cadeia alimentar, am-
A partir do trabalho destes pesquisado- plamente aplicadas na ecologia, redes neurais
res, a teoria geral dos sistemas pode ser defi- e de interação proteica usadas na biologia e
nida como a área que estuda a organização ciências médicas, além da própria World Wide
abstrata de fenômenos, investigando todos Web, que representa uma das maiores redes
os princípios comuns a todas as entidades funcionais no mundo da comunicação e infor-
complexas (não somente biológicas) e os mo- mática.
delos que podem ser utilizados para a sua A análise matemática de redes é deno-
descrição. minada de teoria de grafos, e consiste em um
Com o avanço da biologia molecular nas dos principais objetos de estudo da matemá-
décadas que se seguiram, juntamente com o tica discreta. Desta forma, o termo “rede”
nascimento da genômica funcional, grandes representa as interações funcionais de um
quantidades de dados tornaram-se disponí- sistema, enquanto que o termo “grafo” enfa-
Tabela 1-6: Ferramentas utilizadas no estudo da BS.
Bioinformática Funções biológicas por meio de ferramentas da informática

Genômica Sequências de DNA
Transcriptômica Transcritos
Proteômica Proteínas
Interatômica Interações proteicas
Interferômica/ RNAi/miRNA
microRNômica
Epigenômica Modificações na cromatina e no DNA
Metabolômica Metabólitos
Fluxômica Alterações dinâmicas de moléculas dentro de uma célula ao longo do tempo
Biômica Bioma
Glicômica Totalidade de carboidratos
Farmacogenômica Genes que definem o comportamento da droga
Nutrigenômica Relação entre a dieta e os genes individuais
Toxicogenômica Estrutura e atividade do genoma e os efeitos biológicos adversos na
exposição a xenobióticos
Imunômica Função molecular associada aos transcritos de RNAm relacionados à
resposta imune
tiza as análises matemáticas deste sistema. cas, porém não encontrou solução para o
Neste capítulo, contudo, usaremos ambos os problema. Contudo, a metodologia de análise
termos como sinônimos. de Euler foi um marco histórico na análise de
Historicamente, a teoria de grafos foi problemas combinatórios, além de estabele-
desenvolvida em 1736 pelo matemático suíço cer o conceito de topologia que é usado em
Leonard Euler na resolução do problema das BS (ver adiante).
sete pontes de Königsberg, atualmente co- O emprego da teoria de grafos e suas
nhecida como Kaliningrado, na Rússia. A cida- aplicações têm apresentado um crescimento
de de Königsberg é atravessada pelo Rio explosivo devido a sua multidisciplinaridade e
Pregel e consiste de duas grandes ilhas que ao seu conceito de modelo que permite estu-
eram conectadas entre si e com as margens dar um objeto específico sem negligenciar o
opostas por sete pontes (Figura 1A-6). O pro- meio em que este objeto se encontra. Por
blema apresentado a Euler consistia em des- exemplo, é possível estudar determinado
cobrir como caminhar pela cidade fármaco considerando a atividade que diver-
atravessando cada ponte apenas uma vez. A sos compostos e enzimas poderiam exercer
técnica desenvolvida pelo matemático suíço sobre ele. Nesses estudos pode-se construir
foi adaptar o mapa de Königsberg, transfor- uma rede onde os nós representam compos-
mando as margens e ilhas em nós e as pontes tos e enzimas e os conectores representam
em conectores (Figura 1B-6). Euler submeteu se há ou não relação entre eles, permitindo
a rede que desenvolveu a análises matemáti- analisar:
quentemente empregados em BS.

Uma rede (ou grafo) G = (V, E) repre-
senta uma combinação de nós (V) e conecto-
res (E) que ligam os nós. Em uma rede, o
conjunto de seus nós é denotado por V(G),
enquanto o conjunto de seus conectores por
E(G). Dessa forma, o número total de nós em
G é representado por n, e o número total de
conectores é representado por m:
n(G) = |V(G)| e m(G) = |E(G)|
Adicionalmente, conforme apresentado

na Figura 2A-6, um conector E deve apresen-
tar suas extremidades ligadas aos nós a e b (a
V e b V), sendo chamado eab, E(a, b) ou
apenas ab. Este conector pode ser represen-
tado da seguinte forma:
E = {(a, b) | a, b V}
As redes podem apresentar conectores

diretos, ou seja, um conector orientado em
determinada direção (exemplo a→b, b→c),
sendo assim chamadas de redes direcionadas
Figura 1-6: (A) Representação parcial do mapa

de Königsberg e suas setes pontes. (B)
Ilustração da rede desenvolvida por Euler.
i) a conectividade dos compostos ou en-

zimas, ou seja, que tipo de relação duas
moléculas aleatórias podem apresentar
na rede;
ii) a centralidade, que caracteriza as
moléculas que apresentam maior in-
fluência sob a ação do fármaco em
questão.
Conceitos básicos de grafos

Considerando-se a estreita relação en-
tre a BS e a teoria de grafos, alguns conceitos
matemáticos podem nos ajudar a entender e Figura 2-6: Em (A) a representação da
empregar esta área do conhecimento com interação de dois nós vizinhos (V = a, b)
maior domínio e propriedade. Assim, prosse- conectados pelo conector E(a, b). Em (B) a
guiremos com uma breve introdução sobre rede pode ser descrita como V = {a, b, c, d, e}
teoria de grafos e estrutura de rede, apresen- e E = {ab, bc, cd, de}, com n = 5 (5 nós de a a
tando alguns descritores matemáticos fre- e) e m = 4 (4 conectores de 1 a 4).
Figura 3-6: (A) Rede direta; (B) Representação da via de degradação ubiquitina-proteassoma, um
dos inúmeros tipos de redes direcionadas encontradas em sistemas biológicos.
ou dígrafos (Figura 3A-6). Nos conectores E = da por proteassomas, uma vez que não é
(a, b) e E = (b, c), podemos dizer que a é ante- possível reverter a degradação da proteína
cessor a b, e b é antecessor a c. Da mesma (Figura 3B-6).
forma, b é sucessor de a e c é sucessor de b. Podem também existir redes não direci-
Um dígrafo é definido por G = (V, E, f), sendo f onadas (Figura 4A-6), que apresentam co-
uma função que associa cada elemento E a nectores orientados em ambas as direções
um par ordenado de nós em V. Uma rede re- (a↔b, b↔c), não sendo possível assim esta-
presentando os mecanismos de degradação belecer antecessor ou sucessor. Um exemplo
ubiquitina-proteassoma de uma determinada típico seria a reação reversível de um subs-
proteína pode ser um exemplo de rede direta trato A para um substrato B em uma via me-
após o reconhecimento da proteína ubiquitina- tabólica como, por exemplo, a formação de
Figura 4-6: (A) Rede não direcionada; (B) Reação reversa de fosforilação e desfosforilação de
adenosina difosfato, representando um exemplo de redes não direcionadas em sistemas
biológicos.
diferentes moléculas fosforiladas de adenosi- Ao analisarmos uma matriz devemos considerar

na conforme a reação AMP↔ADP↔ATP (Fi- cada nó como uma coluna e uma linha distinta. Na aná-
gura 4B-6). lise da primeira matriz iremos interpor o nó represen-
Em alguns casos, podem existir dois ou tado na linha 1 (nó a) com o nó representado na coluna
mais conectores que ligam os mesmos nós 1 (nó a) da mesma forma que as tabelas representadas
na rede. Esse tipo de interação é chamado na Figura 6-6, e como não há interação de a com a, nos
multiconector, onde diferentes informações referimos como 0. Da mesma forma, se consideramos
são representadas por cada conector, carac- a linha 1 (nó a) e a coluna 2 (nó b), há conexão, sendo
terizando assim um multidígrafo (Figura 5-6). representado por 1. Perceba que as matrizes são dife-
rentes na rede direcionada e não direcionada devido à
atribuição de uma conexão direcionada. Na matriz dire-
cionada, tanto b está conectado a c quanto c está co-
nectado a b. Contudo, na matriz não direcionada,
somente c está conectado a b.
Também podemos definir uma rede como completa
se E(G) = V(G)(2), isto é, se dois nós selecionados alea-
toriamente na rede G são adjacentes. Assim, uma rede
completa tem n nós e é representada por Kn, sendo o
número de conectores em Kn representado por .
Figura 5-6: Multidígrafo G = (V, E), onde V = {a,

b, c, d} e E = {ab, ac, ca, cb, cd}.
Observa-se, assim, que as redes apresentam inte-

rações entre os nós e que essas interações são delimi-
tadas pelos conectores. Portanto, se E = (a, b), logo os
nós a e b são vizinhos ou adjacentes, e E(a, b) é inciden-
te aos nós a e b, lembrando que E(a, b) se refere ao
conector.
Uma das formas de representar e descrever tais in-
terações entre os nós de uma determinada rede envol-
ve o uso de matrizes. Assim, se considerarmos uma
rede G contendo os nós va, ... vn a matriz que descreve
os elementos adjacentes em G é dada por:
As tabelas representadas na Figura 6-6 são um

mecanismo visual para compreender como a matriz de Figura 6-6: (A) Rede não direcionada G = (V,
uma rede é elaborada, tanto para redes não direciona- E), onde V = {a, b, c, d} e E = {ab, bc, cd} ou E =
das (Figura 6A-6) quanto direcionadas (Figura 6B-6). {ba, cb, dc}, representados também na tabela
Para as redes não direcionada (Figura 6A-6) e dire- pelo número 1, que indica a presença de um
cionada (Figura 6B-6), as matrizes são representadas conector entre dois nós, exemplo E = {ab, ba}
abaixo: = 1. A ausência do conector entre dois nós é
representada por 0. (B) Rede direcionada G =
(V, E), onde V = {a, b, c, d} e E = {ca, cb, dc}.
Neste caso, a tabela de interações muda
devido ao direcionamento das conexões, por
exemplo E = {ca} = 1, mas E = {ac} = 0.
O conjunto de nós e conectores de uma ca que a Vx, enquanto que b Vy ou a Vy e

rede pode ser apresentado em uma repre- b Vx. A aplicação de redes bipartidas na
sentação mais complexa e informativa, agre- modelagem de redes biológicas pode ser vista
gando pesos (atributos) associados aos nós e em vários contextos, desde a análise de ge-
conectores (Figura 7-6). Redes que apresen- nótipos e SNPs (single-nucleotide poly-
tam nós e conectores com atributos são cha- morphism) em diferentes populações até a
madas de redes ponderadas (G,w), onde G = representação de conexões ecológicas e rea-
(V,E) e w = V, E R, sendo R o conjunto dos ções enzimáticas em vias metabólicas.
números reais e w correspondente à função O modelo de redes visto até agora, na
atributo. Por exemplo, pode-se representar qual um conector se liga a dois nós, apesar de
uma rede neural onde o atributo indica a dis- amplamente utilizado na avaliação da conec-
tância que um sinal neural deve percorrer em tividade de redes biológicas, pode ser uma
relação ao local de origem. Assim, se P é uma representação simplista quando se trata de
trajetória na rede, w(P) é considerada a ex- redes metabólicas. A organização biológica
tensão de P. Redes ponderadas são ampla- que caracteriza as redes metabólicas em um
mente usadas na bioinformática, onde contexto bioquímico consiste de complexas
G,w(a,b) pode representar a quantidade e a fi- interações, frequentemente envolvendo di-
delidade de informações armazenadas em versos substratos e produtos. Para melhor
bancos de dados a respeito da interação entre representar a complexidade de reações bio-
a e b (Figura 7-6). químicas, usam-se redes conhecidas como
Também podemos nos referir a uma re- hipergrafos (Figura 9-6).
de como bipartida (Figura 8-6) onde, em G = Os hipergrafos são caracterizados pela
(V, E), V pode ser dividido em Vx e Vy. Assim, presença de hipervértices, que conectam mais
cada nó de Vx é adjacente aos vértices de Vy. de dois nós com propriedades distintas (Figu-
Desta forma, se consideramos E (a, b) signifi-
Figura 7-6: Representação de uma rede Figura 8-6: Representação de uma rede
ponderada descrevendo: i) diferentes tipos de bipartida, onde os nós cinzas e brancos
nós, onde cada cor representa diferentes representam diferentes grupos de uma
famílias de proteínas (por exemplo, os nós análise. Por exemplo, cada grupo pode
verdes representam serina/treonina cinases, representar duas linhagens diferentes de E.
nós azuis representam cinases dependentes coli. Para avaliar a eficiência de
de ciclinas e nós laranjas representam as transformação das linhagens, estas foram
tirosina cinases); ii) diferentes tamanhos de divididas em quatro amostras (representadas
nós, com atributo w(a), representando o pelos nós) e cada amostra foi incubada com
número de artigos w que citam a proteína a; e diferentes plasmídeos. Os conectores
iii) a espessura do conector y, representando apresentam os plasmídeos que obtiveram
a fidelidade w da interação entre duas sucesso na transformação e são comuns
proteínas distintas. entre as duas linhagens.
E) nada mais são que uma rede G1 = (V1, E1),

onde V1 V e E1 E.
6.3. Estrutura de redes

Uma das características de uma rede é
sua conectividade (também referida como
grau de nó), sendo a conectividade total de
uma rede definida por C = E / N (N - 1), onde E
representa o número de conectores e N o nú-
mero total de nós.
Considere os nós Va e Ve de uma rede.
Representamos como um dos possíveis ca-
minhos de Va a Ve os vértices Vb, Vc e Vd, for-
Figura 9-6: Representação de um hipergrafo. mando um conector a cada dois vértices
As regiões destacadas em várias cores sucessivos, caracterizados por E1, E8, E4, E7
caracterizam as diferentes propriedades ou (Figura 11-6). O nó que originou o caminho é
atividades bioquímicas representadas na rede. chamado de nó inicial, enquanto que o último
Assim, cada cor estaria representando nó do caminho é chamado de nó final. Um ca-
diferentes vias metabólicas (A, B e C). Os nós minho onde o nó inicial coincide com o nó fi-
da rede indicam componentes presentes em nal, sem repetições de conexões
cada uma das vias metabólicas e/ou intermediárias, é chamado de circuito. Usando
participando de vias distintas nas regiões a mesma rede da Figura 11-6, <d, b, c, e, d>
intersectadas. formam um circuito. O comprimento de um
caminho ou circuito consiste do número de
ra 9-6). Assim, os hipergrafos são frequente- conectores que pertencem ao caminho (ou
mente usados em organizações bioquímicas, circuito) ou, no caso de uma rede ponderada,
devido à intersecção de componentes com pela soma dos atributos (ou pesos) dos co-
atividades em diferentes rotas metabólicas. nectores.
Geralmente, as redes biológicas são exten-
sas, apresentando um grande número de nós.
Contudo, análises estatísticas indicam que,
dentro de uma rede maior (Figura 10A-6), po-
dem existir redes menores que participam da
composição geral e possuem maior conectivi-
dade entre si quando comparados à rede mai-
or (Figura 10B-6). Essas subredes de G = (V,
Figura 11-6: Esquema representando uma

rede, onde V = {a, b, c, d, e} e E = {E1, E2, E3, E4,
E5, E6, E7, E8}.
Um caminho de comprimento k tem exatamente k +

1 nós, enquanto que um circuito de comprimento k tem
k = v nós. Se calcularmos o comprimento de Va a Ve,
com caminho E1, E8, E4, E7 temos k = 4 conectores com
Figura 10-6: (A) Rede de interações proteína- 4 + 1 nós. Para o circuito <d, b, c, e, d> que tem como
proteína representando em laranja a subrede, caminho E6, E8, E3, E7 temos k = 4 conectores, com
o qual foi destacada em (B). quatro nós diferentes.
Uma importante análise em uma rede suas propriedades, como veremos adiante.
consiste em caracterizá-la conforme sua dis- Por exemplo, ao analisarmos a rede de inte-
tribuição de caminhos geodésicos. Um cami- ração de uma doença contagiosa, a possibili-
nho geodésico é definido como a via mais dade desta doença até então controlada
curta dentro de uma rede entre dois nós tornar-se uma epidemia depende principal-
quaisquer (i e j), sendo representado por δ (i, mente de duas variáveis: o tipo de agente in-
j) em G. Um bom exemplo disso é o experi- feccioso e a alta densidade de conexões (rotas
mento realizado por Stanley Milgram em de transmissão). O procedimento de quaren-
1960, onde cartas foram enviadas a indivídu- tena (isolamento) quando um determinado
os aleatoriamente. A missão de cada indivíduo indivíduo apresenta os sintomas da doença é
era enviar a sua carta a alguém que conside- justamente reduzir a conectividade da rede de
rasse capaz de fazer com que as cartas che- transmissão.
gassem ao seu destino final. Alguns modelos de rede (como as redes
Essa experiência relativamente simples de livre escala e hierárquica, discutidas adi-
conclui que existem aproximadamente seis ante no item 6.5.) podem apresentar cluste-
graus de separação entre dois indivíduos rização, isto é, os nós tendem a se agrupar.
quaisquer no mundo. Da mesma forma, esse Isso significa que se um nó A se liga ao nó B, e
experimento foi a primeira demonstração o nó B se liga ao nó C, então há grandes
significativa do efeito "mundo pequeno" (ou chances de A se ligar a C também. Assim, a
do inglês, small world), que estabelece que as rede é composta de centenas de triângulos,
redes apresentam nós conectados entre si ou seja, grupos de três nós conectados entre
formando um caminho mais curto entre to- si, onde cada lateral de um triângulo pode
dos os nós. pertencer a outro triângulo.
O comprimento médio de caminhos entre os nós (i, Podemos quantificar a fração de triplos nós que
j) é definido pelo valor médio de conectores entre os apresentam um terceiro conector preenchendo um tri-
nós e pode ser calculado por: ângulo pelo coeficiente de clusterização:
assumindo-se que δmin (i, j) é o caminho mais curto en- Na equação, o número três presente no numerador
tre os nós i e j, sendo N o número total de nós. Adicio- é devido ao fato que cada lateral de um triângulo con-
nalmente, o diâmetro da rede é definido como: tribui com outros três triplos nós, além de garantir que
C seja 0 ≤ C ≤ 1. Dessa forma, o coeficiente de clusteri-
zação avalia a probabilidade dos nós i e j serem vizi-
e representa o maior comprimento entre dois nós. Es- nhos, já que ambos são vizinhos do nó h. Assim, o
tudos recentes têm revelado que redes biomolecula- coeficiente de clusterização local de um nó i pode ser
res, sociais e tecnológicas apresentam valores de determinado por:
comprimento médio de caminhos e diâmetro relativa-
mente pequenos se comparados ao tamanho da rede,
apresentando ordem de grandeza log (n) ou menor
quando o tamanho da rede é n. Da mesma forma, a onde um nó i tem k vizinhos com e conexões entre eles.
densidade de uma rede é calculada com base no nú- Contudo, pode-se também atribuir o coeficiente de
mero de conexões que cada nó possui, sendo definida clusterização média para a rede total, sendo definido
como: por:
Ao analisarmos uma rede de processos biológicos,

Avaliar a densidade de uma rede repre- notamos que esta apresenta um maior coeficiente de
senta avaliar o nível de conectividade, tor- clusterização média quando comparado a uma rede
nando-se muito importante na definição de aleatória. Isso possivelmente se deve ao fato de pro-
cessos celulares ocorrerem de forma dependente da alteração será brusca. Neste caso, observa-
organização de diversos subconjuntos (clusters) de bi- se um aumento da distância entre os nós, de
omoléculas. forma que apenas poucos nós precisam ser
Em uma rede consideramos como sendo o grau de removidos para destruir a comunicação da
um nó o número de conectores k que incidem a este rede. Assim, fica claro que a Internet apre-
nó. Assim, a distribuição do grau P(k) é definida por ser senta baixa resiliência na remoção de nós
uma fração de nós com grau k dentro de uma rede. com alto grau, tornando-se vulnerável a ata-
Então sendo k = 0, 1, 2,... P(k) indica a probabilidade de ques de hackers.
determinado nó ter grau k. A distribuição de grau é de- Outro exemplo seriam as redes de inte-
finida por: ração proteína-proteína. Estas redes geral-
mente apresentam muitas proteínas com
poucas interações e algumas proteínas pos-
onde temos n nós na totalidade da rede e nk representa suindo muitas interações (chamadas de hubs,
a quantidade de nós com grau k. ver adiante). Desta forma, redes de interação
Uma rede aleatória que apresenta n nós conectados proteína-proteína são resilientes à deleção de
ou não com probabilidade p, tem uma distribuição bi- nós aleatórios, porém extremamente vulne-
nominal de grau com parâmetros N - 1 e p: ráveis a ataques em proteínas hubs.
Os nós de uma determinada rede po-
dem apresentar tendências de conexão. Em
Outras redes, no entanto, tem distribuição de grau outras palavras, duas redes completamente
bem diferente. Redes de livre escala (como a maioria diferentes topologicamente podem apresen-
das redes biológicas) apresentam distribuição do grau tar a mesma distribuição do grau. Assim, em
que segue uma Lei de Potência P(k) ~k-γ, γ >1 (ver adi- uma rede é preciso considerar o padrão de
ante). correlação do grau dos nós, onde a conectivi-
Outra estimativa numérica pode ser feita, a função dade de um nó reflete nas suas possibilidades
de distribuição cumulativa avalia a probabilidade de de ligação.
um nó ter um grau maior do que k: A tendência de conexão que uma rede
apresenta pode ser chamada de assortativi-
dade e desassortatividade. A assortatividade
significa que os nós de uma rede apresentam
Agora, o que aconteceria se, por acaso, uma tendência a interagirem com outros nós
resolvessemos excluir alguns poucos nós da semelhantes, por exemplo, nós do tipo A in-
rede? Certamente iríamos alterar o compri- teragem preferencialmente com nós também
mento de alguns caminhos e circuitos da rede do tipo A (Figura 12A-6). Vértices com alto
de forma pouco significativa. Contudo, se grau tendem a interagir com vértices que
formos excluindo mais nós, progressivamen- também apresentam alto grau. No entanto,
te, veremos que a comunicação da rede fica chamamos de desassortatividade se os nós
cada vez mais esparsa, até se tornar desco- de uma rede interagem preferencialmente
nectada. A capacidade de uma rede de tolerar com nós diferentes dele mesmo, por exem-
a deleção de nós é chamada de resiliência. plo, nós do tipo A tendem a interagir com nós
Em 2000, um estudo conduzido por Al- do tipo B. Neste caso, um nó com alto grau
bert-László Barabási e colaboradores mos- tem tendência a interagir com nós que apre-
trou que a Internet pode ser altamente sentem baixo grau (Figura 12B-6).
resiliente na remoção de nós aleatórios. Isso A correlação de grau dos nós i e j é feita por distri-
se deve ao fato de que a quantidade de nós buição de probabilidade conjunta P(ki, kj) = P(ki) P(kj).
com baixo grau de interação é maior em uma Podemos ainda calcular a assortatividade ou desas-
rede do que nós com alto grau de interação. sortatividade da rede como um todo, considerando:
Em compensação, se a remoção iniciar a par-
tir dos nós com mais alto grau de interação, a
calcular a resiliência. Imagine dois nós conec-

tados na rede. Se estes nós pertencem a um
componente gigante, há grande probabilidade
Se r = 1 a rede é considerada assortativa, enquanto de se comunicarem com uma extensa pro-
que se r = -1, a rede é completamente desassortativa. porção de nós da rede. No entanto, nós que
Caracteristicamente, redes assortativas participam de pequenos componentes comu-
são mais resilientes e apresentam hubs bem nicam-se apenas com uma parte reduzida da
conectados, enquanto que redes desassorta- rede. Essa capacidade de comunicação é res-
tivas são redes mais vulneráveis com nós co- ponsável pela forma como a informação é
nexos a hubs esparsos (Figura 12-6). transferida de um ponto a outro. Assim, as-
A conectividade de uma rede também sociamos a resiliência com a percolação local
pode ser avaliada pela teoria da percolação. (refere-se aos nós), enquanto que a percola-
Essa teoria tem por objetivo estudar a conec- ção de ligação (refere-se aos conectores) es-
tividade da rede pela avaliação de sua arqui- tá relacionada ao processo de dispersão
tetura, caracterizando a distribuição do (Figura 13A-6).
tamanho dos clusters e descrevendo como Também podemos considerar os nós de
ocorre a transferência de informações, por uma rede como ocupados (funcionais) ou de-
exemplo, de A para B. socupados (falhos), dependendo da sua fun-
Redes aleatórias caracteristicamente cionalidade. A probabilidade de um nó estar
apresentam baixa tendência em possuir pe- ou não ocupado pode ser uniforme ou pode
quenos clusters isolados e uma grande pro- depender do grau do nó, sendo que os nós
babilidade em formar um componente funcionais da rede formam o componente gi-
conectado gigante. Como visto anteriormente, gante em um modelo de percolação. Assim,
determinadas redes são altamente resilentes os nós ou conectores falhos não participam
à deleção aleatória de nós. A variação na fra- da transferência de informação, e igualmente,
ção dos nós no maior componente da rede não participam do componente gigante (Figu-
(componente gigante) é a forma mais fácil de ra 13B-6). Dessa forma, ao observar a propri-
Figura 12-6: Ilustração representando em (A) uma rede assortativa com nós bem conectados
que apresentam conexões com outros nós também fortemente conectados. Em (B), uma rede
desassortativa, onde os poucos nós que apresentam mais conexões interagem com nós menos
conectados, resultando em uma rede menos densa.
Levando em conta este modelo, o início de

uma epidemia representa a transição de per-
colação.
Apesar de ter sido originalmente de-
senvolvida com o objetivo de responder às
perguntas em química orgânica, os modelos
de percolação têm sido usados com sucesso
para estudar diversos fenômenos, como
transferência de sinal em neurônios e condu-
tividade elétrica. Em 1987, Robert H. Gardner
foi um dos primeiros pesquisadores a usar a
teoria de percolação na Ecologia da Paisagem,
sendo útil também na avaliação de corredo-
res ecológicos e redes de incêndios florestais.
Figura 13-6: (A) Redes de percolação local e

de ligação, onde os nós sólidos estão
ocupados ou funcionais, enquanto que os nós
brancos são desocupados ou falhos. (B)
Representação do componente gigante. Após
o surgimento de nós e conectores falhos, sua
proporção é alterada e, por conseguinte, as
possibilidades de transferência de
informações.
edade de percolação de um cluster, conside-

rando uma probabilidade de ocupação variá-
vel, podemos determinar que isso afeta Figura 14-6: Modelo simplificado de dispersão
diretamente a conectividade de uma rede, de uma doença considerando um grupo de
tornando-a altamente resiliente ou não. Po- trabalho em uma empresa. Suponhamos que
rém, ao combinarmos a percolação local e de o indivíduo central contraiu uma doença viral
ligação, teremos um modelo robusto contra de fácil transmissão, como a gripe simples.
falhas de nós ou conectores. Assim, todos os indivíduos com os quais ele
Os modelos de percolação são utilizados entrou em contato neste período também
em muitas redes, porém um dos modelos contraíram a doença (nós azuis), com exceção
mais interessante é o da dispersão de uma daqueles que foram vacinados (nós brancos).
doença. Nesse modelo, cada nó representa o Neste caso, além de não contraírem a doença,
hospedeiro e os conectores representam a também não a dispersaram. Os conectores
capacidade de transmissão da doença entre pontilhados indicam que não houve interação
um hospedeiro e outro. O nó (indivíduo hos- física durante o período passível de contrair a
pedeiro) está ocupado se for suscetível à do- doença entre o indivíduo saudável com o
ença, enquanto que um nó que representa um contaminado. Desta maneira, os indivíduos
indivíduo que tomou a vacina seria considera- representados pelo nó verde claro, apesar de
do como desocupado. Da mesma forma, os não terem sido vacinados, não contraíram a
conectores são considerados ocupados se há doença por não entrarem em contato com
possibilidade de transmissão (Figura 14-6). indivíduos contaminados.
6.4. Propriedades de rede interpessoais ou na nossa tendência de orga-

nizar objetos por seu tipo, função e cores,
Diversas propriedades são regularmen- dentre outros. Em nível molecular é visto, por
te empregadas na análise de redes biológicas, exemplo, em elementos que atuam num
cada uma fornecendo informação sobre as mesmo processo biológico, como conjuntos
interações e/ou componentes de um deter- de moléculas de RNA responsáveis pela de-
minado sistema. Estas propriedades podem gradação e síntese de ácidos nucleicos ou
ser referentes a nós individuais, isto é, grau de grupos de proteínas que atuam num mesmo
nó ou node degree, ou podem contemplar a processo biológico como a replicação de DNA
rede como um todo como é, por exemplo, o e a transcrição gênica.
caso da modularização e do diâmetro da rede. Existem dois tipos distintos de módulos:
Em uma análise de biologia de sistemas, i) Módulo Variacional: apresenta carac-
a análise estatística destas propriedades pos- terísticas que variam entre seus com-
sui papel crítico na geração de dados conclu- ponentes e são relativamente
sivos e confiáveis, constituindo-se assim em independentes de outros módulos, po-
redes capazes de descrever com alto grau de rém possuem um número considerável
fidelidade um determinado modelo biológico, de ligações com outros módulos;
de identificar alvos proteicos críticos na rede ii) Módulo Funcional: possui elementos
ou no desenvolvimento de caminhos molecu- que normalmente atuam juntos em al-
lares. guma função fisiológica distinta e são
semiautônomos (quasi-autonomous) de
Modularidade outros módulos. Esses módulos com-
preendem a maioria dos módulos vistos
Uma das principais características em redes biológicas.
quando nos referimos a propriedades da to-
pologia de redes é a chamada modularidade Módulos variacionais podem ser exem-
ou clusterização. O conceito de modularidade plificados na Figura 15B-6 e C, representando
é antigo e já amplamente usado em outras a formação de uma mandíbula de rato. Ape-
áreas do conhecimento, como nas ciências sar de se tratar da diferenciação de um teci-
sociais. Dentro das ciências biológicas, é um do, podemos usá-la como modelo variacional
conceito comum nas áreas da biologia evolu- devido ao fato de diferentes proteínas e genes
tiva, biologia molecular, biologia de sistemas e serem responsáveis pela formação de uma
biologia do desenvolvimento. unidade estrutural única (o ramo ascendente
Todas as ideias de modularidade giram e da região alveolar). Desta maneira, é uma
em torno do conceito de padrões de conecti- unidade estrutural (um único osso) que se
vidade, onde seus elementos constituintes origina de diferentes módulos. Assim, o mó-
estão agrupados em subconjuntos altamente dulo variacional consiste numa integração de
conectados. De forma geral, a modularidade é vários de genes que dividem efeitos pleiotró-
um princípio de união entre diferentes tipos de picos entre si e que possuem poucos efeitos
elementos e conexões naturalmente forma- pleiotrópicos com outros clusters, sendo
das no meio biológico, como na interação en- praticamente independente.
tre indivíduos de mesma espécie. Um exemplo Módulos de genes de desenvolvimento
é a Pollenia rudis, uma espécie de mosca co- embrionário, relacionados à diferenciação ou
nhecida como cluster fly em decorrência de formação de padrões corporais, tendem a ser
seu hábito de se agrupar com indivíduos da quase independentes de outros módulos, uma
mesma espécie. vez que erros na sua expressão ou atuação
Este princípio é visto em todos os luga- podem ser letais para o embrião. Por isso,
res, seja na nossa tendência de formar socie- esses módulos de desenvolvimento tendem a
dades e grupos preferenciais de interação depender de elementos dentro do próprio
grupo para sua expressão. Podemos visuali- tra-módulo), ou seja, ligadas no mesmo
zar um exemplo de um módulo funcional na tempo e/ou espaço,
Figura 15A-6. ii) date hubs, que são hubs que se ligam
a diferentes proteínas em diferentes
módulos (inter-módulo), ou seja, dife-
rentes tempo e/ou espaços, conse-
quentemente apresentando um papel
global na rede (Figura 16-6). Estes ter-
mos podem ainda receber denomina-
ções específicas no contexto do
conceito de centralidades (ver adiante).
Figura 15-6: Exemplos de uma rede com

diferentes módulos representados. Os
módulos variacionais B (azul) e C (verde) se
encontram praticamente independentes do
módulo A (vermelho), porém possuem
proteínas em comuns entre si. Contudo, o
módulo A pode ser considerado funcional,
uma vez que possui apenas uma conexão com
cada outro módulo, sendo praticamente
independente.
Ao determinarmos a quantidade e o tipo Figura 16-6: Diferentes tipos de centralidade

de módulos presentes em uma rede devemos em uma rede biológica. Em verde são apre-
levar em consideração o coeficiente de agru- sentadas proteínas envolvidas em party hubs
pamento (Ci) ou clusterização. O coeficiente e encontradas em módulos. Em amarelo
analisa a tendência de um nó de se associar encontram-se as proteínas não-hub/não-
com seus vizinhos (“cliquishness”), onde "cli- gargalo, que são aquelas que não possuem
que” é definido como um grafo maximamente alto valor de grau de nó ou betweenness,
conectado. sendo consideradas componentes funcionais
Como mencionado anteriormente, a clusterização é dos módulos. Em azul estão as proteínas hub-
dada pela fórmula Ci=2n/ki(ki-1), onde ki é o tamanho da gargalo (date-hub) que possuem alto valor de
vizinhança de vértices (nós) do vértice i, e n é o número grau de nó e de betweenness, sendo
de conectores na vizinhança. Assim, quanto maior o consideradas fundamentais para o
coeficiente de clusterização, mais conectado é o clus- funcionamento de redes. Em vermelho estão
ter. Evolutivamente, as proteínas que compõem módu- identificadas as proteínas do tipo gargalo,
los altamente agrupados tendem a ser conservadas ou com alto valor de betweenness e essenciais
perdidas juntamente, caso haja uma variação dentro do na ligação entre módulos e processos
grupo. biológicos.
Outro conceito essencial para entender
a formação de um cluster em um sistema bi- Os party hubs são componentes clássi-
ológico é a presença de hubs. Os hubs podem cos de módulos funcionais, uma vez que estes
ser classificados em dois grupos: são quase independentes de outros módulos,
i) party hubs, proteínas altamente liga- enquanto date hubs são fundamentais para
das dentro do seu próprio módulo (in- módulos variacionais, pois estes se ligam a
outros módulos. Da mesma forma, essas anotações não

Assim, uma mutação em um party hub são restritas a humanos, mas abrangem di-
vai afetar principalmente as proteínas refe- versos organismos modelo como Mus
rentes ao seu próprio módulo, enquanto a musculus, Gallus gallus, Saccharomyces
mutação em um date hub (Figura 16-6) pode cerevisiae, Caenohabditis elegans e
afetar vários módulos. Contudo, não existe Escherichia coli, além de outros organismos
diferença de importância entre party ou date não-modelo mas que já possuem alguma
hub. A deleção de um hub em um módulo anotação.
funcional pode ser tão letal quanto a deleção De um modo geral, a ontologia gênica
em um módulo variacional. tem como função, em uma rede de interação
Baseado em dados estruturais, os hubs proteína-proteína, agrupar proteínas que fa-
podem ser ainda classificados em singlish çam parte de um mesmo processo biológico.
(com uma ou duas interfaces) e multi-interfa- Em biologia de sistemas o emprego de onto-
ce (com mais de duas interfaces). Hubs com logias gênicas pode se mostrar muito útil pa-
interface singlish somente se ligam a outras ra direcionar a análise da rede, possibilitando
proteínas de maneira alternada e transitória, a verificação dos tipos de processos biológi-
enquanto hubs multi-interface se ligam a dicos existentes na rede e das proteínas pre-
ferentes proteínas concomitantemente. sentes. Um modelo hipotético de como uma
rede poderia se apresentar em termos de on-
Ontologias Gênicas tologias gênicas se encontra na Figura 17-6,
onde diferentes nós poderiam estar relacio-
Nos últimos anos, o desenvolvimento e nados a diversos processos.
uso de técnicas de análise como microarran-
jos, ChIP-chip e espectrometria de massas e
suas aplicações no estudo de cada vez mais
organismos gerou um grande acúmulo de da-
dos genômicos e proteômicos. A leitura e in-
terpretação simples e concisa destes vem
requerendo o desenvolvimento de novas
abordagens, contexto no qual, em 1990, foi
criado o chamado Gene Ontology Project.
Ontologia gênica refere-se ao produto
de um determinado gene e à função que ele Figura 17-6: Modelo hipotético da presença de
desempenha na maquinaria celular. São clas- ontologias gênicas em uma rede. Na figura
sificadas em três níveis hierárquicos: acima, cada cor representa um processo
i) Componente celular, descrevendo a identificado. É importante ressaltar que uma
localização da proteína na célula; proteína pode estar presente em mais de uma
ii) Processo biológico, referindo-se à ontologia. Da mesma forma, uma ontologia
série de eventos realizados por uma ou pode estar dentro de outra. Como por
mais funções celulares; exemplo, o quadrado amarelo poderia
iii) Função molecular, descrevendo a significar transcrição, enquanto o quadrado
atividade que uma dada proteína de- azul claro (inserido no amarelo) poderia
sempenha no meio celular. significar apenas o complexo de iniciação da
RNA polimerase II.
Essas informações são guardadas em
forma de “anotações ontológicas”, onde cada A Figura 18-6 mostra um exemplo de
uma possui um número de identificação e se aplicação de ontologias gênicas em uma rede
encontram disponíveis em bancos de dados biológica. Nessa análise foi utilizado o pro-
como www.geneontology.org. grama Biological Network Gene Ontology
(BiNGO) 2.44, um plug-in do programa Grau de nó

Cytoscape. É possível, assim, identificar pro-
teínas ou genes com efeitos pleiotrópicos, a Um dos parâmetros básicos de análise
saber: a proteína Tp53, a proteína breast can- topológica é o parâmetro de grau de nó (ou
cer 1 (BRCA1) e a proteína bloom syndrome node degree), referente à quantidade de nós
protein (BLM), as quais se encontram nas três adjacentes (diretamente conectados) a outro
ontologias da rede (reparo de DNA, regulação determinado nó. Esses nós que apresentam
positiva da transcrição e ciclo celular). uma grande quantidade de conexões são cha-
mados de hubs, os quais são conectados a
outros hubs ou nós com menos conexões (Fi-
gura 16-6). Como veremos posteriormente,
uma rede de livre escala é definida por uma
lei de potenciação, o que significa que essa
rede terá poucos nós altamente conectados.
O grau de nó é referente ao valor distribuição
de nó, P(k), que informa a probabilidade de um
nó ter k conexões, conforme visto em Estru-
tura de redes.
Numa visão biológica, podemos exem-
plificar um hub como uma proteína que se liga
a várias outras e acaba possuindo uma função
regulatória importante na rede. Normalmen-
te, proteínas consideradas apenas hubs se
encontram dentro de módulos. A perda de
conexões de uma proteína hub pode lhe tirar
Figura 18-6: Exemplo de uma rede analisada esta condição modular. Sua deleção em uma
pelo plugin BiNGO 2.44, o qual analisa as rede de interação proteína-proteína poderia
principais ontologias gênicas. A rede mostra afetar a ação de diversas proteínas vizinhas e
três processos biológicos (GOs): i) Regulação até mesmo na formação de módulos.
do ciclo celular (nós de cor laranja); ii)
Regulação positiva da transcrição (nós de Betweenness
formato quadrado); iii) Resposta a dano de
DNA (nós com a linha azul). É possível O parâmetro denominado betweenness
observar que mais de um nó compõe é definido como o número de caminhos mais
diferentes GOs. curtos que passam por um único nó, esti-
mando a relação entre eles. Por exemplo, pa-
Centralidades para nós ra calcular o valor de betweenness de um nó
n é calculado o número de caminhos mais
Como vimos até então, a grande vanta- curtos entre i e j, e a fração deste caminhos
gem da biologia de sistemas é permitir a vi- que passam pelo nó n. Deste modo, um nó n
sualização dos componentes moleculares de pode ser atravessado por diversos caminhos
um sistema biológico de forma dinâmica e alternativos, que ligam i e j.
global. Contudo, quando falamos de uma re- Matematicamente, o valor de betweenness é dado
de, temos que levar em consideração todas pela seguinte fórmula:
suas estruturas, como hubs e módulos. Deste
modo, o objetivo da análise de centralidades é
procurar o elementos mais importantes na
topologia geral da rede. onde σij representam caminhos geodésicos entre os
nós i e j, e σij(n) é o total destes caminhos mais curtos
que passam por n.

Por exemplo, uma proteína com alto
valor de betweenness apresentaria uma ele- onde o valor de closeness de um nó v [Clo(v)] é deter-
vada capacidade de interação e/ou sinalização minado através do cálculo e somatório dos caminhos
com outras proteínas, processos biológicos mais curtos entre um nó v e todos outros nós w
ou clusters. Uma proteína com tais caracte- [dist(v,w)] dentro da rede.
rísticas é chamada de bottleneck ou gargalo. Uma proteína com alto valor de
Na Figura 16-6, temos dois exemplos de uma closeness poderia ser considerada relevante
proteína com alto valor de betweenness. para muitas proteínas, porém irrelevante para
Não existe uma maneira óbvia de se en- outras. Em termos biológicos, ela seria im-
contrar proteínas gargalo. Porém, é possível portante na regulação de muitas proteínas,
que rotas de sinalização possuam grande in- porém sua atividade pode não influenciar ou-
cidência de proteínas gargalo, uma vez que tras. Ao compararmos essas informações
são necessárias para sinalização entre com- com módulos podemos dizer que uma rede
partimentos e processos biológicos distintos. com uma média de closeness alta é mais pro-
Contudo, proteínas gargalo não necessaria- vável de estar organizada como um módulo
mente possuem um grande número de inte- funcional, enquanto uma com baixo valor de
rações com outras proteínas. closeness é mais provável de estar organiza-
da como um módulo variacional.
Closeness
O valor de closeness pode ser entendido
como o caminho mais curto entre um nó n e Diâmetro
todos os outros nós da rede, uma tendência
de aproximação ou isolamento de um nó (Fi- O diâmetro pode ser considerado um
gura 19-6). Um alto valor de closeness indica dos primeiros parâmetros referentes à
que todos os outros nós estão próximos do “compactação”, isto é, proximidade dos nós
nó n, enquanto que um baixo valor indicaria da rede. Ele indica a distância entre os dois
que os outros nós encontram-se distantes. nós mais afastados entre si de uma rede.
Sendo assim, definimos que uma rede possui
um alto diâmetro quando a distância geral
entre os nós é muito ampla. Quando a distân-
cia entre os nós é pequena, então o diâmetro
é baixo. Deste modo, uma rede com baixo di-
âmetro é considerada mais completa, uma
vez que suas proteínas estão mais interliga-
das entre si.
Um baixo diâmetro pode indicar que as
proteínas de uma determinada rede possuem
Figura 19-6: Caracterização de nós com uma maior facilidade de se comunicar e/ou
diferentes valores hipotéticos de closeness. influenciar umas as outras, apontando para
Os nós em roxo, dadas as suas maiores uma relação funcional co-evolutiva (Figura
conectividades com a rede no geral, possuem 20-6).
um valor maior de closeness, enquanto que Os parâmetros de centralidades podem
os nós em verde, por possuírem poucas ser alterados com a adição ou deleção de nós
conexões com a rede, apresentam baixo valor ou conexões na rede (Figura 21-6). Como já
de closeness. mencionado, em um sistema molecular, a
perda de uma conexão pode ser considerada a
Este parâmetro é dado pela fórmula: mudança de um domínio, impedindo a ligação
Figura 20-6: Em (A) uma rede com alto

diâmetro e em (B) rede com baixo diâmetro.
Pelo fato dos nós da figura A estarem mais
interligados entre si, a rede é considerada
mais “compacta”, pois seus nós mais
facilmente podem influenciar uns aos outros.
Entretanto, em B, a rede possui muito menos
conexões, portanto a deleção de um nó irá
afetar a rede de um modo mais sutil.
de duas proteínas ou a mudança de um pro-

duto gênico, criando proteínas anormais que
não mais farão as mesmas conexões. Contu-
do, mudanças topológicas nas redes biológi-
cas são processos normais durante a
evolução. A deleção e a duplicação de um ge-
ne, assim como a perda de interações, sejam
pela mudança estrutural ou de função, são Figura 21-6: Modificações na topologia de
processos muitas vezes selecionados e ne- rede podem alterar as centralidades. Devido à
cessários para sobrevivência celular. perda de conexões com nós fora do módulo,
os nós marcados pelos quadrados foram
Centralidade para conectores transformados em party-hubs (nós verdes),
deixando de ser hubs-gargalos (nós azuis).
Os elementos mais informativos de uma Porém, marcados pelos quadrados pontilha-
rede de interação podem ser avaliados atra- dos, há nós que além de ganharem conexões,
vés da análise da centralidade. Dentre as passaram a se ligar a outros módulos, saindo
possíveis centralidades avaliadas, o do estado de não-hub/não-gargalo para hub-
betweenness de um conector pode medir a gargalo (nós amarelos). Marcados por círcu-
influência de certos conectores no fluxo de los, os nós antes gargalos (nós vermelhos),
informações entre os componentes da rede. agora pela perda de uma conexão, se tornam
O betweenness de um conector e é sim- não-hubs/não-gargalos. Por fim, os nós
plesmente o número de caminhos mais cur- marcados pelos círculos pontilhados, devido à
tos entre pares de nós que percorrem e. Se perda de muitas conexões (nó central) e ao
uma rede contém módulos que são conecta- ganho de uma conexão (nó acima), se tornam
dos por poucos conectores intermodulares, gargalos, perdendo os status de hub-gargalo
então os caminhos mais curtos entre os dife- e de não-hub/não-gargalo respectivamente.
rentes módulos devem passar por estes pou-
cos conectores. Assim, os conectores unindo nector é baixo, esse conector provavelmente
módulos terão altos valores de fará parte do módulo, uma vez que dentro do
edgebetweenness (Figura 22-6). módulo os nós são mais interligados entre si.
Neste caso, os pares de nós unidos pe- Portanto, edgebetweenness é a frequência de
los conectores serão de diferentes módulos. um conector que se coloca sobre os caminhos
Se o valor de edgebetweenness de um co- mais curtos entre todos os pares de nós. Em
Figura 22-6: Representação de

edgebetweenness. Conectores em vermelho
apresentam valores altos de betweenness, Figura 23-6: Ilustração de uma rede aleatória
pois representam o caminho mais curto do consistindo em 109 proteínas. A rede
fluxo de informação entre os três módulos apresenta P(k) 3,8. Observe que as conexões
representados. de cada nó são valores próximos a 4, o que
está de acordo com k ≈ <k>.
uma rede proteica, um conector com alto va-
lor de betweenness provavelmente represen- probabilidade p, gerando uma rede de cone-
ta o caminho mais curto de comunicação xões aleatórias com aproximadamente pN . (N
entre dois processos biológicos. - 1) ⁄ 2. Dessa forma, o grau dos nós segue
Como conectores com altos valores de uma distribuição de Poisson com máxima em
betweenness são mais prováveis por posicio- <k> e a maioria dos nós apresentando aproxi-
narem-se entre módulos, a remoção sucessi- madamente o mesmo número de conexões k
va destes conectores pode eventualmente ≈ <k>, com grau próximo ao da média da rede.
isolar estes mesmos módulos. Essa desor- Raramente surgem nós que apresentam mais
dem na rede, conforme será visto adiante, é ou menos conexões que <k>. Adicionalmente,
conhecida como perturbação de conector. redes aleatórias apresentam a propriedade
“mundo pequeno” e distribuição de grau ex-
6.5. Tipos de redes ponencial, sendo estatisticamente homogê-
neas.
Rede Aleatória
Rede de livre escala
Os matemáticos Paul Erdös e Alfréd
Rényi iniciaram seus estudos sobre redes ale- O modelo de rede de livre escala foi in-
atórias em 1960. Este modelo de rede tem troduzido por Barabási e Albert em 1999 onde
impulsionado o interesse de diversos cientis- se observa que redes complexas, como as
tas ao longo dos anos por ser um dos primei- redes de citações de artigos científicos, redes
ros modelos de rede descoberto. Porém, metabólicas, redes socais e a World Wide
apesar de amplamente estudadas, redes ale- Web apresentam distribuição de grau que se-
atórias não capturam a realidade de um sis- gue uma lei de potência P(k) ~k-γ, γ >1. Essas
tema biológico (Figura 23-6). redes são consideradas como livres de escala
Essas redes consistem de N nós, com (Figura 24-6) pois a lei de potência não per-
cada par de nós conectados (ou não) com mite uma escala característica.
cia-se como uma pequena rede, sendo que a cada ins-

tante de tempo um novo nó com m conexões é adicio-
nado, onde a probabilidade do novo nó se conectar ao
nó i que está previamente presente depende de ki (grau
de i):
Esse crescimento gera uma rede de livre escala

com expoente de grau γ = 3. Após t instantes de tempo,
temos uma rede com N = t + m0 e mt conectores.
As características da rede de livre esca-
la a tornam uma rede que apresenta um pe-
queno número de nós altamente conectados
(hubs), o que frequentemente determina suas
propriedades. Como já mencionado, falhas na
rede (ou remoção de nós aleatórios) apre-
sentam poucas consequências, enquanto que
o ataque aos nós altamente conectados tor-
Figura 24-6: Ilustração de uma rede de livre nará a rede fragmentada. Em sistemas bioló-
escala consistindo de 109 proteínas, na qual o gicos, uma rede bioquímica apresenta alta
grau de distribuição segue uma lei de resiliência contra mutações aleatórias, en-
potência. Neste tipo de rede, as proteínas quanto que os hubs podem ser usados como
hubs (nós laranjas) tem papel essencial na candidatos importantes para alvo de fárma-
manutenção da integridade da rede. cos. Um exemplo disso seria a proteína EF-Tu.
Esta proteína tem papel essencial durante a
Diferentemente da rede aleatória que elongação da síntese proteica, sendo inibida
apresenta um número fixo de N nós, as redes pelo antibiótico quirromicina, que impede que
de livre escala apresentam uma ordem dinâ- o complexo EF-Tu-GDP seja liberado do ribos-
mica de estruturação que permite o cresci- somo.
mento da rede pela adição de novos nós.
Assim, a rede aleatória consiste de um siste- Rede Hierárquica
ma aberto que inicia com um pequeno grupo
de nós e aumenta de tamanho exponencial- Como já vimos anteriormente, uma rede
mente no tempo devido à inserção de novos pode ser avaliada pelo grau de agrupamento
nós. A probabilidade deste novo nó se conec- (clusterização) de seus nós. Na maioria das
tar a nós com grande número de conexões é redes baseadas em um sistema real (chama-
maior, sendo chamada de conexão preferen- das de redes reais), como por exemplo, parte
cial. Por exemplo, imagine que você está bus- de uma via metabólica, o coeficiente de clus-
cando um artigo sobre determinado assunto terização é significativamente maior se com-
na Internet. Certamente os artigos que você parado a redes aleatórias. Da mesma forma,
encontrará mais facilmente serão publicações ocorre a coexistência da propriedade de livre
com alto grau de conexão por serem mais escala e clusterização nas redes reais, como
conhecidos e bem citados quando compara- redes metabólicas e de interação proteica.
das a publicações pouco citadas e, conse- Contudo, grande parte dos modelos propos-
quentemente, menos conhecidas. tos para representar estas redes não conse-
Estes dois mecanismos, crescimento da rede e co- gue descrever a livre escala e a clusterização
nexão preferencial originaram o algoritmo do modelo simultaneamente.
Barabási-Albert, que estabelece que o crescimento ini- Adicionalmente, muitas redes reais
apresentam módulos, ou seja, a rede é com- 2002, que construíram um gráfico de livre
posta de subredes funcionalmente separá- escala determinístico, na qual o coeficiente de
veis. Esses componentes separáveis clusterização de um nó que possui k conexões
apresentam densa conectividade entre os segue a lei de escala C(k) ~k-1. Portanto, o
seus próprios nós, com conectividade mais modelo de rede hierárquico integra uma to-
dispersa em relação a componentes de ou- pologia livre de escala com alta modularida-
tros módulos. Isso ocorre porque cada mó- de, resultando em um coeficiente de
dulo apresenta a capacidade de executar uma clusterização independente do tamanho do
tarefa identificável, diferente de outro módu- sistema.
lo. Contudo, essa “separação” de tarefas não
significa que um módulo é independente de 6.6. Perturbação e conectores
outro, mas sim que tem funções distintas.
Dessa forma, é necessário combinar a Como visto anteriormente, um grafo
propriedade de livre escala, o alto grau de consiste de um conjunto de nós e um conjunto
agrupamento e a modularidade de uma forma de conectores que conectam esses nós. Por-
interativa, gerando a rede hierárquica. A es- tanto, os nós são as entidades de interesse e
trutura hierárquica é convencionalmente re- os conectores representam as relações entre
presentada por um dendrograma ou uma as entidades.
árvore e atua relacionando os nós mais próxi- Quando tratamos de sistemas biológi-
mos na rede, conforme Figura 25-6. Essas cos, podemos levar em consideração diferen-
redes podem ser formadas basicamente pela tes entidades como, por exemplo, DNA, RNA,
duplicação de clusters e repetidas indefinida- metabólitos, pequenas moléculas e/ou prote-
mente, integrando uma topologia livre de es- ínas. Estes componentes biológicos não atu-
cala com alta modularidade, resultando em am isoladamente, mas sim dependem da
um coeficiente de clusterização independen- interação com outros componentes. Para que
tes do tamanho do sistema. Muitas vezes, em ocorra essa interação (comunicação) é ne-
redes reais, a modularidade não apresenta cessária a presença de conectores.
um limite claro, sendo reconhecida principal- Conectores podem ser interações físi-
mente por nós altamente conectados entre si cas, bioquímicas ou funcionais. Por exemplo,
e conectados a outros módulos. em redes metabólicas, conectores podem ser
reações que convertem um metabólito em
outro ou enzimas que catalisam essas rea-
ções; em redes de regulação gênica, conecto-
res podem representar a ligação física de um
fator de transcrição nos elementos regulató-
rios; em redes de doenças, conectores podem
representar as mutações genéticas associa-
Figura 25-6: Ilustração de uma rede das à doença; e em redes proteicas, os co-
hierárquica consistindo de 55 proteínas em nectores podem ser ligações físicas entre as
modelo de dendrograma onde é possível proteínas.
observar sua modularidade intrínseca. Como apresentado anteriormente, as
redes podem ser direcionadas e não direcio-
A principal característica dessas redes nadas. Esse comportamento da rede depende
que não é compartilhada por redes aleatórias da natureza da interação e, obviamente, da
ou de livre escala é a hierarquia intrínseca, direcionalidade dos conectores (Figura 26-6).
sendo representada também na sua arquite- Em redes direcionadas, a interação entre dois
tura. Essa característica hierárquica pode ser, nós tem uma direção bem definida que repre-
ainda, analisada quantitativamente, como ob- senta, por exemplo, a direção do fluxo do
servado por Dorogovtsev e colaboradores em substrato ao produto em uma rede metabóli-
ca. Em redes não direcionadas, a ligação não nismo de formação do complexo, incluindo o
tem uma direção definida, tal como a intera- tipo de conexão entre as proteínas, as intera-
çao física entre proteínas. ções podem ser conceitualmente separadas
em dois grupos: aquelas que são permanen-
tes e aquelas que são temporárias. E, embora
não exista um limite bem definido para essa
separação, tendências têm sido observadas
em relação a suas propriedades biológicas
(Figura 27-6).
Em relação à estrutura, por exemplo,
interações temporárias são caracterizadas
por interfaces proteicas pequenas, enquanto
que as interfaces de proteínas interagindo
permanentemente são maiores. Consequen-
temente, complexos proteicos com interfaces
maiores tendem a apresentar um maior grau
de mudança conformacional após a ligação.
Além disso, componentes de complexos per-
manentes tendem a ser co-expressos e mais
Figura 26-6: Representação de um conector estáveis. Esta estabilidade gera uma pressão
não direcionado e um direcionado. seletiva maior e em função disso, uma taxa
evolutiva mais lenta.
Na abordagem da biologia de sistemas Como será discutido adiante, interação
tão importante quanto conhecer os nós que transitória tende a ser date, isto é, as proteí-
interagem entre si em uma rede é compreen- nas podem se conectar em diferentes tempos
der, por exemplo, que tipo de interação pode e a interação permanente tende a ser party,
ocorrer na rede em questão, quais conectores isto é, conexão proteica forte e constante.
são mais relevantes à rede e qual o impacto As proteínas com conectores perma-
da perturbação de um conector. Nesta seção nentes existem somente em sua forma com-
iremos discutir os tipos de conectores entre plexada e são muito estáveis, enquanto
diferentes componentes de uma rede envol- aquelas com conectores transitórios possu-
vendo proteínas e as consequências da ruptu- em a capacidade de associação e dissociação
ra nestas conexões. in vivo. Dentre as proteínas com conectores
transitórios, há aquelas em que a associa-
Interação proteína-proteína ção/dissociação é resultante de uma conexão
com baixa afinidade, porém constante (inte-
A interação proteína-proteína é comum rações temporárias fracas) e aquelas em que
e crucial a vários processos celulares, tais a associação/dissociação é desencadeada por
como na ligação enzima-inibidor e na intera- um processo ativo (interações temporárias
ção antígeno-anticorpo. Os diferentes tipos de fortes) como, por exemplo, uma mudança
complexos proteicos têm sido definidos na li- conformacional ocorrida em consequência de
teratura como obrigatórios e não obrigatóri- um fator ligante.
os. No complexo obrigatório, as proteínas não A diferença entre as interações acima
podem funcionar separadamente, diferindo do citadas é distinguida puramente pelas propri-
complexo não obrigatório onde as proteínas edades da estrutura da interface proteica, isto
associam-se e dissociam-se dependendo de é, da superfície de contato das proteínas. Es-
fatores externos, podendo também exercer sas propriedades conferem afinidade e espe-
funções fora do complexo. cificidade, e são determinadas principalmente
De acordo com a estabilidade e o meca- por forças intermoleculares como comple-
Figura 27-6: Modelo esquemático representando os diferentes tipos de interações proteína-

proteína e as propriedades biológicas relacionadas. Quanto maior o tamanho da base e a
intensidade da cor do triângulo, maior é a relação entre o modo de interação proteica e a
propriedade biológica.
mentaridade estérica, força eletrostática, in- fracas e ocorrem em função da interação en-
teração hidrofóbica e ligações de hidrogênio. tre cadeias ou subunidades apolares. Os
A complementaridade estérica otimiza complexos com conexões permanentes nor-
as interações de van der Waals entre o com- malmente persistem no estado ligado, sendo
plexo. Normalmente, estas interações de fra- a força hidrofóbica mais significativa. Já em
ca energia ocorrem em função da polarização conectores transitórios, a alta hidrofobicidade
transiente de ligações carbono-hidrogênio ou se torna desfavorável, pois esses complexos
carbono-carbono e, apesar de fracas, são ex- permanecem ligados por menos tempo.
tremamente importantes para o processo de As forças de atração eletrostáticas são
reconhecimento intermolecular pois crescem aquelas resultantes da interação entre dipo-
em intensidade com a área de interação. los e/ou íons de cargas opostas e represen-
Complexos com conexões permanentes exi- tam força significativa na interação
bem alta complementaridade estérica nas proteína-proteína, podendo definir o tempo de
proteínas em contato, enquanto complexos vida do complexo.
com conexões temporárias demonstram bai- Dentre as forças intermoleculares dis-
xa complementaridade. cutidas acima, o fator dominante da interação
Como as interações de van der Waals, permanente entre proteínas consiste nas in-
as interações hidrofóbicas são pontualmente terações hidrofóbicas, enquanto várias forças
participam de interações temporárias entre interações (altamente conectadas) dentro de

proteínas. Além disso, proteínas interagindo uma rede proteica. Algumas proteínas hub
de forma temporária possuem interfaces que são altamente co-expressas com outras pro-
são menores em tamanho do que as interfa- teínas do módulo, o que implica na existência
ces de proteínas permanentes, os aminoáci- de complexos estáveis (permanentes). Outras
dos que compõem a interface e a proporção proteínas possuem expressão independente,
de resíduos hidrofóbicos não diferem drasti- sugerindo a ligação com proteínas em dife-
camente do resto da superfície proteica e as rentes tempos, de modo transitório. Esses
interfaces são levemente ricas em grupos hubs são classificados como party e date
polares neutros e em água. hubs, respectivamente.
O tipo de interação também confere Na construção de redes proteicas, a di-
graus diferentes de restrição (pressão seleti- ferenciação entre complexos permanentes e
va) na evolução da proteína. Proteínas com transitórios tem importantes implicações. Por
interação permanente tendem a evoluir em exemplo, na prospecção de novos fármacos, a
uma velocidade menor comparada a proteí- alteração do padrão de interação entre pro-
nas que formam complexos temporários, teínas temporárias por modulação farmaco-
bem como possuir pressão seletiva maior e lógica ocorre mais facilmente em
menor plasticidade em sua sequência. comparação a proteínas que formam com-
Evidências sugerem que o modelo duplica- plexos permanentes. Portanto, uma rede de
ção-divergência aplica-se à evolução das re- interação proteica não é um processo estáti-
des proteicas. Uma das predições é que na co, mas sim corresponde a um constante flu-
duplicação das proteínas algumas ou todas as xo de informações. Por conseguinte, na
conexões podem ser herdadas da proteína análise de dados de interação proteína-pro-
ancestral. Consistente com esta hipótese, teína a discriminação das características da
proteínas parálogas tendem a compartilhar interação e/ou o uso de centralidades de co-
padrões de interação em uma frequência nectores é fundamental para obter modelos
maior do que a esperada ao acaso. No entan- mais realísticos.
to, tem sido proposto que depois que a dupli-
cação gênica ocorre, as interações entre as Interação proteína-ácidos nucleicos
proteínas são rapidamente perdidas. Portan-
to, duplicações recentes são mais prováveis Proteínas que se ligam a ácidos
de compartilhar interações, comparadas a nucleicos têm um papel central em todos os
duplicações mais ancestrais. processos regulatórios que controlam o fluxo
Outra distinção acerca da interação de informação genética. Por exemplo, proteí-
proteica refere-se à interação funcional e in- nas podem inibir, ativar e coordenar a trans-
teração física. A interação funcional pode ou crição do DNA, auxiliar e manter o
não corresponder a uma interação física dire- empacotamento e o rearranjo do DNA e o
ta em algum processo biológico. Assim, na processamento do RNA, coordenar a replica-
interação física, a proteína A conecta-se a ção do DNA, promover a síntese de proteínas
proteína B e, na interação funcional, a proteína e sinalizar o reparo do DNA, entre outros.
A atua com a proteína B. Como exemplo de Esses possíveis papéis fisiológicos são
interação funcional podemos imaginar dois determinados pela afinidade e especificidade
produtos gênicos que interagem em uma da interação DNA-proteína, que é a habilidade
mesma via em um processo biológico, mas da proteína em distinguir seu sítio de ligação
não se conectam fisicamente. do restante do DNA. Estas propriedades de-
O tipo de interação tem um papel im- pendem de interações precisas entre a se-
portante na determinação do comportamento quência de aminoácidos da proteína e os
das proteínas. Como já vimos, hubs são pro- nucleotídeos do sítio específico de ligação do
teínas envolvidas em um grande número de DNA.
As proteínas que se ligam a ácidos i) a direção da interação entre as proteí-

nucleicos podem ser, de forma simplificada nas e o eixo da dupla hélice é perpendi-
separadas em três grupos de acordo com a cular;
função: ii) a direção da interação da proteína é
i) enzimas, onde a principal função da paralela ao eixo da dupla hélice;
proteína é modificar a organização do iii) ambos os modos de interação são
ácido nucleico, como no caso das endo- observados ao mesmo tempo.
nucleases, glicosiltransferases, glicosi-
lases, helicases, ligases, metil- Assim como na formação de complexos
transferases, nucleases, polimerases, proteicos, discutido anteriormente, a forma-
recombinases, topoisomerases, trans- ção de complexos DNA-proteína ou RNA-pro-
locases e transposases, entre outras; teína também envolve forças
ii) fatores de transcrição, onde a princi- intermoleculares, tais como van der Walls,
pal função da proteína é regular a força eletrostática, interação hidrofóbica e li-
transcrição e a expressão gênica como gações de hidrogênio.
por exemplo, TFIIA, TFIIB, TFB, entre A região da proteína que reconhece a
outros; sequência do ácido nucleico é denominada
iii) proteínas estruturais que ligam-se motivo. Os motivos hélice-volta-hélice, dedo
ao DNA, que têm como principal função de zinco e zíper de leucina são os mais co-
suportar a estrutura e a flexibilidade do muns encontrados nas proteínas que intera-
DNA ou agregar outras proteínas, por gem com ácidos nucleicos.
exemplo, proteínas centroméricas, pro- O motivo hélice-volta-hélice é um dos elementos
teínas envolvidas no empacotamento e normalmente encontrados nos fatores de transcrição
na manutenção/proteção do DNA, pro- e nas enzimas de procariotos e eucariotos, sendo for-
teínas de reparo, proteína envolvidas na mado por duas hélices α conectadas por uma volta. O
replicação e proteínas teloméricas, en- motivo liga-se a cavidade maior do DNA e, em muitos
tre outras. complexos, o contato direto é feito entre a cadeia de
aminoácido e a sequência de bases do ácido nucleico.
A interação proteína-proteína também é Já o motivo dedo de zinco é encontrado principal-
necessária para uma eficiente interação entre mente em fatores de transcrição de eucariotos. Um
proteínas e ácidos nucleicos. A interação pro- dedo de zinco é composto por duas folhas β antipara-
teína-proteína com o DNA pode ocorrer de lelas e uma hélice α, sendo o íon zinco fundamental pa-
três modos de acordo com a direção e o eixo ra garantir a estabilidade deste tipo de domínio.
da dupla hélice do DNA (Figura 28-6): Subunidades proteicas contêm múltiplos dedos de zin-
Figura 28-6: Modos de interação proteína-proteína com a dupla hélice do DNA. A) perpendicular;
B) paralela e C) ambas as direções são observadas.
co que se enrolam no DNA formando uma espiral, in- afinidade da proteína pelo DNA e presença de
serindo a hélice α na cavidade maior do DNA. água no meio.
Fatores de transcrição de eucariotos e procariotos Muitas proteínas são flexíveis ao ponto
também podem conter o motivo zíper de leucina, en- de alterar sua conformação quando se ligam
contrado em proteínas regulatórias. Esse motivo é ao DNA, enquanto outras são conhecidas por
formado por duas hélices α paralelas, unidas por resí- alterar a conformação do DNA após a ligação.
duos de leucina. A afinidade da interação entre o DNA e uma
A estrutura do zíper de leucina pode ser dividida em proteína tende a estar relacionada à relevân-
duas partes: a região de dimerização e a região de liga- cia funcional da proteína. Por exemplo, a afi-
ção ao DNA. A dimerização é mediada pela formação nidade de um fator de transcrição por seu
de uma estrutura enrolada na região carboxi-terminal sítio de ligação é proporcional à ativação que
de cada hélice com sete resíduos de leucina. A região ele exerce. Ainda, alguns contatos mediados
que se liga ao DNA, também conhecida como região por água foram observados entre proteínas e
básica, é encontrada na região amino-terminal da héli- o DNA, participando de redes de ligações de
ce que se projeta na cavidade maior do DNA. Embora hidrogênio que conferem estabilidade ao
motivos de diferentes famílias de DNA sejam similares complexo.
estruturalmente, pouca homologia é observada fora do
motivo. Há baixa identidade entre motivos de diferentes Interação entre proteínas e peque-
famílias de proteínas e esta variação permite, portanto, nos compostos
o reconhecimento de diferentes conjuntos de sequên-
cias de DNA. Além disso, a posição do domínio dentro Considerando-se que a interação proteí-
da cavidade maior do DNA também varia, refletindo a na-proteína normalmente envolve superfícies
necessidade funcional e estrutural de cada proteína. relativamente grandes, pode-se imaginar que
A afinidade e a especificidade na ligação moléculas menores não seriam efetivas na
de proteínas ao DNA não podem ser endere- modulação da ligação dos complexos por
çados somente a alguns resíduos de aminoá- apresentarem áreas menores e, por conse-
cidos, mas o envolvimento de toda a proteína guinte, interações menos intensas. Contudo,
deve ser considerado. Por exemplo, a maioria ao empregarmos estruturas químicas dife-
das proteínas que se ligam ao DNA possuem rentes de aminoácidos, podemos não só
domínios desordenados que contribuem para compensar esta redução na área de contato
o reconhecimento do DNA em vários níveis. mas produzir moléculas com afinidade maior
Proteínas com domínios desordenados são proteí- do que os próprios ligantes fisiológicos en-
nas que não apresentam estrutura 2ária e 3ária sob con- volvidos do processo de interesse.
dições fisiológicas e na ausência de ligantes naturais. Adicionalmente, estas moléculas de
Essas proteínas possuem alta especificidade e baixa baixa massa molecular tendem a apresentar
afinidade na interação, são capazes de interagir com muitas vantagens terapêuticas em relação a
mais de uma proteína e alvos de modificações pós-tra- proteínas, dentre as quais se destaca sua
ducionais, possuindo a capacidade de manter sua fun- maior estabilidade metabólica e consequente
ção mesmo em ambientes extremos. Na interação com maior biodisponibilidade. Podem atuar direta-
o DNA, o domínio desordenado da proteína não é cruci- mente – via inibição da interface proteína-
al à formação do complexo, mas pode influenciar o re- proteína – ou indiretamente – via ligação a um
conhecimento da sequência do DNA, conferindo sítio alostérico que induz uma mudança con-
seletividade e afinidade de ligação. formacional do alvo da proteína ou da molé-
Além da característica das cavidades na cula associada.
molécula de DNA, da presença de motivos A busca de novos fármacos deve levar
específicos nas proteínas ou ainda da ocor- em conta o tipo de complexo proteico alvo. A
rência de domínios desordenados, outros fa- formação de complexos permanentes pode
tores podem influenciar a interação do ser considerada uma continuação do enove-
DNA-proteína, tais como a flexibilidade e a lamento da proteína, sendo o dobramento fi-
nal das subunidades parte deste processo. meiro, um estabilizador pode ligar-se a uma
Assim, esse tipo de complexo é menos pro- única proteína, na qual aumenta a afinidade de
penso à modulação farmacológica, sendo ligação mútua das proteínas do complexo de
mais interessante explorar o processo de do- um modo alostérico. Segundo, a molécula es-
bramento em si como alvo de pequenos tabilizadora liga-se à superfície do complexo
compostos. Já as interfaces das proteínas de proteico, fazendo contato com ambas as pro-
complexos temporários são alvos efetivos ao teínas ligantes e aumentando a afinidade de
planejamento de novos moduladores tera- ligação mútua entre elas. Assim, a inibição
pêuticos. estabilizadora pode ser denominada alostéri-
Para que pequenas moléculas modulem ca (ligada a uma proteína) ou direta (ligada ao
a interação proteica, estratégias têm sido es- menos a duas proteínas).
tabelecidas e dois principais mecanismos do A ativação por pequenos compostos é, normal-
controle regulatório têm sido utilizados: a ini- mente, um processo mais intrincado pois, além da liga-
bição e a estabilização (Figura 29-6). Das es- ção, é necessário o correto desencadeamento da
tratégias mais exploradas, destaca-se a cascata de ativação. Compostos que induzem a intera-
inibição da interação proteína-proteína. ção proteica são chamados de dimerizadores. Inúme-
ras vias de sinalização celular iniciam a partir da
dimerização proteína-proteína. A principal ideia do uso
de dimerizadores é a indução de interação entre duas
proteínas por pequenas moléculas que levam à ativa-
ção da via de sinalização celular. Na literatura científica
foi observado que dimerizadores podem induzir proli-
feração celular, transcrição e apoptose.
Perturbação dos conectores

Perturbações podem ocorrer em todos
Figura 29-6: Dois principais mecanismos de os sistemas, e em sistemas biológicos não é
modulação da interação proteína-proteína diferente. Nos interatomas, essas perturba-
utilizando pequenos compostos. Diferentes ções podem variar desde a remoção de um ou
proteínas são apresentadas em preto e mais nós até a remoção de conectores. Desta
amarelo. Pequenos compostos são forma, as consequências na estrutura e na
apresentados em vermelho. função do sistema irão diferir drasticamente
dependendo do tipo de perturbação ao qual a
O modo de ação da maioria dos inibido- rede foi exposta. Como exemplo, podemos
res de interação proteica é baseado na ligação imaginar uma rede de proteínas que confere
direta de uma pequena molécula à superfície um fenótipo específico (Figura 30-6).
de interação da proteína ligante, interferindo A remoção do nó não somente incapa-
diretamente nos hot spots críticos da interfa- cita a função deste, mas também a de outros
ce e competindo com a proteína original. Esse nós, causando a ruptura nas vias de todos os
tipo de inibição é conhecido como ortostérica. nós vizinhos. Uma perturbação no conector,
Na inibição alostérica, pequenos compostos que remove uma ou poucas interações mas
ligam-se a sítios diferentes, causando mu- deixa o restante da rede intacta e funcionan-
dança conformacional suficiente para interfe- do, pode ter efeitos mais sutis no sistema,
rir na ligação da proteína ligante (Figura não necessariamente alterando o fenótipo.
29-6). Contudo, a consequência do desarranjo da re-
Pequenas moléculas estabilizadoras da de após a remoção de nós ou de conectores
interação proteína-proteína também de- depende da importância do nó e do conector à
monstram dois modos gerais de ação. Pri- rede. Essas informações de conectores e nós
Figura 30-6: Rede hipotética de proteínas relacionada a um fenótipo específico representando

diferentes tipos de perturbação e suas consequências. Neste exemplo o nó 5 e o conector entre
os nós 5 e 1 são essenciais à manutenção do fenótipo selvagem.
mais informativos de uma rede podem ser mínios da proteína que grosseiramente desestabiliza-
obtidas, por exemplo, pela análise da resiliên- ram a estrutura da proteína, como remoção de nó,
cia e percolação da rede, vista anteriormente. mutações com alteração em quadro de leitura que
A distinção entre modelos de remoção afetaram sítios de ligação específicos e mutações
de nó e perturbação de conectores - altera- truncadas que preservaram certos domínios da proteí-
ção interação-específica e conector-específica na como perturbação edgetic. Alelos truncados foram
(edge-specific ou “edgetic”), respectivamente menos propensos a expressar proteínas estáveis em
- pode providenciar novas pistas nos meca- comparação a alelos que alteraram o quadro de leitura,
nismos básicos de doenças humanas, tais co- podendo diferir doenças hereditárias mendelianas en-
mo diferentes classes de mutações que volvendo remoção de nó versus perturbação edgetic.
levariam a modos dominantes ou recessivos Um alelo edgetic pode ser identificado pela falta de
de herança genética. um subconjunto de interações, quando possuem defei-
Em uma rede proteica, a remoção de tos nas interações provavelmente devido a mudanças
um nó pode representar a remoção de uma específicas dentro ou próximo a sítios de ligação da
proteína, causado por uma mutação crítica no proteína ou quando fenótipos in vivo diferem daqueles
gene que desestabiliza a estrutura da proteí- causados por perturbações nulas (genótipos nulos).
na. Já a remoção de um conector pode repre- Dependendo da rede, o fenômeno de
sentar uma mudança específica em distintas perturbação de um único conector pode ser
interações bioquímicas e biofísicas, preser- mais provável do que da remoção de um nó.
vando certos domínios da proteína. Dependendo do conector rompido, o impacto
Em relação a genes envolvidos em múl- à rede pode ser maior, pois diferentes conec-
tiplas doenças, foi demonstrado que alelos tores (interações) têm diferentes níveis de
edgetic responsáveis por diferentes doenças importância (vulnerabilidade). Conectores
consistem em distintas perturbações edgetic com alto valor de edgebetweenness podem
que, por sua vez, tendem a estar localizados causar fragmentação da rede em componen-
em diferentes domínios de interação proteica, tes desconectados, caso sejam rompidos, co-
conferindo fenótipos diferenciados. mo por exemplo no caso de conectores entre
Pesquisadores analisaram cerca de 50.000 alelos clusters. Esse tipo de conector é assim cha-
mendelianos associados a doenças genéticas hereditá- mado de cut-edge. Já conectores com baixo
rias e observaram que aproximadamente a metade foi valor de edgebetweenness, quando elimina-
potencialmente edgetic. Nesta análise foram conside- dos da rede, podem ser substituídos por vias
radas deleções e mutações truncadas dentro dos do- alternativas, como por exemplo no caso de
conectores dentro de clusters. Assim, conec- menos um.

tores interclusters tendem a ser mais vulne-
ráveis quando comparados aos conectores Conector Cut-edge: conector que quando rom-
intraclusters em uma determinada rede. pido causa fragmentação da rede.
6.7. Conceitos-chave Date hubs: são hubs que se ligam a diferentes

proteínas em diferentes módulos (inter-
Assortatividade: tendência de nós interagirem módulo), ou seja, diferente tempo e/ou
com nós similares a eles mesmos. espaço, consequentemente, apresentado
um papel global na rede.
Betweenness: parâmetro que estima a relação
entre dois nós, ou seja, leva em conside- Desassortatividade: tendência de nós interagi-
ração a quantidade de caminhos mais rem com nós diferentes deles mesmos.
curtos que passam entre eles.
Diâmetro: indica a distância entre os dois nós
Biologia de sistemas: área da bioinformática que mais afastados entre si de uma rede.
estuda sistemas moleculares complexos e Sendo assim, definimos que uma rede
como as moléculas interagem entre si. possui um alto diâmetro quando a distân-
cia geral entre os nós é muito ampla.
Caminho: sequência consecutiva de nós em um Quando a distância entre os nós é peque-
grafo sem repetições, estando cada nó na, então o diâmetro é baixo.
adjacente interligado por um conector.
Dimerização: corresponde à união de dois mo-
Caminho geodésico: definido pela via mais curta nômeros, formando um dímero. Ou seja, é
dentro de uma rede entre dois nós quais- a formação de uma molécula a partir de
quer. duas moléculas menores.
Circuito: sequência de nós sem repetição com Dimerizadores: compostos que induzem a di-
um conector entre cada par de nós adja- merização, neste caso a interação protei-
centes na sequência, onde o nó inicial co- ca.
incide com o nó final.
Distribuição de Poisson: distribuição aplicada a
Clique: é definido como um grafo com alta co- probabilidade de ocorrência de um evento
nectividade entre seus elementos inte- em determinado intervalo de tempo.
grantes. Sendo assim, clique também é
considerado um sinônimo de cluster. Edgebetweenness: parâmetro que indica o nú-
mero de caminhos mais curtos entre pares
Closeness: valor que indica os caminhos mais de nós que percorrem um determinado
curtos entre um nó n e todos os outros nós conector.
da rede, uma tendência de aproximação
ou isolamento de um nó. Edgetic: perturbação causada em um conector
específico, portanto em uma interação es-
Complexo proteico: grupo de proteínas formado pecífica na rede.
pela associação de duas ou mais cadeias
polipeptídicas. Forças intermoleculares: forças que mantêm as
moléculas unidas durante a interação.
Comprimento do caminho: definido pelo número
de conectores que definem o caminho, ou Gargalo (bottleneck): proteína que apresenta
então, pelo número de nós da sequência alto grau de betweenness.
Grau de nó (node degree): parâmetro referente função, em uma rede de interação proteí-
à quantidade de nós adjacentes (direta- na-proteína, agrupar proteínas que façam
mente conectados) a outro determinado parte de um mesmo processo biológico.
nó.
Party hubs: proteínas altamente ligadas dentro
Hipergrafo: rede caracterizada pela presença de do seu próprio módulo (intra-módulo), ou
hipervértices. seja, ligação no mesmo tempo e/ou espa-
ço.
Hipervértices: Conectores que interligam nós
que apresentam propriedades distintas Pleiotrópico, efeito: proteínas pleiotrópicas são
nos hipergrafos. aquelas que apresentam múltiplos efeitos
em um sistemas biológico.
Hot spot proteico: locais essenciais da interface
com alta afinidade de ligação. Rede: representação gráfica da interação entre
nós por meio de vértices.
Inibição alostérica de uma proteína: na inibição
alostérica, pequenos compostos ligam-se Rede bipartida: existe uma partição da rede, por
a sítios diferentes, causando mudança exemplo, partição A e partição B, sendo os
conformacional suficiente para interferir na nós presentes na partição A adjacentes
ligação da proteína ligante. apenas a nós da partição B, e vice-versa.
Inibição ortostérica de uma proteína: inibição Rede direcionada: apresentam conectores que
causada pela ligação direta de uma pe- orientam o fluxo da informação em uma
quena molécula à superfície de interação direção.
da proteína ligante, interferindo direta-
mente nos hot spots críticos da interface e Rede não direcionada: os conectores desta rede
competindo com a proteína original. não apresentam uma direção orientada.
Interface proteica: área através da qual as ma- Rede ponderada: são redes que se caracterizam
cromoléculas se comunicam e exercem pela presença de atributos associados a
sua funcionalidade. conectores e nós.
Modularidade (clusterização): padrões de co- Resiliência: capacidade de uma rede a tolerar a

nectividade, onde seus elementos consti- deleção de seus nós por falha ou ataque.
tuintes estão agrupados em subconjuntos
altamente conectados. Taxa evolutiva: medida das mudanças ocorridas
numa entidade (gene, proteína, organis-
Multiconector, interações: quando há dois ou mo, população) evolutiva ao longo do
mais conectores ligando os mesmos nós tempo.
na rede em redes direcionadas.
Teoria da Percolação: tem por objetivo investigar
Multidígrafo: rede direcionada com a presença o comportamento das propriedades de
de multiconectores. conectividade de uma rede.
“Mundo pequeno”, efeito: define que existe um Topologia de redes: estrutura e disposição de
caminho mínimo entre um nó de origem e conexões entre os nós.
um nó de destino.
Vulnerabilidade do conector: grau de importân-
Ontologia gênica: tipo de análise que tem como cia do conector.

BARABÁSI, Albert-László; OLTVAI, Zoltán N.
Network biology: understanding the cell's
functional organization. Nat. Rev.
Genetics. 5, 101-113, 2004.
GURSOY, Attila; KESKIN, Ozlem; NUSSINOV,

Ruth. Topological Properties of Protein
Interaction Networks from a Structural
Perspective. Biochem. Soc. Trans. 36,
1398-1403, 2008.
LEVY, Emmanuel D.; PEREIRA-LEAL, Jose B.

Evolution and Dynamics of Protein
Interactions and Networks. Cur. Op.
Struct. Biol. 18, 1–9, 2008.
MASON, Oliver; VERWOERD, Mark. Graph theory

and networks in Biology. IET Systems
Biol. 1, 89-119, 2007.
NEWMAN, Mark E. J. The structure and function

of complex networks. SIAM Rev. 45, 167-
256, 2003.
YU, Haiyuan; et al. The Importance of

Bottlenecks in Protein Networks:
Correlation with Gene Essentiality and
Expression Dynamics. PLoS Comp. Biol.
3, e59, 2007.
WAGNER, Günter P.; PAVLICEV, Mihaela;

CHEVERUD, James M. The road to
modularity. Nat. Rev. Genetics. 12, 921-
931, 2007.
7. Modelos Tridimensionais
Priscila V. S. Z. Capriles
Raphael Trevizani
Gregório K. Rocha
Laurent E. Dardenne
Fabio Lima Custódio
Geração de múltiplos modelos para a estrutura de culas e sistemas biológicos, possam ser
uma determinada sequência de aminoácidos. abordadas com cada vez mais sucesso. Den-
tre estas áreas, a predição de estruturas tri-
7.1. Introdução dimensionais de proteínas destaca-se pela
sua importância, o que tem atraído um gran-
7.2. Estrutura 3D de proteínas de número de pesquisadores ao redor do
mundo. Um exemplo deste interesse está na
7.3. Enovelamento de proteínas criação de um encontro bianual de caráter
mundial, intitulado CASP - Critical
7.4. Predição da estrutura Assessment of Protein Structure Prediction,
com o objetivo de avaliar o estado da arte da
7.5. Modelagem comparativa capacidade de predição de diferentes meto-
dologias desenvolvidas.
7.6. Predição de enovelamento A predição de estruturas tridimensionais
de proteínas se caracteriza por possuir apli-
7.7. Métodos de novo cações práticas de grande impacto terapêuti-
co e biotecnológico. Está diretamente
7.8. Primeiros princípios relacionada a múltiplas áreas da bioinformá-
tica e modelagem molecular, tais como o
7.9. Escolhendo o modelo atracamento proteína-ligante (ver capítulo 9),
aplicado ao desenho racional de fármacos
7.10. Análise da qualidade baseado em estruturas, o desenho de novas
proteínas com funções específicas (nanotec-
7.11. Refinamento do modelo nologia e engenharia de proteínas) e a própria
elucidação de estruturas a partir de dados
7.12. Aplicações de modelos experimentais, por exemplo, de ressonância
magnética nuclear (RMN). Avanços teóricos e
7.13. Conceitos-chave metodológicos implicariam em impactos di-
retos na saúde e no bem estar da sociedade.
No entanto, apesar dos avanços realizados
nos últimos anos, o desenvolvimento de me-
7.1. Introdução todologias capazes de alcançar um elevado
grau de previsibilidade e acurácia continua
O rápido avanço na computação científi- sendo um importante desafio.
ca verificado na última década, principalmen-
te quanto ao aumento da capacidade de 7.2. Estrutura 3D de proteínas
processamento dos computadores a custos
relativamente baixos, tem permitido que clas- Proteínas
ses importantes de problemas científicos na
área da bioinformática, no estudo de biomolé- A função de uma proteína está intima-
mente associada à sua estrutura tridimensio- cristalografia por difração de raios-X é com-
nal. Essa é a afirmativa fundamental que ins- posto basicamente pela produção e purifica-
pira todas as buscas por um método que seja ção da proteína alvo, cristalização, coleta e
capaz de prever a estrutura nativa de uma processamento dos dados, resolução da es-
proteína a partir da sua sequência de aminoá- trutura (empregando informações sobre a
cidos. Tal método poderia ajudar na compre- sequência de aminoácidos e diferentes pro-
ensão e no melhor aproveitamento do gramas) e refinamento da estrutura.
potencial contido na grande quantidade de in- A técnica de RMN também requer o co-
formação biológica, na forma de sequências, nhecimento da sequência de aminoácidos.
que vem sendo gerada graças ao sucesso dos Contudo, não é necessário que a proteína es-
projetos genoma. teja em um estado de cristal ordenado. A
“As informações sobre a estrutura de vantagem da RMN é que a estrutura a ser de-
uma proteína estão armazenadas em uma se- terminada pode estar em solução, apesar de
quência codificada nos genes de um organis- requerer que a proteína solubilizada esteja em
mo”. Assim diz um dos principais paradigmas altas concentrações. Infelizmente, esta técni-
da biologia, postulado por Anfinsen em 1973. ca ainda está limitada a proteínas de tama-
A sequência é traduzida através de um com- nhos pequenos a médios, limitação não
plexo aparato celular em uma estrutura tridi- observada para a cristalografia. Mesmo as-
mensional funcional. Entender todos os sim, a RMN destaca-se ao revelar informa-
mecanismos e forças por traz desse proces- ções sobre o comportamento dinâmico das
so seria um enorme avanço científico que in- estruturas, incluindo mudanças conformacio-
fluenciaria praticamente todas as áreas das nais e interações com outras moléculas.
ciências da vida. Esse produto funcional da Na RMN, um forte campo magnético alinha os mo-
tradução, chamado de estrutura nativa, é mentos magnéticos dos núcleos atômicos de isótopos
uma macromolécula estável, em condições que possuem spin nuclear diferente de zero (tais como
fisiológicas, formada por ligações peptídicas 1
H, 13C, 15N, 9F e 31P). Uma fonte de radiofrequência de
entre os aminoácidos. energia variável é emitida, podendo ser absorvida pelos
Apesar de estável, a estrutura nativa núcleos atômicos invertendo o alinhamento do spin
está longe de ser uma molécula estática. Tra- nuclear em relação ao campo magnético externo apli-
ta-se de uma estrutura flexível, com movi- cado. Neste momento, parte da energia é absorvida e o
mentos específicos, muitos dos quais são espectro de absorção resultante fornece a informação
diretamente responsáveis pela função da pro- sobre a identidade do núcleo e seu ambiente químico
teína. Por esse motivo, consideramos o “esta- na vizinhança. Dados de sucessivos experimentos são
do nativo” de uma proteína não como uma coletados e um espectro de RMN é gerado contendo as
estrutura estática, mas como um conjunto de informações sobre todos os deslocamentos químicos
conformações (também chamadas de confi- de todos os isótopos analisados na proteína.
gurações) de baixa energia livre e biologica-
mente relevantes que a cadeia assume 7.3. Enovelamento de proteínas
regularmente no meio no qual exerce suas
funções. O enovelamento de proteínas é objeto
de grande interesse de diversas áreas do co-
Determinação experimental nhecimento, como mencionado acima. Dada a
presença marcante das proteínas em inúme-
As principais técnicas para a determina- ros processos biológicos, é surpreendente
ção experimental da estrutura tridimensional que ainda hoje se saiba tão pouco de como o
de macromoléculas biológicas serão apre- enovelamento ocorre, permitindo que as pro-
sentadas nos capítulos 12 e 13. Brevemente, o teínas adotem sua estrutura nativa. Estudos
processo para a obtenção da estrutura tridi- sobre o enovelamento de proteínas tratam do
mensional de uma proteína via técnica de processo pelo qual a cadeia peptídica sinteti-
zada adota a sua estrutura tridimensional nada. Isso confirmou a observação de que para
tiva. Eles diferem dos estudos de predição de que uma proteína exerça a sua função, ela
estrutura de proteínas (PSP – Protein deve estar em sua conformação nativa.
Structure Prediction) por estarem mais inte- Anfinsen fez então a observação crítica
ressados no "como" e não no produto final do de que a ribonuclease desnaturada, uma vez
processo de enovelamento. Mas é justamente livre da ureia e do β-mercaptoetanol, por diá-
este “como" que nos permite conhecer mais lise, recuperava lentamente a atividade enzi-
detalhes sobre o enovelamento e, a partir mática. Ele imediatamente percebeu o
destas informações, desenvolver novos mé- significado deste achado: os resíduos de cis-
todos de predição de estruturas. De fato, a teína da cadeia eram oxidados pelo ar e a en-
maioria dos métodos de predição é inspirada zima espontaneamente se enovelava para a
em um ou mais aspectos das teorias de eno- forma cataliticamente ativa. As experiências
velamento. de Anfinsen e seus colaboradores mostraram
que a informação necessária para especificar
O postulado de Anfinsen e a hipó- a complexa estrutura tridimensional da ribo-
tese termodinâmica nuclease estava contida em sua sequência de
aminoácidos. Estudos posteriores estabele-
O trabalho laureado de Christian Anfin- ceram a generalidade desse importante prin-
sen sobre a enzima ribonuclease demonstrou cípio da biologia molecular: a sequência é um
a relação entre a sequência de aminoácidos importante determinante da conformação
de uma proteína e sua conformação. A ribo- proteica.
nuclease é uma proteína constituída de 124 Em resumo, o postulado de Anfinsen,
aminoácidos cuja atividade catalítica é a cliva- também conhecido como a hipótese termodi-
gem de moléculas de RNA. Ela possui em sua nâmica, afirma que, pelo menos para peque-
estrutura nativa quatro pontes dissulfeto. nas proteínas globulares, a estrutura nativa é
Sendo estas ligações oriundas da oxidação de determinada unicamente pela sequência de
resíduos de cisteína espacialmente próximos, aminoácidos. Isso equivale a dizer que, nas
podem ser clivadas reversivelmente por um condições do ambiente (isto é, temperatura,
agente redutor. pressão e constituição do solvente) em que o
Anfinsen e seus colaboradores, usaram enovelamento ocorre, a estrutura nativa pos-
o reagente denominado β-mercaptoetanol sui três propriedades:
(que forma dissulfetos mistos cistina-β-mer- i) A estrutura deve ser única, isto é,
captoetanol). Em grandes quantidades, este uma dada sequência não deve possuir
reagente provoca a redução completa de to- outras conformações com energia livre
dos os resíduos de cisteína. Contudo, eles no- comparável com a do estado nativo;
taram que a proteína não podia ser ii) A estrutura deve ser estável, isto é,
prontamente reduzida a menos que estivesse pequenas mudanças no ambiente ao seu
parcialmente desenovelada por agentes tais redor não devem causar mudanças no
como ureia e cloridrato de guanidina. Embora enovelamento. Isso leva à imagem de
o mecanismo não seja completamente com- que, pelo menos perto do mínimo glo-
preendido, esses agentes perturbam as inte- bal, o enovelamento de proteínas segue
rações não covalentes que estabilizam a um formato de funil, que implicaria na
estrutura da proteína, provocando o seu de- estabilidade do estado nativo;
senovelamento. iii) A estrutura deve ser cineticamente
Quando uma solução da proteína ribo- acessível, isto é, o processo pelo qual a
nuclease foi incubada com ureia a 8 M e β- forma nativa de uma dada proteína seja
mercaptoetanol, observou-se que ela perdia atingida deve ocorrer em um tempo
totalmente a sua atividade catalítica. Em ou- compatível com fenômenos biológicos.
tras palavras, a ribonuclease era desnatura- Proteínas de um único domínio se eno-
velam em uma escala de tempo da or- em geral, a conformação com o maior núme-
dem de microssegundo até segundos. ro dessas interações fracas é a configuração
Para satisfazer esses critérios, durante de menor energia livre.
o enovelamento, a estrutura não deve Por conseguinte, a estabilidade de uma
sofrer mudanças muito bruscas na sua proteína não é proveniente da simples soma
conformação, isto é, movimentos que das energias de suas interações não covalen-
implicam em barreiras energéticas mui- tes. Em solução, cada grupo formador de li-
to grandes. gações de hidrogênio na cadeia peptídica
estava interagindo com moléculas de água
Sequências muito diferentes podem adotar estrutu- antes da estrutura se enovelar. Então, para
ras muito parecidas. Ainda, o enovelamento é frequen- cada nova ligação de hidrogênio intramolecu-
temente influenciado ou mesmo totalmente lar formada quando a estrutura se enovela,
dependente de modificações co- ou pós-traducionais, uma ligação equivalente com o solvente é
além do ambiente molecular de destino e da participa- desfeita. Na prática, um dos principais fatores
ção de chaperonas. Ainda, observou-se que o enovela- que impulsionam o enovelamento de uma
mento de proteínas em células nem sempre termina proteína é o chamado efeito hidrofóbico. Re-
na forma nativa, o que levou ao surgimento, durante a sumidamente, o efeito hidrofóbico pode ser
evolução, de mecanismos de controle de qualidade do entendido como a tendência de resíduos de
enovelamento proteico. aminoácidos hidrofóbicos se agruparem no
interior da proteína (que se torna portanto
Origem da estabilidade estrutural apolar) e dos resíduos hidrofílicos se exporem
na superfície da mesma (que se torna por-
Podemos dizer que as proteínas são es- tanto polar).
tabilizadas pela combinação de interações Em soluções aquosas existe uma rede de ligações
não covalentes oriundas da interação entre de hidrogênio entre as moléculas de água. Moléculas
diferentes regiões da cadeia. Nesse contexto, do soluto tendem a romper ou atrapalhar a formação
estabilidade se refere à tendência em manter dessa rede. Esse efeito é mais pronunciado ao redor de
uma conformação nativa. Uma cadeia poli- moléculas hidrofóbicas, onde é formada a camada de
peptídica, em teoria, pode assumir um núme- solvatação (região onde as moléculas de água estão
ro muito grande de configurações e, por isso, altamente organizadas em um padrão ótimo de for-
o estado desenovelado (também chamado de mação de ligações de hidrogênio). O aumento da orde-
desnaturado) é caracterizado por uma alta nação das moléculas de água na camada de
entropia conformacional. Essa entropia, jun- solvatação, ao redor de solutos hidrofóbicos (não-po-
tamente com as interações (por ligações de lares) resulta em uma diminuição desfavorável da en-
hidrogênio) com o solvente, leva à estabiliza- tropia do solvente. Quando moléculas (ou partes de
ção do estado desenovelado. moléculas) não polares são agrupadas, o tamanho da
As interações que contribuem para neu- camada de solvatação é menor, uma vez que nem to-
tralizar esses efeitos e estabilizar o estado das estão expondo toda a sua superfície molecular ao
nativo são, além das pontes dissulfeto, inte- solvente (menor superfície acessível ao solvente). O
rações como ligações de hidrogênio intramo- resultado disso é um aumento favorável na entropia.
leculares e interações de van der Waals. Note Consequentemente, aminoácidos hidrofóbicos tendem
que, para se quebrar uma ligação covalente, é a se agrupar no interior de uma proteína, mantendo-se
necessário muito mais energia do que para se afastados da água.
romper interações não covalentes (aproxima- A maior parte da variação da energia li-
damente 100 vezes mais). E, embora mais vre que ocorre quando as interações intra-
fracas, essas interações são muito mais nu- moleculares são formadas é devido ao
merosas do que o principal tipo de ligação co- aumento da entropia na solução aquosa re-
valente (pontes dissulfeto) que, em algumas sultante da formação do núcleo hidrofóbico.
proteínas, estabiliza a estrutura 3ária. Assim, Isso supera a grande perda em entropia con-
formacional decorrente do processo de eno- Entretanto, o tempo de enovelamento de

velamento da proteína em sua estrutura nati- uma proteína está na escala de microssegun-
va (Figura 1-7). dos e, portanto, o processo de enovelamento
não pode ocorrer através de uma busca alea-
tória por todas as conformações possíveis.
De fato, o que ocorre é a retenção de estru-
turas que são energeticamente mais estáveis,
isto é, a cadeia peptídica percorre um caminho
de enovelamento.
Percebe-se, através do paradoxo de
Levinthal, porque determinar a estrutura 3D
nativa a partir da sequência de aminoácidos
permanece como um dos maiores problemas
da ciência moderna, tratando-se de uma
questão profundamente multidisciplinar e
abrangendo diversas áreas da ciência como
Figura 1-7: A energia livre do enovelamento é engenharias, biologia, física, química e com-
resultado de um balanço delicado de forças. putação científica.
As interações intramoleculares (∆H) e a Os primeiros métodos desenvolvidos
entropia do solvente (efeito hidrofóbico, T∆S) para a predição da estrutura de proteínas
são favoráveis ao enovelamento, enquanto a eram organizados segundo 3 grupos princi-
entropia conformacional (T∆S) é pais: métodos de modelagem comparativa, de
desfavorável. predição de enovelamento (ou threading) e
predição por primeiros princípios (ou ab
7.4. Predição da estrutura initio). Essas categorias diferem quanto ao
uso das informações disponíveis nos bancos
A determinação experimental ainda é de dados de estruturas tridimensionais de
considerada o melhor processo para se obter proteínas resolvidas experimentalmente. A
a estrutura tridimensional de uma proteína. modelagem comparativa é a metodologia
Entretanto estas técnicas, além de serem fi- mais dependente dessas informações, sendo
nanceiramente custosas, podem levar anos e, a ab initio totalmente independente (Figura 2-
em alguns casos, a estrutura final pode não 7).
chegar a ser obtida. Portanto, o desenvolvi-
mento de métodos computacionais é tanto
uma alternativa mais barata quanto, em al-
guns casos, a única possibilidade de obtenção
de modelos estruturais para algumas proteí-
nas.
A complexidade do estudo das confor-
mações adotadas por uma proteína durante o
seu enovelamento até a conformação nativa Figura 2-7: Relação entre métodos de
pode ser ilustrada no chamado de paradoxo predição de estrutura tridimensional de
de Levinthal. Esse paradoxo diz que o número proteínas e o uso de estruturas resolvidas
de possíveis conformações para uma dada experimentalmente. Cada técnica é aplicável
sequência de aminoácidos é astronômico exi- a partir de um certo grau de similaridade, o
gindo, mesmo considerando os computado- qual é medido pela taxa de identidade entre
res mais poderosos disponíveis, um tempo os aminoácidos da sequência alvo e
comparável à idade do universo para o cálcu- sequências de estruturas conhecidas (a
lo da energia de todas estas conformações. serem usadas como moldes).
Com os recentes avanços na área, con- dade introduzida, que torna o problema muito difícil de
tudo, pode-se notar que a separação entre ser tratado com a capacidade computacional disponí-
entes métodos é cada vez mais tênue. Além vel atualmente. Por razões práticas, a maioria dos mé-
disso, uma rápida consulta aos últimos CASP todos de predição faz uso de representações
mostra que muitos dos métodos podem ser simplificadas da proteína, assim limitando o número de
incluídos em mais de uma categoria. Por conformações a serem avaliadas (o chamado espaço
exemplo, a separação entre predição do eno- conformacional), e adotam funções de energia empíri-
velamento e modelagem comparativa é cada cas (ou semi-empíricas) ou baseadas em conhecimento
vez mais difícil, e o uso de algum tipo de in- (knowledge-based) que capturam as forças mais im-
formação estrutural/experimental é ampla- portantes que impulsionam e estabilizam o enovela-
mente observado, mesmo em metodologias mento.
ditas de primeiros princípios. Assim, hoje se As conformações que estão associadas
usa uma classificação mais ampla que é útil ao mínimo global da função de energia são
quando se deseja avaliar e comparar os mé- consideradas as prováveis conformações na-
todos objetivamente: tivas que a proteína adota em condições fisi-
i) Métodos independentes de estruturas ológicas. Dessa forma, os métodos de
molde (também chamados de métodos predição de estrutura de proteínas apresen-
template free). Incluem a predição ab tam, nas suas metodologias, as seguintes ca-
initio e a predição de novo; racterísticas em comum:
ii) Métodos baseados em estruturas i) Uma representação da estrutura da
molde (também chamados de template proteína e um conjunto de graus de li-
based). Incluem threading e modelagem berdade que define o espaço de confor-
comparativa. mações;
ii) Funções de energia compatíveis com
Com esta nova classificação, os méto- a representação;
dos ditos de novo são aqueles que utilizam al- iii) Algoritmos para realizar a busca no
gum tipo de informação estrutural, tais como espaço de conformações.
fragmentos de proteínas, predição de estru-
tura 2ária e potenciais estatísticos, oriundas de Representação da estrutura e do
proteínas não homólogas à sequência alvo. espaço de conformações
O que vai ditar a escolha do método a
ser aplicado é a presença ou não de estrutu- A representação tridimensional de uma
ras resolvidas experimentalmente, e deposi- molécula pode ser dada pela posição geomé-
tadas em bancos de estruturas como o PDB trica de seus átomos em um sistema de co-
(Protein Data Bank), que possam ser usadas ordenadas cartesianas (x, y, z) ou pelas
como molde (ou template) para a modelagem chamadas coordenadas internas (Figura 4-7).
da sequência alvo. A escolha do método está Nesta última, para cada átomo são fornecidas
intrinsecamente relacionada com a taxa de informações relativas ao comprimento de li-
identidade obtida a partir do alinhamento en- gação, ângulo de ligação e ângulo de torção
tre a sequência alvo e possíveis candidatos a (ou ângulo diedral).
molde (Figura 3-7). A representação computacional de uma
O enovelamento da proteína pode ser visto, em últi- proteína pode ser feita baseada em todos os
ma instância, como resultado das forças físicas atuan- seus átomos (modelos all-atom), em “áto-
do sobre os átomos da proteína. Sendo assim, a mos unidos” (alguns átomos de hidrogênio
formulação mais acurada para se estudar o enovela- são considerados implicitamente), e em
mento ou predizer a estrutura de proteína é baseada agrupamentos de átomos (ou coarse-grained)
em representações com todos os átomos explícitos (ver capítulo 8). Independentemente da es-
(também chamados de all-atom, ver capítulo 8). O tratégia, as formas de definição são equiva-
problema de tal representação é o nível de complexi- lentes.
Figura 3-7: Fluxograma para a predição da estrutura tridimensional de uma proteína. O valor de
25% é apenas uma referência e depende de outros fatores, tais como a cobertura com a
sequência alvo.
Figura 4-7: Exemplo de representações de uma molécula de etano. Em ambos os sistemas, cada
linha representa um átomo. Em A, temos ainda a definição do número de átomos (NATM), do
tipo do átomo (ATM), do nome do resíduo (RES), do rótulo da cadeia (CAD), do número do
resíduo (NRES) e das coordenadas em si (COORDX, COORDY, COORDZ). Para definição das
propriedades descritas em OCUP e BETA, ver capítulo 13. Em B, temos definido o elemento
químico (ATM), o comprimento da ligação (BOND), o número do átomo com o qual há a ligação
(REF1, por exemplo, o átomo 7 está ligado ao átomo 1, distando deste 1,0 Å), o valor do ângulo
de ligação (ANG), o número do átomo com o qual há a formação do ângulo (REF2, por exemplo,
o átomo 8 está ligado ao 2 e faz um ângulo de 109,5o com o átomo 1), o valor do ângulo de
diedro (TORC) e, por fim, o número do átomo com o qual está definida a torção.
Outro aspecto a ser definido nessa eta- para construir uma estrutura muito próxima à
pa são os graus de liberdade que irão definir o estrutura nativa de proteínas, de forma muito
espaço de conformações, isto é, de que for- mais simples do que lidar com o sistema de
ma será definida a flexibilidade estrutural que coordenadas cartesianas.
irá permitir construir diversas estruturas pa-
ra as sequências alvo. Tipicamente, os méto-
dos de PSP adotam geometrias de ligação
rígidas, isto é, o comprimento das ligações é
fixo em um valor de referência, assim como
os ângulos entre as ligações.
Usando uma representação em coorde-
nadas internas, os graus de liberdade para
modificação da estrutura são os ângulos de
torção, mais especificamente os ângulos die-
drais do esqueleto peptídico: φ, ψ e ω (Figura
5-7, ver também capítulo 2) além dos ângulos Figura 5-7: Ângulos de torção (diedrais) da
diedrais das cadeias laterais: χ1 até χ4 (Figura cadeia principal da proteína.
6-7). A definição desses ângulos é suficiente
energético, consideramos a estrutura nativa

de uma proteína como sendo a estrutura de
menor energia total. Idealmente, a função
aplicada deve ser capaz de separar estruturas
nativas de não nativas e, além disso, de avali-
ar o quanto uma estrutura está mais próxima
da nativa em relação à outra através da com-
paração das energias. Tendo em vista esse
quadro ideal, a definição da função de energia
é um dos aspectos mais difíceis em PSP.
Frequentemente, deve-se decidir entre aumentar a
complexidade da função de energia (o que nem sempre
garante aumento de precisão) ou usar um modelo mais
simplificado para manter um custo computacional que
torne o cálculo exequível dentro da infraestrutura
computacional disponível. O uso de funções com po-
Figura 6-7: Ângulos de torção (diedrais) da tenciais estatísticos parametrizados por estruturas co-
cadeia lateral do aminoácido lisina. Até nhecidas é uma tentativa de sanar essas dificuldades.
quatro ângulos de torção definem a No entanto, isso acaba introduzindo outros problemas,
conformação da cadeia lateral de qualquer como a alta dependência da parametrização e até
aminoácido. mesmo a perda de generalidade na aplicação, ou seja,
um potencial parametrizado para uma classe de pro-
Funções de energia teínas irá apresentar resultados imprecisos quando
aplicado a outra classe.
As conformações geradas pelo algorit-
mo de predição de estrutura 3D de proteínas Algoritmos de busca
devem ser avaliadas seguindo um critério de
qualidade. Geralmente, esse critério é dado O algoritmo de busca é o componente
pela energia total da estrutura. Essa energia responsável por gerar a conformação inicial,
pode ser calculada considerando diversos as- avaliar sua qualidade usando a função de
pectos físico-químicos e diferentes níveis de energia, gerar novas conformações e avaliá-
simplificações. Os parâmetros desta função las em um processo iterativo até que algum
são usualmente retirados de campos de força critério de parada esteja satisfeito. O proble-
clássicos (ver capítulo 8) e, de maneira geral, ma de predição de estrutura de proteínas é,
é uma função dependente da posição dos geralmente, definido como um problema de
átomos (ou grupos de átomos) em relação minimização. Assim, a busca é feita pela con-
aos seus vizinhos. Nestas funções, a energia formação que minimize a função de energia, a
total é determinada pela posição dos átomos, qual se espera que seja a conformação nativa.
e é dada pela combinação das energias O problema de otimização possui algumas carac-
fornecidas pelos potenciais diedral próprio, terísticas que o tornam extremamente complexo. Por
Lennard-Jones e Coulomb (ver capítulo 8). exemplo, a função de energia apresenta uma multimo-
Algumas abordagens usam funções de energia po- dalidade massiva (ou seja, possuem um número muito
tencial ad hoc, que refletem características gerais das grande de mínimos locais), degenerescência de míni-
proteínas, e potenciais estatísticos parametrizados a mos e grandes regiões de conformações inválidas.
partir de bancos de dados de estruturas conhecidas. Além disso, o problema está associado a um número
Alguns métodos lançam uso de funções efetivas de muito grande de graus de liberdade com grande inter-
solvatação que modelam as interações entre a proteína dependência.
e o solvente (implícito). As abordagens empregadas na resolução desse
De maneira geral, do ponto de vista problema frequentemente fazem uso de métodos de-
nominados metaheuristicos (Figura 7-7). Estes méto- teína similar tem de possuir estrutura 3D re-
dos constituem-se em técnicas iterativas de otimização solvida experimentalmente, e as coordenadas
nas quais uma solução candidata vai sendo melhorada cartesianas de seus átomos devem estar de-
seguindo uma medida de qualidade. Esses métodos positadas em banco de dados de estruturas
não fazem uso de informações sobre a função de ava- como o PDB.
liação ou mesmo sobre o problema, no entanto não há A modelagem comparativa é o método
garantias de se encontrar a solução ótima. Os métodos empregado mais frequentemente, e seu limite
metaheurísticos mais comuns incluem aqueles deno- de predição está intrinsecamente relacionado
minados Monte Carlo e Algoritmos Genéticos. No en- com o grau de similaridade entre as estrutu-
tanto, alguns métodos usam metaheurísticas ras alvo e molde. Geralmente, consideram-se
combinadas a métodos determinísticos baseados no como limites mínimos de aplicabilidade do
gradiente da função, tais como o método do máximo método valores de 25 a 30% de identidade,
declive (steepest descent). Esses últimos são geral- obtidos através do alinhamento entre a es-
mente aplicados em etapas de refinamento e apenas trutura 1ária da proteína alvo e de uma ou mais
com funções de energia deriváveis. proteínas molde. A modelagem comparativa
pode ser dividida em cinco etapas descritas a
seguir e resumidas na Figura 8-7.
Identificação de referências
Tem por objetivo identificar sequências
de aminoácidos de proteínas resolvidas expe-
rimentalmente que possuam similaridade
com a sequência da proteína de interesse (se-
quência alvo), cujas estruturas serão empre-
gadas posteriormente como moldes. Essa
identificação pode ser feita através de algo-
ritmos de alinhamento, sendo selecionadas
como referências as proteínas que possuírem
os maiores índices de similaridade e identida-
Figura 7-7: Esquema de uma busca usando de (suficientes para se inferir homologia entre
metaheurística para predição de estrutura de as sequências), menores índices de gaps e a
proteína. A estrutura inicial é modificada a maior cobertura da sequência (relação entre a
cada passo e vai sendo avaliada segundo um quantidade de aminoácidos alinhados entre as
critério energético até que se obtenha uma duas sequências e o tamanho total da se-
estrutura de mínimo. Idealmente, deseja-se quência alvo).
uma estrutura de mínimo global (área em
verde) e não uma de mínimo local (área em Seleção dos moldes
vermelho).
Dentre as referências, é necessário es-
7.5. Modelagem comparativa colher uma ou mais estruturas que servirão
de molde para a construção do modelo 3D fi-
No método de modelagem comparativa, nal. Nesta etapa, é imprescindível a análise do
também chamada de modelagem por homo- papel biológico da proteína de interesse. Os
logia, a proteína de interesse (alvo) terá sua critérios de seleção podem incluir:
estrutura 3D predita usando como referência i) a proteína de interesse e o possível
a estrutura 3D de outra proteína similar molde pertencem a uma mesma família
(também chamada de molde, e na maioria das de proteínas;
vezes evolutivamente relacionada). Essa pro- ii) ambas desempenham preferencial-
Figura 8-7: Etapas de predição de estrutura tridimensional de proteínas usando o método de

Modelagem Comparativa.
mente a mesma função ou tenham fun- estruturas molde;

ções correlacionadas; iv) o tipo de estrutura 2ária predita in silico por mais
iii) as estruturas resolvidas experimen- de uma ferramenta (tais como PSIPRED, PHYRE, JUFO e
talmente possuam alta qualidade (por PORTER), usando as regiões de consenso entre elas
exemplo, resolução ≤ 2 Å, fator R < como informação de restrição de tipo de estrutura 2ária
20%); durante a etapa de construção do modelo.
iv) em tratando-se de uma enzima, é re-
comendado o uso de um molde cuja es- Alternativamente, métodos híbridos po-
trutura já tenha sido resolvida dem ser aplicados para a predição de porções
experimentalmente com seu substrato, sem alinhamento. Para essas regiões, apli-
ligante ou modulador. cam-se os métodos de predição de enovela-
mento ou primeiros princípios e usa-se a
Na escolha de mais de uma estrutura melhor estrutura predita como mais um mol-
molde, é importante realizar o alinhamento de para o método de modelagem comparati-
estrutural entre estas de forma a identificar va.
regiões conservadas, sítios de ligação, águas
estruturais e ligações dissulfeto conservadas. Construção do modelo
Alinhamento entre as sequências A partir do alinhamento global entre as
sequências alvo e molde, algoritmos específi-
Uma vez escolhida(s) a(s) estrutura(s) cos para PSP via modelagem comparativa
molde, é necessário realizar alinhamento en- irão transferir as informações extraídas da
tre as sequências alvo e molde de forma a estrutura 3D da proteína molde para o mode-
garantir que toda a proteína de interesse seja lo. As técnicas mais aplicadas são as de
modelada (agora empregando programas construção usando corpos rígidos e por sa-
como Clustal, T-Coffee e Muscle). Um alinha- tisfação de restrições espaciais.
mento com mais de 40% de identidade é o A técnica de construção usando corpos rígidos
suficiente para gerar um modelo confiável. constrói um modelo por partes, baseando-se na con-
Entretanto, é importante lembrar que o mo- servação de estruturas entre proteínas homólogas ou
delo final será uma representação desse ali- com grau significativo de identidade. As regiões estru-
nhamento gerado. Portanto, regiões sem turalmente conservadas da proteína de interesse são
alinhamento significativo com o molde são definidas através de predição de estruturas 2árias. Es-
preditas tridimensionalmente (quando predi- sas regiões são alinhadas com o molde, considerando-
tas) sem grande confiabilidade, usando geral- se a média das posições dos Cα das sequências de ami-
mente dados estatísticos gerais sobre noácidos das regiões estruturalmente conservadas.
estruturas de proteínas. As regiões que não satisfazem as exigências são
Para as regiões sem alinhamento, deve-se conside- chamadas de regiões variáveis. Essas compreendem,
rar: geralmente, porções de alças que conectam as regiões
i) a posição dessa região na sequência de ami- conservadas. A cadeia principal dessas regiões pode
noácidos, verificando-se possíveis sítios de cliva- ser obtida em bancos de dados específicos de estrutu-
gem (principalmente em porções N- e ras, que apresentam conjuntos de alças classificados
C-terminal); pelo número de aminoácidos e pelo tipo de estruturas
ii) o tamanho dessa porção, considerando-se a 2árias que conectam.
possibilidade de formação de um novo domínio Após a inserção das regiões de alças, um modelo
até então não identificado nessa família; inicial do esqueleto peptídico estará pronto, restando
iii) se são porções transmembranares, sejam apenas a inserção das cadeias laterais dos aminoácidos
preditas in silico (por exemplo, através das fer- através de busca em bibliotecas de rotâmeros. Como
ramentas TMHMM, HMMTOP, TMPred) ou já des- exemplo de programa baseado nesta técnica, pode-se
critas em literatura porém ausentes nas mencionar o portal Swiss-Model.
A segunda técnica mais comum, a construção por modelo adequado.

satisfação de restrições espaciais, inicia-se pelo alinha-
mento entre as sequências alvo e molde, extraindo-se Nesses casos, como citado anterior-
desse molde suas restrições espaciais (distâncias e ân- mente, o uso adicional de informações, como
gulos) e transferindo-as para o modelo. Por exemplo, o a identificação de regiões transmembranares,
tamanho das ligações e seus ângulos preferenciais são a predição de regiões de peptídeo sinal, a
obtidos de campos de força. Dessa forma, é possível predição de tipo de estrutura 2ária, a predição
limitar o número de possíveis conformações que o do tipo de enovelamento e a verificação da
modelo pode assumir. existência de dados teóricos e experimentais
A principal característica dessa técnica é a obten- quanto à existência, quantidade e localização
ção empírica das restrições espaciais, expressas por de porções transmembranares, ligantes e
funções de probabilidade, a partir de bancos de dados número e tipo de cadeias podem contribuir
contendo informações sobre alinhamentos entre es- tanto na construção de modelos tridimensio-
truturas proteicas de alta resolução. As restrições es- nais como na anotação funcional de sequên-
paciais e os termos de energia são combinados em cias.
uma função objetivo, sendo submetida a métodos de No caso de análises em larga escala de conjuntos
otimização por gradiente conjugado e recozimento si- de proteínas, e até mesmo de genomas inteiros, todo
mulado, visando a minimização das violações das res- esse processo deve ser realizado para cada proteína de
trições espaciais. Como exemplo de emprego desta interesse. Considerando o tempo gasto em cada uma
técnica, pode-se citar o programa Modeller. dessas etapas, é interessante o uso de métodos auto-
matizados que podem ser empregados como um filtro
Validação do modelo inicial para a detecção de quais proteínas podem ser
modeladas por modelagem comparativa e para a ob-
Após a construção do modelo, é neces- tenção de um modelo inicial para cada uma dessas
sário identificar possíveis erros relacionados proteínas, a ser otimizado individualmente. Como
aos métodos empregados, à escolha das re- exemplo de programa usado para a análise em larga
ferências e ao alinhamento entre as sequên- escala de sequências de proteínas, citamos o progra-
cias alvo e molde. Caso o modelo seja ma MHOLline.
caracterizado como de má qualidade, todo o
protocolo anterior deve ser revisto no intuito 7.6. Predição do enovelamento
de se melhorar o alinhamento, escolher ou-
tros moldes ou até mesmo decidir-se pelo O método de predição do enovelamento
uso de outros métodos. Os principais méto- ou threading parte da ideia de observações de
dos de validação de um modelo serão descri- que a estrutura 3D é mais conservada que a
tos adiante (item 7.10). sequência, de forma que mesmo sequências
Por ser dependente de uma estrutura com pouca similaridade podem possuir es-
3D resolvida experimentalmente, a técnica de truturas muito semelhantes, o que limita o
modelagem comparativa possui certas limi- número de enovelamentos que proteínas po-
tações, tais como: dem assumir. Atualmente, mais de 1.000 ti-
i) nem sempre se consegue uma estru- pos de enovelamento já foram registrados, e
tura molde para a proteína de interesse; acredita-se que esse valor não ultrapasse a
ii) o grau de similaridade conseguido previsão máxima de 7.000 tipos.
entre as sequências alvo e molde pode Nesse método, também são usadas
ser pequeno (<30% de identidade), proteínas com estruturas 3D conhecidas e
mesmo em regiões do sítio ativo, invia- depositadas no PDB, de onde as informações
bilizando o emprego desta técnica; sobre os tipos de enovelamento são extraídas
iii) por vezes, as sequências que podem e armazenadas em bancos de dados de tipos
servir como moldes possuem qualidade de enovelamentos. Como exemplo, citamos o
insuficiente para a construção de um CATH (Class, Architecture, Topology,
Homology) e o SCOP (Structural Classification deller. Alguns programas empregam, para as

of Proteins). regiões sem molde, métodos por primeiros prin-
O método de predição do enovelamento cípios. Como exemplo de programas para PSP
é assim menos dependente da proximidade via predição do enovelamento pode-se citar os
evolutiva entre a sequência de aminoácidos da programas HH-Pred e I-TASSER.
proteína de interesse e seus possíveis moldes,
ou seja, as sequências podem apresentar bai- As limitações dos métodos de predição
xa identidade. O método é portanto aplicável do enovelamento vêm de dois pontos princi-
quando o alinhamento entre a estrutura 1ária pais. O primeiro é similar ao observado para a
da proteína de interesse e de uma ou mais modelagem comparativa, isto é, se a identi-
proteínas de referência (moldes) apresentam dade entre a sequência alvo e as proteínas
uma identidade entre 20% e 30%. utilizadas na construção do banco de enove-
No problema de PSP via predição do enovelamento lamentos for muito baixa, é possível que o
tenta-se ajustar a estrutura 1ária da proteína de interes- enovelamento daquela sequência simples-
se aos tipos de enovelamentos de proteínas conheci- mente não esteja representado no banco. As-
dos, analisando principalmente as conservações de sim, o método pode construir um modelo
estruturas 2árias. Esse método pode ser dividido nas completamente errado. A outra limitação é
seguintes etapas: que os modelos apresentam uma resolução
i) Reconhecimento do tipo de enovelamento pela relativamente baixa, dificultando seu uso em
análise das principais propriedades da proteína estudos que exigem posicionamento preciso
de interesse (tais como estrutura 2ária, polarida- dos átomos como no caso do atracamento
de de cadeias laterais e hidrofobicidade); (ver capítulo 9).
ii) Construção do melhor alinhamento possível
entre a sequência de aminoácidos da proteína de 7.7. Métodos de novo
interesse e estruturas depositadas em bancos de
dados. Alguns métodos baseiam-se na constru- Embora a modelagem comparativa e a
ção de modelos simplificados (como modelos predição do enovelamento permitam a ob-
baseados em Cα) da proteína de interesse a par- tenção de modelos satisfatórios, tais técnicas
tir da estrutura 3D de possíveis moldes, e avali- são inválidas se proteínas de referência, com
am a qualidade do modelo através da otimização estruturas determinadas experimentalmente,
de funções objetivo (geralmente não-lineares). não se encontrarem disponíveis. De forma a
Essas funções podem considerar, por exemplo, manter a independência de moldes de proteí-
resultados de alinhamentos múltiplos de se- nas homólogas, foram desenvolvidos méto-
quências e de estruturas 2árias, matrizes de dos que usam informações provenientes de
substituição para cada aminoácido dentro de bancos de estruturas de proteínas determi-
uma família específica de proteínas e penalização nadas empiricamente, sem a necessidade de
de gaps; haver identidade com a sequência alvo, resul-
iii) Escolha do(s) melhor(es) molde(s) para a tando na predição chamada de novo. Dentre
construção da estrutura 3D da proteína de inte- as principais técnicas usadas pela predição de
resse, geralmente baseada em funções de pre- novo destacam-se o uso da predição de es-
dição de erro/qualidade entre os possíveis truturas 2árias, uso de fragmentos de proteí-
modelos simplificados e seu(s) molde(s) (por nas, e modificação da função de energia.
exemplo, a função TM-score). A escolha dos
melhores moldes por vezes é baseada em bibli- Predição de estruturas 2árias
otecas de fragmentos;
iv) Construção do modelo 3D através de técnicas A predição de estruturas 2árias envolve o
similares às empregadas na modelagem com- conjunto de técnicas que visam reconhecer as
parativa, por vezes valendo-se de ferramentas categorias de estruturas 2as (tipicamente hé-
acopladas aos programas Swiss-Model ou Mo- lices e folhas) associadas a cada região de
uma proteína a partir apenas de sua sequên-

cia. Por 30 anos, o cenário de técnicas de
predição de estruturas 2árias foi composto por
métodos que se baseavam na propensão de
um resíduo pertencer a uma determinada es-
trutura 2ária. Na década de 1990, uma nova
geração de métodos que considerava os efei-
tos trazidos pelos resíduos adjacentes surgiu,
contemplando os efeitos de interações locais
na predição, o que alçou a precisão das predi-
ções a um patamar acima de 60%.
O crescimento de bancos de dados de
proteínas em combinação a algoritmos mais
sofisticados permitiu a inclusão de informa- Figura 9-7: Retinol Binding Protein com o
ções relacionadas ao enovelamento da pro- retinol no sítio ativo, código PDB: 1RBP.
teína nestas predições, principalmente
aquelas relacionadas aos efeitos de intera- delo da RBP a partir de fragmentos de outras
ções de longo alcance. Esses novos métodos proteínas, sem qualquer grau de similaridade
baseiam-se em alinhamentos múltiplos e sua global, e previu-se que se tratava de uma
consequente informação evolutiva. Em sua proteína organizada em uma série de oito fi-
maioria, esses métodos valem-se do PSI- tas β antiparalelas, constituindo um barril-β
BLAST (ver capítulo 3). Os atuais métodos de que encapsula a molécula de retinol. A facili-
predição de estruturas 2árias possuem de- dade com que uma estrutura, então conside-
sempenho em torno de 80% de precisão, rada incomum, foi prevista usando-se
dentre os quais destacam-se PSIPRED, DSC, estruturas parciais de muitas proteínas dife-
GOR IV, Predator, Prof, PROFphd e SSpro. rentes levou os autores a questionarem se
haveria alguma estrutura de proteína que pu-
Fragmentos de proteínas desse de fato ser considerada única, e a pro-
posta desta técnica de modelagem por meio
A determinação da estrutura da RBP de fragmentos proteicos cujas estruturas ti-
(Retinol Binding Protein) em 1986, em parti- vessem sido determinadas experimental-
cular de seu sítio ativo, se mostrou desafia- mente (ou seja, empiricamente).
dora por sua estrutura não se parecer com A preservação de certo grau de simila-
nenhuma até então conhecida (Figura 9-7). ridade estrutural entre trechos curtos de se-
Diante das dificuldades de se concluir tal tra- quências semelhantes é a chave para a
balho de determinação, os pesquisadores re- predição na ausência de moldes (template-
solveram buscar informações em todo o free) de estruturas de proteínas. Quando não
banco do PDB (na época contava com apenas há qualquer proteína homóloga disponível pa-
213 entradas), procurando por quaisquer es- ra ser usada como molde, é possível usar um
truturas (ou regiões/segmentos destas) se- conjunto de pequenos fragmentos que se
melhantes que pudesse substituir o sítio em correlacione localmente com a estrutura da
estudo. Nessa busca, os autores perceberam proteína alvo (Figura 10-7).
que a segmentação das proteínas em peque- Entretanto, deve-se perceber que por
nos fragmentos resultava em uma surpreen- maior que seja a similaridade entre duas se-
dente redundância estrutural, ou seja, quências de fragmentos, a similaridade es-
pequenos fragmentos com estruturas simila- trutural é apenas parcial. Como cada
res apresentavam similaridade de sequência fragmento, sendo proveniente de uma proteí-
(localmente). na diferente, encontra-se imerso em um am-
Isso permitiu a construção de um mo- biente físico-químico próprio, o conjunto de
interações que agem sobre esses fragmentos O primeiro desafio para a predição de
podem conferir-lhes estruturas diferentes estruturas usando fragmentos é montar uma
(Figura 11-7). biblioteca de fragmentos que reúna as me-
lhores estruturas candidatas a reproduzir a
região da sequência alvo, a partir de um banco
de proteínas determinadas empiricamente.
Como discutido anteriormente, pode-se usar a
similaridade entre as sequências dos frag-
mentos retirados das proteínas do banco e a
região de interesse da proteína alvo. Os pro-
gramas Rosetta e QUARK usam o PSI-BLAST
para reconhecer o quão similares são as se-
Figura 10-7: Fragmentos estruturalmente quências de um fragmento e da respectiva
semelhantes, mas que possuem sequências região da proteína.
de resíduos diferentes. Como exemplo da geração de uma bibli-
oteca de fragmentos podemos citar o pro-
Duas características devem ser levadas grama Protein Fragment Generator -
em consideração para se trabalhar com frag- Profrager. Nele, os fragmentos são extraídos
mentos de proteínas na predição de estrutu- de uma versão do PDB filtrada para eliminar
ras: a primeira é que uma mesma sequência as diversas redundâncias existentes entre as
pode levar a estruturas diferentes, e a segun- estruturas. Cada fragmento é iniciado em um
da é que duas sequências diferentes podem resíduo da proteína e se estende pelo compri-
levar à mesma estrutura. Dessa forma, se faz mento desejado. Uma biblioteca de fragmen-
necessário a construção de uma lista de frag- tos, por exemplo de 6 resíduos, compreende
mentos candidatos a reproduzir uma dada re- os resíduos das posições 1 a 6, 2 a 7, 3 a 8 e
gião da proteína alvo. assim sucessivamente. De posse dos frag-
Figura 11-7: Fragmentos de proteínas com a mesma sequência de resíduos que possuem
estruturas diferentes. Acima, as proteínas de código PDB 1F8E (fragmento destacado entre os
resíduos 243 e 247) e 1BGP (resíduos 63 a 67); abaixo, 1LM5 (2800 a 2804) e 1XS5 (121 a 125).
mentos extraídos do banco, o problema tor- fragmentos conterá os fragmentos que pos-
na-se então escolher os melhores para re- suem as maiores pontuações, logo, os frag-
produzir cada região. mentos mais prováveis para a reprodução da
Na Figura 12-7 está representada uma estrutura local.
biblioteca com fragmentos de 6 resíduos para Se o uso de um fragmento de uma proteína conhe-
uma dada proteína. O primeiro fragmento do cida elimina a necessidade de se modelar a região lo-
banco é alinhado à primeira posição da pro- calmente, o problema torna-se escolher a melhor
teína. Os resíduos do fragmento são compa- estrutura para cada região. De posse de uma biblioteca
rados com as entradas da matriz BLOSUM62. de fragmentos, o trabalho torna-se um problema de
Nesse exemplo, o valor da substituição de otimização, abordado por um algoritmo de busca, onde
uma valina por uma asparagina é -3, e a se procura reconstruir a proteína usando as informa-
substituição de um glutamato por uma lisina é ções trazidas pelos fragmentos, validando-se a estru-
+1. Somando os valores da comparação entre tura gerada usando uma determinada função de
todos os resíduos do fragmento com os da energia.
respectiva região da sequência alvo, temos É importante notar que, embora sejam
uma pontuação total de -8 para esse frag- dependentes de bancos de estruturas, os
mento. O segundo fragmento do banco é to- fragmentos não precisam ser provenientes de
mado, e o processo de comparação proteínas com grau elevado de identidade, o
resíduo-resíduo entre o fragmento e a se- que permite a modelagem de estruturas iné-
quência alvo é repetido. Nesse exemplo, tem- ditas. Modelos obtidos com o uso de frag-
se uma pontuação total de +11 para o segundo mentos demonstram utilidade para
fragmento. O processo ilustrado para a atri- inspirações biológicas e têm obtido sucesso
buição da pontuação é repetido para todos os nas demais áreas da modelagem de proteí-
fragmentos do banco, sempre para uma ja- nas, tais como predição de sítios ativos e
nela de leitura de 6 resíduos. Ou seja, desloca- identificação de padrões de enovelamento,
se um resíduo para a direita e reinicia-se o atracamento proteína-proteína, modelagem
processo, formando uma nova lista de frag- de voltas e até mesmo desenho de novas
mentos para esta nova posição. proteínas.
Uma lista de candidatos a reproduzir a As limitações dos métodos de novo são
sequência alvo é montada de acordo com praticamente as mesmas dos métodos por
uma pontuação. Parte dessa pontuação é o primeiros princípios. Sua aplicação é, em ge-
grau de similaridade entre a sequência do ral, limitada a sequências mais curtas (<150
fragmento e da região correspondente da se- resíduos), e alguns dos métodos podem estar
quência alvo. A outra parte da pontuação é a sujeitos a artefatos se a parametrização das
concordância da estrutura 2ária do fragmento funções estatísticas não for feita com cuida-
com a estrutura 2ária predita pelo PSIPRED do.
para a sequência alvo. Ao final, a biblioteca de
Figura 12-7: Geração de um fragmento de seis resíduos.

Campos de força estatísticos ao tratamento dessas ligações. Já se verificou

que os termos usados em campos de força
Campos de força clássicos (ver capítulo clássicos não são capazes de representar to-
8) são comumente empregados para a re- das as ligações de hidrogênio em suas orien-
presentação de interações intramoleculares tações corretas. Assim, um termo estatístico
da estrutura de proteínas, como ângulos e exclusivo para ligações de hidrogênio se
comprimentos de ligação, ângulos diedrais, mostra fundamental para a predição de novo.
forças de van der Waals e eletrostáticas. En-
tretanto, os métodos de maior sucesso nos
últimos anos para predição da estrutura de
proteínas empregam termos estatísticos de-
rivados de proteínas cujas estruturas já são
conhecidas, seja de forma exclusiva ou com-
binados com termos de campos de força
clássicos. Isso culmina nos chamados campos
de forças estatísticos, cujo desenvolvimento
se tornou amplamente disseminado.
Uma das formas de representar o uni-
verso de conformações que uma determinada
sequência polipeptídica pode adotar é através
de uma superfície, onde cada ponto repre- Figura 13-7: Efeito de suavização da superfície
senta uma dada conformação. Nesta superfí- de energia.
cie, a altura de cada ponto representa a
energia da conformação, de forma que con- Este termo contribui na avaliação da propensão de
formações de menor energia estarão no fun- formação de estruturas 2árias (ver capítulo 2), usando o
do da superfície, e conformações de maior valor da probabilidade de um par de resíduos P(aiaj)
energia em seu topo. possuir uma ligação de hidrogênio. A probabilidade po-
Assim, os termos de campos de força de ser calculada de acordo com a equação abaixo:
estatísticos são derivados usando-se um
conjunto de proteínas teste com a intenção de P(aiaj) = -log[F0(aiaj)/Fe(aiaj)]
suavizar a superfície de energia, garantindo
que a conformação de menor energia (ou mí- onde aiaj é o par de resíduos, F0(aiaj) é a frequência ob-
nimo global) corresponda à conformação na- servada para as ligações de hidrogênio entre os resí-
tiva, e os mínimos locais sejam pouco duos avaliados e Fe(aiaj) é a frequência estimada a
frequentes e com valores de energia distantes partir de um conjunto de estruturas enoveladas incor-
do mínimo global. A configuração ideal de retamente.
uma função de energia faz com que as bar- Um exemplo de aplicação destes termos estatísti-
reiras entre os mínimos sejam menores, per- cos é o programa QUARK, um dos métodos de maior
mitindo ao algoritmo de busca a passagem de sucesso no CASP. É relatado que sua capacidade de re-
um mínimo local a outro, facilitando a busca finar estruturas é devida à parametrização de seu
pelo mínimo global (Figura 13-7). campo de força, puramente estatístico. A correlação
Tomemos como exemplo um dos ter- entre a energia e a similaridade estrutural com a con-
mos mais comuns nas funções de energia, as formação nativa segundo o QUARK é de 0,7 (sendo 0,0
ligações de hidrogênio. Alguns autores des- a pior correlação possível e 1,0 uma correlação perfei-
creveram que é possível gerar todas as esta).
truturas contidas no PDB a partir de um
conjunto de representações de ligações de hi- 7.8. Primeiros princípios
drogênio, o que torna interessante um termo
do campo de força exclusivamente dedicado A predição por primeiros princípios ou
ab initio se destaca como sendo a tentativa Apesar do alto grau de complexidade, a

mais ambiciosa para a resolução do problema formulação mais realista para se estudar o
de predição de estrutura de proteínas. Essa enovelamento ou prever a estrutura de pro-
abordagem difere-se das demais por não usar teínas seria baseada em representações com
informações de estruturas conhecidas, rela- todos os átomos explícitos (ver capítulo 8).
cionadas com a sequência alvo, e por usar Contudo, a predição por primeiros princípios
funções de energia contendo somente termos implica em altíssimo custo computacional, e o
de significado físico. Tal estratégia é baseada número de conformações possíveis para uma
em dois pressupostos: todas as informações sequência de aminoácidos é muito grande pa-
necessárias sobre a estrutura de uma proteí- ra ser exaustivamente amostrado. Por isso,
na estão contidas em sua sequência de ami- parte destes métodos faz uso de modelos de
noácidos, e acredita-se que as proteínas energia e representações simplificadas, tais
enovelam-se para um estado nativo, ou um como modelos coarse-grained (ver capítulo
conjunto de estados nativos, que se encontra 8), acelerando a busca conformacional.
no (ou próximo ao) mínimo global de energia Os algoritmos de busca mais usados são aqueles
livre. que envolvem abordagens heurísticas, com destaque
Além de prever a estrutura tridimensio- para os algoritmos genéticos. Há, também, estudos de
nal, os métodos por primeiros princípios po- predição por primeiros princípios envolvendo o uso de
dem contribuir na compreensão dos princípios simulações por dinâmica molecular (ver capítulo 8)
físicos do processo de enovelamento. Adicio- com campos de força clássicos, apesar de essa técnica
nalmente, podem ser aplicados na correção ser mais aplicada a estudos do enovelamento proteico.
ou refinamento de estruturas modeladas por O primeiro marco na tentativa da predição por pri-
outras metodologias ou mesmo na predição meiros princípios através de simulações por dinâmica
de proteínas desordenadas. O sucesso dos molecular foi, provavelmente, nos trabalhos de Duan e
métodos destas predições depende, princi- Kollman, em 1998, com a simulação da proteína villin
palmente, de uma função de energia acurada, headpiece (36 resíduos) em solvente explícito, a qual
na qual o estado nativo da proteína corres- envolveu seis meses de computação paralela em larga
ponda ao estado termodinamicamente mais escala (projeto Folding@home).
estável, e de um algoritmo eficiente capaz de A predição por primeiros princípios ainda
varrer a superfície de energia (ou seja, gerar é um problema não resolvido na biologia
diversas novas conformações). computacional. Ela representa a abordagem
O enovelamento de uma proteína pode mais complexa e difícil dentre os métodos de
ser visto, em última instância, como resultado predição e ainda está defasada, em termos de
das forças físicas atuando sobre os átomos velocidade e acurácia, quando comparada
da proteína. O campo de força deve capturar, com os demais métodos. Atualmente, seu
ao menos, informações qualitativas essenciais sucesso é limitado a proteínas pequenas, com
das características físicas e químicas que im- menos de 100 resíduos de aminoácidos (Figu-
pulsionam e estabilizam o enovelamento, ra 14-7).
descrevendo as interações intramoleculares Uma grande variedade de métodos vem
da proteína e desta com as moléculas de sol- sendo proposta com dois focos importantes:
vente. Normalmente, usam-se campos de rapidez e acurácia. A maioria busca o equilí-
força empíricos, muitas vezes complementa- brio entre esses dois fatores. As diferenças
dos por um termo de solvatação implícita entre esses métodos (Tabela 1-7) se encon-
(ver capítulo 8). Tais funções de energia inva- tram no tipo de representação (ou seja, todos
riavelmente sofrem aproximações que resul- os átomos ou modelos coarse-grained), no
tam em artefatos nos modelos, tais como o método de busca e na função de energia.
favorecimento excessivo de estruturas 2árias
em hélices em relação a outros tipos de es-
truturas.
7.9. Escolhendo o modelo

Tanto os métodos de novo (baseados ou
não em moldes) quanto os por primeiros
princípios têm em comum a grande quantida-
de de modelos gerados. Devido à natureza
estocástica dos algoritmos de busca (e tam-
bém às imprecisões das funções de energia),
os procotolos mais usados em PSP consistem
em executar o algoritmo um grande número
de vezes com diferentes sementes para o ge-
rador de números aleatórios. Para efeitos de
ilustração, um protocolo típico considerado
próprio para publicação do método Rosetta
consiste em, no mínimo, 10.000 execuções
independentes. Dessa forma, cada execução
irá percorrer uma trajetória diferente no es-
Figura 14-7: Resultados obtidos com o paço de conformações e poderá terminar em
protocolo ab initio do programa GAPF. (A) uma conformação diferente.
Trp-cage (PDB1L2Y) com 29 aminoácidos. O As estruturas resultantes dessa grande
modelo na esquerda apresenta um RMSD (do amostragem são chamadas de decoys, e um
esqueleto peptídico) de 3,04 Å em relação à problema em aberto na PSP é a filtragem de
estrutura experimental na direita. (B) Villin decoys. Atualmente, os protocolos seguem
headpiece (PDB1VII) com 36 aminoácidos. O alguns passos para a escolha do modelo a ser
modelo na esquerda apresenta um RMSD de selecionado dentre as milhares de conforma-
3,38 Å (do esqueleto peptídico) em relação à ções geradas. Os dois principais passos são:
estrutura experimental na direita. i) Filtragem dos decoys: é feita sobre o
valor de energia total retornado pela
Tabela 1-7: Exemplo de métodos de predição função usada pelo método.
ab initio de estrutura de proteínas. A maioria dessas funções já carrega de forma im-
Método Algoritmo de Função de plícita (ou explícita) medidas sobre a qualidade estere-
busca energia oquímica da estrutura. Dessa forma, um primeiro filtro
razoável é investigar apenas os decoys com energia
GAPF Algoritmo GROMOS96 e semelhante (até certo valor limite) em relação ao
genético GAPF-CG decoy de menor energia (o melhor segundo o critério
Profet Algoritmo OPLSAA, energético).
evolucionário AMBER94, ii) Agrupamento (clustering) dos
AMBER96, decoys: é a comparação entre as estru-
ECEPP e FLEX turas resultantes do passo anterior e o
seu agrupamento de acordo com um
ProtPred Algoritmo CHARMM (v.27)
critério de similaridade, por exemplo,
evolucionário
estruturas com até 3 Å de RMSD são
Nicosia Algoritmo CHARMM (v.27) colocadas em um mesmo grupo. Assim,
evolucionário o pesquisador pode investigar apenas a
multiobjetivo estrutura mais representativa de cada
MEAMT Algoritmo CHARMM (v.27) grupo.
evolucionário Esse passo tem o potencial de reduzir considera-
multiobjetivo velmente o número de modelos a ser investigado, em-
multitabelas bora em alguns casos o número de conformações a
ser analisado possa ainda ser grande demais. Nesses os aspectos tridimensionais de uma
casos, faz-se uso da noção de que, sendo o estado na- molécula, a fim de se verificar a estabi-
tivo cineticamente acessível, espera-se que esse seja lidade conformacional da mesma. Nesta
atingido com mais frequência, salvo em trajetórias que análise, são detectadas regiões de ten-
terminem em mínimos locais muito profundos. Sendo são angular e torcional, impedimentos
assim, realizando um número grande de trajetórias, estéricos e quiralidades. Além destes,
aquele grupo que contém a estrutura nativa é, prova- com a análise do gráfico de Ramachan-
velmente, o maior grupo (ou seja, aquele que contém o dran é possível identificar, através da
maior número de conformações após o agrupamento). correlação entre os ângulos φ e ψ, quais
É importante ressaltar que esta hipótese só estaria te- resíduos encontram-se fora das regiões
oricamente bem fundamentada caso usasse uma fun- energeticamente favoráveis, possibili-
ção de energia realística e representativa da energética tando uma melhora no modelo final.
do processo de enovelamento. Exemplos de programas que realizam
estas análises incluem os programas
Os pacotes de PSP disponibilizam suas Procheck e Molprobity.
próprias ferramentas de agrupamento. Pode- ii) Energia: são métodos baseados em
se, ainda, usar outros programas externos minimização de funções de energia. A
com resultados semelhantes, como o análise dos valores normalizados da
maxcluster e o programa de agrupamento função (como o DOPE normalizado do
contido no pacote GROMACS (g_cluster). Modeller) ajuda a avaliar (ao menos es-
Um terceiro passo é a inspeção manual tatisticamente) quão próximo o modelo
por um operador humano de cada modelo gerado está de proteínas que possuem
resultante do segundo passo. Com a análise um mesmo perfil molecular ou até o
de especialistas treinados, é possível detectar mesmo tipo de enovelamento. Esses
possíveis erros no enovelamento e até mes- métodos podem considerar a relação
mo sugerir modificações em regiões específi- entre a estrutura 1D-3D, ponderar a
cas dos modelos. Essa etapa opcional ainda propensão de cada aminoácido estar em
não é automatizável sendo, de certa forma, a um tipo de estrutura 2ária, a probabilida-
mais custosa. de de dois resíduos estarem em contato
e até mesmo o tipo de função que a
7.10. Análise de qualidade proteína desempenha. Alguns progra-
mas bastante usados para estas análi-
A qualidade de um modelo é determina- ses incluem Verify3D, ProSa, QMEAN e
da por um conjunto de fatores, tais como PROVE.
comprimentos de ligação, planaridade das li- iii) Funcional: envolve a comparação do
gações peptídicas, planaridade dos anéis e modelo obtido com aspectos funcionais
ângulos de torção nas cadeias principal (ou ou mesmo estruturais (sem resolução
seja, esqueleto peptídico) e laterais, quirali- atomística) determinados por métodos
dade, impedimento estérico, energia e funcio- experimentais. Por exemplo, diversas
nal. Adicionalmente, nos métodos baseados famílias de proteínas possuem resíduos
no uso de estruturas moldes resolvidas ex- específicos associados à função (como a
perimentalmente, para um modelo ser consi- tríade catalítica em serino proteases ou
derado de boa qualidade é recomendado que resíduos ligadores de metais em meta-
o valor de RMSD obtido pela sobreposição da loproteínas). Assim, o modelo gerado
cadeia peptídica de regiões conservadas do deve apresentar tais resíduos nas suas
modelo gerado e da estrutura molde esteja localizações específicas para explicar
entre 1 Å e 2 Å. Dentre as análises a serem dados experimentais prévios. Ainda,
feitas, recomenda-se as seguintes: métodos como dicroismo circular (capí-
i) Estereoquímica: consiste em analisar tulo 10), infravermelho (capítulo 11) e
RMN (capítulo 12) podem oferecer in- ridade de sequência com o(s) molde(s)
formações importantes sobre o estado usado(s), ou não obedecem ao tipo cor-
conformacional da proteína em meio bi- reto de estrutura 2ária predita. Para cor-
ológico, validando o modelo obtido. rigir isso, é necessário refazer o modelo
Mesmo que as estratégias de análise 3D impondo ao algoritmo de construção
anteriores indiquem um modelo de ele- o uso de restrições de tipo de estrutura
vada qualidade, se o mesmo não for ca- 2ária para essas regiões.
paz de apresentar ou explicar iii) Dinâmica molecular: Os métodos de
características conhecidas previamente, simulação por dinâmica molecular (ver
não poderá ser considerado totalmente capítulo 8) têm sido empregados na
válido. melhora de modelos gerados tanto por
técnicas baseadas em modelagem
Durante o CASP a análise de qualidade dos modelos comparativa quanto por primeiros prin-
assume um caráter diferente, uma vez que os avalia- cípios. Simulações em solvente explícito
dores conhecem a estrutura nativa. Nesse caso, a mé- ajudam a acomodar a estrutura 3D do
trica empregada para comparar a estrutura nativa com modelo melhorando, principalmente, os
os modelos gerados pelos diferentes métodos é o Glo- ângulos φ e ψ de resíduos em regiões
bal Distance Test – GDT. Trata-se de uma medida po- desfavoráveis no gráfico de Ramachan-
tencialmente mais acurada, uma vez que é menos dran. O tempo de simulação é variável
sensível a discrepâncias muito grandes, oriundas de de acordo com a complexidade do sis-
regiões de voltas que são naturalmente flexíveis. tema e com o grau de refinamento que
se deseja obter. É importante destacar
7.11. Refinamento do modelo que simulações por dinâmica molecular
para estruturas transmembranares,
Após a análise do modelo, caso a quali- apesar de bastante recomendado, ne-
dade não tenha sido satisfatória, algumas es- cessitam especial atenção, pois se deve
tratégias de refinamento no melhor modelo considerar o modelo de membrana a
obtido podem ser suficientes para a obtenção ser empregado, a forma de inserção do
de um modelo final de boa qualidade. Dentre modelo 3D da proteína na membrana e
os principais tipos de refinamento podemos o tempo de equilibração do sistema
citar: costuma ser maior que em proteínas si-
i) Local: através da análise estereoquí- muladas apenas em solvente.
mica pode-se identificar qual resíduo
está violando seus valores limites den- 7.12. Aplicações de modelos
tro de sua vizinhança, o que geralmente
é resolvido com o reposicionamento de A aplicabilidade de um modelo 3D está
sua cadeia lateral. Em alguns casos, é diretamente relacionada com a acurácia com
necessário realizar etapas de otimização que este foi gerado. Esta acurácia pode ser
somente de regiões de alças, principal- avaliada pelo grau de similaridade entre as
mente de regiões ricas em glicina. É estruturas 3D da proteína predita e da proteí-
sempre importante observar violações na molde, através do cálculo do desvio médio
causadas por prolinas nas extremidades quadrático (RMSD), que mede as distâncias
de regiões de estruturas em hélice ou interatômicas. De acordo com sua acurácia,
folha. os modelos 3D gerados por métodos teóricos
ii) Imposição de restrições: após a análi- podem ser aplicados em:
se de resultados de métodos de predi- i) Estudos de predição funcional e busca
ção de estrutura 2ária, pode-se verificar por novos alvos moleculares em orga-
no modelo gerado quais regiões não nismos patogênicos;
possuem ou possuem uma baixa simila- ii) Planejamento racional de fármacos
baseado na estrutura do receptor bioló- Estrutura nativa: É a estrutura tridimensional

gico; adotada por uma proteína em seu ambi-
iii) Estudos de variação conformacional ente fisiológico de ação. É a conformação
por dinâmica molecular; que desempenha o papel biológico da
iv) Planejamento de experimentos de proteína.
mutagênese sítio-dirigida, fornecendo
informações sobre possíveis mutações Função de energia: Função pela qual se avalia o
para testar hipóteses funcionais; estado conformacional de uma proteína. A
v) Simulações de interações entre pro- avaliação é feita baseada no valor de
teínas; energia total do sistema em estudo, que
vi) Auxiliar no refinamento de estruturas pode ser composta de termos de energia
resolvidas por cristalografia de raios-X e potencial e cinética. O funcional é especí-
por experimentos de RMN. fico para cada programa e seus termos
são baseados em “Campos de Força”.
Metaheuristica: É um processo iterativo que oti-
Bibliotecas de fragmentos: As bibliotecas de miza uma solução candidata segundo um
fragmentos são construídas a partir de critério de avaliação, geralmente baseada
estruturas tridimensionais determinadas na minimização da “Função de Energia”. É
experimentalmente, e são específicas para comum o uso de métodos de otimização
cada sequência alvo. Possuem tamanhos não determinísticos, como por exemplo,
variados uma vez que os fragmentos de- algoritmos genéticos e simulated
vem apresentar alta similaridade local com annealing.
a sequência alvo.
Modelagem comparativa: É uma classe de mé-
Campos de força: Referem-se à forma e aos todos de predição de estrutura tridimensi-
parâmetros (ajustáveis) de funções mate- onal de proteínas. A estrutura da
máticas usadas para descrever a energia sequência alvo é construída a partir de
potencial de um sistema de partículas outras estruturas resolvidas experimen-
(moléculas e átomos). As funções e seus talmente (estruturas molde) e que possu-
parâmetros são derivados de estudos exem mais de 25% de identidade (ou ditas
perimentais e de cálculos advindos da homólogas) em relação à sequência de
mecânica quântica, e que tentam descre- aminoácidos da proteína alvo.
ver fenômenos atômicos como conforma-
ção (e.g. diedros) e interações de curto e Molde ou template: É a estrutura tridimensional
longo alcance de diferentes classes de de uma proteína determinada experimen-
moléculas. talmente e que é usada como base para
fornecer informações estruturais aos al-
Decoy: São modelos gerados pelos diversos goritmos de predição de estrutura de pro-
métodos de predição de estrutura tridi- teínas. Seu uso é dependente do nível de
mensional de proteínas. Uma vez que os identidade/similaridade entre sua sequên-
métodos empregados são não determinís- cia de aminoácidos e a da sequência alvo
ticos, cada execução pode resultar em um (sequência que se deseja modelar).
modelo diferente. Dentre os decoys, en-
contra-se o modelo que melhor representa Predição ab initio: É uma classe de métodos
o que se supõe ser a estrutura nativa da usada para prever a estrutura tridimensi-
sequência alvo, porém, para sua identifi- onal de uma proteína alvo sem o uso de
cação faz-se necessário realizar uma fil- informações estruturais de quaisquer ou-
tragem. tras proteínas resolvidas experimental-
mente. mentos para a predição de estruturas

de proteínas. Tese de Mestrado, Labora-
Predição de estruturas de proteínas: É a arte de tório Nacional de Computação Científica:
prever para uma sequência de aminoáci- Rio de Janeiro, 2008.
dos, através de métodos computacionais,
sua estrutura tridimensional mais próxima LEACH, Andrew R. Molecular Modelling
do que se supõe ser sua estrutura nativa. Principles and Applications. 2.ed.
Essex: Pearson Education Limited, 2001.
Predição de novo: É uma classe de métodos
usada para prever a estrutura tridimensi- WEBSTER, Davird M. Protein Structure
onal de uma proteína alvo, a partir de in- Prediction: Methods and Protocols.
formações estruturais de proteínas Totowa: Humana Press Inc., 2000.
resolvidas experimentalmente (estruturas
molde) e sem qualquer parentesco com a RANGWALA, Huzefa; KARYPIS, George.
proteína alvo. Usam, por exemplo, biblio- Introduction to Protein Structure
tecas de fragmentos. Prediction: Methods and Algorithms.
Hoboken: John Wiley & Sons, 2011
Rotâmeros: São as conformações preferenciais
da cadeia lateral de um resíduo de ami-
noácido. Podem ser combinados em bibli-
otecas para cada tipo de aminoácido.
Threading: É uma classe de métodos usada na

predição de estrutura tridimensional de
proteínas e que busca descobrir qual é o
tipo de enovelamento mais provável que
uma sequência alvo deverá adotar. Esse
processo é baseado em estruturas resol-
vidas experimentalmente (estruturas mol-
de) que não são necessariamente
homólogos à proteína alvo.

CUSTÓDIO, Fábio Lima. Algoritmos Genéticos
para Predição Ab Initio de Estrutura
de Proteínas. Tese de Doutorado, Labo-
ratório Nacional de Computação Científica:
Rio de Janeiro, 2008.
CAPRILES, Priscila Vanessa da Silva Zabala. De-

senvolvimento e Implementação de
um Modelo Coarse-Grained para Pre-
dição de Estruturas de Proteínas. Tese
de Doutorado, Laboratório Nacional de
Computação Científica: Rio de Janeiro,
2011.
TREVIZANI, Raphael. Bibliotecas de frag-

8. Dinâmica Molecular
Hugo Verli
Flexibilidade da enzima trombina evidenciada através

de simulação por dinâmica molecular.
8.1. Introdução
8.2. Campos de força
8.3. Minimização de energia
8.4. Simulações por DM
8.5. Estratégias de análise
8.6. Limitações atuais da DM
8.7. E outras biomoléculas?
Figura 1-8: Variação do conteúdo de estrutura
8.8. Conceitos-chave secundária da melitina, peptídeo da abelha
Apis mellifera, como função do tempo. A for-
ma inicial é encontrada no ambiente cristali-
no, enquanto a final é observada em
8.1. Introdução condições próximas às plasmáticas.
Segundo a IUPAC (International Union of rentes moléculas (enzima e substrato, prote-

Pure and Applied Chemistry), a “dinâmica mo- ína e proteína, proteína e DNA ou fármaco e
lecular é um procedimento de simulação que receptor). Por outro lado, a ideia de que estas
consiste na computação do movimento dos propriedades variam como função do tempo
átomos em uma molécula ou de átomos indi- indica que as mesmas não são estáticas, mas
viduais ou moléculas em sólidos, líquidos e se modificam em soluções biológicas. Isto
gases, de acordo com as leis de movimento aproxima em muito a DM de métodos experi-
de Newton”. Em outras palavras, a dinâmica mentais como a Ressonância Magnética Nu-
molecular (DM) descreve a variação do com- clear (RMN, Capítulo 12), que geram medidas
portamento molecular como função do tem- representando, de fato, médias temporais,
po (Figura 1-8). colhidas durante a realização do experimento.
Quando mencionamos “comportamento Assim, ao final de uma simulação de DM,
molecular”, nos referimos a quaisquer propri- buscamos estas propriedades médias,
edades de uma molécula em estudo, tais co- representativas de comportamentos bio-
mo seu conteúdo de estrutura 2ária, lógicos medidos experimentalmente.
orientação de cadeias laterais, conformação A descrição conformacional oferecida
de alças e a energia de interação entre dife- pela DM, para uma determinada molécula ou
conjunto de moléculas, baseia-- 8.2. Campos de força

se na solução da 2a Lei de New-
ton, onde Fxi é a força aplicada Como visto no item ante-
ao átomo i na posição x, t é o rior, para descrever a variação
tempo, v a velocidade e ai a da posição x de um átomo i
aceleração do átomo i. Por ser como função do tempo pre-
baseada na física desenvolvida cisamos conhecer o valor da
por Sir. Isaac Newton, a DM faz massa de cada átomo, mi (essa
parte dos métodos denominados é fácil, vem da tabela periódica)
Clássicos (também chamados de e a força (Fxi) sobre cada átomo
métodos de mecânica molecu- i em uma determinada posição
lar), em oposição aos métodos x. A temperatura fornece ener-
baseados na física quântica (que Sir Isaac Newton gia para que os átomos sofram
deram origem aos denominados uma aceleração, mudando suas
métodos de mecânica quântica). posições no espaço. Contudo,
Tabela 1-8: Alguns dos principais programas

disponíveis para simulações por DM.
Programa Distribuição
Assim, a DM nos possibilita obter
Abalone Gratuito
modelos de moléculas muito mais próximos
da realidade biológica, pois inclui diretamente ADUN Gratuito
características como a flexibilidade molecular
AMBER Pago
(através da variação temporal de
propriedades) e a temperatura (através da Ascalaph Designer Gratuito
aceleração dos átomos). A maioria dos CHARMM Pago
fenômenos biológicos estão associados à
flexibilidade de biomoléculas, como a catálise Discovery Studio Pago
e a modulação de canais iônicos e de re- GROMACS Gratuito
ceptores acoplados à proteína G. De fato,
muitos destes processos vêm sendo GROMOS Pago
descritos com sucesso por simulações de DM GULP Gratuito
ao longo dos anos.
Outros tipos de simulação estão LAMMPS Gratuito
disponíveis, tais como o Método de Monte MDynaMix Gratuito
Carlo, a Dinâmica Estocástica e a Dinâmica
Browniana. Iremos, contudo, nos ater à DM MOE Pago
em decorrência de seu maior uso, nos últimos MOIL Gratuito
anos, no estudo de biomoléculas.
MOLDY Gratuito
Muitos programas (Tabela 1-8) estão
disponíveis para a realização de simulações NAMD Gratuito
por DM diferindo, por exemplo, quanto a seu
RedMD Gratuito
acesso (gratuito ou pago), custo
computacional (isto é, tempo necessário para TeraQuem Pago
a execução de um mesmo cálculo) e tipos de TINKER Gratuito
campos de força disponíveis (ver adiante).
YASARA Pago
como os átomos não estão isolados, mas li- também limitações. Por exemplo, enquanto
gados a outros átomos formando moléculas um tipo de campo de força pode descrever
que, por sua vez, interagem com outras mo- com elevada fidelidade proteínas, ele pode ser
léculas, eles estão sujeitos a forças inter- bastante limitado na reprodução da ge-
atômicas e inter-moleculares. O cálculo ometria de carboidratos ou ácidos nucleicos.
destas forças é realizado por uma outra Desta forma, ao iniciarmos um estudo por
função matemática, denominada campo de DM, devemos ter em mente qual o tipo de
força. molécula com o qual pretendemos trabalhar
O campo de força, seguindo a definição e qual o melhor campo de força para descre-
da IUPAC, pode ser descrito brevemente vê-la.
como “um conjunto de funções e A escolha de um campo de força não é, contudo,
parametrização usadas em cálculos de baseada somente no tipo de molécula com o qual
mecânica molecular”. Cada campo de força queremos lidar. Diversos outros aspectos podem
estabelece um conjunto de equações influenciar esta escolha. Existem, por exemplo,
matemáticas dedicadas a reproduzir aspectos diferentes níveis de simplificação na descrição dos
do comportamento molecular, como o átomos (Figura 3-8). O campo de força pode descrever
estiramento de ligações químicas, a todos os átomos do sistema (em inglês são
deformação de um ângulo de ligação ou a denominados campos de força all atom), mas isto
torção de um diedro, como podemos implica em um maior custo computacional, o que pode
observar em um espectro de infravermelho. se tornar proibitivo no estudo de grandes sistemas
Estas equações, por sua vez, são calibradas moleculares se não temos acesso a grandes
(ou seja, parametrizadas) para reproduzir o estruturas de processamento em paralelo (os
comportamento dos compostos de interesse chamados clusters).
(Figura 2-8). Como o elemento encontrado em maior quantidade
Equações e parametrizações diferentes é o átomo de hidrogênio, uma primeira simplificação é
podem ser empregadas, dando origem a denominada de átomo unido (em inglês são
campos de força diferentes, com vantagens e denominados campos de força united atom). Neste
Figura 2-8: Representação de alguns termos que compõem o campo de força GROMOS96. Ter-
mos semelhantes são também encontrados em diversos outros campos de força.
Figura 3-8: Representação dos 20 aminoácidos, codificados no genoma para síntese proteica,
em um campo de força descrevendo todos os átomos, em um campo de força de átomo unido e
coarse-grained.
caso, os átomos de hidrogênio apolares, ou seja, capacidade de descrever elementos de estrutura 2ária,
aqueles ligados a átomos de carbono, são unidos a mantendo-se somente a forma global da molécula em
este elemento, dando origem a um pseudoátomo estudo. Assim, em estudos onde são esperadas
representando as propriedades de grupos CH, CH2 ou mudanças no conteúdo de estrutura 2ária o método de
CH3. Exceção se dá para o grupo CH de anéis CG não é indicado. Mas, por ser muito rápido, pode
aromáticos, que tem os átomos de hidrogênio descrever movimentos entre diferentes domínios de
descritos explicitamente nos campos de força de uma dada proteína, o que é difícil de ser observado,
átomo unido mais modernos, como o GROMOS96. usualmente, nos demais campos de força. Por outro
Há, por fim, um terceiro nível de simplificação, lado, o caso dos modelos de átomo unido traz
denominado coarse-grained (CG). Neste campo de limitações como a dificuldade em se utilizar estes
força, vários átomos podem ser agregados em uma campos de força na obtenção e refinamento de
única partícula, análoga ao pseudoátomo do modelo de modelos 3D de macromoléculas a partir de dados de
átomo unido. Por exemplo, todo um aminoácido pode RMN (Capítulo 12).
ser considerado como uma única partícula, como é o Outra diferença entre os campos de
caso da alanina e da glicina no campo de força força diz respeito à descrição das moléculas
MARTINI. Em outros resíduos, este campo de força de água, o principal solvente de biomoléculas
considera o esqueleto peptídico como uma partícula e (Tabela 2-8). De fato, uma das grandes
a cadeia lateral de uma (como na cisteína, treonina e vantagens do método de DM é a capacidade
serina) a três (histidina e fenilalanina) ou quatro de incluir a presença de moléculas de água
(triptofano) partículas. nos modelos gerados, descrevendo as suas
Quanto maior a simplificação, menor custo interações, como função do tempo, com os
computacional do cálculo. Em outras palavras, compostos em estudo. Da mesma forma que
podemos simular sistemas com maior número de visto para os campos de força, existem
átomos por mais tempo em computadores mais diversos modelos para descrição de
baratos. Infelizmente, estas simplificações trazem moléculas de água, por vezes com mais de
consigo algumas limitações. No caso do CG, perde-se a uma opção para um mesmo campo de força.
Estes organizam-se em dois grandes grupos: seguir), cada um foi construído a partir de
os modelos explícitos e os implícitos. decisões metodológicas distintas apre-
sentando, portanto, particularidades im-
Tabela 2-8: Alguns dos modelos de água mais portantes. Como consequência, normalmente
comumente empregados em simulações por os parâmetros de um campo de força não
DMa. são transferíveis para outro campo de força.
A importância de conhecermos estas
Modelo Campos de força Tipo
características, reconhecendo cada campo de
onde são emprega-
força como entidade única, reside no fato de
dos
que um grande número de compostos de
SPC interesse biológico não é descrito nos
AMBER, GROMOS,
SPC/E OPLS parâmetros atuais, o que pode limitar o seu
estudo computacional. Dentre estes
TIP3P compostos com carências de parâmetros
podemos citar aminoácidos modificados
(além dos 20 codificados no genoma),
TIP4P neurotransmissores, hormônios, fos-
AMBER, CHARMM,
folipídeos, carboidratos, produtos naturais e,
OPLS por fim, fármacos. Como simulações por DM
podem ser cálculos extremamente de-
TIP5P morados, deixar para descobrir no meio do
trabalho que seu modulador de interesse não
tem parâmetros no campo de força escolhido
pode lhe custar alguns meses de trabalho.
MARTINI Martini Em linhas gerais, tanto a distância entre 2 átomos
ligados quanto o ângulo entre 3 átomos consecutivos é
descrita a partir de Vligação/ângulo = Kn [n – no]2, onde V é a
a
Uma revisão mais completa pode ser encontrada no energia, n é a distância ou ângulo em um dado
site: www1.lsbu.ac.uk/water/models.html momento, no é a distância ou ângulo de referência e Kn
é a constante de força da mola que mantém esses
Enquanto os modelos explícitos incluem os átomos valores ao redor dos valores de referência (Figura 2-
da molécula de água, fisicamente, na simulação, os 8).
modelos implícitos (também chamados de modelos Para diedros, a função mais usualmente empregada
contínuos ou continuum models) não incluem estas é baseada em Vdiedro = Kχ [1 + cos(nχ - δ)], sendo V a
moléculas diretamente, mas indiretamente, através da energia, χ o valor do diedro e Kχ a altura da barreira de
representação das propriedades dielétricas do energia entre diferentes estados conformacionais.
solvente. Os átomos que compõem a água não Estes estados surgem porque um diedro pode rodar
participam das simulações, tornando o cálculo 360o e, ao longo desta rotação, apresentar múltiplos
extremamente rápido (usualmente, a grande maioria mínimos de energia. Assim não há, necessariamente,
dos átomos em um sistema a ser simulado por DM se uma única geometria de referência. O perfil rotacional
refere ao solvente). Infelizmente, enquanto estes dos diedros tem a adição do parâmetro n, que
modelos implícitos são bastante eficientes no estudo descreve a multiplicidade do diedro (ou seja, o número
de proteínas e ácidos nucleicos, o mesmo não vem se de mínimos de energia) e δ, que diz respeito à mudança
mostrando para carboidratos, compostos altamente de fase e à localização do máximo de energia ao longo
polares que interagem intensamente com o solvente. do perfil da rotação do diedro.
Embora os principais campos de força Apesar da semelhança nesses termos, existem
empregados atualmente (AMBER, CHARMM, diferenças importantes que devem ser consideradas. O
OPLS e GROMOS) sejam compostos por CHARMM, por exemplo, emprega uma equação
equações bastante semelhantes (ver a adicional na descrição dos ângulos de ligação, chamada
Urey-Bradley, que busca preservar a distância entre o de raios-X (ver capítulo 13) ou de RMN (ver
primeiro e o terceiro átomos de um ângulo. Outra capítulo 12). Independente de sua origem
diferença se refere aos termos que descrevem a estas estruturas, ao serem solvatadas, criam
planaridade ou quiralidade em um conjunto de quatro interações soluto-solvente até então
átomos, o que é usualmente chamado de diedro inexistentes (seja pelo dado ser teórico obtido
impróprio (Figura 2-8). Enquanto AMBER e OPLS os no vácuo, em ambiente cristalino ou como
descrevem da mesma forma que os demais diedros uma média de diferentes conformações). Mas
(também chamados de diedros próprios), CHARMM e o solvente precisa se adaptar ao redor de seu
GROMOS aplicam uma equação diferente, que se soluto, e isto precisa ser corrigido antes que a
assemelha àquela empregada para distâncias e simulação por DM se inicie. Por exemplo,
ângulos. quando o programa insere uma molécula de
Abordar com profundidade a água, esta pode ter seu hidrogênio apontando
construção de parâmetros para campos de para um átomo de hidrogênio da cadeia
força está além do objetivo deste livro. Mas lateral de uma arginina, promovendo uma
em muitos casos há uma solução um pouco repulsão eletrostática pela proximidade de
mais simples para o problema. Uma duas cargas de sinais iguais. Se isto não for
característica importante de campos de força corrigido antes do início da DM, a liberação
é a chamada transferabilidade. Isto significa desta energia na simulação pode gerar uma
que grupos químicos semelhantes possuem explosão da simulação (Figura 4-8) ou, de
propriedades semelhantes que podem, assim, forma mais sutil (mas nem por isso menos
serem transferidas de uma molécula para perigosa para o estudo), promover mudanças
outra. Por exemplo, o grupo hidroxila de um conformacionais na proteína, ou mesmo
resíduo de Ser é equivalente ao grupo desnaturações. Em outros casos, como na
hidroxila de um resíduo de Thr. Assim, há uma obtenção de modelos teóricos para a
redução enorme na necessidade de estrutura 3D de proteínas, a construção de
construção de parâmetros para novos cadeias laterais de aminoácidos pode
compostos, se respeitarmos a semelhança aproximá-las artificialmente (e exces-
química entre eles. sivamente) de outros resíduos.
Assim, uma das principais formas de
8.3. Minimização de energia tentar eliminar estes problemas reside no
cálculo de minimização de energia (Figura 5-
Quando iniciamos um estudo baseado 8). Durante este cálculo, a energia global do
em simulações por DM, podemos empregar sistema é reduzida, alcançando por fim uma
estruturas de partida de diferentes origens, conformação mais estável para o sistema em
como modelos teóricos (ver capítulo 7) ou estudo (ou seja, um estado de mínimo de
ainda dados experimentais de cristalografia energia).
Figura 4-8: Explosão em uma simulação por DM.

incluídas em uma simulação, maior será o

tempo necessário para realizar o cálculo. Por
isso, buscamos sempre incluir o menor
número de moléculas possível capaz de
descrever as condições experimentais ou
fisiológicas de referência. No caso da
proteína, estamos na maioria das vezes ainda
limitados a simulação de uma única molécula
(salvo no caso de oligômeros). Contudo, a
proteína não costuma ser a parte mais cara
computacionalmente do cálculo, mas sim a
inclusão do solvente (explícito). Uma
otimização no número de moléculas de água
pode representar uma grande otimização no
tempo de máquina para conclusão da
simulação (o que permite aumentar o
tamanho da amostragem do estudo, ver
adiante).
Uma forma de controlar o número de
moléculas de água é controlando o tipo de
"caixa" onde o sistema será simulado. Por
caixa entendemos o espaço tridimensional
Figura 5-8: Exemplo da evolução de proprie- onde soluto (biomolécula) e solvente
dades moleculares no decorrer de uma mini- (normalmente água) são colocados. O
mização de energia. A cada passo, a energia tamanho e a forma desta caixa, usualmente
do sistema diminui, com a redução de conta- centralizada no soluto, definirá a quantidade
tos desfavoráveis e a formação de interações de solvente a ser inserida.
intra- e inter-moleculares como ligações de Atualmente, não é comum definir a forma da caixa
hidrogênio. como uma esfera, por motivos que explicaremos a
seguir. As formas mais comuns são cúbica, octaédrica
8.4. Simulações por DM e dodecaédrica. A forma de um octaedro apresenta
77% do volume de um cubo, enquanto que o
Além da escolha do campo de força e dodecaedro 71%, representando a forma mais próxima
do modelo de água, o preparo e a análise de de uma esfera. Contudo, como a forma de proteínas e
uma simulação por DM deve considerar al- outras biomoléculas varia muito, devemos avaliar qual
guns aspectos metodológicos importantes, caixa se adequa melhor ao sistema em estudo. Por
dentre os quais destacaremos as condições exemplo, a simulação de membranas é normalmente
periódicas de contorno, a equilibração, a realizada em um cubo ou uma forma retangular, que
amostragem, o tempo de integração e o cál- pode ser uma boa alternativa também para proteínas
culo de interações não ligadas. Uma escolha em forma de bastão.
inadequada destas propriedades pode signifi- O uso de uma caixa em forma de esfera ao redor da
car desde um maior custo computacional (is- proteína de interesse nos levaria a um aproveitamento
to é, uma simulação demorando mais do que do espaço tridimensional melhor do que o dodecaedro,
precisaria) a resultados que não representam economizando mais moléculas de água e, assim,
situações reais. liberando custo computacional. Contudo, as moléculas
em uma simulação por DM podem se difundir ao longo
Condições periódicas de contorno da caixa. Como além da caixa de simulação temos
condições de vácuo, o solvente iria progressivamente
Quanto maior o número de moléculas evaporar, a partir da face da esfera. A forma de
impedir isso é criar uma força que impeça as economizar custo computacional ao reduzir a
moléculas do sistema de ultrapassarem os limites quantidade de solvente excessivamente. Se a caixa for
desta esfera, o que representa a inclusão de forças pequena demais, a proteína pode interagir com suas
artificiais, não observáveis em condições biológicas. imagens, geradas pelas condições periódicas de
As formas geométricas empregadas contorno, criando uma situação artificial que
mais frequentemente em em simulações por provavelmente irá deturpar os resultados obtidos. É
DM estão relacionadas a uma estratégia importante, assim, avaliar se o corte das interações
denominada condições periódicas de contorno não ligadas (ver adiante) é menor que a distância da
(Figura 6-8). Estas formas permitem que proteína às suas imagens.
uma caixa de simulação seja replicada em
todas as suas dimensões, de forma periódica. Equilibração
Estas réplicas são idênticas à caixa
construída, de forma que um movimento A ideia de equilibração de uma
molecular em uma será idêntico ao simulação por DM se refere à estabilização de
movimento da mesma molécula na outra. suas propriedades, ou seja, que estas alcan-
Mas, agora, a face da caixa não está em con- cem um estado de equilíbrio. Considera-se
tato com o vácuo, mas com solvente. E, caso que, antes de estarem equilibradas, as
uma molécula saia da caixa central, uma de propriedades em estudo apresentam
suas imagens entrará pela face oposta, variações ou comportamentos não
mantendo o número de moléculas constante. representativos das situações de interesse.
Isto representa uma continuidade da solução, Assim, é necessário que o tempo de
nos aproximando de condições experimentais. simulação seja suficientemente longo (tama-
nho da amostragem, ver adiante) para que as
propriedades em estudo estejam ade-
quadamente equilibradas. Na Figura 1-8, por
exemplo, a simulação de um monômero de
melitina demora em torno de 4 ns para se
equilibrar.
Um dos motivos mais comuns para a necessidade
de equilibração é devido ao uso de estruturas 3D
derivadas de ambientes cristalinos, isto é, aquelas
obtidas por cristalografia de raios-X. Este ambiente
apresenta concentração de proteínas muito maior do
que aquela observada, usualmente, nas condições bio-
lógicas de interesse, por vezes em estados
oligoméricos não observados em condições bio-
lógicas. Assim, a remoção destes contatos e sua
substituição por moléculas de água, acarretará em
uma instabilidade inicial na simulação, envolvendo: 1) a
perda de contatos cristalográficos, e 2) a formação de
Figura 6-8: Representação das condições pe- interações com moléculas de água.
riódicas de contorno em uma simulação por Infelizmente, a busca por tempos de simulação
DM. Somente a caixa central é simulada, en- "suficientemente longos" para equilibração das
quanto que as réplicas garantem a continui- propriedades de interesse pode ser desafiadora, pois
dade do sistema, isto é, ausência de contato nem todas as propriedades moleculares equilibram a
das moléculas com o vácuo. uma mesma velocidade. Por exemplo, a interação de
uma proteína com o solvente equilibra usualmente
Devemos, contudo, tomar cuidado para não definir mais rapidamente do que a perda ou a formação de
uma caixa excessivamente pequena, buscando estrutura 2ária. Estas, por sua vez, equilibram mais
rapidamente que o movimento de domínios em uma

dada proteína.
Amostragem
A amostragem de uma simulação por
DM se refere a quão bem ela é capaz de des-
crever o comportamento do sistema molecu-
lar em estudo. Idealmente, a amostragem de
uma simulação deve ser longa o bastante pa-
ra descrever os fenômenos de interesse.
Contudo, a simulação de sistemas complexos
como aqueles envolvendo biomoléculas fre-
quentemente esbarra em amostragens ainda
inalcançáveis em decorrência de seu elevado
custo computacional.
A maneira mais simples de se entender a amostra-
gem é considerando o tamanho da simulação em uma
escala de tempo. Um maior tempo de simulação impli-
ca em uma maior amostragem. Contudo, diversos as-
pectos podem interferir neste entendimento. O
aumento do número de moléculas e átomos no siste-
ma aumenta o número de possíveis conformações a
serem adotadas. Por outro lado, o uso de campos de
força do tipo átomo unido ou ainda coarse-grained,
ao reduzir o número de átomos, reduz o número de
possíveis estados conformacionais a serem adotados
pelo sistema, tornando assim a amostragem maior em
uma mesma escala de tempo.
Tempo de integração
O cálculo de uma simulação por DM não
gera informações contínuas, mas sim é dividi-
da em pequenos passos, usualmente na es- Figura 7-8: Representação do efeito de dife-
cala de femtossegundos (fs). A sucessão rentes tempos de integração na amostragem
destes passos dará origem ao nosso entendi- de uma simulação por DM. Valores muito pe-
mento de trajetória, isto é, à evolução tem- quenos (0,5fs) descrevem fenômenos com
poral do comportamento molecular na maiores detalhes, mas mais lentamente. Va-
simulação realizada. O tamanho destas partes lores muito grandes (4,0fs) apresentam me-
é o que chamamos de tempo de integração nores custos computacionais, mas podem dar
(Figura 7-8). origem a instabilidades.
A definição de um valor apropriado para
o tempo de integração está diretamente rela- pode ser feita empregando-se diferentes va-
cionada ao tamanho da amostragem da si- lores de tempo de integração. Quanto maior
mulação e, por conseguinte, ao custo este valor, menos passos de cálculo serão
computacional da mesma. Conforme ilustra- necessários à descrição do fenômeno e, por
do na Figura 7-8, a descrição de uma deter- conseguinte, menor será o custo computaci-
minada propriedade tempo-tempendente onal associado. Quanto menor este valor,
mais passos serão necessários e, assim, mai- putacional, tendo em vista que nenhuma interação de
or o custo computacional. Infelizmente, o uso Coulomb seria avaliada a partir desta distância. Já o uso
de tempos de integração muito elevados pode do corte b traria um maior custo computacional, in-
gerar instabilidades na trajetória, de forma cluindo as interações entre o soluto e as moléculas na
que valores intermediários são usualmente faixa cinza da figura. Contudo, ao reduzir o custo com-
empregados, no caso da Figura 7-8, 2fs. putacional, o corte a potencialmente implicará na per-
Os valores de tempo de integração mais frequente- da de informações importantes, por ser muito próximo
mente empregados em simulações baseadas em cam- do soluto. Assim, a distância b seria preferível.
pos de força atomísticos (isto é, todos os átomos são
descritos) ou de átomo unido são 1fs, 2fs ou 5fs. O uso
de 1fs é realizado quando as moléculas e suas ligações
são tratadas como flexíveis durante a simulação, en-
quanto 2fs requerem o tratamento das ligações quími-
cas como rígidas. Já para o uso de 5fs, toda a molécula
é tratada como rígida (ou seja, ângulos e diedros não
podem ser modificados), uma alternativa pouco utili-
zada no estudo de sistemas biológicos. Em algumas si-
tuações podem ser empregados tempos de integração
menores que 1fs, mantida toda a flexiblidade da molé-
cula. Em outros casos, como em simulações do tipo
coarse-grained, tempos de integração de até 40fs.
Cálculo de interações não ligadas

Uma das partes mais custosas compu- Figura 8-8: Representação de regiões de cor-
tacionalmente em simulações por DM envolve te, a e b, a partir de um soluto, para cálculo
o cálculo das interações não ligadas, isto é, de interações não ligadas.
interações eletrostáticas (calculadas por ter-
mos de Coulomb) e de van der Waals (calcu- A eliminação repentina da avaliação das interações
ladas pelo potencial de Lennard-Jones). Para não ligadas através de um cut-off pode gerar instabili-
se ter uma ideia, enquanto o número de ter- dades ou erros na amostragem da simulação. Desta
mos ligados (isto é, ligações, ângulos e die- forma, estas interações a longas distâncias costumam
dros) é proporcional ao número de átomos, o ser descritas por outros tipos de métodos, como PME,
número de interações não ligadas aumenta Ewald ou Campo de Reação (Reaction-Field), dentre
como função do quadrado do número de áto- outros. Este tratamento é usualmente aplicado so-
mos do sistema. Assim, economizar custo mente às interações de Coulomb, mais sensíveis a efei-
computacional no cálculo destas interações tos originados de cortes nas interações.
representa uma significativa redução no custo
da simulação como um todo. Como estas in- 8.5. Estratégias de análise
terações decrescem rapidamente em intensi-
dade conforme dois átomos se distanciam no Um dos maiores desafios em um estudo
espaço, é possível realizar cortes nestas inte- baseado em DM frequentemente reside mais
rações (cut-off). Em outras palavras, a partir na análise e interpretação dos resultados ob-
da distância definida por estes cortes, nenhu- tidos do que no preparo do sistema. De fato,
ma interação não ligada será calculada (Figu- simulações de proteínas em água podem ge-
ra 8-8). rar facilmente muitas dezenas de gigabytes
Por exemplo, consideremos dois possíveis raios de de dados. Como retirar informações destas
corte na simulação do soluto apresentado na Figura 8- trajetórias, quais informações retirar e como
8. O uso do raio a representaria um menor custo com- interpretar estas informações, no contexto do
assunto em estudo, envolvem muitas vezes sistemas biológicos), o volume (no caso de
mais tempo do que a simulação computacio- simulações NVT), a densidade e a energia to-
nal em si. tal do sistema. Todas estas propriedades de-
Os tipos de análises a serem emprega- vem alcançar um patamar estável, paralelo
das estarão intrinsecamente relacionados à ao eixo x (tempo). Pode-se observar alguma
natureza do problema em estudo. Por variação no início da simulação mas, em se-
exemplo, se estamos estudando uma proteína guida, devem atingir este patamar e se man-
tentando mimetizar o ambiente nativo da ter neste nível ao longo da simulação. Estas
mesma, em princípio, ela não pode se desna- costumam ser propriedades de rápida equili-
turar durante a simulação. Por outro lado, o bração em simulações por DM.
estudo de membranas elimina esta preocu- Garantidas estas propriedades, pode-
pação mas nos traz a necessidade de avaliar mos passar à análise de aspectos mais com-
as propriedades dos lipídeos enquanto imer- plexos, como do comportamento da estrutura
sos num fluido. Adicionalmente, dados prévi- proteica ao longo da simulação. Neste grupo,
os sobre características estruturais e/ou as ferramentas mais comumente emprega-
funcionais das moléculas em estudo, obtidos das incluem o RMSD, o RMSF, o raio de giro,
tanto por métodos computacionais quanto distâncias entre átomos ou grupamentos e a
por outras ferramentas experimentais são evolução do conteúdo de estrutura 2ária como
fundamentais na concepção, preparo, execu- função do tempo.
ção e análise de estudos por DM. Esta é, fun- O RMSD (do inglês root mean square deviation ou
damentalmente, a razão pela qual este livro desvio quadrático médio) é uma das principais estraté-
traz em si diversos métodos experimentais. gias de análise empregadas no estudo por DM de pro-
Neste momento, a adequação da amos- teínas (Figura 9-8A). Indica o quanto a estrutura da
tragem às propriedades em estudo assume proteína de interesse se modifica ao longo de uma si-
importância fundamental. Se buscamos estu- mulação, em relação à estrutura de partida, normal-
dar o movimento de domínios de uma proteí- mente cristalográfica. Assim, é usual que haja um
na, simulações de dezenas de nanossegundos aumento progressivo no RMSD de uma proteína, par-
não serão suficientes, requerendo potencial- tindo de 0, até um patamar, o que pode indicar a equili-
mente tempos próximos de microssegundos, bração do sistema. Este patamar pode variar em
possivelmente inviabilizando o estudo por DM. função das características da proteína mas, como um
De forma semelhante, a observação do eno- ponto de partida, podemos considerar um valor em
velamento de proteínas por DM é impraticável torno de 3 Å quando todos os átomos do sistema são
na grande maioria dos casos, salvo em pe- empregados na medida. Valores acima deste podem
quenas proteínas ou peptídeos, de qualquer sugerir movimentos maiores de alças, em relação ao
forma, requerendo no mínimo centenas de cristal, ou perda de estrutura 2ária, enquanto valores
nanossegundos. Por outro lado, reorientação menores tendem a indicar sistemas mais semelhantes
ou refinamento de cadeias laderais de resídu- à referência cristalográfica.
os de aminoácidos ou de ligantes em comple- Uma consideração importante quando realizamos
xos fármaco-receptor podem ser observados análises de RMSD se refere ao fato de que esta análise
frequentemente em algumas dezenas de na- oferece uma medida média de um conjunto de átomos,
nossegundos. selecionados para a análise. Se todos os átomos de
As análises de simulações por DM de- uma proteína são considerados, como no exemplo aci-
vem, preferencialmente, ser realizadas ob- ma, os valores observados trazem consido influências
servando propriedades de complexidade de diferentes regiões da proteína. Por exemplo, nor-
crescente (o que costuma estar associado ao malmente conjuntos de hélices α se modificam menos
tempo requerido à equilibração desta propri- durante uma simulação do que regiões de alças. Caso
edade). Assim, as primeiras propriedades a façamos uma análise de RMSD separada para estas
serem avaliadas são normalmente a pressão regiões, veremos hélices α com valores menores e al-
(no caso de simulações NPT, mais comuns em ças com valores maiores do que aqueles considerando
flexibilidade do sistema (Figura 9-8B). Valores maiores

de RMSF serão, portanto, usualmente observados para
alças, e valores menores para hélices α. Por outro lado,
regiões de hélices α apresentando valores elevados de
RMSF podem estar passando, durante a simulação, por
perda de sua estrutura 2ária.
Enquanto o RMSD apresenta um valor médio, a cada
passo da simulação, para todos os átomos do sistema,
o RMSF apresenta um valor médio, para cada átomo ou
resíduo (usualmente mais útil para proteínas), ao longo
de todos os passos da simulação. Assim, valores de
RMSF para toda a trajetória podem diferir, por
exemplo, daqueles observados no início e/ou no final
da simulação (Figura 9-8B).
Ainda, ao observarmos o quanto uma
proteína muda sua forma 3D em relação ao
cristal ou a flexibilidade de cada resíduo ao
longo da simulação, não temos informações
diretas sobre o comportamento dos elemen-
tos de estrutura 2ária da proteína. Um valor de
RMSD elevado pode tanto sugerir a desnatu-
ração de uma hélice quanto uma reorientação
da mesma que, contudo, pode se manter
enovelada. Da mesma maneira, um resíduo
muito flexível (conforme observado pelo
RMSF) não necessariamente será encontrado
somente em alças. Para tal, devemos empre-
gar análises específicas capazes de indicar
como a estrutura 2ária da proteína se com-
porta na simulação por DM.
Figura 9-8: A) Helipticidade (vermelho) e Conforme observado no Capítulo 2, a definição da
RMSD, e B) RMSF para a melitina. O RMSD foi estutura 2ária não é algo tão simples e direto como
calculado para toda a proteína (azul) e para o possa parecer. Existe mais de uma forma de definir hé-
esqueleto peptídico (verde). Já o RMSF foi lices e folhas, e diferentes estratégias podem oferecer
medido como média para toda a trajetória resultados distintos. Por exemplo, o programa DSSP
(preto), para os primeiros 3 ns (roxo) e para descreve a estrutura 2ária a partir do padrão de liga-
os últimos 5 ns (laranja). ções de hidrogênio na sequência polipeptídica. À infor-
mação relacionada a interações por ligação de
ambas regiões juntas. Processo similar ocorre caso hidrogênio o programa STRIDE adiciona parâmetros
consideremos todos os átomos do sistema (maior torsionais relacionados ao esqueleto peptídico.
RMSD) ou simplesmente o esqueleto peptídico (menor Outro aspecto importante quanto à análise do
RMSD) (Figura 9-8A). comportamento da estrutura 2ária diz respeito à escala
Na análise por RMSD, todo resultado obtido irá de- de tempo na qual hélices e fitas se enovelam. Enquanto
pender da geometria de partida da simulação, usual- hélices usualmente se enovelam numa escala de
mente cristalográfica. O RMSF (do inglês root mean tempo de centenas de nanossegundos, simulações de
square fluctuation ou flutuação quadrática média), em poucas dezenas de nanossegundos terão dificuldades
contrapartida, não apresenta esta dependência, mas em prever estes fenômenos. O caso de fitas é ainda
descreve a variação da posição dos átomos (ou resídu- mais complexo, exigindo escalas de tempo uma ordem
os de aminoácidos) durante a simulação, indicando a de grandeza superiores.
Uso de estatística Gibbs associada a eventos moleculares.

Portanto, informações sobre constantes de
Embora seja prática corriqueira, mesmo obrigató- equilíbrio, constantes catalíticas ou afinidades
ria, na grande maioria dos métodos experimentais em- entre moléculas não são usualmente
pregados no estudo de sistemas biológios, o uso de acessíveis, com precisão, através destas
métodos estatísticos não é, ainda, comum na análise de técnicas. Embora diversas técnicas gerem
resultados obtidos em simulações por DM. Isto se deve estimativas de energia livre associadas à DM,
ao fato de que, em uma mesma simulação, são nor- como a perturbação da energia livre, o linear
malmente gerados centenas de milhares ou mesmo interaction energy e a metadinâmica, cada
milhões de dados para uma mesma variável (tamanho uma possui suas próprias limitações, di-
da simulação dividido pelo tempo de integração). O ficultando seu uso amplo em estudos por DM.
grande n assim obtido tenderá a tornar estatistica- Por fim, e não menos importante, temos
mente significativa mesmo variações bem pequenas a dificuldade em obter amostragens
nas propriedades de interesse. compatíveis com fenômenos observáveis em
Com a redução no custo dos computadores e au- experimentos ou fisiologicamente. Mesmo
mento em sua velocidade, assim como na melhoria dos nos maiores centros de supercomputação do
programas disponíveis, uma nova abordagem vem se mundo, ainda não chegamos, na grande
apresentando, aproximando a análise de simulações maioria dos casos, em escalas de tempo
por DM de estudos experimentais convencionais. Tra- compatíveis com o comportamento de
ta-se da realização de múltiplas simulações para um proteínas em soluções biológicas. Por isso,
mesmo sistema. Assim, a informação a ser empregada devemos ter em mente que os resultados
nas análises é a média da informação gerada nas di- obtidos, por mais confiáveis e corretos que
versas simulações. sejam, não necessariamente representam,
estatisticamente, fenômenos medidos em
8.6. Limitações atuais da DM solução.
Como toda técnica experimental, 8.7. E outras biomoléculas?

simulações por DM possuem limitações
importantes que devem ser conhecidas pelos A maior parte da literatura, seja em li-
seus usuários de forma a reduzir a chance de vros seja em artigos, se refere ao estudo de
interpretações equivocadas dos resultados proteínas. Ácidos nucleicos, membranas e
obtidos. carboidratos vêm sendo estudados com me-
Uma consequência direta da realização nos frequência, comparativamente, ao longo
de cálculos baseados na mecânica molecular, dos anos. Embora possa se justificar esta di-
ou seja, empregando campos de força, é a ferença em decorrência do fato de que as
ausência de elétrons. Este tipo de cálculo não proteínas são as moléculas efetoras da infor-
considera os elétrons e, por conseguinte, os mação genética, esta não é a única justificati-
resultados obtidos apresentam limitações em va, tampouco proteínas são os únicos
lidar com fenômenos envolvendo elétrons compostos biológicos importantes para a
diretamente. Assim, simulações por DM não manutenção da vida.
são capazes, por exemplo, de descrever O estudo de moléculas de DNA, por
reações químicas, como as observadas na exemplo, vem ganhando importância com o
ação de enzimas ou em processos de desenvolvimento de compostos capazes de
oxidação e redução. Uma alternativa recente interagir, seletivamente, com regiões especí-
para esta limitação envolve métodos ficas do DNA, como é o caso dos agentes an-
denominados híbridos entre a mecânica tineoplásicos. Enquanto moléculas de DNA
molecular e a mecânica quântica. apresentam estruturas mais ou menos bem
Simulações por DM apresentam grande definidas, moléculas de RNA são extrema-
dificuldade em descrever a energia livre de mente versáteis e complexas conformacio-
nalmente, a cada momento se mostrando co- Para ácidos nucleicos, os campos de força mais
mo capazes de atuarem em mais fenômenos amplamente utilizados são o AMBER e o CHARMM,
biológicos. Valorização semelhante vem sen- tanto para DNA quanto para RNA.
do observada para membranas e carboidra- A parametrização de carboidratos, por sua vez,
tos que, progressivamente, deixam de ter está imersa em desafios devido à sua elevada
papéis passivos, simplesmente estruturais, complexidade estrutural e conformacional, de forma
passando a desempenhar papéis ativos, sina- que uma sucessão de novos parâmetros vêm sendo
lizando diretamente múltiplas respostas em desenvolvida.
organismos. Por fim, o grupo de compostos mais
Assim, a construção de modelos computacionais desafiadores com relação à disponibilidade
para o estudo de biomoléculas deve incluir o máximo prévia de parâmetros envolve os fármacos ou
de propriedades importantes ao desenvolvimento nor- moduladores da função proteica que não es-
mal de suas funções, em condições nativas. Uma pro- tão sob uso terapêutico (genericamente cha-
teína inserida em membrana irá exigir a inclusão da mados de ligantes). Em decorrência de sua
membrana nas simulações, da mesma maneira que variedade e originalidade química, é extrema-
uma glicoproteína irá demandar a inclusão da parte samente difícil ter, de antemão, parâmetros
carídica em seu estudo. próprios à sua descrição. Assim, é frequente a
Do ponto de vista da disponibilidade de necessidade de parametrização dos ligantes
parâmetros de campos de força, diferentes em estudo, seguindo as características do
classes de biomoléculas apresentam diferen- campo de força em uso.
tes disponibilidades de parâmetros. Por isso, Embora os quatro campos de força citados
é importante considerar todos os componen- possuam parâmetros para um amplo espectro de
tes do sistema molecular quando da escolha grupamentos funcionais, para casos específicos
do campo de força a ser empregado. Se a ferramentas como o servidor PRODRG (para o
nossa molécula em estudo é uma glicoproteí- GROMOS) e o GAFF (para o AMBER) são capazes de
na, não adianta empregar um campo de força gerar parâmetros, com graus variados de precisão, que
excelente para carboidratos se o mesmo não podem ser empregados no estudo de compostos
possui parâmetros para o estudo de proteí- orgânicos em geral.
nas.
Atualmente, os principais campos de força são 8.8. Conceitos-chave
capazes de descrever a grande maioria das classes de
biomoléculas. Originalmente, no entanto, o campo de Amostragem: refere-se à descrição do compor-
força AMBER foi desenvolvido para o estudo de ácidos tamento conformacional de uma dada
nucleicos e proteínas, o CHARMM para proteínas, o molécula em uma simulação.
GROMOS para lipídeos e o OPLS para líquidos e
solventes. Com o passar do tempo, cada um desses Campo de força: conjunto de equações que
parâmetros foi sendo aprimorado focando em descreve o comportamento molecular em
diferentes biomoléculas, de forma que, hoje, alguns cálculos de mecânica molecular. É ajusta-
são empregados com maior freqüência para do para cada tipo de molécula a ser estu-
determinados sistemas por melhor descreverem suas dado.
propriedades (estruturais, conformacionais ou físico-
químicas). Campo de força all atom (todos os átomos):
No caso específico de proteínas, os campos de considera todos os átomos do sistema ex-
força citados acima descrevem de forma semelhante plicitamente.
sua estrutura, conformação e dinâmica. No caso de
lipídeos, a maior parte dos estudos envolve os campos Campo de força united atom (átomo unido):
de força CHARMM e GROMOS, embora o último ofereça transforma grupos CH, CH2 e CH3 em uma
um ganho de velocidade de até nove vezes devido a sua única partícula ou pseudoátomo, reduzin-
natureza de átomo unido. do o número de átomos a ser descrito.
Grupos CH de anéis aromáticos são des- comportamento molecular é descrito a

critos explicitamente. partir das equações da mecânica quântica.
Campo de força coarse-grained: transforma Minimização de energia: tipo de cálculo em que

grupos de átomos em partículas, reduzin- a energia do sistema é reduzida através
do o custo computacional ainda mais do da otimização das posições atômicas.
que campos de átomo unido.
Modelo de água explícito: modelo no qual as
Condições periódicas de contorno: condição moléculas de água são descritas pela pre-
empregada em simulações por DM que sença física de seus átomos.
impede o contato das moléculas do siste-
ma com o vácuo, representando o sistema Modelo de água implícito: modelo no qual as
de forma periódica. moléculas de água são descritas sem a
presença física de seus átomos.
Cut-off: representa um corte no cálculo de inte-
rações não ligadas, reduzindo o custo NPT: condição de simulação na qual o número
computacional do cálculo. A partir da dis- de partículas, a pressão e a temperatura
tância definida, estas interações não são permanecem constantes.
mais calculadas.
NVT: condição de simulação na qual o número
Diedro próprio: ângulo formado por quatro áto- de partículas, o volume e a temperatura
mos ligados em sequência. Os primeiros permanecem constantes.
três átomos definem um plano, enquanto
os últimos três definem outro plano. O Tempo de integração: tamanho do passo em-
ângulo formado por estes dois planos é o pregado em cálculos de DM.
diedro.
Transferabilidade: em um campo de força, se
Diedro impróprio: ângulo formado por quatro refere à manutenção das propriedades de
átomos que não estão ligados em um grupamento funcional em diferentes
sequência. É empregado para garantir, por moléculas. Assim, uma hidroxila alcoólica
exemplo, a quiralidade de átomos e a pla- de um resíduo de serina terá os mesmos
naridade de anéis. parâmetros que a mesma hidroxila em
uma treonina.
Dinâmica molecular: tipo de cálculo em que as
coordenadas dos átomos variam como 8.9. Leitura recomendada
função do tempo.
MORGON, Nelson H.; COUTINHO, K. Métodos
Equilibração: período em que propriedades de de Química Teórica e Modelagem Mo-
uma simulação de DM demoram para lecular. São Paulo: Editora Livraria da Fí-
atingir um patamar estável. Diferentes sica, 2007.
propriedades podem requerer tempos di-
ferentes para equilibrar. LEACH, Andrew R. Molecular Modelling Prin-
ciples and Applications. 2.ed. Essex:
Mecânica molecular: tipo de cálculo em que o Pearson Education Limited, 2001.
comportamento molecular é descrito a
partir das equações da mecânica clássica SANT'ANNA, Carlos Maurício R. Glossário de
ou de Newton. termos usados no planejamento de
farmacos (recomendações da IUPAC para
Mecânica quântica: tipo de cálculo em que o 1997). Quim. Nova, 25, 505-512, 2002.
9. Atracamento Molecular
Isabella A. Guedes
Camila S. de Magalhães
Laurent E. Dardenne
Predição do modo de ligação do GTP no sítio de liga-

ção da proteína c-H-ras p21.
9.1. Introdução
9.2. Reconhecimento molecular
9.3. Métodos de atracamento
9.4. Triagem em larga escala Figura 1-9: Exemplos de complexos
moleculares: (A) chaperona GroEL (PDB ID
9.5. Considerações finais 1AON), (B) complexo DNA com proteína DMT1
(PDB ID 3PT6) e (C) complexo da enzima HIV-1
9.6. Conceitos-chave protease com o inibidor indinavir (PDB ID
1HSG). As versões menores em B e C estão
em escala com A.
9.1. Introdução gantes e proteínas alvo, com um papel crucial

em processos fisiopatológicos, é de grande
Para se compreender a maioria dos me- importância para o planejamento racional de
canismos e processos celulares é necessário fármacos. Neste sentido a técnica computa-
determinar e compreender o modo de intera- cional denominada atracamento molecular
ção entre macromoléculas (principalmente (molecular docking, em inglês), dedicada à
proteínas e ácidos nucleicos) ou entre uma previsão do modo de ligação e dos detalhes
macromolécula e uma pequena molécula lido reconhecimento molecular proteína-pro-
gante, que pode atuar como agonista/antago- teína e receptor-ligante (Figura 2-9), assume
nista ou substrato/inibidor em determinado cada vez mais papel de destaque em pesquisa
processo fisiológico. associadas à saúde e à biotecnologia.
Complexos macromoleculares podem
envolver dezenas ou centenas de componen-
tes, tais como na formação dos poros nuclea-
res, formação de ribossomos, formação de
chaperonas como a GroEL e na formação de
capsídeos de vírus (Figura 1-9). Quais proteí-
nas interagem e o modo de interação são in-
formações de fundamental importância para
a compreensão do funcionamento de proces- Figura 2-9: Emprego do método de
sos biomoleculares. atracamento molecular na predição do modo
Por outro lado, o conhecimento do mode ligação do GTP ao seu sítio de ligação na
do de interação entre pequenas moléculas li- proteína c-H-ras p21.
Os métodos de atracamento molecular ra”, e seu sítio de ligação ou sítio receptor é

envolvem desafios teórico-computacionais considerado como o “buraco da fechadura”. A
formidáveis, e se dividem em duas classes de possível “chave da fechadura” é o ligante, e a
métodos distintos: receptor-ligante e recep- interação entre o ligante e a proteína está re-
tor-proteína. Embora proteínas sejam os lacionada a uma das possíveis ações de “abrir
receptores mais comuns, outras biomolé- ou trancar” a porta.
culas também podem exercer este papel. O modelo chave-fechadura, contudo, in-
Diversos fármacos, por exemplo, modulam duz a uma interpretação de que a “fechadu-
diretamente o DNA que, assim, passa a ser o ra”, representada pela molécula receptora, é
receptor alvo. Adicionalmente, fármacos rígida. Entretanto, no meio biológico, tanto o
podem atuar modificando propriedades ligante quanto a proteína são flexíveis, po-
físico-química da célula, sem necessa- dendo modificar a sua conformação durante
riamente envolver um processo de atraca- o processo de formação do complexo recep-
mento, como na modulação da fluidez de tor-ligante. Uma visão mais adequada deste
membranas plasmáticas. Neste capítulo, será processo é denominada de encaixe induzido,
dada mais ênfase aos métodos de atraca- onde tanto o ligante quanto a proteína se
mento proteína-ligante, contextualizados den- adaptam um ao outro durante o processo de
tro da área de planejamento racional de reconhecimento molecular (Figura 3-9). De
fármacos baseado em estruturas. fato, a flexibilidade de uma proteína está di-
retamente associada à sua atividade, seja na
9.2. Reconhecimento molecular catálise de reações enzimáticas, na transdu-
ção de sinais, no transporte através de pro-
As metodologias computacionais de teínas de membrana, ou em mudanças
atracamento proteína-ligante estão baseadas conformacionais associadas a formas ativas e
no modelo chave-fechadura, proposto por não ativas de proteínas.
Emil Fischer em 1894. Neste modelo, o re- Uma visão mais moderna do atracamento proteína-
ceptor proteico é associado à uma “fechadu- ligante descreve uma proteína como um conjunto de
Figura 3-9: Graus de flexibilidade do receptor: (A) mobilidade do esqueleto peptídico da enzima
protease do HIV-1, (B) diversas conformações de alça no sítio de ligação do ATP à enzima MAP
cinase p38, e (C) mudança conformacional da cadeia lateral de resíduo na enzima cinase JNK3,
influenciada por diferentes inibidores.
estados conformacionais, com estruturas similares e térica, ou seja, a proteína e o ligante

energeticamente equivalentes. Nesta visão, ao interagir possuem uma alta porcentagem de suas
com determinada proteína, um ligante seleciona uma superfícies de contato moleculares, de-
determinada conformação entre as preexistentes (com finidas pelos raios de van der Waals
a qual possui maior afinidade) e desloca o equilíbrio atômicos, em contato próximo;
químico de tal forma que esta conformação tenha a ii) alta complementaridade de proprie-
sua proporção aumentada na população total de esta- dades associadas às superfícies de con-
dos. É importante ressaltar que estudos experimentais tato moleculares (esta complemen-
sugerem que estes dois mecanismos, encaixe induzido taridade pode ser tanto eletrostática,
e seleção conformacional, podem coexistir em um onde grupos polares/carregados do li-
mesmo sistema ligante-receptor. Estas visões são gante ficam perto de grupos da proteína
muito importantes para direcionar as metodologias de com polaridade/carga complementar,
atracamento proteína-ligante no sentido de fornecer quanto relacionada à complementarida-
um tratamento adequado do problema da flexibilidade de de regiões hidrofóbicas);
intrínseca do receptor proteico. iii) o ligante geralmente se liga em uma
A introdução da flexibilidade do receptor proteico é conformação energeticamente favorá-
um dos maiores desafios das metodologias de atraca- vel, e
mento proteína-ligante. Em parte, isto se deve ao fato iv) interações repulsivas entre ligante e
de que determinadas mudanças conformacionais im- proteínas são minimizadas.
portantes para a função de proteínas são difíceis de
serem caracterizadas experimentalmente e/ou com- Interações proteína-ligante
putacionalmente por envolverem milhares de graus de
liberdade. Tal complexidade leva estes processos a Os principais tipos de interações inter-
ocorrerem em escalas de tempo desde microssegun- moleculares envolvidas no reconhecimento
dos a vários minutos, envolvendo amplitudes de deslo- molecular proteína-ligante incluem:
camento de até dezenas de angstroms (1 Å = 10-10 m). i) ligações de hidrogênio;
O reconhecimento molecular proteína- ii) interações de van der Waals;
ligante está baseado na complementaridade iii) interações iônicas;
de características físico-químicas e estrutu- iv) interações hidrofóbicas;
rais das moléculas interagentes. As caracte- v) interações do tipo cátion-π;
rísticas físico-químicas definem o grau de vi) interações envolvendo anéis aromá-
afinidade e de especificidade do ligante pela ticos do tipo π-π e empilhamento-T, e
proteína, e estão relacionadas com as intera- vii) coordenação com íons metálicos.
ções intermoleculares existentes no comple-
xo. Estas interações incluem as ligações de O efeito hidrofóbico origina-se do fato
hidrogênio, as interações provenientes do de que partes apolares do ligante e do sítio
efeito hidrofóbico, as interações de van der ativo interagem com o solvente, sendo que
Waals, as interações eletrostáticas e as liga- estas se encontram solvatadas por camadas
ções covalentes que possam ser formadas de moléculas de água mais organizadas. A
durante o processo de interação receptor-li- aproximação destas partes apolares, durante
gante. As características estruturais, por sua a interação proteína-ligante, liberam e desor-
vez, estão associadas aos arranjos espaciais ganizam as moléculas de água, aumentando a
moleculares, dados por variações na orienta- entropia do sistema e consequentemente fa-
ção, posicionamento espacial e rotações de li- vorecem a formação do complexo proteína-
gações químicas das moléculas interagentes. ligante. O aumento na entropia do solvente
Ligantes e proteínas que possuem uma associado ao ocultamento das superfícies
alta afinidade um pelo outro exibem as se- apolares é chamado de efeito hidrofóbico.
guintes características: Este efeito destaca o papel fundamental
i) alto nível de complementaridade es- do solvente aquoso no processo de reconhe-
cimento molecular proteína-ligante. Em algu- receptor, do ligante e do complexo receptor-

mas situações, as moléculas de água assu- ligante respectivamente.
mem tal importância que sua presença é A determinação destas constantes de-
considerada estrutural, sendo por isso deno- pende fortemente da temperatura, pressão,
minadas moléculas de água estruturais. pH e força iônica da solução. Para comparar a
Estas moléculas estão ligadas forte- afinidade de moléculas distintas por um mes-
mente ao sítio ativo, e geralmente são con- mo receptor obtidas por grupos de pesquisa
servadas em sítios de ligação de proteínas distintos é necessário que os experimentos
homólogas. A presença destas moléculas nos tenham sido realizados sob as mesmas con-
sítios receptores de proteínas podem interfe- dições.
rir no acesso do ligante ao sítio ativo e modifi- Tanto as contribuições entálpicas quanto entrópicas
car o perfil de formação de ligações de são importantes para a interação receptor-ligante.
hidrogênio, contribuindo portanto diretamente Muitas vezes, há uma compensação entre estas duas
no sucesso das metodologias de atracamento contribuições, podendo a ligação ser determinada prin-
proteína-ligante. cipalmente pela contribuição entálpica (compensando
Durante a formação do complexo ocorre a perda de uma perda entrópica) ou pela contribuição entrópica
entropia rotacional e translacional do ligante, além de (compensando uma variação de entalpia positiva).
variações na sua entropia vibracional e conformacional A energia livre de ligação de Gibbs pode
devido às restrições de comprimento de ligação, defor- ser obtida através de métodos teóricos, em-
mação angular e ângulos diedrais. Estas também são bora a obtenção de estimativas mais precisas
contribuições entrópicas importantes que ocorrem du- envolva um custo computacional muitas ve-
rante o processo de reconhecimento molecular. zes proibitivo para estudos de atracamento
O processo de reconhecimento molecu- molecular em larga escala envolvendo deze-
lar proteína-ligante é dirigido por uma combi- nas, centenas ou milhares de ligantes. Alguns
nação de efeitos entálpicos e entrópicos. dos métodos mais comumente utilizados para
Estes efeitos podem ser estimados através cálculo da energia livre incluem o método de
da energia livre de ligação de Gibbs que, por perturbação da energia livre (PEL) e o método
sua vez, está diretamente relacionada à cons- de integração termodinâmica (IT), que procu-
tante de equilíbrio de ligação Keq, a qual pode ram calcular diferenças entre as energias li-
ser medida experimentalmente. vres de ligação entre ligantes similares.
Embora esses métodos sejam precisos, com erros
∆Glig = ∆H - T∆S = -RT ln Keq de aproximadamente 1 kcal/mol, o alto custo compu-
tacional envolvido limita a sua utilização. Esses méto-
onde ΔH é a variação de entalpia, T é a tem- dos necessitam do conhecimento prévio da estrutura
peratura absoluta, ΔS é a variação de entropia de um complexo onde a proteína está associada com
e R é a constante universal dos gases. um ligante com estrutura similar ao que se quer estu-
A constante de equilíbrio de ligação Keq dar. Além disso, tendem a ter um pior desempenho
é determinada experimentalmente com rela- quando os compostos envolvidos diferem de muitos
ção a um estado de referência (usualmente, átomos e/ou promovem mudanças conformacionais
para sistemas biológicos, utilizando uma con- significativas no receptor. Métodos ainda mais podero-
centração de 1 M e 25 °C). Esta constante de sos (conhecidos na literatura como Absolute Binding
equilíbrio pode ser representada pela cons- Free Energies Methods), e com custos computacionais
tante de dissociação (Kd) ou de associação mais elevados, procuram calcular os valores das ener-
(Ka), as quais dependem da representação da gias livres de ligação sem a necessidade de se ter pre-
reação química sendo uma o inverso da outra. viamente como referência o conhecimento da energia
livre de ligação de um ligante similar.
Kd = ([R][L])/[RL] Ka = [RL]/([R][L]) Uma metodologia mais simples e bas-
tante utilizada para a obtenção de energias li-
onde [R], [L] e [RL] são as concentrações de vres de ligação é a chamada Energia de
Interação Linear (LIE, do inglês Linear Interac- cas conformacionais das moléculas intera-
tion Energy), a qual trata de estimar as ener- gentes são alguns dos maiores desafios para
gias livres a partir de simulações de dinâmica o desenvolvimento das metodologias de
molecular utilizando um campo de força mo- atracamento molecular.
lecular clássico. Os cálculos de energia livre
com esta metodologia envolvem simulações 9.3. Métodos de atracamento
somente nos estados inicial (ligante em solu-
ção) e final (complexo receptor/ligante), po- O problema de atracamento molecular
dendo reduzir desta maneira os problemas de pode ser dividido em duas partes principais:
convergência e custo computacionais associ- i) investigação e predição da confor-
ados às técnicas PEL e IT. A ideia principal é mação e orientação de uma molécula
considerar as contribuições polares e não po- ligante no seu sítio de complexação;
lares separadamente. A parte polar ou ele- ii) predição da afinidade em um com-
trostática pode ser tratada usando a plexo receptor-ligante, isto é, a energia
aproximação de resposta linear, enquanto que livre de ligação (normalmente chamado
a não polar é calculada usando uma fórmula na literatura de função scoring).
empírica calibrada sobre um conjunto de da-
dos experimentais: Atualmente existem diversos progra-
mas de atracamento molecular disponíveis
∆Glig=α VLJ lig - VLJ livre + β Vel lig - Vel livre (Tabela 1-9), distinguindo-se principalmente
pelo método de busca e pela função de avali-
onde α é o fator empírico que surge das inte- ação de afinidade empregada. Podem ainda
rações não polares e β é o correspondente às diferir quanto à possibilidade de serem utili-
interações eletrostáticas. V representa os va- zados através de portais ou localmente, de
lores médios da energia de interação entre o utilização gratuita ou paga, na necessidade de
ligante e o meio circundante, tanto para o ter- registro e na integração com bancos de ligan-
mo eletrostático (el) como para o de Lennard- tes e proteínas.
Jones (LJ). O método de Energia de Interação
Linear tem sido aplicado com sucesso em sis- Tabela 1-9: Portais de acesso para alguns
temas complexos, o que o torna um método programas de atracamento molecular.
eficiente e mais rápido para a determinação
de energias livres de ligação, mas com um Portal Programa de
custo computacional suficientemente grande atracamento
para torná-lo praticamente inviável para estu- SwissDock EADock DSS
dos envolvendo várias dezenas ou centenas
DockingServer AutoDock
de ligantes.
Outro método utilizado para se obter melhores DockThor Portal DockThor
predições para as energias livres de ligação é o MM- 1-Click Docking AutoDock Vina
PBSA (Molecular Mechanics Poisson-Boltzmann DOCK Blaster DOCK
Surface Area) e MM-GBSA (Molecular Mechanics
Docking At UTMB AutoDock Vina
Generalized-Born Surface Area). Estes métodos utili-
zam simulações de dinâmica molecular do ligante/pro- ParDOCK Método de Monte Carlo
teína livres e do complexo como base para os cálculos PATCHDOCK PatchDock
da energia potencial média e de solvatação.
MEDock MEDock
A obtenção de uma descrição suficien-
temente acurada e viável computacionalmen- Preparação do sistema
te do papel das moléculas de água no
processo de reconhecimento molecular e a Uma etapa muito importante para um
quantificação correta das variações entrópi- estudo de reconhecimento molecular proteí-
na-ligante é a preparação do sistema. O pri-

meiro passo nesta etapa é a obtenção das co-
ordenadas das estruturas tridimensionais das
moléculas interagentes. Com relação à pro-
teína, o Protein Data Bank é atualmente a
maior fonte pública de estruturas de proteí-
nas e ácidos nucleicos resolvidos experimen-
talmente através, principalmente, das
técnicas de difração de raios-X e RMN. Na au-
sência de dados experimentais, estruturas tri-
dimensionais de proteínas podem ser obtidas
utilizando-se técnicas de predição de estrutu-
ras baseadas em modelagem comparativa ou
outros métodos, tais como técnicas baseadas
em fragmentos e técnicas baseadas em pri-
meiros princípios.
As estruturas de ligantes podem ser Figura 4-9: Principais etapas de preparação
obtidas de vários bancos de dados contendo do ligante.
milhares a milhões de ligantes no formato 1D
(smi, simplified-molecular input-entry des (tais como FINDSITE, SURFNET e LIGSITE),
system, também chamado de formato em energias de interação (Q-SITEFINDER e
SMILES) ou 2D (sdf, structure-data file GRID) e no uso de propriedades de sítios de li-
format, também suporta formato 3D). A ge- gação conhecidos para efetuar uma busca
ração de uma estrutura 3D de um ligante a por padrões (webPDBinder).
partir de uma representação 1D ou 2D (Figura Mesmo quando se tem uma estrutura
4-9) pode ser feita através de vários progra- tridimensional determinada experimental-
mas tais como, CORINA, CONCORD, OMEGA, mente, é importante que se faça uma investi-
Balloon e Multiconf-DOCK. gação minuciosa da estrutura na região do
Uma vez que as estruturas 3D das mo- sítio ativo à procura de erros (programas co-
léculas tenham sido obtidas, vários cuidados mo WHAT_IF, MOLPROBITY e PROCHECK po-
devem ser tomados durante a preparação dem ser utilizados para checar a qualidade da
dos arquivos de entrada para a realização de estrutura e corrigir alguns tipos de erros).
cálculos de atracamento molecular. Com re- Alguns dos possíveis problemas que podem
lação ao sítio de ligação em uma proteína al- ser encontrados são:
vo, é necessário primeiramente que se tenha i) ausência de átomos e/ou resíduos;
a informação da localização do mesmo. Em ii) mal posicionamento de cadeias la-
um segundo momento, é muito importante terais, particularmente importante para
realizar um estudo das características físico- os resíduos de asparagina, glutamina e
químicas e estruturais deste sítio. No caso de histidina, onde as cadeias laterais po-
enzimas, um estudo (incluindo uma pesquisa dem apresentar inversões, tais como a
bibliográfica) para obter o máximo de infor- inversão entre os átomos OG e ND na
mações sobre a reação enzimática envolvida asparagina;
também deve ser realizado. iii) presença de duas ou mais confor-
Como a localização do sítio receptor de mações para um resíduo ou conjunto de
uma proteína nem sempre é conhecida, méto- resíduos representando configurações
dos computacionais podem ser utilizados pa- alternativas para a mesma proteína;
ra prever os possíveis sítios de ligação. Estes iv) conformações não nativas, seja de
métodos podem se basear em análises geo- uma cadeia lateral ou de uma estrutura
métricas e de volume para identificar cavida- 2ária, devido a efeitos de empacotamen-
to das proteínas no cristal.
Um segundo aspecto de grande rele-

vância na preparação do sítio receptor é es-
tabelecer o estado de protonação correto dos
resíduos que participam da interação com o
ligante (Figura 5-9). É muito comum que resí-
duos como cisteína, glutamato, aspartato e
histidina tenham estados de protonação não
usuais, influenciados e estabilizados pelo am-
biente eletrostático do sítio ativo. Este pro-
blema pode ser tratado utilizando estratégias
complementares, tais como:
i) análise de diferentes complexos (mui-
tas vezes de proteínas homólogas) com
distintos ligantes;
ii) estudo da literatura a respeito do
mecanismo de reação enzimática;
iii) uso de programas para prever o Figura 5-9: Diferentes estados de protonação
pKa de cada resíduo do sítio ativo/re- dos aspartatos catalíticos na estrutura da
ceptor (por exemplo, através do pro- HIV-1 Protease complexada com o inibidor
grama PROPKA). KNI-272. Estrutura determinada por difração
de neutrons.
Com relação ao ligante, a etapa de pre-
paração envolve diversos cuidados, tais como formacionais relevantes no processo de re-
a determinação do seu estado de protonação, conhecimento molecular. Para estes casos, a
estado tautomérico, forma enantiomérica geração de um conjunto de estruturas repre-
ativa biologicamente (Figura 4-9), a identifi- sentativas das mudanças conformacionais e a
cação das suas ligações químicas flexíveis utilização destas em múltiplos estudos de
(Figura 6-9) e, a partir destas, a geração de atracamento é a solução indicada. LIGPREP é
múltiplas conformações. um exemplo de programa que gera tautôme-
A determinação do estado de protona- ros, diferentes conformações de estruturas
ção do ligante é uma tarefa não trivial, pois cíclicas, diferentes estados de protonação de
envolve não só o pH mas também a interação acordo com o pH e diferentes estereoisôme-
com o sítio de ligação. Para tentar minimizar ros para um determinado ligante.
este problema, muitas vezes o atracamento é É importante ressaltar que dificilmente
feito levando-se em conta os vários estados metodologia de busca ou função avaliação é
de protonação do ligante. capaz de corrigir ou superar os problemas
A geração de várias conformações para causados por uma má caracterização do es-
o ligante é importante no caso de metodolo- tado de protonação de um ligante ou de resí-
gias de atracamento que não levam em conta duos de aminoácidos importantes presentes
a flexibilidade do mesmo e fazem o atraca- no sítio de ligação. A correta preparação das
mento do ligante rígido para cada conforma- estruturas 3D do ligante e da proteína, junta-
ção representativa. Um caso específico está mente com a correta determinação das mo-
relacionado a estruturas cíclicas, cuja flexibi- léculas de água estruturais, são etapas
lidade geralmente não é levada em conside- cruciais para obter sucesso na utilização das
ração durante o processo de atracamento. metodologias de atracamento receptor-li-
Ligantes contendo estruturas cíclicas gante.
não aromáticas podem exibir mudanças con- Algumas metodologias de atracamento
graus de liberdade conformacionais do indi-

navir, inibidor da protease do HIV-1.
A flexibilidade das moléculas interagen-
tes é considerada de maneira variada pelos
diversos métodos de atracamento molecular.
Três principais estratégias são utilizadas:
i) a proteína é considerada rígida, e
apenas os graus de liberdade translaci-
onais e rotacionais do ligante são consi-
derados, ou seja, o ligante é fixado em
Figura 6-9: Graus de liberdade conforma- uma conformação rígida;
cionais do indinavir, representados por setas. ii) a proteína é considerada rígida, mas
todos os graus de liberdade do ligante
(translacionais, rotacionais e conforma-
mais sofisticadas procuram avaliar os dife- cionais) são levados em conta;
rentes estados de protonação do ligante e iii) a proteína é considerada totalmente
das cadeias laterais dos resíduos durante a ou parcialmente flexível, e todos os
execução do algoritmo. eHiTS é um exemplo graus de liberdade do ligante também
de programa que utiliza este tipo de estraté- são considerados.
gia.
Nas metodologias que utilizam a estra-
Métodos de busca tégia i é possível considerar a flexibilidade do
ligante através da construção prévia de um
A exploração das diferentes orientações conjunto de conformações representativas e
e conformações possíveis para um ligante no a subsequente realização de vários cálculos
sítio de ligação do receptor alvo pelo progra- de atracamento molecular do tipo receptor-
ma de atracamento deve ser feita de tal for- rígido. De modo análogo, com relação à se-
ma a se encontrar a solução ótima, ou seja, o gunda estratégia, é possível considerar a fle-
mínimo global de energia. Se os efeitos entró- xibilidade da proteína em atracamentos do
picos e entálpicos associados à termodinâmi- tipo receptor-rígido através da geração de um
ca do sistema (ou seja, a energia livre do conjunto de conformações representativo da
sistema) forem corretamente modelados pe- flexibilidade do receptor proteico.
la função de energia, então o mínimo global Os métodos de busca dos programas de
de energia da superfície investigada vai estar atracamento ligante-receptor podem ser
associado ao modo de ligação receptor-ligan- classificados basicamente em três categorias:
te encontrado experimentalmente. Infeliz- métodos de busca sistemática, métodos de
mente, devido às aproximações introduzidas busca determinística e métodos de busca es-
no modelo de interação molecular, nem sem- tocástica. Alguns programas utilizam em
pre o mínimo global satisfaz este importante conjunto algumas destas diferentes aborda-
requisito. gens.
Um ligante pode variar sua orientação Nos métodos de busca sistemática, um
dentro do sítio de ligação através de movi- conjunto de valores é estabelecido para cada
mentos de translação e rotação (os chama- grau de liberdade. O objetivo é explorar de
dos graus de liberdade translacionais e forma combinatória todos os graus de liber-
rotacionais). Além destas modificações, a dade da molécula durante a busca.
presença de ângulos diedrais rotacionáveis Um dos principais exemplos de métodos de busca
(isto é, ligações químicas simples) do ligante sistemática são os algoritmos de construção incre-
correspondem aos graus de liberdade confor- mental, um tipo de abordagem baseada em fragmen-
macionais. Na Figura 6-9 são mostrados os tos. Nestes algoritmos, o ligante é dividido em
pequenos fragmentos rígidos. Em um primeiro mobilidade de que configurações já visitadas venham a ser
mento, um fragmento-base é ancorado no sítio recep- amostradas novamente.
tor e, posteriormente, todos os outros fragmentos são Os métodos baseados em DM podem ser utilizados
adicionados de forma incremental, até a reconstrução em uma estratégia conjunta com outros tipos de mé-
total do ligante. Cada fragmento adicionado possui uma todos de busca. Nesta estratégia, métodos sistemáti-
ligação química rotacionável com o fragmento base. A cos/incrementais/estocásticos são utilizados para
junção dos fragmentos é feita com base em uma busca gerar um conjunto de configurações proteína-ligante
conformacional, a partir de um banco de valores de prováveis. Nesta etapa, muito mais rápida, são intro-
ângulos diedrais, de maneira a investigar sistematica- duzidas restrições associadas à flexibilidade do ligante
mente a flexibilidade associada a este ângulo específi- e da proteína, e quanto à descrição do efeito solvente
co. Exemplos de programas de atracamento que (uso da aproximação de solvente implícito). Na etapa
utilizam construção incremental são DOCK, FlexX, Gli- seguinte, muito mais custosa, simulações de DM com
de, EUDOC e Surflex. solvente explícito e considerando flexibilidade total do
Nos métodos de busca determinística, receptor e do ligante são realizadas tomando-se como
dado um mesmo estado inicial de entrada, é ponto de partida as melhores configurações geradas
obtido sempre o mesmo resultado de saída. na etapa anterior.
Métodos de simulação por dinâmica molecu- Nos métodos de busca estocástica o
lar e métodos clássicos de minimização de processo de otimização envolve movimentos
energia são exemplos de métodos de busca aleatórios associados aos graus de liberdade.
determinística utilizados por programas de Este fato implica na possibilidade de se obter
atracamento molecular. diferentes resultados como saída para um
Uma das grandes vantagens dos métodos de atra- mesmo estado inicial de entrada. A maioria
camento baseados em dinâmica molecular é que tanto dos métodos desta classe não possui garantia
a influência do solvente explícito quanto de todos os de convergência. Portanto, em estudos de
graus de liberdade do complexo proteína-ligante são atracamento molecular, várias execuções in-
explorados de forma mais natural. Entretanto, estes dependentes do algoritmo são necessárias
métodos possuem um custo computacional elevado e, para se realizar uma boa investigação do sis-
dependendo da altura das barreiras de energia encon- tema. Monte Carlo, Recozimento Simulado
tradas, podem ficar presos em configurações associa- (Simulated Annealing) e Algoritmos Evolucio-
das a mínimos locais do sistema. nistas são exemplos de métodos de busca
Para tentar superar esta limitação, é possível utili- estocástica mais comumente utilizados por
zar algumas estratégias como, por exemplo, aumentar programas de atracamento receptor-ligante.
a temperatura de simulação, suavizar a superfície de Glide, ICM, Prodock, AutoDock e LigandFit são
energia potencial e simular diferentes partes do siste- exemplos de programas que utilizam os mé-
ma proteína-ligante com diferentes temperaturas, todos estocásticos de Monte Carlo e Simula-
além de iniciar os cálculos de dinâmica molecular com ted Annealing.
o ligante em distintas conformações. O programa No método de Monte Carlo padrão (MC) é gerada
CDOCKER é um exemplo de programa que utiliza DM aleatoriamente uma conformação inicial do ligante e,
em conjunto com a geração de várias configurações do em seguida, tomando esta configuração como refe-
ligante para serem utilizadas como pontos de partida rência, é gerada uma nova configuração. Se a configu-
em simulações com altas temperaturas e potenciais ração gerada possuir energia menor que a
suavizados. configuração de referência (ΔV<0), a nova configuração
Ainda, uma técnica que tem sido utilizada com bas- é imediatamente aceita e tomada como referência para
tante sucesso no estudo de interações ligante-receptor a próxima iteração. Caso contrário (ΔV≥0), o critério de
é a metadinâmica. Nesta técnica, uma força adicional é Metropólis é utilizado para decidir se a nova configura-
calculada durante a simulação de DM. Esta força de- ção será aceita ou não. Esse processo é repetido até
pende do próprio histórico da simulação, e tem a fun- que o número desejado de configurações seja obtido.
ção de facilitar a amostragem do espaço O critério de Metropólis consiste em se gerar um
configuracional do sistema, tentando diminuir a proba- número aleatório entre 0 e 1 e compará-lo com o fator
de Boltzmann, exp(-ΔV/kBT), considerando uma deter- de parada predeterminado seja encontrado.

minada temperatura absoluta T. Se o fator de O primeiro programa de atracamento utilizando AG
Boltzman for maior que o número aleatório gerado a foi implementado por Judson e colaboradores em
nova conformação é aceita. O método de Simulated 1994, seguido por uma implementação no programa
Annealing (SA) pode ser considerado uma variação do DOCK. O programa de atracamento molecular GOLD
método de Monte Carlo, onde o primeiro ciclo da simu- utiliza um AG para evoluir múltiplas subpopulações de
lação é realizado em uma alta temperatura, sendo que ligantes, onde a migração entre as populações é per-
esta decai para temperaturas menores durante os ci- mitida. O programa AutoDock também possui imple-
clos seguintes. Diferentes variantes de SA utilizam dis- mentado um AG convencional e um AG Lamarckiano
tintas estratégias para o decaimento da temperatura. (AGL). O AGL é um AG híbrido com um método de bus-
O programa MCDOCK utiliza o método SA, o qual ca local (BL). A cada geração, uma porcentagem
também foi utilizado nas primeiras versões do progra- predefinida da população é aleatoriamente escolhida
ma Autodock. Prodock e ICM são exemplos de progra- para aplicação da BL. O indivíduo resultante da BL
mas de atracamento que utilizam o método de MC com substitui o indivíduo original, em uma alusão à teoria de
minimização. Neste caso, após um movimento aleató- Lamarck, sobre a hereditariedade de características
rio, a conformação é otimizada por um método basea- adquiridas durante o tempo de vida de um indivíduo.
do em otimização de energia antes que o critério de Não há garantia de que os algoritmos
Metrópolis seja aplicado. evolucionistas encontrem o mínimo global da
Uma das classes de algoritmos esto- superfície de energia e, frequentemente, as
cásticos mais utilizadas por programas de melhores soluções encontradas ficam presas
atracamento molecular proteína-ligante é a em mínimos locais. Múltiplas execuções do
de Algoritmos Evolucionistas (AE). Estes al- algoritmo são uma saída óbvia para se tentar
goritmos são inspirados no processo biológico uma exploração mais satisfatória do espaço
de evolução de populações. Esses algoritmos de configurações associado aos modos de
pertencem à área de Computação Evolucio- atracamento ligante-receptor. Porém, estes
nista (CE), que abrange vários tipos de algo- problemas tendem a se tornar ainda mais im-
ritmos, tais como Algoritmos Genéticos (AG), portantes e difíceis de enfrentar quando se li-
Estratégias de Evolução (EE), Evolução Dife- da com ligantes altamente flexíveis (com
rencial (ED), Otimização por Colônia de For- mais de 10 ligações químicas rotacionáveis)
migas (OCF), Busca Tabu (BT) e Enxame de e/ou se considera a flexibilidade da proteína
Partículas (EP). Dentre esses, diversas vari- em algum nível.
antes de Algorimos Genéticos têm sido im- O programa DockThor (disponível através de portal
plementadas para o atracamento de ligantes web www.dockthor.lncc.br) tenta minimizar este pro-
flexíveis. blema através do uso de um AG que procura preservar
AGs são baseados no princípio de so- e obter em uma única execução do algoritmo uma
brevivência do mais adaptado, proposto pela multiplicidade de modos de ligação proteína-ligante.
teoria da evolução de Darwin. Ao contrário Devido à alta complexidade e modalidade (presença de
dos métodos MC e de outros métodos esto- muitos mínimos locais na superfície de energia) desta
cásticos que requerem uma única configura- busca, principalmente para ligantes altamente flexí-
ção inicial, AGs trabalham com uma veis, uma questão crítica é a preservação de diversida-
população de indivíduos, onde cada indivíduo de útil na população. O objetivo é permitir a
representa uma possível solução para o pro- investigação de múltiplas regiões de alta aptidão (ni-
blema a ser resolvido. A cada geração, novos chos) em paralelo, de tal forma a se reduzir as chances
indivíduos são gerados através da troca de de convergência para ótimos locais de baixa qualidade.
“genes” entre dois indivíduos “pais” (recombi- Para a preservação de múltiplas soluções na popula-
nação) e de mudanças aleatórias nos valores ção foi proposto o método MRTS (Modified Restricted
dos “genes” (mutação). Este processo é re- Tournament Selection), baseado no método de seleção
petido de maneira que a população evolua por torneio restrito (RTS). O método MRTS possui a
para melhores soluções, até que um critério vantagem de priorizar a preservação de diversidade
“útil” na população, ou seja, incentiva a preservação de funções de avaliação, que variam principal-
múltiplas soluções de alta aptidão na população ao mente no número e tipo de termos, na sua
mesmo tempo em que aumenta a probabilidade de se complexidade matemática e na forma de pa-
encontrar o mínimo global. rametrização. Para reduzir o custo computa-
Os programas MolDock, PRO_LEADS, SODOCK, cional, uma função mais simples costuma ser
PSO@Autodock, FIPSDOCK e Autodock Vina são utilizada durante a avaliação das conforma-
exemplos de programas de atracamento que utilizam ções geradas pelo método de busca. Já nas
estratégias de otimização estocástica. O MolDock utili- etapas finais do atracamento molecular, uma
za um algoritmo de evolução diferencial. Os programas função de avaliação mais complexa e sofisti-
SODOCK, PSO@Autodock e FIPSDock utilizam variantes cada é empregada de forma a obter uma
do algoritmo de otimização por enxame de partículas maior acurácia na predição do correto modo
(particle swarm). O PRO_LEADS utiliza um algoritmo de ligação e na predição da afinidade do li-
de busca Tabu. O programa AutoDock Vina implementa gante pelo receptor. As funções de avaliação
um algoritmo similar ao utilizado pelo programa de mais utilizadas no atracamento molecular re-
atracamento ICM. Neste algoritmo, uma sucessão de ceptor-ligante podem ser classificadas em
passos consistindo de mutação e busca local são efe- três tipos: baseadas em campo de força, em-
tuados, onde o resultado de cada passo é aceito ou não píricas e baseadas em conhecimento.
de acordo com o critério de Metrópolis. Funções de avaliação baseadas em
campos de força constituem-se em uma so-
Funções de avaliação ma de termos advindos de algum campo de
força molecular clássico, cuja parametrização
Os métodos de busca geram uma gran- pode ser feita utilizando dados experimentais
de quantidade de conformações do ligante ou provenientes de cálculos quânticos (po-
durante o atracamento molecular. As funções dendo também ser a combinação de ambos).
de avaliação são combinadas aos métodos de Os termos de energia são divididos em ter-
busca para avaliar a qualidade destas confor- mos não-ligados (associados a interações de
mações de forma a ordená-las de acordo com van der Waals, eletrostáticas e ligações de hi-
a sua afinidade pelo receptor. Uma função de drogênio) e termos ligados (representando
avaliação deve ser capaz de distinguir o modo normalmente a energia associada à torção de
de ligação experimental dos outros encontra- ligações químicas). Outros termos são nor-
dos pelo método de busca (ou seja, previsão malmente utilizados para tentar incorporar
do modo de ligação). Também deve ser capaz efeitos adicionais, tais como energia de sol-
de ordenar corretamente uma lista de ligan- vatação e interações hidrofóbicas. Exemplos
tes com relação às suas afinidades pela ma- de campos de força moleculares clássicos
cromolécula receptora (triagem virtual) e são GROMOS, AMBER, CHARMM e MMFF94.
prever as respectivas energias livres de liga- As funções empíricas são aquelas de-
ção (predição de afinidade). Sendo assim, o senvolvidas utilizando complexos receptor-li-
desempenho de uma função de avaliação está gante com estruturas tridimensionais e
diretamente relacionado à sua capacidade de afinidades conhecidas. A partir destes dados,
predição do correto modo de interação do li- seus termos são automaticamente ajustados
gante e da sua afinidade pelo receptor alvo. de forma a reproduzir os dados experimentais
Estas funções são modelos matemáti- de afinidade de ligação com a maior acurácia
cos, geralmente lineares, formados por dife- possível. Neste sentido, estas funções se ba-
rentes termos relacionados às propriedades seiam na ideia de que a energia livre de liga-
físico-químicas envolvidas na interação de ção pode ser relacionada através do
uma pequena molécula ligante com seu sítio somatório de variáveis não correlacionadas.
de ligação a um receptor. De acordo com o Cada variável possui um fator relativo de es-
objetivo e a etapa do estudo de atracamento calonamento, parametrizado de forma a ma-
molecular, podem ser utilizadas diferentes ximizar a correlação com os dados
experimentais. A representação geral de uma construção de uma função baseada em co-

função empírica é nhecimento podem estar mal representadas
no conjunto de treinamento utilizado ou ainda
∆G = Wi . ∆Gi mal parametrizadas, tornando o uso destas
funções restrito. Uma vantagem deste tipo de
em que Wi é o coeficiente de cada termo ∆Gi função é que, devido à relativa simplicidade de
referente à determinada propriedade química seus termos, elas conseguem ser tão rápidas
considerada. A parametrização de uma fun- quanto as funções empíricas. Alguns
ção empírica tem como objetivo encontrar os exemplos de funções baseadas em conheci-
valores de Wi que maximizam a correlação da mento são DrugScore, RF-Score e PMF.
energia de ligação total (∆G) com os dados É importante notar que não existe uma
experimentais de afinidade de um conjunto de função de avaliação universal, assim como
complexos receptor-ligante que treinam o uma classe de função não é necessariamente
modelo (chamado conjunto de treinamento). melhor que outra ou geral o suficiente para
Cada função empírica se diferencia no número ser utilizada com sucesso em qualquer estu-
e nos tipos de termos utilizados, bem como do de atracamento. Para obter maior eficiên-
na forma e no conjunto de treinamento utili- cia e confiabilidade, o ideal é utilizar a função
zado para a sua parametrização. São de avaliação que mais se adequa ao problema
exemplos de funções empíricas ChemScore, a ser pesquisado. Por exemplo, é necessário
X-Score e GlideScore. saber se todos os tipos de átomos do recep-
Outro grupo de funções de avaliação tor e do ligante em estudo são definidos na
são as baseadas em conhecimento. A inspira- função de avaliação escolhida. Ainda, se a
ção para este tipo de função provém da me- função de avaliação foi parametrizada e tes-
cânica estatística em sistemas de fluidos tada para a classe do receptor e do ligante
simples, que empregam potenciais de força estudado. Assim, para estudo de carboidra-
média (potentials of mean force, PMF), sendo tos, o ideal é utilizar uma função que tenha
posteriormente modificadas para serem em- incluído ligantes desta classe no conjunto de
pregadas em estudos de predição de estrutu- treinamento utilizado na parametrização. Re-
ras de proteínas e estimação de constante de alizar estudos tentando reproduzir complexos
afinidade receptor-ligante. determinados experimentalmente (o chama-
Estas funções são construídas a partir do redocking) também auxilia a diagnosticar
de análises estatísticas entre os pares de se a função de avaliação escolhida é capaz de
átomos dos complexos receptor-ligante re- reproduzir os dados experimentais do com-
solvidos experimentalmente. Seus termos plexo receptor-ligante (mais frequentemente
são derivados a partir das frequências obser- proteína-ligante).
vadas de interações específicas pré-definidas Estimar a constante de afinidade, como
entre os pares de átomos de cada complexo. dito anteriormente, ainda é um desafio im-
Com isto, as funções baseadas em conheci- portante na área da modelagem molecular.
mento tendem a capturar efeitos de intera- Em estudos de triagem virtual, por exemplo, é
ções mais específicas e de modelagem mais interessante utilizar mais de uma função de
complexa. Da mesma forma que as funções avaliação e comparar os resultados obtidos
empíricas, estas funções se diferenciam pelo para chegar a um consenso. Entretanto, a
tamanho do conjunto de treinamento e no tipo análise qualitativa dos modos de ligação en-
de interações receptor-ligante consideradas contrados, tais como a presença de intera-
durante a parametrização. Uma desvantagem ções intermoleculares consideradas es-
das funções baseadas em conhecimentos é senciais para o alvo estudado, é de grande
que dependem de um conjunto de treinamen- importância na detecção de falso-positivos.
to bastante amplo para a parametrização.
Além disso, as interações necessárias para
Flexibilidade da Proteína ormente:

i) métodos associados ao mecanismo
A introdução da flexibilidade da proteína de encaixe induzido, onde são conside-
pelos algoritmos de atracamento molecular é rados os movimentos locais da proteína;
atualmente um dos principais desafios desta ii) métodos associados ao mecanismo
área de pesquisa. Isto se deve ao grande nú- de conjunto de conformações (ensemble
mero de graus de liberdade a serem conside- docking em inglês), em que são consi-
rados, principalmente relacionados aos graus derados movimentos de grande e larga
de liberdade dos movimentos do esqueleto escala; e
peptídico e das cadeias laterais dos resíduos iii) métodos híbridos, que levam os dois
de aminoácidos da proteína. tipos de mecanismos e procuram consi-
Nos últimos anos, várias metodologias derar um amplo espectro de movimen-
que procuram incorporar este efeito têm sido tos da proteína.
propostas e descritas na literatura, impulsio-
nadas por dois importantes fatores. O pri- Uma das estratégias mais simples de introduzir a
meiro é que o tratamento da flexibilidade da flexibilidade local da proteína é a de suavizar o potenci-
proteína é cada vez mais reconhecido como al repulsivo entre átomos do ligante e da proteína, isto
um aspecto de extrema relevância em estu- é, suavizar o termo de r-12 do potencial de Lennard-Jo-
dos de planejamento racional de fármacos nes, técnica esta conhecida na literatura como Recep-
baseado na estrutura do seu receptor bioló- tor Soft-Docking. Na prática, isto permite que os
gico. São crescentes as evidências de que al- ligantes possam se acomodar mais facilmente nas re-
vos moleculares de grande interesse para a giões de interação, levando em conta a flexibilidade
indústria farmacêutica passam por importan- inerente da proteína. Do ponto de vista da superfície de
tes mudanças conformacionais quando inte- energia isto corresponde a alargar as regiões de míni-
ragindo com ligantes. O segundo fator foi o mo, evitando assim que um eventual posicionamento
grande crescimento do poder de processa- incorreto de um átomo da proteína (dentro da aproxi-
mento dos computadores ocorrido nos últi- mação de atracamento com a proteína rígida) possa
mos anos, o que tornou possível o fazer explodir a energia de interação proteína-ligante,
desenvolvimento de novas metodologias, al- mesmo que esta esteja muito próxima da observada
goritmos e abordagens, que seriam inviáveis experimentalmente.
em estudos de planejamento de fármacos há Esta técnica também é utilizada para acelerar a
poucos anos. convergência da busca conformacional. Normalmente,
A flexibilidade da proteína pode estar a intensidade da suavização é utilizada de forma de-
associada a diferentes tipos de movimentos, crescente, permitindo que no início do processo de
tais como movimentos locais (como o movi- busca possa haver certa sobreposição entre os átomos
mento de cadeias laterais de resíduos de do ligante e da proteína. Muitos programas de atraca-
aminoácidos localizados no sítio de ligação), mento utilizam esta suavização embutida na sua fun-
movimentos de média escala (como o rear- ção de avaliação. Uma das desvantagens deste método
ranjo de alças ou reposicionamento de héli- é que ele não é capaz de levar em consideração mu-
ces) e movimentos de grande escala, danças conformacionais mais significativas do recep-
associados a movimentos de domínios da tor. Outra desvantagem é a possibilidade de se
proteína (Figura 3-9). Dependendo dos tipos introduzir erros na avaliação da energia de interação li-
de movimentos que se quer incorporar, dife- gante-proteína e de levar muitas vezes à obtenção de
rentes tipos de metodologias são passíveis de falsos positivos e/ou a um conjunto de soluções possí-
serem utilizadas para um tratamento ade- veis cujas energias encontram-se muito próximas, não
quado. De maneira geral, as metodologias sendo possível discriminá-las energeticamente.
existentes podem ser divididas em três cate- Os métodos de atracamento mais so-
gorias, associadas aos três mecanismos de fisticados que procuram incorporar a flexibi-
encaixe ligante-proteína mencionados anteri- lidade local da proteína simulando um
processo de encaixe induzido fazem isso ge- grama ICM/IFREDA utiliza o método de Monte
rando diversas conformações da proteína Carlo seguido de minimização de energia para
concomitantemente com o processo de busca otimizar cadeias laterais e/ou partes flexíveis
conformacional do ligante dentro do sítio de do esqueleto peptídico. Os programas
ligação. Essa abordagem implica em selecio- AutoDock4 e GOLD utilizam algoritmos gené-
nar graus de liberdade adicionais que sejam ticos para introduzir flexibilidade nas cadeias
representativos da flexibilidade da proteína laterais de resíduos. O programa
durante o processo de encaixe-induzido. Nor- ROSETTALIGAND utiliza um método de Monte
malmente, são selecionados graus de liber- Carlo para explorar simultaneamente os
dade associados a cadeias laterais de graus de liberdade associados ao ligante, às
resíduos importantes no sítio receptor e, em cadeias laterais dos resíduos e ao esqueleto
alguns casos, a regiões específicas do esque- peptídico da proteína.
leto peptídico da proteína, tais como alças Os métodos que se baseiam no meca-
flexíveis que estejam próximas do sítio e que nismo de conjunto-de-conformações fazem
possam interagir diretamente com os ligan- uso de um número discreto de conformações
tes. representativas da flexibilidade da proteína ao
O problema com esta abordagem é que invés de considerar a flexibilidade da proteína
a complexidade do processo de busca cresce explicitamente durante o processo de atraca-
a cada grau de liberdade adicionado, aumen- mento molecular (Figura 7-9). Estas confor-
tando o custo computacional e diminuindo a mações podem ser obtidas de distintos
probabilidade do algoritmo encontrar o míni- experimentos, utilizando as técnicas de difra-
mo global da superfície de energia. É neces- ção de raios-X e/ou RMN. Também podem ser
sário que o modelador faça uma escolha obtidas a partir de modelos gerados por téc-
criteriosa de quais cadeias laterais deve con- nicas de predição de estruturas de proteínas,
siderar flexíveis. No caso de cadeias laterais a partir de simulações de dinâmica molecular
de resíduos de aminoácidos, a busca confor- ou utilizando a técnica de modos normais. Há
macional pode ser feita pela investigação evidências significativas na literatura de que o
exaustiva dos ângulos torcionáveis da cadeia uso de múltiplas conformações aumenta sig-
ou através de uma busca discreta entre con- nificativamente a probabilidade de obter su-
formações preferenciais através da utilização cesso em estudos de atracamento molecular.
do uso de bibliotecas de rotâmeros. É impor- Três questões importantes que se colo-
tante ressaltar que mesmo com a utilização cam a respeito destas abordagens e que dife-
destas bibliotecas, a inclusão da flexibilidade renciam os diversos métodos descritos na
de várias cadeias laterais pode facilmente le- literatura: i) como utilizar as diversas confor-
var a uma explosão combinatorial que preju- mações da proteína; ii) como gerar e selecio-
dica o desempenho dos algoritmos de nar as conformações da proteína; e iii) como
atracamento. ordenar os compostos considerando os atra-
Outra estratégia comumente utilizada camentos dos ligantes nas diversas confor-
para introduzir certa acomodação proteína-li- mações da proteína.
gante no processo de atracamento envolve o Com relação ao modo de utilização das
emprego de um algoritmo de otimização lo- conformações, a forma mais simples e usual
cal, tais como aqueles baseados na minimiza- é considerar cada conformação da proteína
ção do gradiente ou em Monte Carlo, para como rígida e realizar um estudo de atraca-
reinvestigar as configurações ligante-proteína mento molecular para cada conformação se-
geradas durante o processo de busca. O pro- lecionada, embora o custo computacional
grama Prodock é um exemplo que utiliza a cresça proporcionalmente ao número de
minimização por gradiente durante o proces- conformações da proteína selecionadas. Uma
so de busca para incorporar a flexibilidade em metodologia de pré-seleção das conforma-
regiões da cadeia principal da proteína. O pro- ções que reduza significativamente o seu nú-
mero, sem grande perda da informação sobre melhor solução encontrada nos experimentos de atra-
a flexibilidade do receptor (por exemplo, camento onde cada ligante é atracado em cada uma
através de agrupamento por semelhança ou das conformações representativas da flexibilidade da
construção de clusters), é algo extremamen- proteína.
te desejável. A metodologia de grade é uma estratégia utilizada
Outra forma possível é o uso de grades de energia para aproximar o cálculo das energias eletrostáticas e
(Figura 8-9) combinadas. Os métodos de grade de de van der Waals (outros termos da função energia
energia combinada consistem na combinação ou junção também podem ser utilizados), reduzindo drastica-
de diversas estruturas/conformações rígidas de uma mente o custo computacional do cálculo da energia de
mesma proteína, em uma única grade de energia. A interação intermolecular proteína-ligante. Uma grade
combinação das grades de energia pode ser realizada de energia pode ser representada como uma malha de
de várias maneiras. Geralmente, a média ou a média pontos tridimensional, em que cada ponto armazena o
ponderada entre estas grades é calculada, gerando potencial total eletrostático e de van der Waals. Os va-
uma única grade. O programa DOCK foi o primeiro a lores da energia são obtidos através da interpolação
implementar conjuntos de grades de energia para a in- dos valores armazenados nos oito pontos que definem
clusão da flexibilidade da molécula receptora. uma célula cúbica da grade. O espaçamento entre os
Osterberg e colaboradores compararam vários pontos da grade (discretização, ) determina o nível da
métodos de grade combinada no programa AutoDock. aproximação: quanto maior a discretização, menor a
Um deles utilizava a média entre as grades, outro o va- precisão no cálculo da energia de interação intermole-
lor mínimo e os outros dois utilizavam médias ponde- cular. O tamanho e formato da grade de energia é dado
radas. Os resultados obtidos demonstram que a em função das suas três dimensões ( , e ). O
utilização de médias ponderadas é melhor do que a uti- centro da grade de energia pode ser definido de diver-
lização da média e do mínimo. O programa FlexE apre- sas formas, como por exemplo centralizar no átomo
senta um método semelhante, onde a principal de um resíduo de aminoácido específico do sítio ativo
diferença reside na forma de tratamento das regiões ou de um ligante de referência. Exemplos de programa
dissimilares das estruturas do receptor. Os resultados que utilizam grade de energia são GOLD, Glide,
obtidos pelo programa FlexE são de qualidade similar à AutoDock Vina e DockThor.
Figura 7-9: Atracamento molecular utilizando conjunto de conformações (adaptado de Guedes e

colaboradores, 2013).
Figura 8-9: Representação de uma grade de energia cúbica centrada no sítio de ligação do
inibidor indinavir da protease do HIV-1, com as dimensões de cada eixo ( , e ). Em
destaque está representada a indexação dos oito pontos de uma célula e a discretização da
grade (r). As energias de interação são obtidas da interpolação dos valores, de cada termo da
energia, pré-armazenados nos oitos pontos da célula cúbica que contém um determinado
átomo do ligante.
Com relação à geração das conforma- um ligante) ou na sua forma holo (complexada a um li-
ções, as técnicas de simulação de dinâmica gante). Resultados descritos na literatura indicam que
molecular e modos normais são as mais utili- simulações na forma holo produzem resultados me-
zadas. Associada ao uso destas técnicas, está lhores, dando uma descrição mais adequada do sítio de
a importante questão de qual a amplitude de ligação. Na realidade, para não se obter um viés para
movimentos do receptor proteico é necessá- um determinado modo de ligação de um ligante espe-
ria considerar. Ou seja, se estamos tratando cífico, a estratégia recomendada é a de se realizar vári-
da flexibilidade local de um receptor (como o as simulações com ligantes distintos. Estes modos de
movimento de uma alça) ou de movimentos ligação podem ser obtidos de resultados experimentais
de mais larga escala (como movimentos de ou a partir de resultados obtidos de simulações de
domínios da proteína). Esta importante ques- atracamento molecular considerando vários ligantes e
tão está diretamente relacionada com a ca- o receptor rígido.
pacidade de amostragem do espaço de A questão do número de conformações
configurações do receptor por parte da técni- e de como selecionar aquelas representativas
ca de simulação utilizada. do processo em estudo é ainda uma questão
Um exemplo de metodologia que usa a técnica de em aberto e possivelmente dependente do ti-
dinâmica molecular é o Relaxed Complex Scheme, que po de sistema avaliado. Uma das metodologi-
utiliza simulações longas de dinâmica molecular consi- as mais populares busca capturar a
derando todos os átomos do sistema ligante-proteína- diversidade estrutural presente na simulação
solvente. A escala de tempo das simulações variam de utilizando o agrupamento de configurações a
2 ns a 0,5 µs. Uma questão importante a respeito des- partir do valor de RMSD (Root-Mean-Square
ta técnica é se as simulações devem ser realizadas Deviation). É importante ressaltar que, neste
com a proteína na sua forma apo (não complexada a processo, ao invés de se utilizar a estrutura
de toda a proteína, são normalmente utiliza- os quais se espera estarem associados aos movimen-
das as informações relativas a alguns resídu- tos funcionais de larga escala da proteína. A partir da
os chave no sítio de ligação da proteína. diagonalização da matriz Hessiana, obtida das deriva-
Normalmente, por questões associadas ao das segundas da função energia potencial associada a
custo computacional, procura-se selecionar um campo de força clássico, obtém-se as direções de
um conjunto entre 5-10 conformações. movimento dos átomos (associadas aos autovetores
A questão de como ordenar os com- da matriz) e as frequências de vibração (associadas aos
postos levando-se em conta os atracamentos respectivos autovalores). Versões mais simplificadas
do ligante nas diversas conformações da da técnica de modos normais têm sido desenvolvidas
proteína também não é uma questão fácil de nos sentido de permitir o uso da técnica em sistemas
ser respondida. Uma solução é simplesmente muito grandes. O método conhecido como Elastic
utilizar a média das energias dos ligantes com Normal Mode simplifica o sistema molecular de tal
relação às múltiplas conformações da proteí- modo que apenas os carbonos alfa da proteína, conec-
na. Outra possibilidade é considerar a me- tados por potenciais harmônicos, sejam considerados.
lhor/menor energia obtida por um ligante ao Já a técnica PCA utiliza as configurações geradas
interagir com determinada conformação. por uma DM para identificar os graus de liberdade co-
Existem estudos na literatura que mostram a letivos da proteína. Esta técnica também implica na di-
importância de se considerar ligantes que se agonalização de uma matriz, nesta caso, a matriz de
ligam fortemente a um conjunto específico (e correlação dos movimentos dos átomos da proteína,
muitas vezes de baixa probabilidade de ocor- sendo que os autovetores associados aos maiores au-
rência) de configurações da proteína. São jus- tovalores se referem aos movimentos de mais larga
tamente estes casos os mais interessantes, escala.
pois abrem oportunidades de desenvolvimen- Dependendo do sistema em estudo é
to de novos fármacos associados a modos de desejável que seja feita uma combinação das
ligação não usuais. técnicas anteriormente descritas. Neste sen-
Outra abordagem utilizada é a reavalia- tido, conformações geradas utilizando a téc-
ção da energia de ligação utilizando metodo- nica de Modos Normais para refletir
logias mais sofisticadas. Um dos grandes movimentos amplos da proteína podem servir
problemas com esta técnica é o custo com- de base para estudos de DM relativamente
putacional das simulações de dinâmica mole- curtas. Estas irão refletir o arranjo local das
cular. Este problema se torna ainda mais cadeias laterais associado àquela região do
importante quando estão envolvidos movi- espaço de configurações.
mentos de larga escala da proteína. Nestes Estas configurações utilizadas no con-
casos é possível que técnicas como DM ace- texto da técnica de conjunto de conformações
lerada, tais como Replica Exchange, metadi- podem ser investigadas com métodos de
nâmica e DM utilizando a aproximação para atracamento baseados no mecanismo de en-
solvente implícito possam ser utilizadas para caixe induzido ou em uma abordagem utili-
se obter uma melhor amostragem do espaço zando grades de energia combinada.
das configurações.
O uso das técnicas de Análise de Modos 9.4. Triagem em larga escala
Normais e Análise de Componentes Principais
(PCA, Principal Component Analysis) para in- Cada vez mais as indústrias farmacêuti-
vestigar movimentos de larga escala de pro- cas e os grupos de pesquisa que trabalham na
teínas talvez sejam as melhores opções para busca de moléculas candidatas a novos fár-
obter uma boa amostragem de conformações macos necessitam de metodologias mais rá-
em estudos de atracamento envolvendo a pidas, eficazes e de baixo custo. Neste
técnica de conjunto de conformações. cenário, a triagem virtual (virtual screening,
A técnica de Análise de Modos Normais procura ca- em inglês) tem se destacado como uma im-
racterizar os modos de vibração de baixa frequência, portante ferramenta na busca de compostos
promissores. A triagem virtual consiste em conjunto de conformações da molécula re-

analisar computacionalmente uma grande ceptora (ensemble docking). Entretanto, o
quantidade de ligantes com o objetivo de se- custo computacional aumenta significativa-
lecionar, de acordo com algum critério pre- mente ao se incluir a flexibilidade do receptor
definido, compostos provavelmente mais ati- em estudos de triagem virtual.
vos frente a determinado alvo farmacológico Quando não é possível obter a estrutura
(ou seja, um receptor). Esta abordagem pode tridimensional do receptor, ainda que por téc-
ser empregada para complementar os resul- nicas sofisticadas de predição de estruturas
tados obtidos pela triagem experimental de macromoléculas, então o método baseado
(high-throughput screening, em inglês). na estrutura do ligante é empregado. Esta
A busca dos ligantes para o estudo de abordagem consiste na análise de similarida-
triagem virtual pode ser feita em bancos de de de propriedades estruturais e físico-quími-
estruturas de compostos disponíveis através cas de compostos ativos e inativos. Duas
de portais online, tais como ZINC, BindingDB, abordagens importantes incluem o estudo da
PubChem, SuperNatural e ChEMBL. Nestes relação estrutura-atividade (SAR,
bancos, a busca pode ser feita utilizando pro- structure–activity relationship ou QSAR,
priedades físico-químicas definidas pelo quantitative structure–activity relationship) e
usuário, como número de ligações rotacioná- a modelagem farmacofórica.
veis e logP ou, em alguns deles, desenhar o Apesar de a triagem virtual baseada em
fragmento desejável na estrutura dos ligan- estrutura ser uma técnica amplamente utili-
tes. Estes filtros são comumente utilizados zada, o protocolo escolhido pelo pesquisador
com o objetivo de reduzir o número de com- necessita ser validado para aumentar a confi-
postos a serem analisados pela triagem vir- abilidade dos resultados. Primeiramente, é
tual, especificando o perfil desejado para preciso avaliar se o método de busca e a fun-
estes ligantes. Após selecionar a lista de li- ção de avaliação escolhidos são capazes de
gantes para serem extraídos, geralmente o reproduzir o modo de ligação experimental de
banco fornece uma tabela com as principais compostos originalmente complexados com o
propriedades químicas dos compostos. Caso receptor alvo.
seja necessário, como no caso da construção Outra análise que deve ser feita é a ca-
de uma biblioteca de ligantes própria do pacidade de o protocolo diferenciar as molé-
usuário, é possível usar programas que fil- culas ativas das inativas, conhecidas como
tram e quantificam tais propriedades, como o casos falso-positivos. Esta validação é de
FAF-Drugs. grande importância na triagem virtual, uma
A triagem virtual pode ser feita utilizan- vez que auxilia a reduzir o número de molé-
do diversas metodologias que, de forma ge- culas inativas, limitando assim o número de
ral, agrupam-se naquelas baseadas na falsos-positivos.
estrutura do receptor (structure-based) e na- O cálculo da proporção de moléculas ativas frente
quelas baseadas na estrutura do ligante ao número de inativas presentes em um conjunto de li-
(ligand-based). O método baseado na estru- gantes com dados de atividade experimental previa-
tura é mais utilizado quando a estrutura tridi- mente conhecidos pode ser feito pelo fator de
mensional da molécula receptora está enriquecimento (Enrichment Factor, EF). As moléculas
disponível com boa qualidade. Nesta metodo- presumidamente inativas (decoys) possuem proprie-
logia, é realizado um estudo de atracamento dades físicas similares (tais como massa molecular,
molecular de todos os ligantes previamente número de ligações rotacionáveis, logP, número de
selecionados, ao invés de apenas uma molé- aceptores/doadores de ligações de hidrogênio) às ati-
cula. É possível, assim como no estudo de vas, entretanto distintas topologicamente (ou seja, exi-
atracamento molecular tradicional, conside- bem diferentes estruturas químicas). Para validar a
rar a flexibilidade do receptor diretamente função de avaliação, utiliza-se um conjunto de ligantes
pelo programa de atracamento ou utilizar um formado por essas moléculas inativas e por um núme-
ro geralmente pequeno de compostos ativos conheci- Alguns destes aspectos são a consideração
dos. O estudo de atracamento molecular é realizado, e da rugosidade e forma da superfície de ener-
então o EF é usado para medir a capacidade da função gia associada ao complexo receptor-ligante, a
ordenar, nas primeiras posições, determinada fração estimativa das entropias associadas ao pro-
de compostos ativos frente aos inativos. cesso de ligação, a consideração não só de
O desempenho dos diferentes protocolos de atra- múltiplas conformações (flexibilidade) do re-
camento molecular varia significativamente entre os ceptor mas também de múltiplos modos de
estudos de validação realizados, sendo influenciado di- ligação do ligante, a consideração das mu-
retamente pela metodologia empregada bem como danças na estruturação das moléculas de
pela composição do conjunto de de dados utilizado água no sítio receptor e da solvatação/de-
(classe dos receptores e perfil dos ligantes incluídos). solvatação do ligante e a consideração de
Quando o número de compostos ativos e inativos é si- efeitos de mudança de estados de protonação
milar, o método AUC (area under the receiver operating de resíduos do sítio receptor durante o pro-
characteristic) é mais apropriado para avaliar o de- cesso atracamento ligante-receptor.
sempenho do protocolo de triagem virtual.
Os compostos selecionados, conhecidos 9.6. Conceitos-chave
como hits, são encaminhados para as etapas
de síntese química (no caso de compostos Algoritmo: conjunto ordenado de instruções
apenas planejados ou não disponíveis para para resolver determinado problema.
compra) e estudos de atividade farmacológica
(testes in vitro e in vivo). Atracamento: método para prever o modo de li-
gação e a afinidade de ligação de uma
9.5. Considerações finais macromolécula receptora com outra mo-
lécula ligante (seja uma outra macromo-
A descoberta e planejamento de novos lécula ou uma molécula ligante pequena).
fármacos é um processo muito caro e muito
demorado. Para levar um novo fármaco ao Desenho racional de fármacos baseado em es-
mercado são necessários de 10 a 20 anos e o trutura: área de pesquisa que abrange os
custo estimado é de cerca de 800 milhões de métodos computacionais que utilizam in-
dólares. Abordagens in silico que possam re- formações da estrutura tridimensional da
duzir estes custos e acelerar o processo de molécula receptora para descoberta e/ou
descoberta e planejamento de novos fárma- desenvolvimento de novos fármacos.
cos são extremamente bem vindas e neces-
sárias. É importante ressaltar que já existem Encaixe induzido: modelo que sugere a existên-
diversos exemplos de moléculas que foram cia de mudanças conformacionais na mo-
descobertas/otimizadas utilizando técnicas lécula receptora e no ligante devido à
computacionais e que estão na fase de ensai- formação do complexo receptor-ligante.
os clínicos ou que já foram aprovadas para
uso terapêutico. Função de avaliação: função de pontuação que
É possível prever que, no futuro, meto- tem por objetivo quantificar a qualidade
dologias computacionais mais sofisticadas das soluções obtidas no atracamento mo-
terão um papel cada vez mais destacado em lecular.
estratégias de planejamento racional de fár-
macos. Neste sentido, alguns aspectos asso- Ligante: molécula que interage no sítio de liga-
ciados às metodologias de atracamento ção de uma macromolécula para formar
molecular discutidas neste capítulo necessi- um complexo, podendo induzir ou bloque-
tam de avanços teórico/metodológicos para ar determinada resposta biológica.
que se consiga obter uma melhor previsão
das constantes de afinidade receptor-ligante. Método de busca: algoritmo utilizado pelo atra-
camento molecular para encontrar os mo- 369–393, 2006.

dos de ligação do ligante no sítio receptor.
Explora os graus de liberdade translacio- TAYLOR, R. D.; JEWSBURY, P. J.; ESSEX, J. W. A
nais, rotacionais e conformacionais. review of protein-small molecule docking
methods. J. Comput. Aided Mol. Des.
pKa: logaritmo negativo da constante de acidez 16, 151–166, 2002.
ou constante de dissociação ácida (pKa =
-logKa). Mede a força de um ácido em so- TALELE, T. T.; KHEDKAR, S. A.; RIGBY, A. C.
lução. Successful applications of computer aided
drug discovery: moving drugs from
Receptor: macromolécula que possui um sítio de concept to the clinic. Curr. Top. Med.
ligação de interesse. Chem. 10, 127–141, 2010.
Reconhecimento molecular: mecanismo pelo

qual uma molécula se liga a outra com
perfil complementar, formando um com-
plexo.
Triagem virtual: metodologia de atracamento

molecular em larga escala, através da qual
dezenas, centenas ou milhares de ligantes
são avaliados no sítio de ligação de um
receptor.

KITCHEN, Douglas B.; et al. Docking and scoring
in virtual screening for drug discovery:
methods and applications. Nat. Rev.
Drug Discov., 3, 935–949, 2004.
MOBLEY, David L.; DILL, Ken A. Binding of

Small-Molecule Ligands to Proteins: ‘What
You See’ Is Not Always ‘What You Get’.
Structure, 17, 489–498, 2009.
GUEDES, Isabela A.; MAGALHÃES, Camila S.;

DARDENNE, Laurent E. Receptor–ligand
molecular docking. Biophys. Rev., 2013.
BROOIJMANS, Natasja; KUNTZ, Irwin D. Mole-

cular recognition and docking algorithms.
Annu. Rev. Biophys. Biomol. Struct.,
32, 335–373, 2003.
SPERANDIO, Olivier; et al. Receptor-based

computational screening of compound
databases: the main docking-scoring
engines. Curr. Protein Pept. Sci., 7,
10. Dicroismo Circular
Marcelo A. Lima
Edwin A. Yates
Ivarne L. S. Tersariol
Helena B. Nader
Representação das curvas de CD associadas a hélices cristalografia de raios-X. Isto ocorre porque o
α e folhas β. CD, ao contrário destes métodos, não possui
resolução atomística, ou seja, não é capaz de
10.1. Introdução identificar átomos específicos das moléculas
em estudo.
10.2. Luz polarizada No entanto, enquanto estruturas desor-
denadas (ou seja, desenoveladas, forma ado-
10.3. Quiralidade tada por aproximadamente a metade das
proteínas de mamíferos) tornam-se em
10.4. Instrumentação grande medida impróprias para estudos de
RMN e cristalografia de raios-X, o CD ainda é
10.5. Aplicações a biomoléculas capaz de lidar com suas estruturas. Além
disso, estudos de CD podem ser realizados
10.6. Situações práticas em solução, em condições bem próximas das
fisiológicas, fazendo deste método uma fer-
10.7. Conceitos-chave ramenta ideal para investigar as interações
entre moléculas envolvidas nos mais diversos
processos biológicos.
Por definição, espectroscopia nada mais
10.1. Introdução é do que o levantamento de dados físico-quí-
micos de um determinado sistema através da
O dicroismo circular (CD) é uma técnica transmissão, absorção ou reflexão da energia
espectroscópica utilizada para estudar uma radiante incidente. No caso do CD, a energia
grande variedade de moléculas quirais, tais incidente é a ultravioleta comumente na faixa
como fármacos, polímeros e biopolímeros, do UV próximo, 380 a 200 nm. Assim, o es-
em solução. Particularmente no caso das pectro de CD é gerado pela diferença na ca-
proteínas o CD, juntamente à cristalografia de pacidade de absorção dos componentes
raios-X (capítulo 13), o RMN (capítulo 12), o in- esquerdo e direito da luz circularmente pola-
fravermelho (capítulo 11) e métodos como a rizada (mais detalhes adiante) por moléculas
modelagem comparativa (capítulo 7) e a dinâ- quirais que possuem átomos de carbono as-
mica molecular (capítulo 8), exerce importan- simétricos e, consequentemente, diferentes
te papel na busca pelo conhecimento da atividades ópticas.
estrutura e função nucleicas. Tais informa- Esta capacidade de absorção de molé-
ções, por sua vez, são essenciais na busca culas quirais está diretamente ligada às dife-
por novos compostos com potencial terapêu- renças nos seus coeficientes de absorbância.
tico. Assim, diferentes moléculas ou partes delas
Para sistemas enovelados e estrutura- possuem CD em regiões específicas do es-
dos tridimensionalmente, como enzimas e pectro.
proteínas globulares, o CD é uma técnica de Em instrumentos de laboratório, espec-
baixa resolução quando comparado à RMN e tros de CD são normalmente registados no
ultravioleta (UV), tipicamente em comprimen- ligantes, como alguns carboidratos, possuem

tos de onda variando de 180 a 260 nm. Além um sinal de CD muito menor quando compa-
desta região, várias fontes de radiação sín- rado aos provenientes de uma proteína. As-
crotron estão disponíveis e possibilitam a ob- sim, o VCD pode ser utilizado para
tenção de espectros de CD com intervalos de monitorizar a interação de proteínas com
comprimento de onda consideravelmente açúcares diretamente e sem a necessidade de
maiores. Luz síncrotron é a radiação eletro- manipulação matemática dos espectros.
magnética produzida por elétrons de alta
energia através de um acelerador de partícu- 10.2. Luz polarizada
las. Essa luz abrange uma ampla faixa do es-
pectro eletromagnético, incluindo os raios-X, Para o estudo do CD, um importante
luz ultravioleta e infravermelha, além da luz conceito que devemos ter em mente é o da
visível. luz polarizada. A luz convencional, como a luz
De maneira geral, os espectros de CD solar e a luz de lâmpadas residenciais, são
podem ser utilizados para diversos tipos de exemplos de luz não polarizada, já que elas
estudos, incluindo-se: 1) enovelamento e es- emitem radiação que se propaga em todos os
trutura 2ária de proteínas; 2) estrutura de pro- planos. Isso ocorre porque a luz branca é
teínas de membrana inseridas em bicamadas composta por ondas eletromagnéticas que
lipídicas; 3) interação entre moléculas; 4) in- vibram em diversos planos perpendiculares à
terações entre macromoléculas, destacada- direção da propagação da luz (Figura 1A-10).
mente proteínas, ácidos nucleicos e Por outro lado, a luz polarizada é aquela que
carboidratos; 5) monitoramento da integrida- possui vibração em apenas um plano (Figura
de estrutural de moléculas sob aquecimento; 1B-10).
6) quantificação de alterações conformacio- No caso do CD, a luz utilizada é circular-
nais; 7) caracterização de domínios de proteí- mente polarizada (Figura 2-10), o que nada
nas, a qual pode ser empregada em mais é do que a combinação de duas ondas
comparações com modelos gerados compu- linearmente polarizadas, uma vertical e outra
tacionalmente; 8) análise de carboidratos; 9) horizontal, de mesma amplitude.
cinética rápida de enovelamento de proteínas A diferença de absorção da luz circular-
e montagem de complexos macromolecula- mente polarizada à direita e à esquerda dá
res, dentre outros. origem ao espectro de CD. Assim, temos que
Além do CD convencional (também cha- CD = AD – AE, onde AD representa a absorção
mado de eletrônico, aquele que ocorre na fai- da luz circularmente polariza à direita e AE a
xa do UV), também existem fenômenos de absorção da luz circularmente polariza à es-
dicroísmo circular que ocorrem na região do querda.
infravermelho, sendo este tipo de fenômeno
chamado de dicroismo circular vibracional
(VCD). Ele ocorre normalmente entre 3300 e
800 cm-1, e uma de suas principais vantagens
em relação ao CD é que, embora as transi-
ções eletrônicas tenham uma pequena dife-
rença entre o estado fundamental e o nível
excitado, nas transições vibracionais esta di-
ferença é bem maior do que nos espectros
contínuos, que possuem sinais distribuídos
continuamente em uma certa faixa espectral.
Assim, sinais com valores (comprimento de
onda) distintos são observados. Figura 1-10: Representação planar da luz não
O benefício experimental do VCD é que polarizada (A) e polarizada (B).
querda, respectivamente.
Adicionalmente, sabemos pela lei de
Lambert-Beer que ΔA = Δεcl, onde c repre-
senta a concentração da amostra e l o com-
primento do percurso óptico. Assim, a
resultante de todas essas características da-
rão origem ao espectro de CD de uma dada
molécula.
Figura 2-10: Representação planar da luz
circularmente polarizada. 10.4. Instrumentação
10.3. Quiralidade Um espectofotômetro de CD pode ser
esquematizado segundo apresentado na Fi-
A quiralidade significa a não sobreposi- gura 4-10. A luz da fonte (L) é dispersa no
ção de sua própria imagem com aquela proje- monocromador (MC), produzindo uma banda
tada em um espelho ou, em outras palvras, estreita de comprimentos de onda que passa
são imagens que não admitem plano de sime- através de um polarizador linear (PL).
tria. Um exemplo clássico de quiralidade é a
nossa mão: se colocarmos uma delas diante
de um espelho, ela produzirá uma imagem di-
ferente dela própria. A imagem gerada da
mão direita será a da mão esquerda e vice-
versa. Contudo, as mãos não são sobreponí- Figura 4-10: Representação esquemática de
veis, ou seja, quando sobrepostas não se tor- um espectrofotômetro de CD. Fonte de luz
nam equivalentes (Figura 3-10). Esta (L); Monocromador (MC); Polarizador linear
característica é apresentadas por algumas (PL); Modulador fotoelástico (MF); Amostra
moléculas, que são chamadas assim de isô- (A); Fotomultiplicador (FM). Figura adaptada
meros ópticos ou enantiômeros (ver capítulo da Internet.
2).
No CD, quando a luz polarizada passa O polarizador divide o feixe monocro-
através de uma substância quiral, seus com- mático não polarizado em dois feixes linear-
ponentes podem ser resolvidos e absorvidos mente polarizados. Assim, um dos dois feixes
com intensidades diferentes. A diferença da linearmente polarizado passa pelo modulador
absorbância, ΔA, entre a luz polarizada para a fotoelástico (MF), que consiste de uma placa
direita e para a esquerda, ΔA = AD - AE, está transparente e opticamente isotrópica, ou
relacionada com seus respectivos coeficien- seja, de mesmo índice de refração, ligada a
tes de absorbância, Δε = εD - εE, onde εD e εE um cristal de quartzo. Quando um campo
são os coeficientes molares de adsorção da elétrico alternado é aplicado, a luz que emer-
luz circularmente polarizada à direita e à es- ge a partir dos interruptores do MF volta com
a frequência do campo elétrico aplicado.
Se a amostra (A) possui sinal de CD, a
quantidade de luz absorvida varia periodica-
mente com a polarização da luz incidente e,
portanto, a intensidade de luz que atinge o fo-
tomultiplicador (FM) apresenta variações de
intensidade sinusoidal na frequência do cam-
Figura 3-10: Representação da imagem po aplicado ao MF. Portanto, o sinal de saída
especular (A) de dois enantiômeros do do fotomultiplicador é constituído por um si-
aminoácido alanina (B). nal de corrente elétrica alternada sobreposto
a um sinal de corrente elétrica contínua. aromáticas são relativamente bem definidas,

Posteriormente, o componente de cor- e possuem uma estrutura característica de-
rente alternada é filtrado e amplificado. A re- vido a efeitos vibracionais. Em proteínas com
lação entre a corrente alternada e o um pequeno número de cadeias laterais aro-
componente de corrente contínua é direta- máticas, as bandas são frequentemente atri-
mente proporcional ao dicroísmo circular da buídas a um dos três tipos de resíduos
amostra, sendo esta relação registada em aromáticos e, em alguns casos, através de
função do comprimento de onda. mutagênese sítio dirigida, a resíduos específi-
cos da sequência proteica. A histidina, apesar
10.5. Aplicações a biomoléculas de ser um aminoácido aromático, possui um
grupamento imidazólico que apresenta sinal
Proteínas de CD abaixo de 220nm e que, em grandes
concentrações pode até atrapalhar as medi-
Na faixa do UV distante, os sinais (ou ções.
bandas) relacionadas à ligação peptídica do- As faixas de CD das ligações dissulfeto são nor-
minam o espectro de CD de proteínas. Este malmente distinguíveis das faixas de CD aromáticas, já
cromóforo apresenta duas transições eletrô- que são menos definidas. Em proteínas que não possu-
nicas na faixa do UV distante: em aminoácidos aromáticos, não há bandas de CD em
i) transições n→π*, por volta de 220 comprimentos de onda acima de 300 nm. Muitos gru-
nm; pos prostéticos, coenzimas, íons de metais de transi-
ii) transições π→π*, por volta de 190 nm ção e outros ligantes apresentam bandas de
para amidas secundárias (ligação peptí- absorbância nesta faixa de comprimento de onda, e
dica para todos os aminoácidos, exceto estas estão associadas a bandas de CD em complexos
a prolina), e em torno de 200 nm para com proteínas.
amidas terciárias (ligação peptídica en- Os diferentes tipos de estrutura 2ária de
volvendo prolina). proteínas (ver capítulo 2) possuem espectros
de CD característicos, estabelecidos a partir
A transição n→π* possui coeficiente de de modelos de oligo- e polipeptídios com es-
absorção fraco, embora dê origem a bandas trutura 2ária conhecida. A Figura 5-10 apre-
fortes de CD. Já a transição π→π* está associ- senta os espectros de CD de hélices α, folhas
ada à elevada absorbância e fortes bandas de β e estruturas irregulares (desordenadas).
CD. Devido ao forte momento dipolar de tran- Hélices α apresentam o espectro de CD
sição eletrônica, as transições π→π* em liga- mais distinto e mais forte, com duas bandas
ções peptídicas vizinhas interagem umas com negativas de grandeza comparável por volta
as outras, dando origem a duas ou mais ban- de 222 e 208 nm, além de uma forte banda
das de CD. positiva com sua máxima em torno de 190
As cadeias laterais aromáticas dos resí- nm.
duos de fenilalanina, tirosina e triptofano pos- A banda em torno de 222 nm resulta
suem fortes bandas de absorbância no UV das transições n→π* do grupo amida, en-
distante, contribuindo para o espectro de CD quanto que as bandas por volta de 208 e 190
de proteínas. Na maioria dos casos, tal contri- nm surgem das transições π→π* do mesmo
buição é pequena em comparação com as dos grupo. Estas transições π→π* estão relacio-
aminoácidos mais numerosos. Porém, para nadas a grupos amida mantidos em uma geo-
algumas proteínas, as faixas do CD aromático metria helicoidal bem definida.
são claramente discerníveis. As interações entre os momentos dipo-
No UV próximo, o espectro de CD de lares de transição em um arranjo helicoidal
proteínas é dominado pelas transições eletrô- dão origem às três bandas de absorbância,
nicas dos grupos aromáticos e ligações dis- uma a 208 nm, polarizada paralelamente ao
sulfeto. As bandas das cadeias laterais eixo da hélice, e duas bandas a 190 nm, pola-
200 nm (Figura 5-10). Porém, alguns possu-

em uma banda positiva em comprimentos de
onda maiores e outras um ombro negativo
também em comprimentos de onda maiores.
Carboidratos
O CD tem aplicações importantes no
estudo de carboidratos, embora estes sejam
mais limitadas do que para as proteínas e
ácidos nucleicos. Dos cromóforos comuns
aos carboidratos, apenas o grupo amida (
açúcares N-acetilados) e grupos carboxila (
ácidos urônicos) possuem bandas de CD aci-
ma de 200 nm. Grupamentos éter, hidroxila,
acetal e cetal apresentam suas bandas de CD
próximas do limite de detecção dos espec-
Figura 5-10: Espectros de CD de estruturas trofotômetros de CD convencionais, em torno
do tipo α-hélices, folhas-β e estruturas de 190 nm. Transições de alta energia são es-
irregulares. tudadas apenas em instrumentos à vácuo,
mas sofrem fortes interferências dos solven-
rizadas em duas direções perpendiculares ao tes, fazendo com que tais estudos sejam li-
eixo da hélice. Para a hélice à direita, a banda mitados a filmes finos de sólidos.
paralela está associada a uma banda de CD Monossacarídeos têm sido extensiva-
negativa a 208 nm, e as bandas perpendicula- mente investigados, e algumas correlações
res com a uma banda positiva a 190 nm. conformacionais dos anéis podem ser extraí-
O CD de uma hélice α é, em sua maioria, das em regiões do espectro de CD por volta
independente do solvente e da sequência de de 170 nm. Mais uma vez, tais medições são
aminoácidos. Resíduos aromáticos (Phe, Tyr e limitadas, já que normalmente só podem ser
Trp) podem modificar o espectro de CD de feitas em CDs ligados a luz de síncrotron e
uma hélice α, especialmente se eles constitu- também devido a interferência dos solventes.
em uma fração considerável dos resíduos da O CD também tem sido bastante utiliza-
proteína. Em homopolímeros de aminoácidos do para estudo de carboidratos complexos
aromáticos, o espectro de CD de uma hélice α como glicosaminoglicanos, heteropolissaca-
é tão distinto que se torna irreconhecível. rídeos compostos por um açúcar aminado (D-
O CD de folhas β é bem distinto daquele glicosamina ou D-galactosamina) unido por
observado para hélices α, apresentando ape- ligação glicosídica a um ácido urônico (D-gli-
nas uma banda negativa de máxima absor- curônico ou L-idurônico). Espectros de CD pa-
bância em 217 nm e uma banda positiva na ra diferentes glicosaminoglicanos podem ser
região entre 195-200 nm como característi- observados na Figura 6-10.
cas (Figura 5-10). As características de espectros de gli-
O valor absoluto da razão entre a elipticidade do cosaminoglicanos provêm predominante-
máximo positivo a 197 nm e o máximo negativo a 217 mente das transições eletrônicas n→π* dos
nm amplia-se com o aumento de torção da folha, e é carboxilatos dos resíduos de ácido urônico e
maior para folhas paralelas do que para as folhas anti- transições π→π* dos cromóforos N-acetila
paralelas torcidas. dos resíduos de glicosamina. Em ambos os
Todos os modelos de polipeptídios com casos, a principal contribuição para as transi-
estruturas irregulares (desordenadas) possu- ções vem dos elétrons dos átomos de oxigê-
em uma forte banda negativa por volta de nio. Para o ácido urônico, envolvem a função
da e/ou N-sulfatada (ligação α).
Ácidos nucleicos
As bases purínicas e pirimidínicas de
DNA e RNA são, em grande parte, responsá-
veis pelo espectro de CD de ácidos nucleicos
na faixa de comprimento de onda normal-
mente estuda por espectrofotômetros con-
vencionais, uma vez que os carboidratos e
grupos fosfato não absorvem significativa-
mente acima de 200 e 180 nm, respectiva-
mente.
Neste tipo de macromolécula, o CD é
empregado principalmente no estudo da ma-
nutenção da geometria relativa das bases,
pois cada uma possui um conjunto caracte-
Figura 6-10: Espectro de CD de diferentes rístico de transições π→π* entre 180 e 300
glicosaminoglicanos. C4S, condroitina 4- nm.
sulfatada; C6S, condroitina 6-sulfatada; DS, Todas as cinco bases têm uma ou duas
dermatam sulfato e heparina. bandas de intensidade moderada, por volta de
260 nm, e várias bandas mais intensas, entre
éter, a ligação glicosídica e as hidroxilas, pro- 180 e 200 nm. Além disso, cada base possui
duzindo uma banda positiva com valores má- várias transições n→π* entre 180 e 300 nm,
ximos em torno de 190 nm. Para o grupo porém de pequena absorbância. Embora po-
N-acetila e carboxilato, tem-se uma banda tencialmente fortes no CD, as faixas de n→π*
negativa com máximo em torno de 210 nm. não foram totalmente identificadas, sendo os
Como dito anteriormente, o CD pode ser espectros de CD de nucleosídeos, nucleotíde-
utilizado para estudar a conformação de caros e polinucleotídeos dominados pelas con-
boidratos e, no caso de glicosaminoglicanos, tribuições π→π*.
os resíduos de ácido urônico (β-D-glicurônico A estrutura 2ária do DNA também pode
e α-L-idurônico) possuem bandas no espectro ser estudada por CD (ver capítulo 2). A con-
de CD de sinais opostos. Podem-se observar formação B-DNA, encontrada normalmente
na Figura 6-10 os espectros de CD para DS, em solução aquosa, tem uma banda positiva
C4S e C6S, glicosaminoglicanos que contêm próximo 275 nm e uma banda negativa de
principalmente o ácido glicurônico. magnitude similar perto de 245 nm (Figura
Os espectros destes glicosaminoglica- 7A-10). Já a conformação A-DNA é favorecida
nos são peculiares, apresentando apenas uma pela adição de solventes orgânicos, geral-
larga banda negativa de máxima em torno de mente etanol. No UV próximo, a transição B
210 nm. DS tem sua banda negativa ligeira- → A é marcada por um aumento significativo
mente deslocada à esquerda, com máxima na banda positiva e diminuição na amplitude
em torno de 207 nm. Tal fenômeno pode ser da banda de máxima em 245 nm. Outra ca-
explicado pelo fato de que ele também con- racterística é a presença de uma forte banda
tém ácido idurônico. Além disso, a ausência negativa em torno de nm 210 (Figura 7B-10).
da banda positiva de máxima em 190 nm pode O C-DNA, por sua vez, apresenta banda inten-
refletir diferenças nas ligações glicosídicas já sa negativa por volta de 240 nm (Figura 7C-
que DS, C4S e C6S apresentam β-D-galacto- 10).
samina N-acetilada (ligação β), enquanto que Com base no espectro de CD, atribui-
a heparina contém α-D-glicosamina N-acetila- ções a um dos grupos de estrutura 2ária po-
10.6. Situações práticas

Deconvolução espectral
A deconvolução espectral é utilizada
para a resolução e/ou decomposição de um
Figura 7-10: Representação esquemática dos conjunto de sinais sobrepostos nos seus
espectros de CD para as diferentes componentes separados através de algorit-
estruturas secundárias de DNA. mos de ajuste de curva. Para a determinação
da estrutura 2ária de proteínas, o espectro
dem ser feitas. Contudo, devido ao número original é decomposto nos componentes héli-
considerável de subgrupos de estrutura 2ária e ce α, folhas β e estruturas irregulares e com-
à dependência desta da sequência de nucleo- parado a um banco de dados de proteínas
tídeos, informações detalhadas sobre a con- com estrutura 2árias conhecidas.
formação do DNA não podem ser extraídas No exemplo abaixo, o espectro de CD da
unicamente baseadas no espectro de CD. albumina humana (Figura 8-10A) é decom-
posto nas suas estruturas 2árias componentes
Lipídeos (Figura 8-10B) e, a partir destes, a proporção
de cada tipo de estrutura calculada, totali-
Aplicações de CD no estudo de lipídeos zando 72% hélices α, 16% de folhas β e 12%
são raras, sendo sua mais frequente aplica- de estruturas irregulares.
ção no estudo de proteínas de membrana em
seu ambiente nativo, ou seja, inseridas na Interação proteína-ligante
membrana. Porém, dois tipos de artefatos
devem ser evitados. Suspensões de frag- Mudanças conformacionais sofridas por
mentos de membrana podem induzir fortes uma dada proteína após sua complexação a
efeitos de espalhamento de luz. Adicional- um determinado composto também podem
mente, eles podem apresentar espalhamento ser determinadas por CD. Alterações na es-
preferencial da luz circularmente polarizada à trutura 2ária da proteína, promovidas por esta
esquerda e à direita. Tal fenômeno se com- complexação, irão mudar o espectro de CD,
porta como um sinal de CD, distorcendo o de forma que algumas mudanças conforma-
verdadeiro CD da proteína. cionais podem ser detectadas.
Ainda, fragmentos de membrana tam- É importante ressaltar que espectros de
bém distorcem os sinais de CD devido a um CD deverão ser coletados para todos os
efeito conhecido como Duysens’ flattening. componentes do sistema em estudo, isto é,
Este efeito ocorre em amostras com uma para a proteína e para o ligante em suas for-
distribuição não homogênea de cromóforos mas livres e para o complexo proteína-ligan-
que estão associados com a fomação de mite. A partir destas medidas pode-se realizar
celas. Alguns métodos foram desenvolvidos subtrações espectrais, isto é, CDproteína-ligante -
buscando evitar tais dificuldades. Requerem, CDligante. A partir destes dados é possível, por
contudo, que a proteína de membrana seja exemplo, comparar a capacidade de diferen-
transferida da sua membrana nativa para ve- tes ligantes em modificarem o conteúdo de
sículas unilamelares que possuam, em média, estrutura 2ária de uma determinada proteína
apenas uma proteína por vesícula. Tais arte- receptora. Os espectros da proteína e da
fatos também podem ser evitados através da subtração serão deconvoluídos como descri-
solubilização das proteínas em detergente to no item anterior.
não iônico, manobra esta que, contudo, pode No exemplo abaixo (Figura 9-10), pode-
induzir alterações conformacionais na proteí- se observar o espectro da antitrombina hu-
na. mana livre e complexada a um composto
Figura 8-10: Deconvolução espectral esquemática da albumina sérica humana.
pentassacarídico, análogo da heparina de alta os coeficientes de correlação entre as variá-

massa molecular empregada terapeutica- veis e os fatores. Os components loadings ao
mente. Após as devidas subtrações espec- quadrado indicam a percentagem de variância
trais podemos determinar as mudanças da variável original. Component scores re-
induzidas pela ligação do pentassacarídeo à presentam uma medida composta criada para
antitrombina, resultando em um aumento de cada observação em cada fator extraído da
6,6% no conteúdo de hélices α e uma diminui- análise fatorial.
ção de 2% no conteúdo de folhas β e 2,5% no A Figura 10-10 mostra que a análise
conteúdo de estruturas desordenadas. matemática dos espectros de CD é eficaz na
diferenciação de glicosaminoglicanos, hepari-
CD e PCA na e seus derivados. As características estru-
turais que são introduzidas nas heparinas de
A análise de componentes principais
(PCA, Principal Component Analysis) é um
método matemático empregado para des-
vendar padrões em um conjunto complexo de
dados (neste caso espectros de CD) e extrair
informações cruciais, eliminando assim possí-
veis fontes de ruído.
A combinação linear que extrai a variân-
cia máxima dos dados é denominada de com-
ponente principal. Uma vez que ela é
encontrada, é removida e o processo repetido
para identificar o próximo componente princi-
pal. Isso se repete até que toda a variância
dos dados seja explicada, fato que na prática
não ocorre devido ao ruído residual.
Na análise de PCA, os componentes re-
presentam as dimensões subjacentes que re- Figura 9-10: Espectro de CD da antitrombina
sumem ou explicam um conjunto original de humana (linha preta) e do complexo
dados observados. Component loadings são antitrombina:pentassacarídeo (linha azul).
Figura 10-10: Análise matemática dos espectros de CD de glicosaminoglicanos. (a e d) Loading

plot. (b e e) Análise de cluster. (c e f) Matriz de correlação. U, heparina não-fracionada; E,
enoxaparina; T, tinzaparina, N, nadroparina, G, gammaparina; DS, dermatam sulfato, C4S,
condroitina 4-sulfatada; C6S, condroitina 6-sulfatada; r, coeficiente de correlação.
baixo peso molecular ao longo das reações de amostra em estudo é importante cole-
despolimerização química e enzimática, bem tar um branco que nada mais é que o
como diferenças nos tipos de ligação glicosí- espectro do tampão;
dica, N-acetilação, padrão de N- e O-sulfata- iv) Em experimentos comparativos, usar
ção e composição monossacarídica resultam sempre as mesmas condições experi-
em características especificas nos seus es- mentais, tais como temperatura, tam-
pectros de CD que são facilmente diferencia- pão utilizado, concentração dos
das pela análise matemática dos dados. componentes, comprimento do caminho
óptico e resolução (ou seja, frequência
Aquisição de um espectro de CD de intervalos, em nm, na qual é feita a
aquisição dos dados);
i) Evitar tampões quirais e que possuem v) Para proteínas, é importante coletar
forte absorção no UV, principalmente na espectros em diferentes concentrações
faixa entre 180-260 nm; e observar se há mudança nos sinais.
ii) Filtrar todas as soluções, inclusive a Havendo mudanças, a proteína em es-
amostra a ser estudada, evitando assim tudo está agregando;
a presença de partículas causadoras de vi) Para açúcares, é importante mantê-
espalhamento de luz; los na mesma forma catiônica, uma vez
iii) Antes de coletar o espectro para a que diferentes contra-íons produzirão
espectros distintos. 1996.
10.7. Conceitos-chave WALLACE, B. A. Conformational changes by

synchrotron radiation circular dichroism
Análise de componentes principais: ferramenta spectroscopy. Nat. Struct. Biol. 7,
matemática que desvenda padrões em um 708–709, 2000.
conjunto de dados complexos.
RODGERS, David S. Circular Dichroism:
Coeficiente de absorbância: capacidade de um Theory and Spectroscopy. Hauppauge:
mol de uma dada substância em absorver Nova Science Publishers, 2011.
luz em um determinado comprimento de
onda.
Dicroismo circular: é a medida da absorbância

diferencial entre as duas rotações de luz
circularmente polarizada por uma molécu-
la assimétrica.
Duysens’ flattening: distribuição não homogênea

de cromóforos em uma dada molécula.
Enantiômeros: imagens especulares (isto é, ge-

radas a partir da reflexão em um espelho),
não sobreponíveis, de uma determinada
molécula, que assim apresenta a proprie-
dade de quiralidade.
Lei de Lambert-Beer: é uma relação, determi-

nada empiricamente, entre a luz absorvida
por um determinado material e proprie-
dades intrínsecas a este material.
Quiralidade: propriedade de uma molécula não

ser sobreponível a sua imagem especular.
Vesículas unilamelares: Formas lipossomais

constituídas por apenas uma bicamada
fosfolipídica.

PURDIE, Neil; BRITTAIN, Harry G (Org.).
Analytical Applications of Circular
Dichroism. Amsterdam: Elsevier Science
Limited, 1994.
FASMAN, Gerald D. (Org.) Circular Dichroism

and the Conformational Analysis of
Biomolecules. New York: Plenum Press,
11. Infravermelho
Yraima Cordeiro
Luís Maurício T. R. Lima
Estrutura 3D da proteína prion de camundongo e seu mos IV próximo ao IV distante, respectiva-

espectro de infravermelho na região da amida I. mente. Adicionalmente, a região compre-
endida entre 4.000 e 400 cm-1 (2.500 a
11.1. Introdução 25.000 nm) é denominada IV médio, e possui
destaque nos estudos da estrutura 2ária de
11.2. Instrumentação proteínas.
11.3. Vibrações de H2O e 2H2O

11.4. Realizando medidas de IV
11.5. Espectros de IV de proteínas Figura 1-11: Esquema das diferentes regiões
do espectro eletromagnético. Quanto maior o
11.6. IV e estrutura 2ária comprimento de onda, menor a energia da
radiação.
11.7. Informações quantitativas
Medidas empregando IV vêm sendo
11.8. Desvio de 1H para 2H aplicadas há décadas na análise e caracteri-
zação de pequenos compostos orgânicos e,
11.9. Vantagens e limitações para tal, existem diversos livros texto dispo-
níveis. Este capítulo se dedica, contudo, a
11.10. Conceitos-chave aplicações mais recentes, focadas no estudo
de biomacromoléculas. Mesmo que o princí-
pio da técnica seja o mesmo, as diferenças
em ordens de grandeza no número de átomos
11.1. Introdução envolvidos trazem à tona uma série de parti-
cularidades, que veremos em seguida.
O espectro eletromagnético é composto Quando incidimos uma determinada ra-
por diferentes tipos de radiações, dos raios diação sobre a amostra em estudo, as molé-
gama (maior energia) às ondas de rádio (me- culas ali contidas absorvem energia. Esta
nor energia, Figura 1-11). Entre estes extre- energia promove a passagem dos elétrons de
mos de radiações, diversos tipos de ondas um estado fundamental (E0) a um estado de
possuem aplicações ao estudo de biomolécu- maior energia (E1). Após o desligamento da
las, como os raios-X (ver capítulo 13), o ultra- fonte de luz, os elétrons retornam a E0 depois
violeta (ver capítulo 10) e o infravermelho, de alguns segundos, liberando a energia ab-
assunto deste capítulo. sorvida. Esta energia, por exemplo, pode es-
A região do infravermelho (IV) no estar na região do ultravioleta permitindo, por
pectro eletromagnético (Figura 1-11) está exemplo, medições de dicroismo circular (ver
compreendida entre aproximadamente capítulo 10) e de fluorescência.
14.000 cm e 200 cm , indo do que chama-
-1 -1
Entretanto, a absorção de energia radi-
11. Infra-vermelho
ante não envolve somente transições eletrô- v = (k/mr)0,5/2π

nicas, mas a energia total da molécula (Etotal).
Esta energia pode ser representada pelo so- onde k é a constante de força entre os
matório das energias associadas a: 1) rotação dois átomos e mr a massa reduzida.
da molécula na solução (ER), 2) movimento De forma simplificada, a massa reduzida (mr) é um
dos átomos dentro da molécula, constituindo termo utilizado em mecânica Newtoniana ao se estu-
a energia vibracional (EV), e 3) movimento dar um sistema diatômico (ou seja, no qual há intera-
dos elétrons ao redor do núcleo, a chamada ção entre dois átomos). A mr engloba a massa do
energia eletrônica (EE). Assim, podemos re- primeiro e do segundo átomos, simplificando um sis-
presentar Etotal = ER + EV + EE. Dependendo do tema de dois componentes em um sistema de um
nível de energia da radiação incidente, quando componente.
a molécula retorna de seu estado excitado Esta equação nos diz que a frequência
para o estado fundamental, também há perda de vibração aumenta quanto maior for a força
nas energias de vibração (EV) e rotação (ER). de interação entre os dois átomos (isto é, a
Assim, nos comprimentos de onda abai- força da ligação química). Em outras pala-
xo de 25 μm (400 cm-1), ou seja, em torno da vras, quando aumenta a densidade eletrônica
região do IV médio, a radiação tem energia na ligação entre os dois átomos (de uma liga-
suficiente para provocar modificações nos ní- ção simples para uma ligação dupla e para
veis de energia vibracional (EV) da molécula, e uma ligação tripla) aumenta a frequência de
estas modificações são acompanhadas por vibração. Dessa forma, qualquer fator inter-
alterações nos níveis de energia rotacional ou intramolecular que altere a densidade ele-
(ER). Isto ocorre quando a luz no IV coincide trônica nas ligações (como o tipo de átomo)
com a energia necessária para que ocorra irá afetar o espectro vibracional obtido por IV.
uma determinada vibração molecular. E quanto maior for a massa dos átomos, mais
Ao estudar as mudanças no comporta- lenta será a vibração (menor frequência).
mento molecular após a incidência de radia- Se pensarmos em ligações O-H e N-H,
ção IV, podemos caracterizar os diferentes embora sejam ambas ligações simples, o
modos de vibração e rotação de uma molécu- átomo de oxigênio é mais eletronegativo que
la, os quais constituem o espectro de infra- o átomo de nitrogênio. Assim, a ligação O-H é
vermelho. mais polar que a ligação N-H, resultando em
Análises na região do IV permitem des- uma força de interação diferente entre os
crever o arranjo espacial dos átomos nas átomos e, por conseguinte, uma vibração di-
moléculas do composto em estudo, ou seja, ferente. Adicionalmente, como veremos adi-
como é a sua estrutura química; fornecem in- ante, o espectro de IV não é definido somente
formações sobre comprimento e a força de por características intramoleculares do com-
ligações químicas; fornecem evidências para posto em estudo, mas também de interações
o comportamento químico ou físico relativo com outras moléculas.
de uma molécula (estado redox, catálise enzi- Com a absorção da luz no IV as ligações
mática e fosforilação, dentre outras), além de atômicas vibram, promovendo deformações
permitirem a análise qualitativa e quantitativa axiais (estiramentos) ou angulares (dobras).
de uma determinada molécula. Estiramentos são alongamentos da ligação
Para compreendermos como o espec- química, enquanto deformações angulares
tro de IV pode fornecer informações sobre o são dobras nesta ligação química. Os estira-
arranjo molecular de um determinado com- mentos e deformações podem ser simétricos
posto e sobre a interação deste com o ambi- ou assimétricos, como representado na Figu-
ente, devemos definir a frequência de ra 2-11 para a molécula de água. As deforma-
vibração de um oscilador diatômico. Esta ções angulares simétricas que ocorrem no
frequência (v) pode ser representada por: plano são chamadas de deformação em te-
soura, enquanto que as deformações assi-
11. Infra-vermelho
Figura 2-11: Modos vibracionais da H2O. As

setas vermelhas indicam em A, estiramento
simétrico; B, estiramento assimétrico; C,
deformação angular no plano (em tesoura).
métricas no plano são chamadas de vibra-

ções em balanço ou rotação.
Existem também deformações que
ocorrem fora do plano, que podem ser deno- Figura 3-11: Espectro de infravermelho da
minadas como deformações em balanço (si- ureia.
métrico) ou em torção (assimétrico, saindo
ou entrando da tela deste computador, por grande sobreposição de frequências vibracio-
exemplo). Na literatura, muitas vezes estas nais. Dessa forma, não é possível determinar
deformações são representadas como v (de- a estrutura molecular de uma proteína por IV.
formação axial) e σ (deformação angular). Podemos, contudo, obter informações sobre
Como representado na Figura 3-11, é seus componentes de estrutura 2ária e seu
possível notar que espectros de IV podem ser grau de enovelamento.
extremamente complexos, visto a quantidade A análise de estrutura 2ária de proteínas
de estiramentos e deformações angulares e de outras macromoléculas biológicas por
que podem estar presentes em uma molécula infravermelho teve início na década de 1970.
relativamente pequena. Tomemos como um Com o advento de espectrofotômetros de IV
exemplo a molécula de ureia que, embora te- não-dispersivos (FTIR) e novos detectores,
nha somente três ligações químicas diferen- houve uma melhoria significativa na qualidade
tes (isto é, C=O, N-H e C-N), apresenta mais de e conteúdo de informação a ser obtido de es-
7 picos em seu espectro IV (Figura 3-11). pectros de infravermelho de proteínas.
Além do número de picos (ou bandas)
em um espectro de IV, a intensidade de cada 11.2. Instrumentação
banda varia de acordo com a quantidade de
luz absorvida por determinada ligação na fre- A notação mais utilizada para análise no
quência observada. Dessa forma, há picos ou IV é dada em números de onda. Esta notação
bandas fracos (baixa intensidade) e picos ou é uma grandeza física diretamente proporci-
bandas fortes (alta intensidade) em espectros onal à energia da radiação eletromagnética e,
de IV da maioria das moléculas (ver picos no portanto, inversamente proporcional ao
espectro IV da molécula de ureia, Figura 3-11). comprimento de onda em nanômetros. A uni-
Como podemos verificar na Figura 4-11, dade da notação em números de onda é cen-
as frequências vibracionais de ligações quími- tímetros recíprocos ou cm-1.
cas presentes em proteínas estão presentes O número de onda pode ser definido
em diversas regiões do espectro de IV. Para como o número de ondas da radiação eletro-
pequenos compostos, a análise dos espectros magnética que são comportados dentro de
de IV pode fornecer informações sobre o ar- um espaço de 1 cm (Figura 5-11). Por exemplo,
ranjo espacial dos átomos envolvidos. uma radiação com comprimento de onda de
Entretanto, para macromoléculas, que 300 nm equivale a 33,333 cm-1, e uma radia-
são o foco deste capítulo, há obviamente uma ção com comprimento de onda de 500 nm
11. Infra-vermelho
Figura 4-11: Frequências de absorção no IV de algumas ligações químicas. Estão representadas

frequências vibracionais resultantes de estiramentos (azul), dobras ou deformações em
tesoura (vermelho) e em balanço (verde) da ligação.
(menos energética do que a primeira) possui captar a luz transmitida. A fonte geradora de
um comprimento de onda de 2.000 nm. As- IV é, em geral, composta por óxidos de terras
sim, como o número de onda é diretamente raras (por exemplo, carbeto de silício), que
proporcional à energia e, portanto, à frequên- emitem radiações na região do IV quando
cia, quanto maior o valor em números de on- aquecidos a altas temperaturas (1.000 a
da, mais alta será a frequência daquela 1.800 oC).
radiação eletromagnética. Espectrômetros de IV por transformada
A energia da radiação eletromagnética é definida de Fourier contém um dispositivo chamado de
por: interferômetro. O interferômetro é um siste-
E = hv = hc/λ ma óptico capaz de fornecer uma radiação
aproximadamente monocromática na região
onde h é a constante de Planck (6,6261 x 10-34 J), c é a de 2,5 μm a 15 μm ou até 50 μm. O interferô-
velocidade da luz no vácuo (2,99792 x 108 m/s), v é a metro permite a separação e depois a re-
frequência da radiação (dada por v = hc/λ) e λ é o com- combinação do feixe de infravermelho, a
primento de onda em nanômetros. partir da passagem da luz pelo separador do
Para conversão da notação de frequências de ab- feixe (beam splitter) e a incidência de cada
sorção no IV entre nanômetros e números de onda,
considerando-se que 1 cm = 10.000.000 nm (107), en-
tão:
número de onda = 1/λ.107
Antes de discutirmos sobre a análise de

espectros de IV de proteínas, faremos uma
breve explicação sobre a instrumentação em-
pregada nestes estudos. O equipamento bási-
co consiste em uma fonte geradora de luz no
IV, de espelhos organizados para direcionar a Figura 5-11: Representação esquemática de
luz para a amostra e de um detector para uma onda eletromagnética.
11. Infra-vermelho
feixe resultante sobre um espelho fixo e um tância B - EF, os dois feixes refletidos percor-
espelho móvel. O sinal de saída é chamado de rem a mesma distância, estando totalmente
interferograma (Figura 6-11). em fase (ver adiante). Como resultado, os
O funcionamento de um interferômetro dois feixes interferem construtivamente, e o
consiste na passagem do feixe luminoso pelo detector observa um máximo de intensidade.
separador de feixe (B), e parte do feixe é re- Esta posição do espelho móvel é chamada de
fletido pelo espelho móvel (EM) e retorna ao diferença zero de caminho óptico (zero path
separador. O outro feixe é refletido do sepa- difference ou ZPD). Neste caso 2.(B - EM) =
rador e, então, pelo espelho fixo (EF), retorna 2.(B - EF). À medida que EM afasta-se do ZPD,
a B. O feixe recombinado sai do interferôme- a distância B - EM aumenta em relação à dis-
tro, passa através da amostra (A) e viaja até o tância B - EF. Quando os dois feixes estiverem
detector (D) (Figura 6-11). O sinal é captado a 180o fora de fase, e a interferência será des-
intervalos precisos, correspondentes a pas- trutiva, provocando um mínimo na resposta
sos iguais na diferença de caminho óptico (ou do detector.
seja, a distância da trajetória da luz pela O espectro resultante (dados no domí-
amostra), resultando em um sinal combinado nio de frequência) é a solução de Fourier para
de interferência destrutiva e construtiva em o sinal do interferograma (dados no domínio
função das diferenças de fases (ver abaixo), o de tempo). Espectrômetros FTIR permitem
que origina o nome do dispositivo e do sinal medidas mais rápidas do que os antigos es-
obtido. O interferograma é resultante do re- pectrômetros, denominados dispersivos (Ta-
gistro do sinal no detector em função da dife- bela 1-11).
rença de caminho entre os dois feixes. Como Para entendermos o significado de diferença de fa-
referência, é utilizado um laser de hélio-neô- se vamos tomar como exemplo duas radiações (isto é,
nio, e sua radiação monocromática de 632,8 ondas eletromagnéticas) que apresentam a mesma
nm atravessa o mesmo caminho óptico do frequência e, portanto, a mesma energia. Se ambas
feixe de IV. estão trafegando ao mesmo tempo no espaço, estas
A varredura em FTIR corresponde ao ondas estão em fase e há um somatório de suas am-
deslocamento mecânico do espelho móvel plitudes (ver Figura 7-11).
(EM). Quando a distância B - EM é igual à dis- Se há um retardo de uma das frequências em rela-
ção à outra, estas ondas estão agora fora de fase. Se
as ondas estão 180o fora de fase a interferência é des-
trutiva, pois o somatório das ondas resulta em 0. Em
contrapartida, se estão em fase a interferência é cons-
trutiva. Esta mesma definição pode ser aplicada para a
vibração das ligações químicas presentes em uma da-
da molécula, as quais podem estar vibrando em fase
ou fora de fase
11.3. Vibrações de H2O e 2H2O

Água no estado líquido e vapor de água
interferem de forma intensa em espectros de
Figura 6-11: Esquema de um interferômetro. IV de proteínas. As principais frequências vi-
A luz no IV, gerada pela fonte, trafega até o bracionais da água (Tabela 2-11) se sobre-
separador do feixe (B), que é separado e põem à região da amida I, principal banda no
incide sobre o espelho fixo (EF) e sobre o IV que dá informações sobre a estrutura 2ária
espelho móvel (EM). O feixe é recombinado de proteínas.
em B, atravessa a amostra (A) e chega ao Sendo assim, para se realizar medidas
detector (D). de proteínas em solução, as amostras são
11. Infra-vermelho
Tabela 1-11: Diferenças entre espectrômetros

por transformada de Fourier (FTIR) e
espectrômetros dispersivos.
IR dispersivo FTIR
Partes móveis: desgaste Somente 1 espelho se
e tolerância mecânica movimenta durante
coleta
Pequena fração de v é Todos os valores de v
detectada por unidade são detectadas
de tempo. Varredura simultaneamente. Figura 7-11: Exemplo esquemático de duas
completa em 10 – 15 min Espectro coletado < 1 s ondas em fase (A) e duas ondas 180o fora de
Baixa velocidade de Rápida velocidade de fase (B).
varredura varredura: cinética
Não há referência Uso de He-Ne: sistema covalente O-H que passa a vibrar em fre-
interna para verificar a de calibração interno quências maiores.
exatidão de v, exigindo com exatidão e precisão
calibração com na faixa de 0,01 cm-1 11.4. Realizando medidas de IV
espectros referência
Amostra localizada Amostra localizada
Como vimos acima, há uma grande so-
breposição entre vibrações da molécula de
próximo à fonte, longe da fonte
água com a região do espectro de IV empre-
gerando possíveis
gada no assinalamento das estruturas 2árias
problemas térmicos
de proteínas. Assim, precisamos reduzir ao
usualmente diluídas em D2O (2H2O), ou óxido máximo o conteúdo de H2O da amostra a ser
de deutério. Como o deutério apresenta mas- analisada.
sa maior do que o hidrogênio, sua frequência Para medidas em solução, uma alterna-
vibracional é menor do que a da H2O, não ha- tiva é realizar todas as etapas de obtenção da
vendo mais sobreposição na região da amida proteína de interesse em 2H2O. Entretanto,
I, onde são vistas hélices α e estruturas de- esta alternativa não é usualmente viável de-
sordenadas (ver a seguir). Assim, quando te- vido ao alto custo da 2H2O e, ainda, por este
mos 2H ao invés de 1H, as principais bandas se hidratar rapidamente.
vibracionais da água líquida são deslocadas Uma abordagem alternativa e ampla-
para frequências mais baixas. mente utilizada é obter a proteína normal-
O espectro de IV da água no estado lí- mente (estratégia de purificação normal, em
quido sofre alterações dependentes das liga- solvente aquoso), remover toda a H2O por
ções de hidrogênio o que, por sua vez, não secagem (sublimação da água por liofilização
ocorre no espectro IV da água em vapor (on- ou outra técnica de escolha), ressuspender o
de estas interações estão ausentes). Para a material seco em 2H2O, secar a amostra no-
água no estado líquido, com o aumento da vamente para permitir a troca de 1H por 2H e
força das ligações de hidrogênio observa-se o ressuspender a amostra em 2H2O em uma
deslocamento das deformações axiais e das concentração maior que 1% massa/volume
deformações angulares para menores e mai- para a realização da medida. A amostra em
ores frequências, respectivamente. Estas va- solução é aplicada entre duas janelas (duas
riações na intensidade das ligações de "fatias") formadas por material transparente
hidrogênio podem ocorrer, por exemplo, devi- ao IV médio, como fluoreto de cálcio (CaF2),
do a mudanças na temperatura. Neste caso, por exemplo, que são montadas em um por-
um aumento na temperatura enfraquece as ta-amostras (Figura 8-11).
ligações de hidrogênio, fortalecendo a ligação Caso não se deseje realizar medidas em
11. Infra-vermelho
Tabela 2-11: Principais vibrações de 1H2O e 2H2O (D2O) na região do IV.

Vibração H2O líquida (25 °C) D2O líquido (25 °C)
v (cm-1)a E0 (M-1.cm-1)b v (cm-1)a E0 (M-1.cm-1)b
Dobra 1.643,5 21,8 1.209,4 17,4
Combinação de dobra e oscilação 2.127,5 3,50 1.555,0 1,91
Estiramentos simétricos e assimétricos 3.404,0 99,9 2.504,0 71,5
a
v, frequência vibracional; b Eo, coeficiente de extinção molar.
solução, é possível analisar a amostra seca na dio (que é gerada pela maioria dos equipa-
forma de pastilha com brometo de potássio mentos de IV) sem nenhuma correção. Um
(KBr). KBr é transparente na região do infra- espectro de feixe único de uma amostra pode
vermelho médio, e é também o componente ser corrigido pelo espectro base, o que irá
do separador do feixe no interferômetro. Em gerar o espectro final de IV.
linhas gerais, mistura-se a amostra de inte- Contudo, medidas envolvendo proteínas
resse a 1% com KBr (1 mg da amostra para requerem instrumentação com sensibilidade
100 mg de KBr, por exemplo) em um gral com maior do que aquela empregada para peque-
um pistilo de quartzo e, por pressão mecâni- nas moléculas, visto que o sinal da amida é
ca, gera-se um disco da amostra com espes- mais fraco (baixa intensidade) devido à baixa
sura de 10 mm que é acondicionado ao absorção de luz no IV médio.
porta-amostras do equipamento para realiza- Antes de iniciarmos a coleta de um es-
ção da leitura. É importante realizar uma ma- pectro de IV, devemos resfriar o detector com
ceração eficiente da amostra com KBr, para nitrogênio líquido (-196 oC). Detectores MCT
resultar em uma distribuição uniforme da sua (mercúrio, cádmio e telureto) apresentam al-
amostra com o pó. ta sensibilidade e são a escolha para análise
Para a amostra seca, é ainda possível de proteínas. Estes detectores semiconduto-
realizar medidas empregando técnica de re- res de fótons no IV são refrigerados para re-
flectância total atenuada (attenuated total duzir o ruído e o vazamento de corrente
reflectance, ATR). Nesta técnica, a amostra resultante dos processos de geração térmica.
sólida é depositada sobre um cristal de índice Detectores MCT operam a temperaturas de
de refração maior que a amostra e compri- 80 a 200 K.
mida sobre esta superfície, de modo a impedir Mesmo para amostras medidas no es-
a presença de ar e água que poderiam atra-
palhar a medida. A luz IV é então refletida so-
bre esta superfície. O feixe emerge do cristal
(neste caso, é chamado de onda evanescente)
e incide sobre a amostra, havendo absorção,
refletindo de volta e sendo por fim redirecio-
nada ao detector. Existe grande popularidade
neste método devido à vantagem de não de-
mandar pastilhamento e requerer apenas al-
guns microgramas de amostra seca.
Após o preparo da amostra, coleta-se
inicialmente um espectro base (background)
na ausência de amostra. Este espectro base Figura 8-11: Janelas de fluoreto de cálcio
normalmente é chamado de espectro de feixe (esquerda) e porta-amostra (direita).
único (single-beam), pois reflete a resposta Dimensões típicas das janelas de CaF2: 32
em todas as frequências da região do IV mé- mm de diâmetro e 3 mm de espessura.
11. Infra-vermelho
tado sólido (sem água líquida), deve-se efetu-

ar a purga da região do porta-amostras com
N2 ou ar seco, pois vapor de água também
absorve na região do IV médio e pode com-
prometer a análise da banda amida I (ver adi-
ante).
Para realizar medidas de espectroscopia
de IV por transformada de Fourier (FTIR) o
ideal é coletar o maior número de varreduras Figura 9-11: Absorção de poliestireno
possíveis, com resolução alta (de 1 a 2 cm-1). (estrutura no gráfico à direita) em filme na
O espectro resultante pode ser na escala de região do infravermelho médio. Na esquerda
transmitância ou absorbância (Figura 9-11). está o espectro em unidades de transmitância
Caso o espectro contenha muito ruído, é e, na direita, o mesmo espectro em unidades
aconselhável diminuir a resolução da medida de absorbância.
(por exemplo, 4 cm-1) e/ou aumentar a quanti-
dade de amostra analisada (aumentar a mas- Regiões vibracionais de proteínas
sa, caso depositada em cristal de ATR, ou
aumentar a concentração, caso esteja medin- Parte do estudo das vibrações no IV da
do proteína em solução). ligação peptídica (ou ligação amídica) foi ba-
seado na análise dos componentes vibracio-
11.5. Espectros de IV de proteínas nais da N-metil acetamida (NMA, Figura 10-11).
Esta molécula é utilizada como composto
A análise de estrutura 2ária de proteínas modelo para definição de componentes vi-
a partir de seu espectro vibracional vem sen- bracionais em proteínas, já que é a menor es-
do realizada desde o início da década de 1980. trutura que contém um grupamento peptídico
É possível inferir se a proteína adota uma es- em E (ligações peptídicas em trans, as quais
trutura rica em hélices α, folhas β, ou se não ocorrem na quase totalidade das proteínas).
apresenta estrutura 2ária definida (ver capítulo As diferentes regiões vibracionais de
2), a partir da análise da banda amídica I de proteínas no espectro de IV são chamadas de
proteínas na região do IV médio. Além da ami- bandas amídicas ou amidas, pois resultam
da I, o espectro vibracional de proteínas apre- das diferentes interações realizadas pelos
senta outros componentes que serão átomos que compõem a ligação amídica (li-
apresentados a seguir. gação peptídica) com moléculas do solvente e
Como já descrito no capítulo 2, o esta- com átomos da própria proteína, sejam estes
belecimento de redes de ligação de hidrogênio da cadeia lateral ou do esqueleto polipeptídi-
entre resíduos de aminoácidos é um dos fato- co (Figura 11-11). Por exemplo, como vimos no
res que distingue os tipos de estrutura 2ária capítulo 2, a estrutura 2ária de proteínas é
adotadas por sequências polipeptídicas. Cada mantida principalmente por ligações de hi-
tipo de estrutura 2ária, por sua vez, implicará drogênio entre os grupamentos N-H e C=O da
na adoção de valores para os ângulos φ e ψ cadeia polipeptídica com os mesmos grupa-
ao redor da ligação peptídica. Estas intera- mentos na volta seguinte da hélice ou na fita
ções afetam a frequência vibracional de liga- vizinha da folha.
ções ente átomos, e isso será refletido no Além das vibrações da cadeia polipeptí-
espectro de IV da proteína estudada. Dessa dica (que informam sobre a estrutura 2ária da
forma, é possível inferir que tipo de estrutura proteína), vibrações das cadeias laterais de
2ária a proteína analisada apresenta. resíduos de aminoácidos também contribuem
para o espectro de IV de proteínas. Entretan-
to, há uma grande sobreposição das vibra-
ções de cadeias laterais, e algumas absorvem
11. Infra-vermelho
Figura 10-11: Estrutura da N-metil acetamida

(NMA).
fracamente a luz IV. Portanto, é difícil identifi-

cá-las isoladamente. A seguir serão apresen-
tadas as principais regiões vibracionais de
proteínas e quais informações podem ser ob-
tidas de cada uma destas regiões.
Amidas A e B
Estas bandas são resultantes do estira- Figura 11-11: Espectro de absorção no IV médio
mento da ligação N-H e estão presentes na de uma amostra proteica. Observe as regiões
faixa de 3.300 e 3.170 cm-1. Esta região é de amida I (1.700 a 1.600 cm-1) e amida II
insensível à conformação da cadeia polipeptí- (1.600 a 1.450 cm-1).
dica, e sua frequência depende da força da li-
gação de hidrogênio realizada pelo plano e do estiramento da ligação C-N, com
grupamento. poucas contribuições da torção C-O no plano
e das vibrações de C-C e N-C. Como para a
Amida I amida I, esta vibração é pouco afetada pelas
vibrações das cadeias laterais, mas a corre-
Esta é a principal banda vibracional de lação entre estrutura 2ária e frequência, nesse
proteínas, pois fornece informações sobre a caso, é menos direta do que para a vibração
estrutura 2ária destas macromoléculas. A amídica I.
frequência média da amida I ocorre em torno Entretanto, a análise desta banda vibra-
de 1.650 cm-1, e resulta principalmente do es- cional fornece informações a respeito do
tiramento simétrico da carbonila (vC=O), com enovelamento proteico e sua dinâmica con-
pequenas contribuições da vibração C-N fora formacional em experimentos de troca de 1H
de fase, da deformação C-C-N e da torção N-H por 2H (troca hidrogênio – deutério), pois há
no plano. A estrutura do esqueleto polipeptí- um desvio da amida II para 1.450 cm-1 quando
dico irá determinar como as várias coordena- a proteína é diluída em 2H2O. Sendo assim, é
das internas irão contribuir para a vibração possível acompanhar a troca de hidrogênios
desta banda. A despeito de ser influenciada lábeis (como hidrogênios da ligação N-H da
pela estrutura 2ária, esta vibração é muito cadeia polipeptídica) por deutério durante
pouco afetada pela natureza das cadeias la- tratamento térmico da proteína, interação
terais. com algum ligante e aumento na pressão,
dentre outras variáveis. Átomos de hidrogênio
Amida II em regiões mais protegidas da proteína irão
demorar mais para trocar por deutério do que
A absorção da banda amida II ocorre em átomos de hidrogênio em regiões expostas
1.550 cm-1 quando o solvente utilizado no Há ainda uma terceira banda relacionada
experimento de IV é H2O. Esta vibração é a à ligação peptídica, a chamada banda de ami-
combinação fora de fase da torção N-H no da III. Esta banda, no NMA, é a combinação em
11. Infra-vermelho
fase da dobra da ligação N-H e do estiramen- teral de resíduos de Arg, que ocorre em 1.635
to da ligação C-N, principalmente. Em poli- e 1.673 cm-1, é sobreposta à absorção da
peptídeos, a composição dessa banda é mais amida I. Contudo, a troca de 1H por 2H gera
complexa, pois depende da estrutura das ca- desvios a -50 e -70 cm-1, respectivamente
deias laterais e a dobra do N-H contribui para (desvio para frequências menores), o que
várias bandas na região de 1.400 a 1.200 cm-1. permite a visualização destas bandas.
Como essas contribuições variam bastante, Há ainda uma vibração de Tyr que é fre-
esta vibração é de pouca utilidade para análi- quentemente visualizada em espectros de IV
se de estrutura 2ária. de proteínas a 1.517 cm-1. Esta frequência vi-
bracional é deslocada para 1.500 cm-1 quan-
Vibração do esqueleto peptídico do ocorre desprotonação da cadeia lateral do
resíduo de Tyr.
Esta vibração ocorre de 1.200 a 880
cm e resulta do estiramento das três liga-
-1
11.6. IV e estrutura 2ária
ções do esqueleto polipeptídico. Para o com-
posto modelo NMA, estas vibrações geram Como descrito na seção anterior, prote-
duas bandas bastante definidas, mas com ab- ínas apresentam bandas vibracionais carac-
sorção fraca no IV: uma vibração vN-Cα, pre- terísticas no IV médio. A banda da amida I é a
dominante em 1.096 cm-1, e um modo misto a região que fornece informação sobre a estru-
881 cm-1. tura 2ária destas macromoléculas.
A frequência exata da primeira vibração
Vibração de cadeias laterais (estiramento C=O) depende:
i) da natureza das ligações de hidrogênio
As cadeias laterais de resíduos de ami- que envolvem o grupamento amídico, o
noácidos de proteínas absorvem luz no IV. que é determinado pela estrutura 2ária
Entretanto, a identificação de resíduos espe- particular adotada pela proteína;
cíficos é dificultada para alta sobreposição ii) da orientação e distância dos dipolos
das suas frequências vibracionais. que interagem, o que fornece informa-
Dentre os diferentes grupamentos pre- ção sobre arranjo geométrico de grupa-
sentes em cadeias laterais, há dois tipos par- mentos peptídicos em uma cadeia
ticulares que absorvem em regiões espectrais polipeptídica.
livres de sobreposição por outros grupos e
que podem, dessa forma, ser assinalados. O O termo dipolo se refere a dois pólos. Em física, um
primeiro grupamento é a sulfidrila das cisteí- dipolo elétrico envolve a separação de cargas positivas
nas, com absorção entre 2.550 e 2.600 cm-1, e negativas (polo positivo e polo negativo). Em molé-
e o segundo é a carbonila (C=O) de grupa- culas polares, como a água, por exemplo, um dipolo é
mentos carboxílicos protonados, com absor- formado devido a uma distribuição desigual de cargas
ção entre 1.710 e 1.790 cm-1. A análise destas (elétrons) na ligação covalente (O-H), gerando uma re-
regiões pode fornecer informações tais como gião de carga parcial positiva (hidrogênios) e outra de
eventos de (des)protonação. carga parcial negativa (oxigênios).
Por exemplo, os resíduos Asp e Glu pro- Dipolos induzidos são formados quando um íon ou
tonados apresentam duas bandas fortes en- uma molécula dipolar (que apresenta um dipolo per-
tre 1.550 e 1.580 cm-1 e próximos a 1.400 manente) induz a formação de um dipolo em um átomo
cm-1. Essas bandas, contudo, são deslocadas ou molécula que antes não apresentava uma distribui-
na presença de quelantes de cátions depen- ção de cargas. Quando o oxigênio molecular (O2, não
dendo do tipo de coordenação (importante apresenta um dipolo) interage com uma molécula de
para o estudo de proteínas que ligam íons água (dipolo permanente), esta última induz um dipolo
cálcio). no O2.
Por outro lado, a absorção da cadeia la- A aplicação de FTIR para determinação
11. Infra-vermelho
de conteúdo de estrutura 2ária em proteínas

se mostrou viável após a análise experimental
do espectro de IV de proteínas com estrutura
já resolvida por difração de raios-X, assim co-
mo a comparação com outros parâmetros
experimentais, como experimentos de di-
croismo circular (ver capítulo 10) e cristalo-
gráficos (distâncias entre ligações, ângulos de
ligação e de diedro). Dessa forma, foi possível
estabelecer correlações estruturais-espec-
trais e, assim, validar a metodologia de FTIR
para identificação de componentes de estru-
tura 2ária em proteínas.
De qualquer modo, é importante ressal- Figura 12-11: Exemplo da região amida I de
tar que não há hoje método capaz de descre- proteínas com estrutura secundária rica em
ver as características conformacionais de hélices α (azul) e folhas β (vermelho). Os
proteínas de forma absoluta. Um dos motivos espectros foram obtidos para proteínas
para isto reside na dificuldade em reproduzir, diluídas em 2H2O.
durante os experimentos, as condições do
meio nas quais a proteína exerce sua função Voltas são assinaladas nas regiões de fre-
fisiologicamente, tais como tampão, pH, pre- quência entre 1.660 e 1.680 cm-1.
sença de íons, moduladores, etc, uma vez que A análise de folhas β apresenta um de-
as características conformacionais da proteí- safio particular, pois ainda há incerteza sobre
na variam como função destes fatores. a possibilidade de distinção de folhas β para-
Neste momento, é importante ressaltar lelas e antiparalelas por FTIR. O que geral-
que as frequências vibracionais na amida I semente se observa é uma separação da amida I
rão deslocadas para valores menores quando em proteínas com alto conteúdo de folhas β
a proteína está diluída em 2H2O (Tabela 3-11), o antiparalelas. Sendo assim, é possível dife-
que irá ocorrer quando estamos avaliando renciar folhas β paralelas de antiparalelas,
estrutura 2ária de proteínas em solução. porque as paralelas absorvem somente em
A Tabela 3-11 indica as regiões na amida I baixos números de onda (banda principal a
que são assinaladas aos diferentes compo- 1.630 cm-1) e não possuem o componente
nentes de estrutura 2ária. Podemos perceber em 1.680 cm-1 das folhas β antiparalelas.
que há sobreposição entre algumas regiões, o Além disso, em alguns casos é possível
que implica na necessidade de um processa- distinguir entre folhas β antiparalelas intra- e
mento matemático posterior à coleta do es- intermoleculares, ou seja, proteínas que for-
pectro de IV de proteínas, como veremos a mam folhas quando agregadas. Esta agrega-
seguir. A Figura 12-11 mostra espectros re- ção promoveria uma absorção em
presentativos de proteínas ricas em hélices α frequências altas ( 1.685 cm ) e baixas
-1
e em folhas β (vermelho). ( 1.615 cm-1) (Figura 13-11).

Em geral, a vibração das hélices α ocor-
re a 1.650 cm-1, e a de estruturas desorde- 11.7. Informações quantitativas
nadas a 1.645 cm-1, proximidade esta que
dificulta a avaliação direta do conteúdo de ca- Como vimos acima, há uma grande so-
da um destes componentes na estrutura pro- breposição de componentes vibracionais ao
teica. As folhas β, por sua vez, apresentam longo da banda amida I. Sendo assim, para o
mais de uma região vibracional para a amida I, assinalamento e quantificação (ou seja, cál-
com bandas de alta (entre 1.670 e 1.690 cm-1) culo aproximado da porcentagem dos com-
e baixa frequências (de 1.620 a 1.640 cm-1). ponentes de estrutura 2ária de uma dada
11. Infra-vermelho
Tabela 3-11. Assinalamento dos componentes de estrutura secundária de proteínas a partir da

análise da amida I. Valores coletados por Byler & Susi (1986) e compilados por Barth & Zcherp
(2002).
Estrutura 2ária Posição do pico na presença Posição do pico na presença
de 1H2O (cm-1) de 2H2O (cm-1)
Média Variação Média Variação
hélice α 1654 1648 a 1657 1652 1642 a 1660
Folhas β (baixa frequência) 1633 1623 a 1641 1630 1615 a 1639
Folhas β (alta frequência) 1684 1674 a 1695 1675 1671 a 1694
Voltas 1672 1662 a 1686 1671 1660 a 1694
Estruturas desordenadas 1654 1642 a 1657 1645 1639 a 1654
proteína), é necessário realizar um processa- proteína em questão. Sendo assim, de forma

mento do espectro original, na região desta geral, é necessário empregar abordagens
banda. matemáticas para separar as frequências vi-
Iremos agora abordar como é possível bracionais na banda amida I para o posterior
determinar a composição de estrutura 2ária de assinalamento dos diferentes componentes
proteínas a partir da análise da banda amida I (diferentes frequências) de estrutura 2ária. A
(de 1.700 a 1.600 cm-1). Como podemos ob- separação dos diferentes componentes pode
servar na Figura 14-11, somente com uma ser feita por decomposição da amida I em-
inspeção visual da amida I, não é possível pregando:
identificarmos todos os componentes de es- i) cálculo da segunda derivada do es-
trutura 2ária (com suas diferentes frequências, pectro (Figura 15-11). A largura da banda
como mostrado na Tabela 3-11) que formam a da derivada assim obtida é menor que a
largura da banda original. Assim, a se-
gunda derivada pode ser utilizada para
resolver bandas sobrepostas;
ii) realizar uma auto-deconvolução
(FSD, Fourier self-deconvolution). O
princípio de estreitamento de linha da
auto-deconvolução é a multiplicação da
transformada de Fourier do espectro
original por uma função dependente da
forma da linha que aumenta com o au-
mento da distância a partir do pico cen-
tral. No caso de deconvolução de linhas
lorentzianas, se usa uma função expo-
nencial. Dessa forma, as regiões da
transformada de Fourier que codificam
Figura 13-11: Espectro de infravermelho para estruturas finas no espectro origi-
(região amida I) representativo de uma nal levam um peso mais forte. Após
proteína que sofreu agregação induzida por transformação de volta em um espec-
temperatura. As linhas tracejadas indicam tro de IV, os componentes do espectro
componentes de folha β de alta (esquerda) e que mudaram mais ao longo do número
baixa (direita) frequências. de onda (ou da frequência) são amplifi-
11. Infra-vermelho
Figura 15-11: Espectro na região da amida I de

uma proteína em solução (2H2O) (vermelho).
Em azul está representada a segunda
Figura 14-11: Espectro de IV (região amida I) derivada do espectro original e, em preto, o
não processado (vermelho) e após espectro resultante do somatório dos
processamento matemático (FSD) da proteína diferentes componentes (verde) deduzidos a
lisozima em 2H2O. partir da segunda derivada.
cados e as bandas então aparecem mais é possível identificar (ver Tabela 3-11) e calcu-
definidas. Para a amplificação, deve-se lar a fração de cada componente de estrutura
definir um valor de FWHH (no geral de 2ária presente na proteína. O percentual de
13 a 25 cm-1, dependendo da resolução cada tipo de estrutura 2ária é então calculado
espectral e da relação sinal/ruído) e um a partir da área de cada banda corresponden-
fator de incremento, que será multipli- te a um determinado tipo de estrutura 2ária
cado ao sinal total da amida I; em comparação com a área do espectro total
iii) uma terceira abordagem é de incre- na amida I (que apresenta o valor de 100%).
mento de fine-structure; uma versão
suavizada do espectro original é multi- 11.8. Desvio de 1H para 2H
plicada por um fator pouco menor que 1
e, subsequentemente, subtraída do es- Como vimos anteriormente, os espec-
pectro original, aumentando a estrutura tros de IV de proteínas em solução são obti-
fina do espectro, similarmente a uma dos a partir de amostras diluídas em 2H2O. A
FSD. troca 1H/2H leva a pequenos desvios nos
componentes da amida I (denominada amida I´
Existem diversos problemas para a quando a proteína está dissolvida em 2H2O).
predição de estrutura 2ária por FTIR, indepen- Esses desvios de frequência são causados
dentemente do método aplicado. Não há um pela pequena contribuição da dobra N-H para
único espectro de IV para um tipo de estrutu- esta banda de vibração.
ra 2ária, e o espectro obtido também depende Para proteínas, a grandeza do desvio
de detalhes estruturais como deformações depende do tipo de estrutura 2ária. Em geral,
na hélice ou o número de fitas adjacentes em ocorre um desvio de 15 cm-1 para compo-
uma folha β. Além disso, outro problema é a nentes de baixa frequência de folhas β e vol-
absorção por cadeias laterais nesta região. É tas. Estruturas desordenadas sofrem desvio
estimado que de 10 a 30 % da absorção total de 10 cm-1, enquanto que para as outras ban-
da amida I é derivada de cadeias laterais. das o desvio é menor. A magnitude do desvio
Após a separação dos diferentes com- vai depender da extensão da contribuição da
ponentes (frequências) da amida I, utilizando vN-H para a banda amida I.
alguma das abordagens apresentadas acima, Outra causa para este desvio não ser
11. Infra-vermelho
homogêneo entre todas as proteínas é a troca sobreponíveis. Amplificação do ruído

incompleta de 1H por 2H, principalmente em após FSD.
regiões de estrutura 2ária ordenada que apre- v) Exige manipulação matemática ex-
sentam um pequeno desvio. Sendo assim, é tensa dos dados experimentais obtidos;
essencial o conhecimento do solvente utiliza- vi) Sofre interferência de contaminantes
do (se H2O ou 2H2O) para interpretação de esque absorvam no IV médio, como o TFA,
pectros de IV de proteínas. solvente utilizado na purificação de
peptídeos sintéticos, que absorve a
11.9. Vantagens e limitações 1.673 cm-1.
Como principais vantagens da técnica, 11.10. Conceitos-chave

podemos citar:
i) As medidas de FTIR de proteínas po- Caminho óptico: espessura da solução atraves-
dem ser realizadas rapidamente; sada por um feixe de luz.
ii) Usualmente, os espectros de FTIR
apresentam elevada resolução mesmo Interferograma: Padrão de interferência gerado
com sinal baixo; por um interferômetro, a partir da recom-
iii) Pode ser aplicada em amostras em binação da luz gerada a partir de duas
solução ou secas; fontes diferentes.
iv) Pode ser aplicado a amostras insolú-
veis, o que usualmente limita as medi- FWHH (full bandwidth at half height): largura
das em outras técnicas máxima da banda na metade da altura
espectroscópicas; (intensidade total).
v) Meios opticamente turvos podem ser
utilizados, o que amplia a diversidade de Beam splitter: separador do feixe de infraver-
ambientes em que a macromolécula melho, presente no interferômetro.
pode ser estudada;
vi) Permite a avaliação da estrutura de FSD: Fourier self-deconvolution. Deconvolução
proteínas inseridas em membrana e de uma região do espectro de IV (Amida I,
agregados proteicos, além de outros no caso), a partir de estreitamento de
sistemas pouco estudados por outros banda e da utilização de um fator de in-
métodos espectroscópicos; cremento (de 1.5 a 2.5), que é multiplica-
vii) Grande quantidade de informação do pelo sinal da Amida I obtida.
obtida;
viii) Técnica não-destrutiva, ou seja, há a N-metil acetamida (NMA): Menor molécula que
possibilidade de recuperação da amos- contém um grupamento peptídico em
tra após a medida. trans. Utilizado como modelo para análise
dos modos vibracionais da cadeia polipep-
As limitações e cuidados a serem to- tídica.
mados incluem:
i) A quantidade de proteína necessária é Transformada de Fourier: É uma transformada
elevada (de 1 a 4 wt%); reversível de uma função em outra função.
ii) A troca 1H2O → 2H2O requer liofiliza- A segunda função, chamada de transfor-
ção da amostra; mada de Fourier fornece os coeficientes de
iii) Avaliação quantitativa ainda limitada funções senoidais (suas frequências) que
devido à falta de modelos acurados; podem ser recombinadas para obter a
iv) A deconvolução nem sempre irá re- função original.
presentar a estrutura correta final em
função do elevado número de bandas Massa reduzida (μ): Quantidade que permite
11. Infra-vermelho
que o problema de dois corpos na mecâ-

nica Newtoniana seja resolvido como um
problema de um corpo somente, pois:
μ = m1 x m2/m1 + m2, onde m1 é a massa do

corpo 1 e m2 é a massa do corpo 2.

BARTH, Andreas; ZSCHERP, Christian. What
vibrations tell us about proteins. Q. Rev.
Biophys. 35, 369-430, 2002.
BYLER, D. M.; SUSI, H. Examination of the

secondary structure of proteins by
deconvolved FTIR spectra. Biopolymers.
25, 469-87, 1986.
SILVERSTEIN, R. M.; WEBSTER, F. X.; KIEMLE,

D. J. Infrared Spectrometry. In:
Spectrometric identification of organic
compounds. 7a.ed. John Wiley & Sons,
2005.
SUREWICZ, W. K.; MANTSCH, H. H.; CHAPMAN,

D. Determination of protein secondary
structure by Fourier transform infrared
spectroscopy: a critical assessment.
Biochemistry. 32, 389-94, 1993.
12. Ressonância Magnética Nuclear
Marcius da Silva Almeida
Estrutura 3D da proteína Psd1 determinada por RMN. dos Protein Data Bank (PDB) resultam da
aplicação de uma destas técnicas. As demais
12.1. Introdução estruturas provêm, essencialmente, de mo-
delos teóricos. O número de estruturas re-
12.2. Fundamentos solvidas por cristalografia excede em 5
vezes as resolvidas por RMN, em grande par-
12.3. Deslocamento químico te devido a um limite no tamanho da proteína
passível de ter sua estrutura determinada por
12.4. Acoplamento escalar RMN (em torno de 6 kDa por técnicas bidi-
mensionais e 40 kDa por técnicas de três ou
12.5. Efeito Overhauser nuclear mais dimensões). Em contrapartida, a crista-
lografia é limitada, principalmente, pela difi-
12.6. Estrutura de proteínas culdade na obtenção de monocristais.
A primeira estrutura 3D determinada
12.7. Análise dos espectros de RMN através de RMN foi do inibidor de -amilase
tendamistat, em 1986, por Kline e colabora-
12.8. Cálculo da estrutura dores, ao passo que a primeira estrutura 3D
de proteína determinada com alta resolução
12.9. Conceitos-chave através de RMN foi da interleucina 1 , em
1991, por Clore e colaboradores.
12.2. Fundamentos
12.1. Introdução
Uma das características de um núcleo atômico é
Os concomitantes avanços em biologia sua rotação em torno do seu próprio eixo, um fenôme-
molecular e em espectroscopia por Resso- no denominado de spin. Os núcleos com spin possuem
nância Magnética Nuclear (RMN) multidimen- momento angular p que varia de forma quântica. O
sional tiveram como reflexo um aumento número máximo das componentes do momento angu-
explosivo na utilização da espectroscopia por lar de um núcleo é denominado de número quântico de
RMN a fim de obter informações estruturais e spin (I). Um núcleo possui 2I +1 estados de magneti-
dinâmicas em macromoléculas biológicas, in- zação, onde o componente do magnetismo nuclear
cluindo ácidos nucleicos, carboidratos e pro- possui valores I, I –1, I –2, ..., -I.
teínas. Em proteínas, os núcleos atômicos mais importan-
A espectroscopia por RMN em solução e tes (devido a propriedades intrínsecas que levam a ge-
a cristalografia por raios-X são, essencial- ração de um sinal plausível de ser identificado por
mente, as únicas técnicas experimentais ca- espectroscopia de RMN) são o 1H (abundância natural
pazes de fornecer informações da estrutura de 99,98%), o 13C (abundância natural de 1,11%) e o 15N
tridimensional de uma macromolécula com (abundância natural de 0,36%). O número quântico de
resolução atômica. Aproximadamente 97% spin destes núcleos é 1/2. Desta forma, estes núcleos
das estruturas depositadas no banco de da- possuem dois estados de spin (-1/2 e +1/2).
O spin de núcleos carregados cria um campo mag- onde Nj é o número de núcleos no estado de maior
nético orientado paralelamente ao eixo do spin, que po- energia, N0 é o número de núcleos no estado de menor
de ser representado por uma quantidade vetorial µ. energia, k é a constante de Boltzmann e T é a tempera-
Este momento magnético é diretamente proporcional tura absoluta. No caso do 1H, por exemplo, em um
ao momento angular e à constante giromagnética ( ) campo magnético de 14,1 T à 293 K, esta relação é de
do núcleo. Consequentemente, os diferentes estados 0,999901, que significa um excesso de 198 ppm de
do spin dos núcleos supracitados resultam em dois es- prótons no estado de menor energia. Este excesso é
tados de magnetização, representadas pelo número representado por um vetor de magnetização resultan-
quântico magnético m, igual à +1/2 e –1/2. te M (Figura 1-12).
Para se obter um sinal de RMN destes núcleos em Através de pulsos de magnetização com vetor per-
um espectrômetro moderno, inicialmente é induzida a pendicular ao vetor B0 e na mesma frequência que a
orientação do vetor µ ao longo do vetor de um campo frequência de Larmor, é induzida uma reorientação
magnético forte gerado por um magneto (vetor B0). O (excitação) do vetor M.
vetor µ poderá estar alinhado tanto no mesmo sentido Após certo período de tempo cessa-se o pulso de
como no sentido contrário ao vetor B0, sendo que a magnetização e detecta-se o sinal ressonância de cada
quantidade de energia que envolve a transição de um núcleo enquanto seus vetores M (para cada núcleo)
núcleo entre estes dois estados é dada pela equação retornam à condição inicial, ou seja, determina-se e
frequência de precessão do vetor M de cada núcleo ao
ΔE = (γћ/2π)B0 passo que estes retomam o alinhamento paralelo com
o vetor B0. Tal fenômeno, que representa o sinal fun-
onde ћ é a constante de Planck.
Como em outras técnicas de espectroscopia, a
transição entre estes dois estados pode ser consegui-
da através da absorção ou da emissão de radiação ele-
tromagnética, em uma frequência v0 (frequência de
Larmor) que corresponde, em energia, à diferença ΔE.
Através da equação
Figura 1-12: Manipulação dos spins para se
v0 = γB0/2π obter um espectro de RMN. A) inicialmente os
núcleos atômicos apresentam vetor de
torna-se claro que a frequência da radiação envolvida campo magnético μ com orientação caótica.
na transição dos estados energéticos dos spins depen- B) Através de um campo magnético forte B0 é
de diretamente da força do campo magnético externo induzida uma orientação coerente dos vetores
e do núcleo estudado. Os espectrômetros de RMN são, μ, passando a precessar em torno de B0. Esta
em geral, classificados de acordo com a frequência de orientação resulta no vetor M (vermelho). C)
Larmor do 1H sob a força do campo magnético gerado são gerados pulsos de magnetização
pelo magneto de tal equipamento. Por exemplo, sob a perpendiculares ao vetor B0 com a mesma
influência de um campo magnético de 14,1 T, a frequên- frequência que da precessão dos spins, o que
cia de Larmor do 1H será de 600 MHz, e desta forma reorienta o vetor M (que fica perpendicular ao
tem-se um espectrômetro de 600 MHz. vetor B0 mas, dependendo da intensidade ou
Um fato importante é que os núcleos se distribuem duração do pulso de magnetização, pode ter
desigualmente entre estes dois estados energéticos, diversas orientações). D) após os pulsos,
de tal forma que existe um excesso de núcleos no es- ocorre a relaxação (perda de orientação
tado de menor energia em relação ao de maior ener- coerente) dos spins, o que é representado
gia. A relação entre o número de núcleos distribuídos pela diminuição do vetor M, assim como seu
entre os dois níveis energéticos é dada pela equação realinhamento paralelo ao vetor B0. Neste
ultimo momento é realizada a detecção do
Nj/N0 = exp(-γћB0/2πkT) sinal de ressonância dos núcleos.
damental observado por espectroscopia de RMN, é de- Através de um espectro de RMN pode-
nominado de Free-Induction Decay (FID). Este sinal, re- se observar seletivamente o sinal de diferen-
presentado por uma onda no domínio temporal, é tes núcleos em diferentes ambientes quími-
processado, empregando-se o formalismo da trans- cos, ou ainda ligados a diferentes átomos.
formada de Fourier, e o resultado é um espectro no Como exemplificado na Tabela 1-12, no caso
domínio das frequências. da espectroscopia de proteínas por RMN de
Nas modernas técnicas de RMN não se 1
H, podem-se distinguir diversos grupos de
utiliza apenas um único pulso de excitação, átomos de hidrogênio pelo deslocamento
mas uma sequência de pulsos, que manipu- químico destes. Assim, o deslocamento quí-
lam os spins de uma forma complexa. A ma- mico é um dos mais importantes parâmetros
nipulação da magnetização dos spins pode em estudos por RMN.
revelar influências externas sob um núcleo,
como a proximidade ou ligação a outros áto- 12.4. Acoplamento escalar
mos, através de análises da largura, intensi-
dade e deslocamento químico do sinal de Um dos fatores que influencia na mag-
cada núcleo em um espectro de RMN. Desta netização de um núcleo atômico é a sua liga-
forma, através destas sequências de pulsos, ção com outros átomos. Esta interação é
podem-se obter várias informações relacio- conhecida por acoplamento escalar ou spin-
nadas com a estrutura de uma molécula, que spin, sendo representada pela constante de
podem por fim, serem “traduzidas” na forma acoplamento nJab, onde n é o número de liga-
da estrutura tridimensional de uma proteína. ções covalentes separando os núcleos a e b.
Normalmente, o acoplamento escalar se es-
12.3. Deslocamento químico tabelece entre átomos separados por até três
ligações químicas.
O deslocamento químico define a locali- A constante de acoplamento se mani-
zação de uma linha nos espectros de RMN ao
longo do eixo de frequência. Esta grandeza é Tabela 1-12: Distinção entre os átomos de
medida relativa a um composto de referência hidrogênio dos aminoácidos comuns pelo
(geralmente um composto solúvel em água deslocamento químico (adaptado de
como o 3-trimetilsililpropionato). Wüthrich, 1986).
Nos espectros de RMN a unidade do
deslocamento químico de um núcleo é nor- Tipo de átomo de Deslocamento químico
malmente representada em ppm (partes por hidrogênio (ppm)
milhão), que é uma forma de normalizar to-
dos os espectros em função da intensidade CH3 0,9 – 1,4
do campo magnético do magneto onde se fez CH2 de V, I, L, E, Q, M, P, 1,6 – 2,3
o espectro de uma amostra (como citado an- R, K
teriormente, a frequência de Larmor depende
fortemente da intensidade do campo magné- CH2 de C, D, N, F, Y, H, W 2,7 – 3,3
tico). CH2 de S, CH de T e CαH 3,9 – 4,8
Os núcleos atômicos estão sempre ro-
deados de diversos átomos e quase sempre Outros CH alifáticos 1,2 – 3,3
estão ligados a outros átomos e, assim, são CH aromático 6,5 – 7,7
rodeados por uma nuvem eletrônica. Essa nu- NH de cadeia lateral de 6,6 – 7,7
vem eletrônica gera campos magnéticos se-
N, Q, K, R
cundários que são os principais responsáveis
pela alteração do deslocamento químico de NH da ligação peptídica 8,0 – 8,8
um núcleo em uma macromolécula (efeito NH indólico 10,2
denominado de blindagem nuclear).
festa em um espectro de RMN como um pico processo de determinação da estrutura de

composto denominado multipleto (sinal divi- proteínas, de forma a facilitar o trabalho de
dido em duas ou mais componentes) e sua assinalamento dos sinais de ressonância.
magnitude é indicada pela distância entre os Neste caso estão incluídos o HMQC (hetero-
picos de um multipleto, em hertz (Hz). Um nuclear multiple quantum coherence) e HSQC
fato importante para a determinação da es- (heteronuclear single quantum coherence).
trutura de moléculas por RMN é que as cons-
tantes de acoplamento 3Jab dependem do TOCSY
ângulo de torção entre os átomos acoplados
(maiores detalhes no tópico “cálculo da es- Também conhecido por HOHAHA (Ho-
trutura”). monuclear Hartmann-Hahn), o experimento
de TOCSY (Total Correlated Spectroscopy)
12.5. Efeito Overhauser nuclear consiste em uma sequência de pulsos que in-
duzem a transferência da magnetização entre
A influência da magnetização de átomos núcleos, como prótons ou carbono, via aco-
não ligados por meio de uma ligação química, plamento escalar.
porém próximos, é o mais importante efeito Uma vez que a transferência via acopla-
na magnetização de um núcleo para a deter- mento escalar por mais de quatro ligações é
minação da estrutura de proteínas por RMN. praticamente nula e que o carbono da carbo-
Tal fenômeno, denominado de efeito nila da ligação peptídica não possui próton li-
Overhauser nuclear (NOE), ocorre devido ao gado, o 2D [1H,1H]-TOCSY de proteínas
acoplamento dipolar (pelo espaço) entre dife- evidenciará interação somente entre prótons
rentes núcleos, que envolve a transferência de cada aminoácido isoladamente (Figura 2-
de magnetização entre os spins acoplados. 12). Neste espectro, cada pico (denominados
A intensidade do acoplamento dipolar é de picos de correlação e representados por
proporcional ao inverso da sexta potência da curvas de nível) indica a presença da intera-
distância entre os átomos, sendo que este ti- ção entre dois prótons via acoplamento es-
po de interação é normalmente detectado en- calar. O conjunto dos sinais de correlação dos
tre átomos distantes entre si em até 5 Å. prótons de um aminoácido é denominado de
sistema de spin (Figura 2-12).
12.6. Estrutura de proteínas
NOESY
Um dos passos para se determinar a
estrutura tridimensional de macromoléculas O NOESY (Nucear Overhauser Effect
por espectroscopia de RMN é o assinalamen- SpectroscopY) é o espectro crucial para a
to (identificação) dos picos de ressonância. determinação da estrutura de uma proteína.
Em proteínas, devido à grande quantida- Neste tipo de experimento é induzida, através
de de átomos, ocorre uma enorme sobreposi- de uma sequência de pulso específica, a
ção de sinais nos espectros de RMN, o que transferência de magnetização entre os nú-
torna impraticável o assinalamento dos picos cleos via acoplamento dipolar, que depende
de ressonância. Uma forma de resolver este da proximidade entre átomos, mesmo que
problema é a utilização de espectroscopia bi- não estejam ligados quimicamente.
dimensional, através de uma série de sequên- No espectro de 2D [1H,1H]-NOESY apa-
cias de pulsos específicas. recerão sinais (os NOEs) que representam
Os espectros bidimensionais essenciais prótons próximos (distância menor do que 5
para a determinação da estrutura de proteí- Å). A intensidade dos NOEs depende de vários
nas incluem o TOCSY e o NOESY, ambos de fatores, dentre eles, a distância entre os pró-
correlação homonuclear. Espectros de corre- tons acoplados (o que por uma aproximação
lação heteronuclear podem ser incluídos no simplista, pode representar diferentes limites
Figura 2-12: Prótons em acoplamento escalar de um fragmento peptídico contendo o resíduo de

ácido glutâmico. As setas vermelhas e azuis indicam acoplamento 3JHH e 2JHH, respectivamente,
que só podem ocorrer entre prótons de um mesmo aminoácido. A cadeia lateral dos
aminoácidos que precedem e sucedem o glutamato é representada pela letra R. Ao lado do
fragmento polipeptídico é apresentado o desenho esquemático de um espectro bidimensional
de [1H,1H]-TOCSY, evidenciando os picos de correlação dos prótons do glutamato (círculos
vermelhos). Tal perfil representa um sistema de spin. Os picos em preto na diagonal do
espectro são os sinais de ressonância de cada próton do glutamato.
de distância entre os prótons). Desta forma, próton e 15N, sendo este sinal importante para
pode-se fazer uma aproximação semi-quanti- a caracterização geral da conformação da
tativa entre a intensidade dos NOEs e a dis- proteína, assim como da qualidade da amos-
tância que separa os prótons acoplados. tra a ser estudada. Na Figura 3-12 são exem-
NOEs intensos representam prótons separa- plificados dois espectros, um de uma proteína
dos por 1,8 a 2,7 Å, NOEs de intensidade mé- bem enovelada e estável, sendo por isso pas-
dia representam prótons separados por 1,8 a sível de ter sua estrutura determinada por
3,4 Å e NOEs fracos, prótons separados por RMN em solução, assim como um de uma
1,8 a 5,0 Å. proteína desordenada e agregada.
Usando-se os dados de distância entre
prótons de uma proteína indicadas pelos Espectros de tripla ressonância
NOEs (restrições de NOE), pode-se finalmente
criar um modelo estrutural desta macromo- Em experimentos de tripla ressonância
lécula. pode-se associar a magnetização entre dife-
rentes núcleos para obter um mapeamento
Espectros 2D heteronucleares bem definido dos sinais de uma proteína. Co-
mo por exemplo, com o espectro tridimensi-
Nos experimentos bidimensionais hete- onal (3D) de HNCO, ter-se-á um sinal oriundo
ronucleares (HMQC - Heteronuclear Multiple da transferência de magnetização entre pró-
Quantum Coherence ou então HSQC - Hetero- ton amídico, nitrogênio amídico e carbono da
nuclear Single Quantum Coherence), é realiza- carbonila (Figura 4-12). Espectros mais com-
da a transferência de magnetização entre o plexos geralmente são usados para obter
spin do próton e o spin de outro núcleo atô- correlações entre os diversos núcleos de uma
mico, através de somente uma ligação quími- proteína e, assim, conseguir uma descrição
ca. Nos espectros aparecerão picos de (assinalamento) o mais completa possível da
correlação entre próton e 13C ou então entre cadeia polipeptídica. Por exemplo, pode-se
Figura 3-12: Espectros bidimensionais heteronucleares 2D [1H,15N]-HSQC de duas proteínas,

CDNF (Cerebral Dopamine Neurotrophic Factor, contendo 162 resíduos de aminoácidos ou 18,4
kDa) e BEX3 (Brain Expressed X-linked, contendo 124 resíduos de aminoácidos ou 14,5 kDa), que
representam uma proteína bem enovelada e uma proteína com alto grau de desordem,
respectivamente. O espectro de uma proteína bem enovelada apresenta diversos sinais bem
dispersos e bem definidos, diferente do espectro de uma proteína desenovelada e com grande
tendência de agregação, que exibe picos sobrepostos. Proteínas com caraterísticas espectrais
similares a CDNF normalmente podem ter suas estruturas determinadas por RMN.
fazer um espectro 6D HNCOCANH, onde a 12.7. Análise dos espectros de RMN

magnetização será transferida entre hidrogê-
nios amídicos de aminoácidos vizinhos através Para qualquer estudo de proteínas por
da carbonila e do carbono alfa (Figura 5-12). espectroscopia de RMN, cada sinal de resso-
Para se determinar os sistemas de spin nância deve ser associado a um núcleo espe-
de uma proteína, são necessários pelo menos cífico. Este processo é denominado de
quatro espectros de tripla ressonância (3D atribuição das ressonâncias.
HNCO, 3D HNCACB, 3D CBCA(CO)NH e 3D A atribuição das ressonâncias de uma
HBHA(CO)NH) e dois espectros tridimensio- proteína é obtida através da análise em con-
nais de TOCSY, um editado para 13C e outro junto dos espectros de NOESY, TOCSY, es-
para 15N. Alternativamente, é possível usar pectros bidimensionais heteronucleares e de
métodos ainda mais modernos de determina- tripla ressonância, onde o intuito é correlaci-
ção de estruturas de proteínas por RMN, tais onar cada um dos sinais de ressonância en-
como a aquisição de dois espectros de quatro contrados nestes espectros com os prótons,
dimensões (4D e 4D) e um de cinco dimen- carbonos e nitrogênios de cada um dos ami-
sões (5D). noácidos da proteína. Neste processo, inicial-
Em qualquer caso, a análise destes es- mente as ressonâncias de 1H, 13C e 15N são
pectros de tripla ressonância deve ser com- classificadas (em HN, Hα, Hβ, Cα, Cβ e CO,
plementada por espectros de [1H,1H]-NOESY dentre outros) de acordo com seus desloca-
tridimensionais, editados para 13C e 15N que mentos químicos (Figura 6-12 e 7-12).
evidencia NOEs entre prótons, desde que um Os espectros são então analisados por
deles esteja ligado a um 13C ou 15N, respecti- regiões de acordo com o tipo de grupamento
vamente. químico esperado em cada faixa de desloca-
mento químico. Apesar de serem observadas
diferenças entre os sistemas de spin de cada
Figura 4-12: Segmento tripeptídico de uma Figura 5-12: Segmento tripeptídico de uma
proteína hipotética com a indicação de alguns proteína hipotética com a indicação do
caminhos de transferência de magnetização caminho de transferência de magnetização
obtidos através de dois experimentos de obtido por um experimento de tripla
tripla ressonância (3D HNCO em azul e 3D ressonância 6D HNCOCANH. O sinal
HN(CO)CA em vermelho). O sinal observado observado conterá informações de
conterá informações de deslocamento deslocamento químico de cada um dos
químico de cada um dos átomos indicados, átomos indicados, em um espectro de seis
em um espectro de três dimensões (1H, 13C e dimensões (1H, 15N, 13CO, 13Cα, 15N e 1H). Note
15
N). que este tipo de espectro identifica a ligação
de um sistema de spin (aminoácido) a outro.
aminoácido, podem ocorrer sobreposições de
picos de correlação nos espectros e altera- ii) treonina, que possui um único Hβ com
ções acentuadas de deslocamento químico de deslocamento químico anormalmente
um núcleo atômico (em uma proteína bem alto ( 4 ppm contra os 2,5 ppm dos Hβ
estruturada, cada próton poderá estar locali- dos outros aminoácidos) e uma metila
zado em um ambiente químico particular e, com deslocamento químico de Hγ em
por isto, sofrer diferentes graus de blindagem 1,5 ppm e intensidade de sinal alta;
nuclear), o que dificulta a análise dos espec- iii) serina que possui dois Hβ com des-
tros de RMN no que diz respeito à identifica- locamento químico anormalmente alto
ção dos sistemas de spin. ( 4 ppm);
Em vista disto, o passo seguinte é iden- iv) alanina, que possui uma CβH3 que re-
tificar alguns sistemas de spin bem caracte- sulta em um pico de Hβ intenso com
rísticos nos espectros, levando-se em conta deslocamento químico em 1,39 ppm.
os valores de deslocamento químico médio
dos prótons dos 13C e dos 15N aos quais os A partir da identificação destes aminoá-
prótons estão ligados, das diversas proteínas cidos bem característicos, nos espectros,
já estudadas por RMN (por exemplo, note a buscam-se conectividades entre os sistemas
diferença entre os deslocamentos químicos de spin usando diversos espectros.
da alanina e glicina, Figura 7-12). Em se tratando de proteínas que não
Os aminoácidos com deslocamento quí- estão isotopicamente enriquecidas com 13C e
mico de 1H e 13C mais característicos são: 15
N, se usa espectros de NOESY para este
i) glicina, que possui dois Hα ligados a processo de atribuição das ressonâncias as-
um Cα com deslocamento químico sociados à sequência de aminoácidos da pro-
anormalmente baixo ( 45 ppm contra teína em estudo. O objetivo é buscar NOEs
60 ppm dos outros Cα do restante dos entre prótons da cadeia principal de aminoá-
aminoácidos); cidos vizinhos que estão quase sempre a me-
Figura 6-12: Estrutura dos 20 aminoácidos naturais encontrados em proteínas. As

nomenclaturas oficiais de cada átomo são evidenciadas. A porção referente à cadeia principal
só é representada para a Pro, Gly e Ala. Para todos os outros aminoácidos, a cadeia principal é
idêntica à da Ala, que está circulada por uma linha tracejada. Figura extraída com permissão do
artigo “Recommendations for the presentation of NMR structures of proteins and nucleic acids
(IUPAC© Recommendations 1998)” escrito por Markley e cols. 1998.
nos de 5 Å de distância entre si (Figura 7-12). entre sistemas de spin também usualmente
Neste sentido, procura-se conectividade do são obtidas por intermédio de interações es-
HN do aminoácido com sistema de spin atípico calares, evidenciadas pelos espectros de tri-
identificado (na posição i da sequência da pro- pla ressonância discutidos acima
teína) com Hα, HN e, algumas vezes, Hβ do (exemplificados nas Figuras 4-12 e 5-12).
aminoácido que o precede na sequência poli- Desta forma, ou usando espectros de NOESY,
peptídica (posição i – 1), assim como conecti- obtêm-se algumas sequências tripeptídicas
vidades do Hα, HN e às vezes do Hβ do atribuídas ao longo da sequência polipeptídica
aminoácido identificado (posição i) com o HN da proteína.
do aminoácido que o sucede (posição i + 1) A partir daí continua-se a atribuição se-
(Figura 8-12). quencial, levando em conta algumas caracte-
Em se tratando de proteínas isotopica- rísticas dos aminoácidos menos atípicos em
mente enriquecidas com 13C e 15N (obtidas conjunto com a sequência 1ária da proteína. A
normalmente quando produzidas em bactéri- seguir são descritas brevemente algumas
as como Escherichia coli ou leveduras como peculiaridades dos aminoácidos menos atípi-
Pichia pastoris crescidas em meios sintéticos cos:
contendo 15NH4Cl como única fonte de nitro- v) valina, só possui um Hβ e dois CγH3
gênio e 13C-Glicose ou 13C-metanol como úni- com pico de Hγ com intensidade relati-
cas fontes de carbono), as conectividades vamente alta;
Figura 7-12: Deslocamento químico de 1H e 13C (em ppm) dos átomos dos 20 aminoácidos
naturais encontrados em proteínas. As nomenclaturas oficiais de cada átomo são
representadas por diferentes símbolos. Valores obtidos do “Biological Magnetic Resonance Data
Bank” (http://www.bmrb.wisc.edu). As barras representam os desvios padrões.
vi) leucina, possui longa cadeia lateral, o xi) tirosina e fenilalanina, apresentam
que pode resultar em uma faixa de si- NOE entre Hβ e Hδ do anel aromático;
nais de 1H com deslocamento químico xii) triptofano, identificável por NOEs
baixo ( 1,5 ppm); entre Hβ e os Hδ1 e Hε2 do anel aromá-
vii) isoleucina, apresenta padrão muito tico (o último próton possui desloca-
semelhante ao da leucina, porém ao mento químico atípico de 10 ppm);
contrário da outra, só possui um Hβ; xiii) metionina, o intenso pico metílico Hε
viii) cisteína e aspartato, suas cadeias é facilmente identificável e sua correla-
laterais se restringem a dois Hβ; ção com o resto do sistema de spin se
ix) asparagina, através do espectro de dá somente via NOEs;
NOESY identifica-se conexão entre HN, xiv) glutamato, possui dois CH2 na ca-
Hα e Hβ com os prótons amídicos da cadeia lateral;
deia lateral (Hδ21 e Hδ22), diferencian- xv) glutamina, além dos dois CH2 possui
do-a da cisteína e do aspartato; conectividade via NOE entre Hγ e pró-
x) histidina, pelo espectro de NOESY é tons amídicos Hε21 e Hε22 da cadeia la-
possível ver conectividade entre HN, Hα teral;
e Hβ com Hδ2 do anel aromático; xvi) arginina, identificável através dos
atribuições erradas pelo aparecimento súbito

de grandes violações de NOEs (restrições de
distância impostas por NOEs que não conse-
guem ser ajustadas em uma estrutura tridi-
mensional calculada). Uma vez constatado
um erro de atribuição, retorna-se ao passo de
assinalamento sequencial, trocando-se os
sistemas de spin atribuídos erroneamente.
12.8. Cálculo da estrutura

A determinação da estrutura tridimen-
Figura 8-12: Segmento tripeptídico de uma sional de macromoléculas por RMN é basea-
proteína hipotética com a indicação dos NOEs da, principalmente, em informações de
sequenciais empregados para atribuir as distâncias interprótons (os NOEs). Como ci-
ressonâncias dos três sistemas de spin a tado anteriormente, através das intensidades
partir da treonina (resíduo na posição i da dos NOEs pode-se fazer uma aproximação da
sequência da proteína). As cores das setas distância entre prótons envolvidos em aco-
representam os tipos de NOEs sequenciais plamento dipolar, distância esta que varia de
(azul - dβN; verde - dαN; vermelho – dNN). A 1,8 – 5 Å.
probabilidade de uma conectividade ser Informações adicionais, como ângulos
realmente sequencial é de aproximadamente torcionais, podem ser bastante úteis na de-
66-79% para NOEs tipo dβN, 76-94% para terminação da estrutura tridimensional de
dNN e 72-98 % para dαN. Quando uma proteína, restringindo mais ainda o espa-
encontradas duas destas conectividades, a ço conformacional adotado pelas estruturas
probabilidade delas representarem dois tridimensionais calculadas. Os ângulos de di-
resíduos consecutivos é de 90-99%. edro φ (formado pelas ligações entre Ci-Cαi e
Ci-1-Ni ao longo da ligação entre Cαi-Ni do re-
picos de correlação entre CH2 e NεH da síduo i) e χ1 (formado pelas ligações entre Ni-
cadeia lateral em adição aos picos entre Cαi e Xγi-Cβi ao longo da ligação entre Cαi-Cβi
HN, Hα e os CH2 da cadeia lateral; do resíduo i, onde X pode ser O, C ou S) po-
xvii) lisina, como a leucina e a isoleucina dem ser inferidos via constante de acopla-
possui longa cadeia lateral, o que pode mento 3JHNHα e 3JHαHβ, respectivamente (Figura
resultar em uma faixa de sinais de 1H, 9-12).
porém com deslocamento químico entre A constante de acoplamento 3JHNHα é in-
1,5 e 3,0 ppm. Além disso, ao contrário dicada através da distância entre os picos do
dos outros dois aminoácidos, este pos- dubleto associado à correlação entre HN e Hα,
sui apenas CH2 na cadeia lateral. em Hz. A partir daí convenciona-se que para
HNHα > 8 Hz tem-se um ângulo φ de aproxi-
3J
Uma vez tendo todos ou quase todos madamente -140o e para 3JHNHα < 6 Hz tem-se
sistemas de spin identificados (normalmente ângulo φ de aproximadamente -60o (estes
chega-se ao ponto de identificar 95% dos ângulos são característicos para segmentos
sistemas de spin), segue-se com o cálculo da peptídicos em conformação de fita β e hélice
estrutura 3D baseada nestes sistemas e nos α, respectivamente).
sinais a serem identificados nos espectros de Os ângulos de diedro φ e ψ (este último
NOESY e transformados em restrição de dis- formado pelas ligações entre Ni+1-Ci e Cαi-Ni
tância pelo programa de cálculo de estrutura. ao longo da ligação entre Cαi-Ci do resíduo i)
No decorrer do cálculo da estrutura, podem ser inferidos a partir do índice de des-
pode-se identificar mais facilmente possíveis locamento químico dos núcleos (CSI), uma vez
Shift Index, pode ser feito através do endere-

ço eletrônico www.bionmr.ualberta.ca/bds/-
software/csi/latest/csi.html.
A análise do ângulo χ1 fornece impor-
tante informação sobre a conformação da
cadeia lateral dos aminoácidos, permitindo
inclusive o assinalamento estéreo-específico
dos dois prótons Hβ (Tabela 2-12). A partir da
rotação χ1 ao redor da ligação Cα-Cβ, as con-
figurações energicamente mais favoráveis
são aquelas com o ângulo χ1 de 60o, 180o ou
–60o. Como apresentado na Tabela 2-12, a
identificação dos rotâmeros e o assinalamen-
Figura 9-12: Fragmento de uma cadeia to estéreo-específico dos Hβ se dá a partir da
polipeptídica evidenciando os ângulos de identificação das constantes de acoplamento
diedro φ, ψ e χ1. As linhas pontilhadas indicam
as ligações às quais tais ângulos torcionais se Tabela 2-12: Caracterização dos três
referem. As setas vermelhas indicam a rotâmeros possíveis em torno da ligação Cα-
rotação das ligações que representam os Cβ. As orientações gauche e trans são
vértices destes ângulos. referidas como g e t, onde os índices 2 e 3
indicam os prótons Hβ2 e Hβ3. O padrão de
que o deslocamento químico de um núcleo é intensidade dos NOEs é indicado para cada
sensível ao ambiente e a geometria das liga- conformação.
ções químicas.
Os deslocamentos químicos de 13Cα e Conformação
1
Hα são os mais usados e melhor correlacio- Características
nados com a presença de estruturas 2árias em g2g3 g2t3 t2g3
proteínas. Quando o deslocamento químico
do 13Cα de uma série de pelo menos quatro
aminoácidos está aumentado em relação aos
valores médios oriundos de diversas estrutu-
ras proteicas (CSI +), é sugerida a presença de
um segmento em hélice α, com ângulos de χ1 60o 180o -60o
diedro φ e ψ próximos de -120o e -60o, res-
pectivamente. No caso contrário, quando o 3
JHαHβ2 (Hz) 2,6-5,1 2,6-5,1 11,8-14,0
deslocamento químico do 13Cα de uma série
de pelo menos quatro aminoácidos está dimi-
nuído (CSI -), é sugerido a presença de um
3
JHαHβ3 (Hz) 2,6-5,1 11,8-14,0 2,6-5,1
segmento em fita β, com ângulos de diedro φ
e ψ próximos de -120o e 120o, respectivamen- NOE (Hα, Hβ2) Forte Forte Fraco
te.
No caso do deslocamento químico do
NOE (Hα, Hβ3) Forte Fraco Forte
1
Hα o inverso ocorre, ou seja, quando seu
deslocamento químico em uma série de pelo Forte-
menos quatro aminoácidos está acima dos NOE (HN, Hβ2) Fraco Forte
médio
valores médios (CSI +), é indicação de fita β e
Forte-
quando está abaixo de um valor teórico (CSI NOE (HN, Hβ3) Forte Fraco
-), é sugerida a presença de um segmento em médio
hélice α. O cálculo do CSI, sigla para Chemical
3J
HαHβ2 e 3JHαHβ3 e dos NOEs dHβ1HN, dHβ2HN, Através deste procedimento, o progra-
dHβ1Hα e dHβ2Hα. ma busca conformações da molécula que sa-
Adicionalmente, a informação de ligação tisfaçam o máximo possível às restrições
de hidrogênio inferida a partir da taxa de troca empíricas e experimentais. Finalmente é per-
de próton amídico pode ser agregada ao cál- mitida uma “relaxação” da molécula (passo
culo da estrutura. As estruturas 2árias regula- de minimização e refinamento estrutural) em
res estabilizadas por ligações de hidrogênio uma temperatura ainda baixa, porém sob
“protegem” os prótons amídicos envolvidos menor influência das restrições de NOE e de
nestas estruturas, o que se caracteriza por van der Waals, de forma a corrigir pequenas
uma baixa taxa de troca destes por prótons imperfeições conformacionais da estrutura
do solvente. como ligações excessivamente torcidas.
Para evidenciar tais prótons “protegi- Neste passo final, a “relaxação” da estrutura
dos”, dissolve-se a amostra a ser analisada é evidenciada pela diminuição da energia do
em 2H2O e faz-se um espectro bidimensional sistema (energias diretamente relacionadas
de 1H. Se o próton da molécula analisada não com o grau e número de violações das restri-
estiver “protegido” ele trocará quase que ções empíricas e experimentais).
imediatamente por deutério, proveniente da Estes passos são repetidos várias vezes,
2
H2O, desaparecendo seu sinal nos espectros de forma a obter um conjunto de estruturas
de 1H-RMN. (o deutério possui frequência de (normalmente em torno de 20 estruturas)
ressonância bem distinta do seu isótopo). A que são avaliadas, com auxílio de programas,
identificação dos prótons com baixa taxa de quanto à existência de conformações impró-
troca por deutério permite usar restrições prias ou improváveis. Esta família de estrutu-
estruturais de pontes de hidrogênio no cálculo ras determinadas por espectroscopia de RMN
da estrutura da macromolécula em estudo. representa uma estrutura tridimensional com
As restrições de distância obtidas por pequena variação do espaço conformacional,
NOEs, assim como de distância entre prótons que é representada por cada uma das estru-
envolvidos em ligações de hidrogênio inferi- turas calculadas (exemplo na Figura 10-12).
das pela taxa de troca de hidrogênio por deu- Estruturas com alta resolução obtidas por
tério e as restrições de ângulos φ, ψ e χ1, RMN geralmente possuem um desvio dos
inferidas pelas constantes de acoplamento e átomos da cadeia principal da proteína em
CSI, são então usadas em protocolos de dinâ- relação a uma estrutura média de aproxima-
mica molecular realizados por programas damente 0,6 Å.
específicos para ajustar a estrutura da prote-
ína a estas restrições, levando em conta a 12.9. Conceitos-chave
obediência à geometria ideal de ângulos e
comprimento de ligações químicas e dos raios Constante de Boltzmann: é uma constante que
de van der Waals dos átomos. relaciona energia, no nível de partícula in-
Nestes programas, as moléculas são dividual, com temperatura. Tem um valor
inicialmente submetidas a uma condição de aproximado de 1,3806 × 10-23 J/K.
alta energia cinética (temperaturas de
50.000 K). Nesta situação, as moléculas es- Constante de Planck: é uma constante de pro-
tão totalmente desprovidas de qualquer es- porcionalidade entre energia e frequência.
trutura tridimensional predominante, porém Tem um valor aproximado de 6,6261 × 10-
já agregam parâmetros estruturais providos 34
J.s.
por restrições empíricas (determinadas por
um campo de força). Gradualmente, é de- Constante giromagnética: é a razão entre o
crescida a temperatura do sistema (geral- momento de dipolo magnético e o mo-
mente até 0 K), ao passo que são adicionadas mento angular, sendo representada nor-
as restrições experimentais. malmente pelo símbolo gama (γ). Cada
Figura 10-12: Estrutura 3D da proteína Psd1 determinada por RMN. Nesta figura é mostrada uma
sobreposição de vinte estruturas obtidas como descrito acima, usando proteína nativa, não
enriquecida isotopicamente. Em A, um desenho evidenciando as estruturas secundárias. Em B,
são mostrados apenas os átomos da cadeia principal (verde – carbono, azul – nitrogênio e
vermelho – oxigênio). Em C, são mostrados todos os átomos (cinza – hidrogênio e amarelo –
enxofre). As estruturas estão com o mesmo alinhamento.
núcleo atômico possui uma constante gi- bonos com configuração de orbital de va-
romagnética específica, sendo a principal lência tipo sp3.
razão para que cada núcleo atômico pos-
sua uma frequência de RMN distinta em Spin: em mecânica quântica e física de partícu-
um mesmo campo magnético externo. las, spin é uma forma de momento angu-
lar intrínseca de partículas elementares,
Correlação heteronuclear: se diz quando é con- incluindo o núcleo atômico, quando apli-
seguida uma relação entre núcleos de ti- cada para RMN. Em uma das formas de
pos distintos de átomos em uma molécula. representação, o spin é uma quantidade
Pode ser correlação escalar ou dipolar, ou vetorial com magnitude e direção. O spin
seja, dependente ou não dos átomos es- nuclear é identificado pelo número quân-
tarem associados por intermédio de liga- tico de spin e para existir o efeito de RMN
ções químicas. o spin deve ser diferente de zero, condição
alcançada quando o numero de prótons
Correlação homonuclear: se diz quando é con- e/ou nêutrons é ímpar.
seguida uma relação entre núcleos do
mesmo tipo atômico em uma molécula. Transformada de Fourier: é uma manipulação
Pode ser correlação escalar ou dipolar, ou matemática normalmente usada para
seja, dependente ou não dos átomos es- transformar funções temporais f(t), em
tarem associados por intermédio de liga- uma função de frequência, cuja unidade
ções químicas. geralmente é Hertz.
Projeções de Newman: forma de representação 14.10. Leitura recomendada

de moléculas que evidencia conformações
em relação a uma ligação carbono-carbo- ALMEIDA, M. S.; et al. Solution structure of
no tida como referência. O carbono proxi- Pisum sativum defensin 1 by high
mal é representado como um ponto e o resolution NMR: plant defensins, identical
distal como um círculo (ver Tabela 2-12). backbone with different mechanisms of
action. J. Mol Biol. 315, 749-57, 2002.
Rotâmero: é uma molécula isomérica em rela-
ção à rotação ao redor de uma ligação SERRANO, P.; et al. The J-UNIO protocol for
química simples, normalmente entre car- automated protein structure determination
by NMR in solution. J. Biomol NMR. 53,

341-354, 2012.
KAY, L. E.; et al. Three-dimensional triple-

resonance NMR spectroscopy of
isotopically enriched proteins. J. Mag.
Res. 89, 496–514, 1990.
MARKLEY, J. L.; et al. Recommendations for the

presentation of NMR structures of proteins
and nucleic acids. Pure Appl. Chem., 70,
117-142, 1998.
WISHART, D. S.; SYKES, B. D.; RICHARDS, F. M.

Relationship between nuclear magnetic
resonance chemical shift and protein
secondary structure. J. Mol. Biol. 222,
311–333, 1991.
WÜRTHRICH, K. NMR of Proteins and Nucleic

Acids. New York: Wiley, 1986.
13. Cristalografia de Proteínas
Fernando V. Maluf
João Renato C. Muniz
Glaucius Oliva
Rafael V. C. Guido
Topologia geral dos receptores acoplados à proteína mento, denominada biologia estrutural. A
G. biologia estrutural encontra-se na interface
entre a biologia molecular, a bioquímica e a
13.1. Introdução biofísica, e tem como foco a investigação da
estrutura de macromoléculas. A partir desta,
13.2. Obtenção de proteínas busca-se elucidar a relação entre a estrutura
e a função de uma determinada molécula. Por
13.3. Expressão exemplo, a aplicação de métodos cristalográ-
ficos em macromoléculas biológicas permitiu
13.4. Purificação o conhecimento da disposição dos átomos
que constituem a estrutura 3D das moléculas
13.5. Cristalização de DNA, RNA e proteínas. Particularmente no
caso desta última família de biomoléculas,
13.6. Coleta de dados além do entendimento do funcionamento dos
organismos e das bases moleculares para a
13.7. Refinamento, validação e usos vida, as informações oriundas da cristalogra-
fia vêm sendo extremamente importantes no
13.8. Conceitos-chave desenvolvimento de novos fármacos, como
no caso de inibidores da protease do HIV e de
moduladores de proteínas acopladas à prote-
ína G (GPCR, G protein-coupled receptor).
13.1. Introdução Os estudos cristalográficos são compo-
nentes fundamentais para o desenvolvimento
A cristalografia de raios-X é uma ciência e a aplicação de métodos em bioinformática,
dedicada ao estudo da estrutura molecular e incluindo a modelagem molecular e o plane-
cristalina, bem como das relações entre essa jamento de fármacos baseado na estrutura
estrutura e suas propriedades. A cristalogra- de receptores (SBDD, structure-based drug
fia de raios-X moderna apresenta aplicações design). De fato, diversos métodos em bioin-
amplas nas ciências dos materiais, química, formática utilizam como pré-requisito o co-
mineralogia, física, matemática e biologia. Sua nhecimento 3D detalhado da macromolécula
aplicação para determinação da estrutura 3D em estudo. Essa informação é geralmente
de biomoléculas, com destaque para as pro- adquirida a partir de estruturas depositadas
teínas, deu origem à cristalografia de proteí- em bases de dados públicos, onde podem ser
nas, caracterizada como um processo acessadas livremente, dentre os quais se
complexo que engloba uma variedade de es- destaca o PDB (Protein Data Bank).
tratégias e métodos tradicionais e modernos, Embora a estrutura 3D de macromolé-
integrando especialidades como a física, quí- culas pode ser obtida através de diversos
mica, biologia, bioquímica e computação. métodos experimentais, tais como a resso-
A cristalografia de proteínas determi- nância magnética nuclear (RMN, ver capítulo
nou a criação de uma nova área do conheci- 12) e a criomicroscopia eletrônica, a cristalo-
13. Cristalografia de proteínas
grafia de raios-X ocupa papel de destaque. Is- tudos cristalográficos com métodos bioquí-
to pode ser evidenciado, por exemplo, no fato micos, biofísicos e de química medicinal. Atu-
de que em janeiro de 2014 o PDB apresentava almente, projetos extremamente desa-
aproximadamente 97.000 estruturas de ma- fiadores em cristalografia têm como foco a
cromoléculas depositadas (incluídas proteí- determinação das estruturas de vírus, proteí-
nas, ácidos nucleicos, complexos macromo- nas de membrana e complexos multimolecu-
leculares e polissacarídeos), dentre as quais lares (por exemplo, envolvendo pro-
aproximadamente 90% tiveram sua estrutura teína-proteína, proteína–DNA e prote-
3D determinada pelo método de cristalografia ína–RNA).
de raios-X (Tabela 1-13). Já a abordagem em larga escala consis-
Os métodos e estratégias cristalográfi- te na elucidação do genoma estrutural atra-
cas para o estudo de macromoléculas evolui- vés da determinação da estrutura 3D do
ram significativamente nos últimos anos. maior número possível de proteínas consti-
Devido aos rápidos avanços tecnológicos, as tuintes de um determinado organismo. O de-
coletas de dados cristalográficos que eram senvolvimento da cristalografia em larga
realizadas exclusivamente em fontes caseiras escala (high-throughput crystallography) foi
(por exemplo, através de um ânodo rotatório) substancialmente beneficiado pelo surgimen-
passaram a ser executada em fontes de alto to de métodos automatizados para a cristali-
brilho e intensidade, tais como laboratórios de zação e coleta de dados, bem como pelo
luz síncrotron. Essa evolução tem como re- desenvolvimento de fontes de luz de alto bri-
sultado direto um crescimento exponencial no lho e intensidade (por exemplo, síncrotrons de
número de estruturas de macromoléculas 3ª geração como o European Synchrotron
determinadas anualmente, conforme verifi- Radiation Facility – ESRF, na França, o
cado pelo número de estruturas depositadas Advanced Photon Source – APS, nos EUA e o
no PDB (Figura 1-13). Além disso, esse cenário SPring-8, no Japão).
tem contribuído para o desenvolvimento de As estruturas 3D de proteínas determi-
duas abordagens distintas para o estudo de nadas por métodos cristalográficos são fre-
macromoléculas: i) tradicional e ii) larga es- quentemente o ponto de partida para a
cala. construção de modelos moleculares que vi-
A abordagem tradicional consiste em sam elucidar a estrutura e função de proteí-
resolver estruturas de um pequeno conjunto nas homólogas (como visto no capítulo 7) ou
de macromoléculas e seus complexos em um o planejamento de novas moléculas bioativas
ambiente onde há ampla integração dos es- (como visto no capítulo 9). Portanto, o co-
Tabela 1-13: Estruturas de macromoléculas depositadas no PDB (estatísticas de janeiro/2014).
Método Proteínas Ác. nucleicos Complexos Outras Total

experimental proteína-DNA/RNA macromoléculas
Cristalografia 79.922 1.497 4.162 4 85.585
RMN 8.990 1.065 197 7 10.259
Microscopia 496 51 170 0 717

eletrônica
Híbridos 55 3 2 1 61
Outros 153 4 6 13 176
Total 89.616 2.620 4.537 25 96.768

que 95%).
Para contornar este desafio, os projetos
pioneiros de cristalografia de macromolécu-
las (por exemplo, na cristalização da mioglo-
bina em 1958, da hemoglobina em 1960, da
lisozima em 1965 e da insulina em 1969) utili-
zaram proteínas extraídas de fonte natural
(nos casos mencionados, músculo esquelético
de baleia cachalote, sangue de cavalo, clara
de ovo de galinha, pâncreas de porco, res-
pectivamente). Entretanto, a utilização de
fontes naturais para obtenção da macromo-
lécula geralmente inclui algumas limitações,
dentre as quais destacam-se:
i) baixa concentração: a pequena quan-
tidade de proteína produzida na células,
somada à distribuição diferenciada nos
tecidos do organismo em estudo acar-
retam em baixa concentração de proteí-
Figura 1-13: Número de estruturas de na para os estudos estruturais;
macromoléculas depositadas no PDB (dados ii) isoformas e modificações pós-tradu-
1972–2014, http://www.rcsb.org). cionais: a expressão de isoformas de
uma proteína, aliada aos diferentes ní-
nhecimento dos fundamentos, vantagens e li- veis de modificações pós-traducionais,
mitações da cristalografia de raios-X é funda- aumentam a heterogeneidade da amos-
mental para a seleção criteriosa de tra e dificultam a separação dos com-
estruturas apropriadas para os estudos em ponentes da solução. Essas
bioinformática. características apresentam impacto
Adicionalmente, esse conhecimento nos significativo na obtenção de proteína
permite uma melhor compreensão e avalia- com elevado teor de pureza e, conse-
ção dos modelos 3D de macromoléculas de- quentemente, na qualidade e formação
positados nos bancos de dados. Desse modo, dos cristais.
o presente capítulo busca oferecer uma des-
crição dos métodos cristalográficos para a Apesar dessas limitações, algumas
determinação da estrutura 3D de proteínas, proteínas específicas continuam sendo obti-
explorando seus princípios e fundamentos, das a partir de fontes naturais, com destaque
com especial destaque para os critérios que para anticorpos, proteínas de membrana e
devem ser utilizados para a obtenção de uma proteínas fúngicas envolvidas no processo de
estrutura por cristalografia de raios-X, bem produção do bioetanol. Contudo, a vasta mai-
como para avaliação da qualidade do modelo oria das proteínas investigadas por métodos
estrutural construído. cristalográficos são provenientes de sistemas
heterólogos (isto é, expressão realizada em
13.2. Obtenção de proteínas organismo hospedeiro diferente do organis-
mo alvo) baseados em estratégias de ex-
Uma das etapas fundamentais da biolo- pressão que utilizam a tecnologia do DNA
gia estrutural é a obtenção do alvo molecular recombinante.
em quantidade e pureza suficiente para os O avanço das técnicas de DNA recombi-
estudos cristalográficos (em torno de mili- nante e engenharia genética, com destaque
gramas de proteína com teor de pureza maior para o desenvolvimento da reação em cadeia
da polimerase (PCR, polymerase chain domínios constituintes de uma proteína é uma

reaction) permitiram o desenvolvimento de informação valiosa que contribui substancial-
métodos de expressão heteróloga altamente mente para o desenvolvimento de um siste-
eficientes para a produção de proteína pura e ma de expressão heterólogo robusto.
homogênea para os estudos estruturais. O Domínios proteicos, tipicamente, apresentam
emprego dessa tecnologia determinou mu- capacidade de enovelamento independente,
danças significativas nos paradigmas da cris- logo construções gênicas contendo somente
talografia de proteínas, permitindo que a um domínio podem ser estabelecidas.
investigação estrutural de proteínas, anterior- Além disso, pode-se utilizar dados mo-
mente baseada em baixíssima quantidades de leculares para truncar um domínio em posi-
proteína obtidas no organismo alvo ou depen- ções específicas e, assim, remover alças
dentes do metabolismo celular, pudesse ser flexíveis que dificultariam o processo de cris-
conduzida rotineiramente. Portanto, o domínio talização. Portanto, o planejamento da cons-
de técnicas e métodos bioquímicos e de biolo- trução gênica deve ser realizado com base
gia molecular tornaram-se componentes es- nos conhecimentos adquiridos sobre o alvo
senciais para a determinação estrutural de molecular em estudo e nos objetivos especí-
macromoléculas biológicas. ficos que se deseja alcançar. Nesse contexto,
Nas próximas seções serão apresenta- é fortemente recomendada a utilização de
dos os métodos mais utilizados para produ- ferramentas de bioinformática para auxiliar o
ção de proteína em sistema de expressão planejamento de construções genéticas de
heterólogo para os ensaios de cristalização. alta eficiência.
Contudo, é importante mencionar que, embo- Um exemplo de aplicação do conheci-
ra existam protocolos disponíveis para todas mento molecular no desenvolvimento de
as etapas envolvidas (por exemplo, clona- construções gênicas para estudos cristalo-
gem, expressão, purificação e cristalização), gráficos pode ser observado nos receptores
adaptações podem e devem ser realizadas nucleares. Estes receptores são proteínas
para atender as particularidades da proteína multidomínios de grande interesse científico,
em estudo. pois exercerem função central no controle da
A montagem de um sistema de expres- expressão gênica. A complexa organização
são heteróloga necessita inicialmente do estrutural dos receptores nucleares, repre-
fragmento de DNA responsável pela codifica- sentada pelos seus diferentes domínios es-
ção da proteína em estudo. De modo geral, a truturais (Figura 2-13), exigiu uma análise
pesquisa minuciosa de informações da litera- detalhada para a obtenção de construções
tura indica dados relevantes para o desenvol- gênicas capazes de expressar de modo efici-
vimento de protocolos otimizados de ente os diferentes segmentos. As constru-
obtenção da proteína alvo. Nesse sentido, um ções planejadas expressaram com sucesso
protocolo de produção de uma proteína ho- os domínios isolados dos receptores nuclea-
móloga pode ser adaptado e utilizado como res, tais como o domínio de complexação ao
ponto de partida para o desenvolvimento de ligante do receptor RAR (PDB ID 3LBD) e o
um novo método de obtenção da proteína de domínio isolado de ligação ao DNA do recep-
interesse. Na ausência desse tipo de informa- tor GR (PDB ID 3FYL), bem como a estrutura
ção qualificada, dados bioquímicos e molecu- integral do receptor PPARγ (PDB ID 3DZU)
lares como ambiente molecular da proteína in que, além de revelar a organização estrutural
vivo, presença de parceiros fusionados, domí- do receptor, confirmou a integridade e rele-
nios estruturais, presença de regiões flexíveis vância dos domínios isolados.
e peptídeos de sinalização são extremamente As informações funcionais e estruturais,
úteis para o planejamento da nova construção extremamente necessárias para elaboração
genética. de construções gênicas eficientes, podem ser
Por exemplo, a descrição detalhada dos usualmente obtidas através de métodos de
(primers) e da seleção do DNA molde. Os oli-

gonucleotídeos iniciadores são utilizados para
a amplificação por PCR do gene de interesse a
partir do DNA molde. Geralmente, utiliza-se
DNA genômico para organismos procarióticos
e bibliotecas de DNA complementar (cDNA)
para organismos eucarióticos (Figura 3-13).
Figura 2-13: Distribuição representativa dos O sucesso na amplificação do gene é
domínios de receptores nucleares GR verificado através de análise eletroforética
(receptor de glicocorticoide, do inglês em gel de agarose. Após purificação, proce-
glucocorticoid receptor), LXRα (receptor de-se com a ligação do fragmento amplifica-
hepático Xα, do inglês liver Xα receptor) e do em vetor de clonagem (por exemplo,
PPARγ (receptor γ ativado por proliferador de TOPO® – Invitrogen). Vetores de clonagem
peroxissomo, do inglês peroxisome apresentam alto número de cópias por célula
proliferator-activated receptor γ). N indica o e são utilizados para a transformação de
domínio N-terminal, que contém a região com bactérias específicas, tais como DH5α, Dh10B
a função de ativação (AF, do inglês activation e XL1blue, as quais são empregadas para
function), o domínio de ligação ao DNA (DBD, propagação do gene de interesse e forneci-
do inglês DNA binding domain) e o domínio de mento de DNA plasmidial. O fragmento de in-
complexação ao ligante (LBD, do inglês ligand teresse é excisado do material obtido através
binding domain). da digestão com endonucleases de restrição.
Essas enzimas reconhecem sequências de
bioinformática. Por exemplo, há diversos mé- nucleotídeos específicas, inseridas no frag-
todos disponíveis para predição de proprieda- mento pelos oligonucleotídeos iniciadores,
des moleculares importantes, como gerando terminais coesivos ou stick ends.
distribuição de estrutura 2 , reconhecimen-
ária
O fragmento isolado, obtido por sepa-
to de domínios, presença de peptídeos de si- ração eletroforética, é posteriormente ligado
nalização, hélices transmembranares, em vetor de expressão. A família de vetores e
ligações dissulfeto intramoleculares, regiões derivados do sistema pET® (Novagen) estão
flexíveis e desordenadas, dentre outras. entre os mais utilizados para essa finalidade.
Esses vetores são previamente tratados com
Construções gênicas as mesmas endonucleases para a criação de
terminais complementares ao fragmento, o
O planejamento e a montagem de cons- qual é ligado ao vetor com auxílio de uma
truções gênicas para obtenção de proteínas DNA ligase. O plasmídeo elaborado é então
envolvem diversos métodos de manipulação introduzido em bactérias de propagação e,
de DNA e sistemas de expressão. Dentre as após confirmação da integridade da constru-
diversas abordagens disponíveis para tal, du- ção gênica, os plasmídeos são utilizados para
as estratégias de clonagem serão discutidas a transformação de cepas bacterianas espe-
adiante: i) clonagem clássica em sistema de cíficas para expressão proteica.
expressão bacteriano, e ii) clonagem em sis- O método clássico é bastante robusto e
tema independente de ligação – LIC (ligation- amplamente empregado como alternativa
independent cloning). Adicionalmente, estes atrativa na clonagem de genes. Contudo, inclui
métodos vêm sendo facilitados pela disponi- diversas etapas e detalhes que limitam sua
bilidade cada vez maior de DNA sintético para aplicação em média e larga escala. Nesse
aquisição diretamente de empresas especiali- sentido, tendo em vista a necessidade de au-
zadas. mentar a taxa de sucesso na obtenção de
A clonagem clássica inicia-se com o pla- proteína expressa na forma solúvel, com alta
nejamento dos oligonucleotídeos iniciadores pureza e em grande quantidade, novas estra-
Figura 3-13: Esquema geral do método de clonagem clássica para expressão heteróloga de
proteína.
tégias em biologia molecular, capazes de ex- um vetor determinado.

plorar diferentes possibilidades de expressão, Em linhas gerais, após a amplificação e
foram desenvolvidas. obtenção do fragmento de interesse através
As construções gênicas planejadas pas- da reação de PCR com os oligonucleotídeos
saram então a ser desenvolvidas em paralelo, iniciadores específicos, trata-se o fragmento
aumentando-se as chances de sucesso na ob- com a enzima T4 DNA polimerase na presen-
tenção de proteína com as características ça de um único tipo de nucleotídeo (por
adequadas para os estudos cristalográficos exemplo, dATP). A T4 DNA polimerase possui
empregando o denominado sistema de clona- atividade exonuclease 3’–5’ intrínseca, logo
gem independente de ligação (LIC) (Figura 4- esta aplicação favorece a formação de extre-
13). midades salientes ou overhangs, comple-
O sistema LIC diferencia-se do sistema mentares aos vetores utilizados. Em seguida,
clássico pela independência de uma etapa de o fragmento é adicionado ao vetor escolhido,
ligação com DNA ligase. Adicionalmente, em previamente tratado com T4 DNA polimerase
algumas adaptações desse sistema pode-se e mantido em contato a temperatura ambi-
evitar também o uso de endonucleases de ente. Por fim, essa mistura é utilizada na
restrição. Além disso, apresenta como vanta- transformação da bactéria de propagação.
gens: i) facilidade no planejamento do oligo- Devido ao número de bases que são empare-
nucleotídeo iniciador, que inclui uma lhadas entre vetor e fragmento, através de
sequência específica do sistema para deter- suas saliências, não se faz necessária a utili-
minado conjunto de vetores, ii) disponibilida- zação da DNA ligase, sendo a ligação cova-
de de um número significativo de vetores lente entre vetor e fragmento estabelecida
preparados para este sistema, e iii) versatili- pelo próprio sistema de reparo da bactéria
dade na obtenção de construções gênicas va- transformada.
riadas, não havendo a necessidade de etapas
adicionais ou particularidades na utilização de
Figura 4-13: Esquema geral do método de clonagem independente de ligação (LIC) para
expressão heteróloga de proteína.
13.3. Expressão tiol-β-D-galactopiranosídeo (IPTG). O IPTG se

liga ao repressor lac e induz a superexpressão
Atualmente, a expressão heteróloga é a da proteína de interesse. Como a bactéria não
fonte primária de produção de proteínas. é capaz de metabolizá-lo, a concentração do
Exemplos de organismos hospedeiros que agente indutor permanece constante, favore-
“emprestam” sua maquinaria celular para a cendo a manutenção dos níveis de expressão.
expressão proteica incluem bactérias, proto- Parâmetros como meio de cultura, aeração, densi-
zoários, fungos, células de insetos e de ma- dade óptica antes da indução, concentração de agente
míferos e sistema de expressão independente indutor, temperatura e tempo de expressão afetam
de célula hospedeira (cell-free expression), significativamente a produção de proteína solúvel.
também conhecido como expressão in vitro. Dentre eles, a temperatura e a concentração do agente
Em um experimento padrão de expres- indutor estão entre os parâmetros de maior impacto
são heteróloga de proteína as células hospe- sobre a expressão e, portanto, devem ser cuidadosa-
deiras são cultivadas até atingirem uma mente avaliados. Tipicamente, experimentos conduzi-
biomassa crítica, medida pela densidade ópti- dos em temperaturas mais baixas (menores que 37°C)
ca (DO) da cultura. A partir desse momento determinam uma redução na taxa de expressão. Con-
inicia-se o procedimento de indução da ex- tudo, favorecem a obtenção de proteína enovelada
pressão da proteína de interesse. Nos vetores corretamente.
bacterianos, um dos mecanismos para con- Paralelamente, diferentes concentrações do agente
trole de indução é o operon lac, de forma que indutor devem ser testadas para a identificação das
a presença de lactose ou derivados (como a condições ideais que determinam um nível de expres-
alolactose) favorece a indução da expressão são adequado para os estudos cristalográficos. Entre-
da proteína através da ligação da alolactose tanto, frequentemente, a proteína de interesse não é
ao repressor do operon. Análogos otimizados obtida na forma solúvel, seja pelo enovelamento incor-
da alolactose foram desenvolvido e, dentre reto ou pelo acúmulo em corpos de inclusão. Nesses
eles, o derivado mais utilizado é o isopropil-1- casos, pode-se recuperar a proteína da fração insolú-
vel através de técnicas de solubilização dos corpos de Sistema de expressão em bactérias

inclusão, como através do emprego de detergentes, e
de re-enovelamento (refolding). O sistema de expressão mais utilizado é
Por outro lado, se o enovelamento não foi atingido o bacteriano, sendo a Escherichia coli o orga-
com sucesso ou a proteína expressa é não funcional nismo de primeira escolha para expressão de
devido à ausência de modificações pós-traducionais, proteína para estudos cristalográficos. A E.
uma alternativa é a expressão em células eucarióticas. coli é responsável pela produção de mais de
Para esses casos são recomendados sistemas de ex- 85% das proteínas depositadas no PDB (da-
pressão em células de fungo, protozoário, mamífero dos jan/2014), fato relacionado às caracte-
ou inseto. rísticas do organismo, tais como: i)
A escolha do sistema de expressão (ve- crescimento rápido; ii) baixa virulência; iii) fa-
tor + organismo de expressão) depende de cilidade de manipulação; iv) elevada produção
vários fatores. Por exemplo, em relação ao de proteínas recombinantes.
vetor de expressão, dependente do organis- Atualmente, existe uma variedade sig-
mo de expressão, há diversas opções disponí- nificativa de cepas modificadas e otimizadas
veis com estruturas moleculares similares, para expressão bem sucedida de proteínas
mas que diferem em relação ao mecanismo recombinantes, com destaque para aquelas
de regulação, sítios de restrição, antibiótico derivadas da cepa BL21, Rosetta™
de resistência, presença de proteínas acessó- (Novagen ), Origami™ (Novagen ), B834
® ®
rias e facilitadores de purificação. (Novagen®) e cepas que apresentam o plas-

Em relação à escolha do organismo de mídeo pLysS.
expressão, um dos aspectos mais importan- A cepa Rosetta™ possibilita rendimentos elevados
tes a ser considerado consiste na necessidade na produção de proteínas eucarióticas que apresentam
de modificações pós-traducionais, isto é, mo- códons raros. Essa característica está relacionada à
dificações na estrutura proteica após síntese presença do plasmídeo pRARE, que suplementa a bac-
como enovelamento mediado por chapero- téria com RNAs transportadores (RNAt) para esses
nas, formação de pontes dissulfeto, glicosila- códons.
ção e etc. Por exemplo, o sistema bacteriano A cepa Origami™ é indicada para aumentar o rendi-
(procariótico) não é capaz de glicosilar proteí- mento de proteína enovelada e funcional dependente
nas de eucariotos. Portanto, caso seja neces- da formação de ligações dissulfeto. Para tanto, possui
sária a realização desta ou modificações mutantes das proteínas tiorredoxina redutase e gluta-
pós-traducionais não realizadas por bactérias tiona redutase que favorecem a formação dessas liga-
deve-se optar por sistemas mais adequados ções no citoplasma.
para essa finalidade. A cepa B834 e similares, auxotróficas para a pro-
Devemos observar que a ausência de dução de metionina, são úteis para a produção de pro-
modificações pós-traducionais pode determi- teínas contendo o aminoácido modificado
nar a produção de uma proteína não funcional selenometionina, apresentando-se como alternativa
ou, até mesmo, enovelada incorretamente. atrativa e relevante para a determinação estrutural de
Por outro lado, estratégias de cristalização proteínas como, por exemplo, na obtenção experimen-
podem explorar características como a inca- tal de fases utilizando o sinal anômalo do átomo Se.
pacidade do sistema bacteriano de realizar Por fim, as cepas que contém o plasmídeo pLysS
glicosilações como as vistas em eucariotos. são adequadas para a produção de proteínas tóxicas
Nesse sentido, a ausência de modificações para a bactéria. A presença do plasmídeo determina
pós-traducionais pode ser benéfica para o que os níveis de expressão basais sejam reduzidos ao
processo de cristalização, uma vez que alte- máximo, evitando-se assim danos celulares.
rações desse tipo aumentam a heterogenei-
dade intrínseca da proteína em solução, tendo Sistema de expressão em fungos
impacto direto no processo de cristalização.
As células fúngicas têm sido ampla-
mente empregadas como um bem sucedido as limitações, contudo, pode-se mencionar: i)

sistema de expressão alternativo para proteí- custo elevado de produção, devido às parti-
nas de interesse cristalográfico. Entre as ce- cularidades do cultivo desse tipo celular e o
pas mais populares destacam-se as leveduras baixo rendimento obtido; ii) incapacidade de
Saccharomyces cerevisiae e Pichia pastoris, produção de proteínas tóxicas para o hospe-
além dos fungos filamentosos Aspergillus deiro; iii) dificuldade de adaptação a sistemas
niger e Trichoderma reesei. de triagem em larga escala (HT, high-
As principais características da utiliza- throughput).
ção das células fúngicas para expressão con-
sistem em: i) baixo custo para o cultivo; ii) Sistema de expressão em células de
elevada densidade celular, embora necessite insetos
de um tempo maior para obtenção da densi-
dade adequada quando comparado às bacté- Uma alternativa para produção de pro-
rias; iii) rendimento satisfatório, alcançando teínas em células de mamíferos é a utilização
desde mg/L até g/L de cultivo; iv) possibilidade células de insetos, capazes de realizar
de de modificações pós-traducionais; v) intro- modificações pós-traducionais similares
dução de marcadores para secreção da àquelas promovidas por células de mamífe-
proteína no meio de cultura. ros.
Em geral, a cepa selecionada direciona a montagem A principal linhagem celular utilizada é a
da construção gênica. Sendo assim o vetor, o marcador Spodoptera frugiperda, sendo a expressão
molecular de secreção da proteína de interesse e o mediada pela infecção das células por um ba-
padrão de modificações pós-traducionais são culovírus que funciona como o vetor de ex-
específicos para a cepa utilizada. Além disso, os proce- pressão. Dentre as vantagens desse sistema,
dimentos e infraestrutura para o emprego desse siste- em relação às células de mamíferos, citam-
ma são mais sofisticados e demandam maior tempo, se: i) maior rendimento na produção de pro-
havendo necessidade de avaliar os transformantes pa- teína recombinante; ii) pode ser adaptado pa-
ra encontrar uma cepa com níveis de expressão eleva- ra ensaios HTS; iii) possibilidade de trabalhar
dos. com linhagens adequadas à cultura em sus-
pensão, permitindo o uso de biorreatores.
Sistema de expressão em células de
mamíferos 13.4. Purificação
A produção de proteína recombinante A pureza da amostra é um dos principais
em células de mamíferos é realizada com su- fatores que influenciam o processo de crista-
cesso em alguns casos, produzindo-se prote- lização de macromoléculas. Nesse sentido, é
ínas funcionais especialmente quando os fortemente recomendável que a proteína em
alvos são de origem humana. As linhagens estudo apresente o maior teor de pureza
celulares comumente empregadas para ex- possível, sendo essa característica depen-
pressão de proteína são as células embriôni- dente de procedimentos de purificação ro-
cas de rim humano 293 (HEK 293, human bustos e eficazes. Estes, por sua vez,
embryonic kidney 293), células do ovário de dependem da estratégia de clonagem e siste-
hamsters (CHO, chinese hamster ovary) e COS ma de expressão da proteína.
(célula tipo fibroblastos derivadas de rim de A primeira etapa do processo de purifi-
macaco). cação é a lise da célula de expressão. O pro-
A principal vantagem desse sistema de cesso de lise celular é bastante crítico pois,
expressão consiste na obtenção de proteínas dependendo das condições no qual é realizado
complexas enoveladas corretamente, por (tais como o método de lise, agente tampo-
exemplo, como no caso do segmento extra- nante, pH, presença de cofatores, detergentes
celular da integrina αVβ3, PDB ID 1JV2. Dentre e temperatura) a proteína pode ser degrada-
da ou acumular-se na fração insolúvel. Assim, marcadores e das proteínas não digeridas pe-
faz-se necessário avaliar criteriosamente as la protease. Subsequentemente, uma etapa
melhores condições de lise. de cromatografia de exclusão por tamanho,
Frequentemente, a etapa seguinte con- também conhecida por gel filtração, é neces-
siste na precipitação fracionada das proteínas sária para a purificação final da amostra.
na mistura proveniente da lise celular. Esse O método de gel filtração permite ainda
procedimento é realizado através da adição a avaliação da homogeneidade da amostra em
de um sal, como o sulfato de amônio, ou de relação aos estados oligoméricos existentes
um solvente orgânico, como o etanol. Com os em solução, o que pode ter implicações im-
avanços das técnicas e métodos de expressão portante na compreensão da biologia estru-
recombinante, vetores de expressão moder- tural da proteína em estudo. Além disso,
nos permitem a inclusão de facilitadores da pode-se empregar essa técnica para realizar a
purificação. Nesse sistema, as proteínas são troca da solução tamponante para uma mais
expressas com marcadores (tags) que possi- adequada para os ensaios de cristalização.
bilitam o emprego de métodos cromatográfi- É importante mencionar que, além da
cos (particularmente cromatografias de cromatografia de afinidade e de gel filtração,
afinidade) para a captura seletiva da proteína outros métodos cromatográficos são fre-
de interesse. quentemente empregados para aumentar o
O tipo de método cromatográfico a ser teor de pureza da proteína em estudo, tais
empregado depende do marcador vinculado como a cromatografia de troca iônica e a
ao vetor do sistema de expressão. Esses cromatografia de interação hidrofóbica. Essas
marcadores variam desde oliogopeptídeos, técnicas são aplicadas à amostra proteica nos
como uma cauda de hexahistidina (6xHis), até casos em que a pureza obtida não tenha atin-
proteínas fusionadas de elevada massa mo- gido os níveis necessários para os estudos
lecular, como a glutationa-S-transferase cristalográficos.
(GST). A cromatografia de afinidade por íon O teor de pureza recomendado para
metálicos imobilizados é comumente utilizada cristalografia de proteínas é superior a 95%.
para purificação de proteínas expressas com Contudo, faz-se necessário esclarecer que a
cauda de hexahistidina. cristalização é, em si, um método de purifica-
Após a etapa de cromatografia de afini- ção, de forma que não há regra absoluta so-
dade deve-se decidir sobre a manutenção ou bre a pureza da amostra. Comumente,
remoção do marcador. Não há evidências cla- avalia-se a pureza da proteína através de
ras sobre o impacto do marcador para o pro- análise eletroforética desnaturante em gel de
cesso de cristalização, contudo, geralmente poliacrilamida (SDS-PAGE), cujo resultado
remove-se os marcadores de elevada massa ideal é a presença de uma banda única cor-
molecular e avalia-se a influência dos de pe- respondente à proteína de interesse na forma
quena massa molecular. pura (Figura 5-13). Métodos alternativos co-
A remoção do marcador ou clivagem é mo análises eletroforéticas não desnaturan-
realizada pelo tratamento da amostra com tes e ensaios de espalhamento dinâmico de
enzimas proteolíticas, como trombina, fator luz (DLS, dynamic light scaterring) são fre-
Xa, enteroquinase, TEV protease e SUMO quentemente empregados para assegurar o
protease. A seleção da enzima é determinada teor de pureza e homogeneidade da solução
pela estratégia de clonagem e vetor utilizado, em estudo.
uma vez que este contém sequências de re-
conhecimento específicas para determinadas 13.5. Cristalização
proteases.
Nesse momento, uma segunda etapa de A obtenção de cristais adequados para
cromatografia de afinidade deve ser utilizada os experimentos de difração de raios-X é fun-
para separar a proteína de interesse dos damental para a determinação da estrutura
Figura 5-13: Gel representativo de análise

eletroforética desnaturante em SDS-PAGE
para a enolase de Plasmodium falciparum. Figura 6-13: Exemplos de cristais de proteí-
Da esquerda para direita estão apresentados nas.
o marcador de massa molecular (MK), a
fração insolúvel (FI), a fração solúvel (FS), a mente frágeis quando comparados a cristais
passagem livre pela coluna de afinidade (PC), de sais inorgânicos.
a eluição da coluna de afinidade (ECA), o O tamanho dos cristais de proteína é
tratamento com TEV protease (TT), a eluição bastante variável, com dimensões entre 1 e
da segunda coluna de afinidade (2ECA) e a 500 μm. Adicionalmente, suas características
eluição da gel filtração (GF). macroscópicas são, na maioria das vezes,
consequência da ordem (ou simetria do grupo
tridimensional de macromoléculas. O fenô- espacial) no qual as moléculas se empacota-
meno de cristalização ocorre quando a molé- ram no retículo cristalino.
cula em estudo precipita de modo lento e As propriedades da proteína, como dis-
ordenado, formando cristais (Figura 6-13). O tribuição de cargas na superfície, presença de
processo ocorre em condições controladas, regiões flexíveis e distribuição de conforma-
incluindo uma solução supersaturada da pro- ções têm impacto significativo no fenômeno
teína de interesse, agentes precipitantes, de cristalização. Esse processo ocorre a partir
condições controladas de temperatura, força de uma solução supersaturada de proteína,
iônica e em pequenos intervalos de variação sendo a velocidade com que se atinge esse
de pH. estado essencial para a formação de cristais,
Os cristais são caracterizados por ar- microcristais ou precipitado amorfo.
ranjos periódicos constituídos de unidades A cristalização de macromoléculas bio-
formadoras, que podem variar desde uma lógicas é uma técnica baseada na tentativa e
única molécula até grandes complexos ma- erro por se tratar de um processo complexo
cromoleculares, tais como ribossomos ou e multiparamétrico. Parâmetros de caráter
ainda um capsídeo viral. físico (como temperatura, pressão, superfície
As interações químicas entre as molé- da molécula e tempo) e químico (como pH,
culas que constituem as unidades formadoras agente precipitante, forca iônica, grau de su-
de cristais proteicos são de baixa energia, tais persaturação, pureza da amostra, estado de
como interações dipolo-dipolo, interações por agregação, ponto isoelétrico e presença/au-
ligação de hidrogênio, interações eletrostáti- sência de estabilidade) interferem diretamen-
cas e interações de van der Waals. Como re- te na formação de um cristal, de maneira que
sultado dessa rede de interações de baixa os diversos métodos utilizados exploram es-
energia e alto conteúdo de solvente (~50%), se espaço multiparamétrico com o objetivo de
cristais de proteínas mostram-se extrema- examinar os efeitos de combinações dessas
variáveis. Esses métodos são geralmente o emprego de proteína com elevado teor de
aplicáveis à maioria das proteínas, DNAs, pureza.
RNAs e complexos multimoleculares. A solução de proteína inicialmente em-
Dentre os parâmetros que podem apre- pregada em ensaios de cristalização apresen-
sentar impacto direto no processo de cristali- ta concentração abaixo do limite de
zação merece destaque a temperatura, capaz solubilidade, ou seja, constitui uma solução
de alterar a curva de solubilidade da proteína insaturada. Logo para que a cristalização
e a cinética de equilíbrio e nucleação. As tem- ocorra é necessário que essa solução se tor-
peraturas amplamente empregadas para ne supersaturada (Figura 7-13). Nesse senti-
cristalização de proteínas são de 18 °C e 4 °C do, deve-se aumentar a concentração da
embora, quando possível, recomenda-se ava- solução de proteína através da remoção do
liar a influência de temperaturas alternativas. solvente e da inclusão de agentes precipitan-
No processo de cristalização, a vasta tes, capazes de reduzir a solubilidade da pro-
maioria das interações entre as moléculas de teína. O sistema então evoluirá para um
proteínas ocorrem na superfície das mesmas. estado mais concentrado, que ultrapassará o
Portanto, a presença ou ausência de algumas limite de solubilidade e constituirá uma solu-
características podem ser fundamentais para ção supersaturada.
obtenção de um cristal, destacando-se a
presença de regiões desordenadas ou muito
flexíveis e distribuição dos resíduos
superficiais que contribuem para a carga total
e entropia do sistema. A distribuição de
algumas propriedades, calculadas a partir da
sequência de aminoácidos do alvo proteico,
como número de aminoácidos, ponto
isoelétrico, tamanho da maior região
desordenada, estabilidade, presença de
domínios coiled coil, entre outras, tem sido
empregada na avaliação do potencial de
cristalização ou cristalizabilidade.
Ferramentas computacionais, como o
XtalPred, avaliam essas propriedades e as Figura 7-13: Diagrama de fase mediado por
comparam com aquelas disponíveis em banco agente precipitante e concentração proteica
de dados de proteínas cristalizadas para para a cristalização.
predizer a capacidade da proteína de interesse
de cristalizar. A análise do diagrama de fase representado na Fi-
Independentemente da origem e das gura 7-13 revela três regiões distintas:
particularidades da macromolécula em estu- i) região azul, caracterizada pela presença de solu-
do, alguns parâmetros importantes favore- ção insaturada (proteína solúvel). Nessa região não
cem a produção de cristais adequados aos há formação e crescimento de cristais;
estudos de difração de raios-X, com destaque ii) região verde, caracterizada pela solução satura-
para: i) a quantidade de proteína, necessária da metaestável, subdivida nas sub-regiões iia e iib;
para garantir amostra suficiente durante os iia) abaixo da linha central verde não haverá forma-
experimentos, e ii) a pureza da amostra. Em- ção e crescimento de cristais devido à ausência de
bora existam casos de cristalização a partir núcleos cristalinos;
de extratos brutos (como é o caso da lisozi- iib) acima da linha verde a formação de cristais tor-
ma, da ferritina e da mioglobina), a probabili- na-se favorável, pois ocorre o fenômeno de nuclea-
dade de sucesso nos experimentos de ção de maneira espontânea. Nessa região a barreira
cristalização aumenta significativamente com energética é vencida, permitindo que o sistema reti-
re proteína da solução e forme os núcleos cristali- processo de cristalização. Atualmente, altera-se a ca-
nos. Este processo é acompanhado pela diminuição pacidade de cristalização de proteínas através de mu-
da concentração de proteína em solução, e o siste- tações específicas de resíduos localizados na superfície
ma evoluirá para o equilíbrio que favorece o crescida macromolécula de forma a interferir nestes com-
mento dos cristais a partir dos núcleos formados; ponentes, favorecendo a cristalização. Exemplos
iii) região vermelha, caracterizada pela presença relevantes dessa estratégia incluem modificações de
de solução hipersaturada. Nessa região ocorre pre- resíduos de aminoácidos com termo entrópico elevado,
cipitação espontânea da proteína de forma desor- especialmente, resíduos de lisinas e ácidos glutâmicos.
denada. Estes resíduos possuem cadeias laterais longas e, por
sua disposição preferencial pela superfície proteica,
As condições favoráveis para o processo de nucle- normalmente caracterizam-se por elevada entropia
ação e crescimento de cristais devem ser avaliadas conformacional. Desta maneira, a troca por resíduos
cuidadosamente. Nesse contexto, podem-se identificar com menor entropia associada, como exemplo
condições favoráveis para o crescimento do cristal que, resíduos de alanina, minimizam a perda de entropia
contudo, não são favoráveis para a nucleação. Da mes- durante o empacotamento, favorecendo ainda mais o
ma forma, pode-se obter condições favoráveis para a processo de cristalização (∆Gcrist << 0).
nucleação intensa da proteína que, por sua vez, impe- O planejamento de mutações com objetivo de au-
dem o crescimento dos cristais. Existem diversas téc- mentar o potencial de cristalização de um alvo macro-
nicas para contornar os problemas específicos de cada molecular é auxiliado pela disponibilidade de
caso, buscando-se a obtenção de cristais adequados servidores gratuitos na internet. Um exemplo impor-
para os estudos cristalográficos. tante é o SERp da Universidade da Califórnia (UCLA).
Esse servidor emprega o método de redução da entro-
Processo físico-químico pia de superfície (SER, surface entropy reduction) que,
em linhas gerais, realiza a previsão de estrutura 2ária a
A cristalização pode ser descrita como um proces- partir da sequência de aminoácidos e, com base nesse
so físico-químico envolvendo os seguintes componen- resultado, estabelece o perfil entrópico da proteína,
tes energéticos: sugerindo resíduos cuja mutação poderia beneficiar o
processo de cristalização.
ΔGcrist = ΔHcrist - T(ΔSproteína + ΔSsolvente)
Métodos de cristalização
O termo entálpico (∆Hcrist) apresenta contribuições
modestas ao processo de cristalização, uma vez que é Uma vez obtida a proteína de interesse
proveniente de um pequeno número de interações mo- com teor de pureza adequado, tem-se diver-
leculares de baixa intensidade, estabelecidas entre as sas alternativas disponíveis para a cristaliza-
macromoléculas para a formação do cristal. ção. Em comum, estes métodos envolvem a
Paralelamente, esse processo determina a perda de mistura da solução pura de proteína com so-
liberdade de translação e rotação das macromoléculas luções de cristalização, contendo agentes
quando comparadas às suas formas livres em solução. precipitantes variados.
Perde-se ainda a flexibilidade de algumas alças devido Em seguida, mantém-se a mistura em
ao empacotamento estabelecido sendo, portanto, um um sistema fechado e isolado para estabele-
processo entropicamente desfavorável (∆Sproteína > 0). cimento do equilíbrio e consequente cristali-
Por outro lado, a cristalização da macromolécula li- zação. A seleção da estratégia de
bera uma quantidade significativa de moléculas de cristalização depende de fatores como o ob-
águas previamente ordenadas ao redor de resíduos hi- jetivo de aplicação (por exemplo, a triagem
drofóbicos e polares, o que promove um ganho entró- inicial de condições ou a otimização de cris-
pico considerável (∆Ssolvente < 0) que torna o processo de tais) e características do ensaio (como a faci-
cristalização espontâneo (∆Gcrist < 0). lidade de resgate dos cristais da gota de
A compreensão dos componentes energéticos é de cristalização, o número de experimentos e a
fundamental importância para o favorecimento do possibilidade de automação, dentre outros).
O método de difusão de vapor baseia-se

no equilíbrio entre duas soluções através da
fase de vapor em sistema fechado. A solução
menos concentrada perde seu solvente volátil
até que os potenciais químicos das duas solu-
ções se igualem. Para se controlar a concen-
tração final da solução de proteína, realiza-se
o experimento de difusão de vapor com um Figura 8-13: Métodos de cristalização que
volume pequeno de proteína contra um volu- utilizam a técnica de difusão de vapor.
me grande de solução precipitante. Assim,
uma gota de solução da proteína a ser crista- uma gota e a etapa de vedação da placa, que
lizada é adicionada à solução tampão conten- deve ser suficientemente rápido para impedir
do agentes precipitantes e aditivos (por que a gota evapore totalmente, e a possibili-
exemplo, em uma diluição 1:1). Em seguida, dade de alguns cristais ficarem aderidos à
essa gota é equilibrada contra um reservató- superfície da placa.
rio contendo uma solução de agentes precipi- A escolha do método está associada ao
tantes a uma concentração maior que a da propósito do ensaio. Assim, experimentos de
gota com proteína. O método de difusão de triagem de condições de cristalização são ti-
vapor pode ser conduzido de duas maneiras picamente conduzidos com o emprego do
principais: a gota suspensa (hanging drop) e a método da gota assentada, enquanto para
gota assentada (sitting drop) (Figura 8-13). etapas de reprodução de cristais e otimização
No método gota suspensa, a gota con- de condições utiliza-se o método da gota sus-
tendo a proteína de interesse é colocada so- pensa.
bre uma lamínula de vidro siliconizada e, Adaptações e estratégias diferenciadas
posteriormente, vedada com o auxílio de gra- são frequentemente empregadas nesses mé-
xa especial na parte superior do poço, como todos, buscando modificar os estados iniciais
aquele em uma placa de 24 poços, de forma e finais do sistema e a cinética de equilíbrio.
que a gota fique interna ao reservatório (Fi- Por exemplo, podem ser empregadas pro-
gura 8-13). porções distintas de solução de cristalização
Entre as vantagens dessa metodologia e solução proteica, como 1:2, 2:1 e 1:3, além
destaca-se a facilidade e versatilidade de da utilização de óleos permeáveis e imper-
aplicação. Entre as limitações encontra-se o meáveis sobre a solução do reservatório.
custo elevado das lamínulas, a impossibilida- Métodos alternativos de cristalização de proteínas
de de automação e a dificuldade de monta- incluem o batch, a microdiálise e a interfase livre de di-
gem das gotas quando um dos agentes fusão (Figura 9-13).
precipitantes promove perda da tensão su- O método batch emprega concentrações de solu-
perficial. ção de proteína e agentes precipitantes adequadas pa-
No método gota assentada, a solução ra gerar uma nova solução proteica supersaturada. A
contendo a proteína é colocada sobre um su- solução resultante é então coberta por óleo imper-
porte fixado no centro do poço, o qual é pos-
teriormente vedado com o auxílio de fita
adesiva apropriada (Figura 8-13).
Entre as principais vantagens desse
método destaca-se a capacidade para desen-
volvimento de experimentos automatizados e
miniaturizados, com a utilização de placas de
96, 384 e 1536 poços, empregando com go- Figura 9-13: Exemplos de métodos de
tas de até 50 nL. Entre suas limitações tem- cristalização alternativos empregados em
se o tempo de espera entre a montagem de cristalografia de proteína.
meável, que dificulta a difusão de vapor e, dessa precipitantes (reduzem a solubilidade da pro-
forma, isola o sistema para que se atinja o equilíbrio. teína).
Consequentemente, é favorecida a cristalização da O agente tamponante é fundamental no
macromolécula (Figura 9-13). Variantes dessa técnica processo de cristalização por manter cons-
utilizam óleos permeáveis, como silicones, que deter- tante o pH da solução e, consequentemente,
minam novas condições de equilíbrio para a formação estabilizar a distribuição de cargas dos resí-
de cristais de boa qualidade. duos na superfície da proteína. Além disso, o
A microdiálise permite a troca do solvente e do agente tamponante pode alterar a solubilida-
agente precipitante presente na solução proteica com a de da proteína favorecendo o processo de
solução do reservatório através de uma membrana cristalização quanto empregados em concen-
semipermeável, favorecendo a redução ou aumento tração adequada.
das concentrações e, consequentemente, a cristaliza- Os aditivos são compostos capazes de
ção. permitir, facilitar ou aperfeiçoar o processo
Na interfase livre de difusão a solução de proteína e de cristalização como, por exemplo, cloreto
a solução de cristalização são acondicionadas em capi- de magnésio, L-prolina, ATP e NAD. Esses
lares que permitem o contato das soluções em apenas compostos apresentam propriedades distin-
uma pequena superfície (interface de contato), de for- tas, que favorecem o processo de cristaliza-
ma que o equilíbrio é atingido após a difusão lenta de ção. Por exemplo, detergentes estabilizam a
uma solução na outra. Nesse experimento, avalia-se o estrutura e impedem a agregação de proteí-
perfil de solubilidade da proteína em gradiente de con- na, enquanto ligantes e íons metálicos podem
centração para identificação da condição mais favorá- promover contatos intermoleculares adicio-
vel para a cristalização. nais ou ainda alterar a polaridade do meio. Di-
A automatização das etapas de monta- ante da impossibilidade de prever o efeito de
gem e observação dos cristais tem favorecido determinado aditivo sobre a cristalização, de-
significativamente os experimentos de crista- ve-se avaliar a influência desses compostos
lização, propiciando: através de triagem sistemática. Para tanto, há
i) ganho de agilidade e precisão na disponíveis kits comerciais já preparados para
montagem dos cristais, particularmente aplicação.
importantes em trabalhos com proteí- Os agentes precipitantes podem ser di-
nas sensíveis e instáveis e na reproduti- vididos em duas classes: sais inorgânicos e
bilidade dos cristais; compostos orgânicos. A utilização de sais co-
ii) miniaturização; mo agentes precipitantes está relacionada a
iii) redução no custo e consequente dois fenômenos conhecidos como salting-in e
possibilidade de aumento no número de salting-out. O primeiro favorece o aumento da
ensaios realizados para o mesmo alvo; solubilidade da proteína através do acréscimo
iv) viabilização de estudos de cristaliza- de pequenas quantidades de sal, enquanto o
ção para proteínas cuja expressão seja segundo favorece a diminuição da solubilidade
bastante reduzida ao permitir a manipu- da proteína por acréscimos de quantidades
lação dos pequenos volumes envolvi- elevadas de sal. Sais como o sulfato de amô-
dos. nio, cloreto de sódio e citrato de sódio estão
entre os amplamente empregados como
Reagentes para cristalização agentes precipitantes.
Na classe dos precipitantes orgânicos
As soluções de cristalização contêm re- destacam-se os polímeros de poliálcoois, com
agentes que podem ser agrupados em clas- ênfase para o polietilenoglicol (PEG) e polieti-
ses distintas: agentes tamponantes lenoglicol monoetil éter (PEG–MME), que
(responsáveis por manter o pH adequado da apresentam comprimentos de cadeias variá-
solução de cristalização), aditivos (facilitam veis, variando de 200 a 20.000 Da de massa
e/ou otimizam o processo de cristalização) e molecular média. Os representantes mais
populares dessa classe são os PEGs 3.350, encontra aplicação quando a disponibilidade
4.000 e 8.000. O mecanismo de redução de de amostra restringe o número de ensaios
solubilidade por estes compostos é atribuído que podem ser conduzidos.
à competição dos substituintes hidroxilas com Devido às características do processo
os resíduos da proteína pelas moléculas de automatizado de montagem dos experimen-
água disponíveis. tos de cristalização, a estratégia mais empre-
Adicionalmente, alguns álcoois de pe- gada em triagens iniciais é a matriz esparsa,
quena massa molecular têm sido emprega- que apresenta aspectos semelhantes ao fa-
dos com sucesso como agentes precipitantes. torial incompleto. Para a elaboração dessa
Estes compostos são capazes de reduzir a estratégia, um estudo estatístico que incluiu
concentração de proteína pela alteração da mais de 500 proteínas, 480 condições de
polaridade da solução de cristalização. cristalização e mais de 500.000 experimen-
Exemplos de destaque dessa categoria inclu- tos foi conduzido pelo centro de genômica
em o isopropanol, 2-metil-2,4-pentanodiol estrutural Joint Center for Structural
(MPD), 1,6-hexanodiol e glicerol. Genomics (JCSG – San Diego, Califórnia, EUA).
Esse estudo resultou na seleção de 384 con-
Estratégias para cristalização de dições com maior probabilidade de sucesso
proteínas para a cristalização de macromoléculas.
Para a realização dos ensaios de cristalização há
Atualmente, as etapas iniciais de tria- necessidade de solução de proteína com a máxima pu-
gem para identificação de condições de cris- reza disponível e concentração adequada. A concentra-
talização promissoras empregam soluções de ção média utilizada para determinação das estruturas
cristalização isoladas ou reunidas de acordo de proteínas depositadas no PDB é de 14 mg/mL. No
com as características físico-químicas. Essas entanto, há exemplos de estruturas cristalizadas entre
soluções são produzidas e comercializadas 2 e 100 mg/mL. Como regra geral, emprega-se a con-
por empresas especializadas, tais como centração de 10 mg/mL em ensaios iniciais de cristali-
Hampton Research, Molecular Dimensions, zação.
Qiagen e Jena Biosciences. Após a montagem dos experimentos, as placas de
Dentre os formatos e estratégias dis- cristalização devem ser acondicionadas em ambiente
poníveis destaca-se a triagem em rede (grid adequado, com baixa vibração e temperatura controla-
screen), capaz de fornecer informações im- da, para que o sistema evolua em direção à condição
portantes de modo rápido, sendo por isso de equilíbrio.
amplamente aplicada em triagens iniciais. Tradicionalmente, a observação das gotas é realiza-
Nesse experimento, avaliam-se sistematica- da através de análise visual com o auxílio de uma lupa.
mente dois fatores em paralelo como, por Contudo, equipamentos modernos e programas de re-
exemplo, variações simultâneas de pH/PEG, conhecimento de padrões têm sido desenvolvidos e
pH/cloreto de sódio e pH/sulfato de amônio, aplicados na inspeção e aquisição de imagens, onde fo-
dentre outras combinações. tos de cada uma das gotas do experimento de cristali-
Uma estratégia alternativa para identifi- zação são obtidas e analisadas automaticamente.
cação de condições promissoras para a cris- Como regra geral, observa-se o experimento imediata-
talização consiste na utilização de soluções mente após sua montagem (t = 0), seguida de mais 10
fatoriais. Nessa abordagem, busca-se balan- observações ao longo do experimento, com intervalos
cear a ocorrência de algumas características menores no início e mais prolongados ao final.
principais e suas combinações durante o pro- As observações devem ser registradas adequada-
cesso de amostragem através do planeja- mente para avaliação e identificação das condições
mento fatorial. A utilização de fatoriais mais promissoras para cristalização. Os kits comerciais
incompletos reduz a quantidade de parâme- fornecem tabelas próprias com sistemas de pontuação
tros avaliados e, com isso, o número de ex- para facilitar a interpretação e análise dos resultados.
perimentos realizados. Essa alternativa Adicionalmente, programas têm sido utilizados como
ferramentas eficientes para avaliação dos dados e cristalização, o agente tamponante e o pH da solução, a
proposição de novos experimentos. presença de aditivos e detergentes e a cinética de equi-
O objetivo dos experimentos de cristali- líbrio, entre outros. Essa investigação se estende até a
zação é a obtenção de cristais adequados pa- identificação de condições otimizadas de cristalização,
ra os ensaios de difração de raios-X. No capazes de fornecer cristais apropriados e de boa qua-
entanto, os resultados observados podem ser lidade para os experimentos de difração de raios-X.
bastante variados, incluindo-se:
i) cristais bem formados, com arestas e 13.6. Coleta de dados
faces definidas (Figura 10A-13);
ii) cristais com crescimento em duas di- Uma vez que cristais adequados são
mensões, denominados de placas (Figu- produzidos, eles podem ser testados quanto à
ra 10B-13); sua capacidade de difração de raios-X e, em
iii) cristais com crescimento em apenas seguida, serem empregados na coleta de da-
uma dimensão, denominados de agulhas dos cristalográficos.
(Figura 10C-13); O uso da difração de raios-X na obten-
iv) precipitados leves e intensos (Figuras ção de informação sobre a estrutura de mo-
10D-13 e 10E-13, respectivamente); léculas baseia-se na propriedade do padrão
v) separações de fase (Figura 10F-13); de difração da distribuição eletrônica dos
vi) aglomerados de agulhas (Figura 10G- átomos em um objeto poder ser aproximado
13); pela transformada de Fourier do mesmo. Por
vii) microcristais (Figura 10H-13). outro lado, a transformada inversa de Fourier
do padrão de difração é a distribuição eletrô-
Com exceção de alguns casos nos quais os cristais nica dos átomos do cristal de proteína.
obtidos na etapa de triagem podem ser considerados O fenômeno de difração depende da in-
adequados para os experimentos de difração de raios- teração entre a radiação eletromagnética
X, a obtenção de uma condição promissora é seguida com a matéria do objeto e da dispersão dessa
por etapas de otimização. Embora o número de parâ- radiação ao incidir sobre este. Embora exis-
metros a serem investigados nessa etapa seja elevado, tam outros métodos de dispersão disponíveis,
costuma-se explorar a concentração dos reagentes ini- como a dispersão de nêutrons dos núcleos,
ciais (incluindo a concentração de proteína), a propor- eles constituem atualmente uma fração mui-
ção entre a solução de proteína e a solução de to pequena dos experimentos de difração.
Figura 10-13: Resultados possíveis em experimentos de cristalização. A) cristal bem formado, B)

placas, C) agulhas, D) precipitado leve, E) precipitado intenso, F) separação de fase, G)
aglomerados de agulhas e H) microcristais.
Em relação às proteínas ou outras mo- te em casos nos quais as subunidades não

léculas orgânicas, os raios-X são a radiação são idênticas (Figura 11-13).
eletromagnética de escolha para os estudos Para a determinação das coordenadas
estruturais. O comprimento de onda típico espaciais dos átomos da proteína, responsá-
dos raios-X é de 0,15 nm (1,5 Å), ou seja, da veis pela difração do feixe de raios-X, faz-se
mesma ordem do comprimento de uma liga- necessário identificar cada uma das reflexões
ção covalente entre átomos. Consequente- no padrão de difração (Figura 12-13). Devido
mente, torna-se possível detectar tais ao caráter tridimensional do padrão de difra-
distâncias, utilizando-se a difração de raios-X. ção, as distâncias entre as reflexões medidas,
Em princípio, um único objeto já é capaz em um detector, localizam-se próximas ou
de difratar raios-X. Assim, uma única molé- distantes do centro do padrão. Portanto, a
cula seria suficiente para a realização de ex- partir de um ponto de origem (o centro da
perimentos de difração de raios-X. No imagem) valores crescentes são atribuídos
entanto, a utilização de uma única molécula para todas as reflexões no padrão de difra-
como fonte espalhadora resulta em feixes de ção. Esses valores, denominados índices de
radiação dispersos de baixíssima intensidade, Miller, indicam reflexões próximas do centro
cuja detecção é praticamente impossível pe- da imagem (ou seja, valores menores de índi-
los métodos disponíveis. ces de Miller) e reflexões localizadas nas re-
Para solucionar essa limitação, utiliza-se giões periféricas do padrão de difração (ou
uma quantidade significativa de moléculas seja, valores maiores índices de Miller).
( 1015 moléculas) organizadas num padrão Os ângulos que os feixes difratados fa-
regular tridimensional. Este grande número zem com relação ao feixe incidente no cristal
de moléculas atua como amplificador do si- determinam o nível de informação obtido em
nal, capaz de gerar feixes de radiação mensu- um experimento de difração de raios-X. As-
ráveis de alta intensidade. Por conseguinte, sim, quanto maior o ângulo do feixe difratado
estruturas cristalinas são as mais adequadas
para obtenção de dados de alta resolução em
experimentos de difração de raios-X.
Padrão de difração
O padrão de difração de proteínas é tri-
dimensional e reflete tanto a simetria dos ar-
ranjos cristalinos quanto a organização da
proteína na célula unitária, isto é, a unidade de
repetição que constitui o cristal). Esses ar-
ranjos são definidos em termos de grupos
espaciais e de unidades assimétricas.
A unidade assimétrica é a menor unida-
de a partir da qual uma célula unitária pode
ser construída. Além disso, a unidade assimé- Figura 11-13: Exemplo de empacotamento
trica representa o número mínimo de estru- cristalino, célula unitária (paralelogramo) e
turas independentemente determinadas em unidade assimétrica (destacada nas cores
um cristal. Por exemplo, uma unidade assi- ciano, magenta e verde). Empacotamento de
métrica pode conter desde apenas um repre- várias moléculas da proteína 6-piruvoil-
sentante da proteína em estudo até 12 ou tetrahidrobiopterina-sintase humana (PTPS).
mais representantes. Frequentemente, esses Dados processados e refinados por JRCM e
arranjos tornam possível a determinação do gentilmente cedidos pelo Structural Genomics
estado oligomérico da proteína, especialmen- Consortium, Oxford, UK.
maiores serão os valores dos índices de Miller

para as reflexões observadas, e por conse-
guinte, maior será a resolução dos dados co-
letados (Figura 12A-13).
Informações moleculares a alta resolu-
ção produzem mapas de densidade eletrônica
bem definidos, que auxiliam substancialmente
a determinação precisa da posição dos áto-
mos que constituem o cristal (Figura 12B-13).
Portanto, os detalhes e qualidade do modelo
3D da macromolécula são diretamente pro-
porcionais à resolução dos dados coletados
nos estudos cristalográficos.
Fundamentalmente, as características
do padrão de difração, isto é, as intensidades Figura 12-13: (A) Padrão representativo obtido
das reflexões e a resolução do conjunto de em um experimento de difração de raios-X de
dados, determinam a qualidade do mapa de uma estrutura de altíssima resolução (1,1 Å).
densidade eletrônica. Nesse sentido, parâme- Os anéis vermelhos indicam as camadas de
tros quantitativos são empregados para ava- resolução para as reflexões. As reflexões se
liação da qualidade do conjunto de dados, tornam menos intensas quanto maior a
dentre os quais destacam-se a intensidade resolução. (B) Resolução versus densidade
das reflexões (I), os danos causados pela ra- eletrônica. Mapa de densidade eletrônica para
diação (Rdano), a sobreposição das reflexões o mesmo resíduo de triptofano calculado em
(O), o fator R (Rmerge) e a completeza (C) 4 diferentes resoluções (PDB ID 3T7L). Dados
(Tabela 2-13). de difração gentilmente cedidos pelo
Structural Genomics Consortium, Oxford, UK.
Intensidade (I)
Rdano (R)
As intensidades das reflexões têm impacto direto
na qualidade dos dados cristalográficos. A intensidade O valor de Rdano indica a extensão do impacto das
das reflexões depende de diversos fatores, tais como o colisões do tipo inelásticas e elásticas provenientes do
tamanho e a qualidade do cristal, o tempo de exposi- feixe de fótons incidentes na amostra cristalina. Devido
ção ao feixe de raios-X e a intensidade do feixe de rai- à alta intensidade desses fótons a amostra sofrerá
os-X. processos irreversiveis e será "danificada.
A relação entre a intensidade da reflexão e o plano Os danos causados pela radiação constituem um
de fundo (background) é dada pela razão sinal-ruído importante fator para a qualidade dos dados cristalo-
I/σ(I). Uma vez que as proteínas estão sujeitas a altera- gráficos. Com o objetivo de amenizar tais danos, geral-
ções causadas pela interação com raios-X, causadas mente é empregada uma estratégia de coleta de dados
por radicais livres, durante a coleta de dados cristalo- a temperaturas "criogênicas" (100 K), obtidas com o
gráficos deve-se ponderar a relação entre o tempo de auxílio de nitrogênio líquido.
exposição do cristal e a intensidade do feixe de modo A aplicação dessa estratégia para coleta de dados
que se obtenham intensidades mensuráveis e de boa cristalográficos exige um pré-tratamento do cristal.
qualidade, sem afetar a estrutura da proteína em estu- Cristais de proteína contém uma quantidade significati-
do. va de água, logo seu resfriamento acarreta na forma-
Tais limites de resolução dos dados de difração são ção de gelo que, por sua vez, é extremamente
frequentemente definidos pelo critério I/σ(I). Em geral, prejudicial para o cristal e, consequentemente, para o
utiliza-se dados que apresentam valores de I/σ(I) mai- experimento de difração.
ores que 2, isto é, a intensidade medida para as refle- Por este motivo os cristais são usualmente pré-
xões é duas vezes maior que o ruído observado. -tratados com agentes crioprotetores, tais como PEG
Tabela 2-13: Dados cristalográficos represen- Rmerge (Rm)

tativos de uma coleta de dados de difração de
raios-X (PDB ID 3ZRS). Uma vez que o padrão de difração contém os ele-
mentos de simetria do cristal, a maioria das reflexões é
observada mais de uma vez. Dessa maneira, a repro-
Dados Cristalográficos
dutibilidade dessas medidas é uma característica utili-
Grupo espacial P 4 21 2 zada como parâmetro de precisão.
Estatisticamente, quanto maior a frequência com
Dimensões da célula (Å) a = b = 106,24 c = 89,80 que uma reflexão é medida, e quanto mais similares
α = β = γ = 90º elas são entre si, melhor será o conjunto de dados
cristalográfico. A redundância desses dados é indicada
Resolução (Å) 106,24 – 3,05
em termos de uma média geral, enquanto a reproduti-
(3,21-3,05)*
bilidade das medidas é avaliada por um fator residual
Rmerge 0,262 (0,945)* denominado Rmerge (ou Rsym, quando se leva em
conta a simetria das reflexões).
I / σ(I) 5,5 (2,0)* O valor de Rmerge é obtido através do cálculo da
média da intensidade de um grupo de reflexões dividido
Completeza (%) 99,9 (99,8)*
pela média do desvio padrão para esse mesmo grupo
Multiplicidade 6,8 (6,9)* de reflexoes:
*Os números entre parênteses referem-se à mais

alta camada de resolução.
É importante mencionar que o fator Rmerge é de-
ou glicerol, seguidos de resfriamento rápido (flash pendente da resolução, logo deve ser informado para
cooling). Este procedimento evita a formação de cris- todo o conjunto assim como para as camadas de mais
tais de gelo, mantendo assim a integridade e qualidade altas de resolução (Tabela 2-13). Um conjunto de dados
dos cristais de proteína. de boa qualidade caracteriza-se por um valor de
Rmerge global menor que 15% e, na camada de maior
Sobreposição (O) resolução, o valor de Rmerge dever ser menor que
100%.
Além da intensidade da reflexão, a capacidade para
discernir reflexões individuais também é essencial. A Completeza (C)
separação das reflexões em um padrão de difração
depende, principalmente, do tamanho da célula unitá- A completeza dos dados é um fator extremamente
ria. Nesse sentido, quanto maior as dimensões da célu- importante na determinação da qualidade do conjunto.
la unitária (parâmetros a, b e c da Tabela 2-13) mais A completeza é determinada pela razão entre o núme-
próximas estarão as reflexões no padrão de difração e ro esperado de reflexões para o grupo espacial e o ta-
consequentemente, maior será a probabilidade de manho da célula unitária. Uma vez que a capacidade
ocorrer sobreposição. para medir reflexões diminui em função da resolução, a
Esta sobreposição de reflexões acarreta em uma completeza dos dados será menor nas camadas de
maior imprecisão na determinação da intensidade de maior resolução. Portanto, esse parâmetro deve ser
cada reflexão. Além disso, outros fatores como a de- informado tanto para todo o conjunto de dados quanto
sordem interna no cristal (mosaicidade), proveniente para a camada mais alta de resolução (Tabela 2-13).
do empacotamento cristalino ou de danos mecânicos Um conjunto de dados cristalográficos
(como aqueles causados durante o resfriamento rápi- ideal é formado por camadas de baixa e alta
do) podem ocasionar alargamento significativo das re- resolução determinadas com relação sinal-
flexões no padrão de difração produzindo -ruído (I/σ(I)) global maior que 10 e maior que
sobreposição. 2 para a camada de maior resolução, refle-
xões bem separadas, valor de Rmerge global
menor que 100% e completeza maior que A determinação da fase nos estudos
95% (em geral, é aceitável que a completeza cristalográficos é um processo complexo, co-
seja baixa somente nas camadas de maior nhecido como “problema das fases”. É uma
resolução). etapa fundamental e de grande impacto para
A relação entre esses parâmetros de- a obtenção de mapas de densidade eletrônica
termina a qualidade final do mapa de densi- bem definidos e, por conseguinte, para a
dade eletrônica. Portanto, quanto maior a construção de modelos estruturais de quali-
qualidade dos dados cristalográficos, maior dade. De fato, um mapa de densidade eletrô-
será a probabilidade de se obter um mapa de nica calculado a partir das amplitudes de uma
densidade eletrônica bem definido e interpre- estrutura correta, mas com fases incorretas,
tável. No entanto, é importante mencionar seria impossível de se interpretar. Por outro
que a análise isolada desses parâmetros não lado, um mapa de densidade eletrônica calcu-
deve ser utilizada como um substituto para o lado a partir de amplitudes de estruturas ale-
julgamento da veracidade do modelo estru- atórias, mas com fases corretas, seria
tural. interpretável.
Os valores mencionados para os princi- A fase corresponde ao tempo relativo à
pais parâmetros cristalográficos devem ser chegada da crista de uma onda específica a
utilizados como indicativos da qualidade do um ponto de referência. Ondas de mesmo
conjunto de dados coletados. A vasta maioria comprimento e fases idênticas terão seus pi-
dos modelos estruturais depositados no PDB cos e vales em comum, somando-se em har-
foi construído a partir de conjuntos de dados monia. Ondas com fases opostas tendem a
de excelente qualidade. Contudo, há também anular umas as outras, total ou parcialmente,
exemplos de modelos incorretos, provenien- dependendo de suas amplitudes.
tes de conjuntos de dados de qualidade sim- Assim, ao somarmos todas as ondas
plesmente aceitável. Em geral, esses difratadas (a síntese de Fourier) para se re-
modelos são resultado da interpretação ina- solver uma estrutura de proteína, torna-se
dequada dos mapas de densidade eletrônica, necessário determinar as amplitudes e fases
construídos a partir de conjunto de dados de para cada uma das ondas espalhadas, ou seja,
menor resolução. Portanto, quanto maior a para cada reflexão.
resolução dos dados, menor a probabilidade Experimentalmente, a amplitude da on-
de erros no modelo estrutural da proteína em da difrata é facilmente medida utilizando-se
estudo. detectores modernos, tais como placas de
imagem, couple charged devive (CCD) e pixel
Faseamento apparatus for the SLS (PILATUS). Em um ex-
perimento de difração, as intensidades e po-
A radiação eletromagnética pode ser sições das ondas difratadas são medidas, mas
descrita pela equação de ondas, que é defini- as fases são perdidas. Isto ocorre porque os
da em termos de amplitude, comprimento de raios-X deslocam-se na velocidade da luz e,
onda e fase. Em um experimento de difração dessa maneira, o tempo relativo de chegada
de raios-X, os dois primeiros parâmetros são de todas as ondas espalhadas provenientes
medidos diretamente, ou seja, a amplitude da do cristal ao detector parece ser o mesmo.
onda é proporcional à intensidade do feixe di- Portanto, as fases deverão ser determinadas
fratado (a amplitude é igual à raiz quadrada através de métodos alternativos.
da intensidade medida para uma reflexão) e o O método mais comum de faseamento,
comprimento de onda (λ) é definido pelo especialmente para o desenvolvimento de
comprimento de onda dos raios-X utilizados. novos compostos bioativos, é o de substitui-
As fontes caseiras com ânodo rotatório de Cu ção molecular. O método baseia-se em dois
apresentam λ = 1,54178 Å, enquanto fontes de fatores: 1) na disponibilidade das coordenadas
luz síncrotrons apresentam λ = 0,8–2,5 Å. atômicas da estrutura da proteína de interes-
se ou a de uma proteína homóloga, e 2) na

semelhança do padrão de difração da proteí-
na de interesse com o padrão de difração da
proteína homóloga.
Na substituição molecular, medem-se as
amplitudes de difração do cristal da proteína
de interesse e "substituem-se" as fases des-
conhecidas pelas fases já calculadas a partir
de uma estrutura previamente determinada.
A questão crucial que determina o sucesso Figura 13-13: Estrutura do receptor PPARα
deste método é o nível de semelhança entre complexado ao ativador NKS (PDB ID 3KDU).
as duas proteínas. Por exemplo, ao determi- (A) Mapa de densidade eletrônica (malha
narmos a estrutura de um complexo ligante- verde), indicando o modo de interação do
proteína, esperamos que a interação do li- ativador NKS. (B) Complexo NKS-PPARα, no
gante com o sítio de ligação induza apenas qual o ligante (esfera e bastões amarelos)
alterações locais na estrutura do sítio, sem encontra-se modelado de acordo com o mapa
consequências maiores para a estrutura geral de densidade eletrônica.
da proteína.
Nesses estudos, utilizam-se as amplitu- Há disponíveis diversas operações que
des coletadas do cristal contendo o complexo podem ser aplicadas aos dados cristalográfi-
proteína-ligante combinadas com as fases da cos com o objetivo de melhorar os mapas de
proteína sem o ligante, previamente determi- densidade eletrônica. Uma estratégia fre-
nada. Esse método resulta em um mapa de quentemente empregada é o achatamento do
densidade eletrônica para a proteína e para o solvente (solvent flattening), que acentua as
ligante suficientemente adequado, permitindo fronteiras entre o solvente e a molécula, ten-
a identificação do modo de interação do cando como resultado final a otimização do mapa
didato a fármaco no sítio de ligação do alvo de densidade eletrônica.
macromolecular (Figura 13-13). Adicionalmente, quando há mais de uma
Além da substituição molecular, é im- molécula na unidade assimétrica, a promedi-
portante mencionar que existem outros mé- ação (isto é, interpolação) das suas densida-
todos para a determinação das fases, tais des eletrônicas pode aumentar a relação
como a substituição isomórfica e o espalha- sinal-ruído, melhorando a qualidade do mapa
mento anômalo. Esses métodos são geral- final.
mente empregados nos casos em que a A interpretação do mapa de densidade
substituição molecular não é bem sucedida ou eletrônica é subjetiva, demandando habilidade
quando não há uma estrutura relacionada. e experiência para que o modelo construído
explique da melhor maneira possível os dados
Mapa de densidade eletrônica cristalográficos. Um dos fatores que interfe-
rem nesta interpretação é a resolução, que
O mapa de densidade eletrônica é o re- indica o nível de detalhamento com o qual a
sultado final de um experimento de difração proteína foi determinada.
de raios-X. Por definição, o mapa de densida- Níveis de resolução distintos determi-
de eletrônica é a solução da síntese de nam diferentes tipos de informação (Tabela 3-
Fourier com as amplitudes das difrações me- 13 e Figura 12-13). O valor médio de resolução
didas e as fases experimentalmente determi- dos modelos estruturais depositados no PDB
nadas ou calculadas para cada reflexão. A é 2 ± 1 Å, sendo que aproximadamente 40%
partir deste mapa, procede-se para a etapa de das macromoléculas depositadas tem reso-
interpretação e construção do modelo estru- lução entre 1,5–2,0 Å (dados de dezembro de
tural. 2012). Portanto, o mapa de densidade eletrô-
Tabela 3-13: Relação entre a informação Um fenômeno semelhante é observado quando um

estrutural e a resolução de um dado conjunto ligante interage com apenas algumas moléculas de
de dados cristalográficos. proteína no cristal. Nesse caso, o mapa de densidade
eletrônica será fraco para esse ligante devido à ocupa-
Resolução Informação estrutural ção parcial, sendo portanto de dificil interpretação e
modelagem. A ocupação dos átomos no cristal é indi-
5,0 Topologia da molécula e elementos cada em termos fracionários, que variam entre 0 e 1.
de estrutura secundária A incerteza associada à posição média dos átomos
constituintes do cristal é indicada por um termo deno-
3,5 Curso geral da cadeia polipeptídica minado fator B ou fator de temperatura. Quanto maior
(traço de Cα) o deslocamento espacial dos átomos no cristal, maior
será o fator B. Esse termo é dependente da resolução
3,0 Cadeias laterais de alguns
do conjunto de dados, apresentando valores médios
aminoácidos são interpretáveis
para átomos em uma proteína no intervalo de 20–30
2,5 Cadeias laterais de todos Å2.
aminoácidos são interpretáveis A ocupação e o fator B estão relacionados entre si,
bem como a resolução do conjunto de dados. Geral-
1,5 Átomos individuais são
mente, em complexos ligante-proteína é comum a ve-
reconhecíveis rificação de fatores B significativamente maiores para
1,0 Tipos de átomos são identificáveis os átomos do ligante em relação aos átomos da prote-
ína, fenômeno este que pode indicar uma ocupação
parcial para a molécula do ligante.
nica nessa faixa de resolução é rico em infor- Mapas de densidades eletrônicas podem
mação estrutural e facilmente interpretável e, ser exibidos de diversas maneiras. A repre-
por conseguinte, o modelo final construído sentação mais comum para a interpretação
tende a apresentar boa qualidade. empregam os coeficientes FO – FC e 2FO – FC.
Diversos fatores contribuem para a facilidade de O mapa FO – FC indica a diferença entre a den-
interpretação de um mapa de densidade eletrônica.
Uma vez que a densidade eletrônica é uma média das
posições atômicas ao longo de todas as células unitá-
rias que formam o cristal, um mapa de densidade ele-
trônica nítido depende do perfeito alinhamento entre
todas as moléculas.
Um mapa de densidade eletrônica inequívoca cor-
responde a apenas uma molécula, resíduo, modelo
peptídico ou ligante que poderá ser modelado nessa Figura 14-13: Exemplo de dupla conformação
densidade eletrônica. No entanto, se a densidade ele- do mesmo segmento de uma proteína em
trônica não é bem definida, mas difusa, ou se houver diferentes resoluções (PDB ID 2VB1). (A)
moléculas em diferentes orientações, a interpretação Dupla conformação em uma estrutura
se torna desafiadora. refinada na ultraresolução de 0,65 Å. Nota-se
Por exemplo, a cadeia lateral de um resíduo de que as densidades eletrônicas adotam um
aminoácido em um peptídeo pode adotar mais de uma formato de elipsoides, típico em casos de
conformação. Se o número de conformações for pe- ultraresolução. As duplas conformações para
queno, como dois rotâmeros, essas conformações são os resíduos de arginina e histidina foram
modeladas com ocupações fracionadas (isto é, 50% modeladas com precisão. (B) Mesma
para cada uma) (Figura 14-13). Se o número de confor- estrutura resolvida a 2,0 Å de resolução.
mações for significativo, com um número de rotâme- Entretanto, apesar da boa qualidade dos
ros > 3, a densidade eletrônica para esses rotâmeros dados não foi possível modelar as duas
não será distinguível, e aparecerá como ruído no mapa. conformações adotadas por esses resíduos.
sidade eletrônica observada (FO) e a calculada

a partir de um modelo (FC). Esse mapa, co-
nhecido como “mapa diferença”, evidencia re-
giões no modelo que necessitam de átomos,
isto é, a diferença na densidade eletrônica é
positiva, e regiões no modelo que apresentam
excesso de átomos, ou seja, a diferença na
densidade eletrônica é negativa.
O mapa 2FO – FC apresenta a densidade
eletrônica com ênfase na diferença entre a
densidade eletrônica observada (2FO) e a cal- Figura 15-13: Mapa de densidade eletrônica
culada a partir de um modelo (FC) (Figura 15- 2FO – FC (malha azul) e FO – FC (malha verde
13). Durante o processo de refinamento do para densidade positiva e malha vermelha
modelo cristalográfico, deve-se avaliar e in- para densidade negativa). (A) O resíduo de
terpretar de forma integrada os mapas 2FO – arginina foi modelado em uma conformação
FC, que privilegiam os fatores de estrutura que não condiz com os dados experimentais
observados, e o mapa diferença FO – FC, que (densidades positivas e negativas no mapa FO
indica regiões com excesso ou ausência de – FC). (B) Rotâmero modelado corretamente
densidade eletrônica. para o mesmo resíduo de arginina. Nota-se
que as densidades no mapa diferença
13.7. Refinamento, validação e usos desapareceram, indicando o acerto no
posicionamento do rotâmero de arginina.
Os modelos estruturais construídos ba- Além disso, uma nova molécula de água (cruz
seados em dados cristalográficos devem ser, vermelha) também foi corretamente
idealmente, modelos precisos. Para tanto, di- modelada após seleção do rotâmero correto
versos métodos de refinamento são empre- para o resíduo.
gados.
Uma estratégia comum de refinamento grupos químicos, bem como impede-se que a
aplicada a modelos cristalográficos é o ali- molécula adote conformações de alta ener-
nhamento correto entre o modelo estrutural gia. Essas restrições são baseadas no conhe-
e a densidade eletrônica. Esse processo é re- cimento estrutural de pequenas moléculas
alizado de forma sistemática e supervisiona- elucidadas a alta resolução e utilizadas como
do por ciclos interativos de refinamento no subestruturas representativas da macromo-
espaço real e no espaço recíproco. Para ava- lécula (Figura 16-13).
liação do protocolo de refinamento, conside- O sucesso no processo de refinamento é indicado
ram-se os parâmetros denominados Rfator e pelo parâmetro Rfator, que consiste na medida de con-
Rlivre (Rfree). Os ciclos de refinamento são cordância entre o modelo construído e os dados expe-
conduzidos continuadamente até que ocorra rimentais. O valor de Rfator determina a diferença
convergência dos dados, ou seja, o processo entre as amplitudes das reflexões calculadas derivadas
de refinamento estende-se até o momento a partir do modelo e os valores experimentais obtidos
em que não se observam variações significa- a partir do experimento difração de raios-X. Portanto, o
tivas nos valores de Rfator e Rlivre. valor de Rfator indica a qualidade do ajuste do modelo
Com o objetivo de auxiliar o refinamen- a densidade eletrônica, bem como a qualidade dos da-
to, restrições estereoquímicas são aplicadas dos cristalográficos.
para orientar o grau de liberdade conforma- Para proteínas, os valores de Rfator observados
cional dos átomos durante as tentativas de encontram-se no intervalo de 15 a 20% para conjuntos
modelá-los na densidade eletrônica da pro- de dados entre 1,8 e 2,5 Å de resolução (Figura 17-13).
teína. Desse modo, garante-se a não violação Esses números sugerem que de 75 a 80% dos dados
das geometrias permitidas para os diferentes de espalhamento, provenientes do cristal da proteína,
Figura 16-13: Visão geral das etapas envolvidas na determinação de uma estrutura de proteína
por métodos cristalográficos.
podem ser representados ou explicados pelo modelo vido à natureza incompleta dos dados utiliza-
estrutural. dos para o cálculo do Rlivre, este é frequen-
É importante mencionar que um modelo estrutural temente maior do que o valor do Rfator em
de boa qualidade pode apresentar pequenas falhas, cerca de 3–5%, no caso de estruturas bem
provenientes de erros durante a aquisição dos dados refinadas. Nas etapas iniciais de refinamento,
cristalográficos, da incapacidade de se modelar regiões esse número pode ser maior que 10%.
desordenadas na estrutura, de diferentes conforma- Uma vez que as moléculas de proteína
ções e de regiões flexíveis, principalmente regiões de são formas irregulares, durante o processo
alças. de formação dos cristais espaços e canais
Devido à grande influência das fases entre as cadeias polipeptídicas são preenchi-
calculadas (FC) sobre as amplitudes das re- dos com solvente e outros compostos prove-
flexões (FO) na determinação da densidade nientes da solução de cristalização,
eletrônica final, o valor de Rfator pode ser incluindo-se água, íons e agente crioprotetor,
manipulado e levar ao sobreajuste do modelo dentre outros.
estrutural. O componente mais importante do sol-
Visando-se manter a precisão e a vera- vente são as moléculas de água ligadas à
cidade do modelo estrutural, uma estratégia proteína, encontradas em localizações dis-
comumente utilizada consiste no cálculo do cretas e, geralmente, na superfície da macro-
Rfator a partir de dados que não foram utili- molécula. As moléculas de água são
zados no processo de refinamento e, portan- modeladas de acordo com um procedimento
to, não foram influenciados pelas fases que envolve a identificação de características
calculadas, o que pode ser chamado de vali- específicas das densidades eletrônicas que
dação externa ou Rlivre. não são atribuídas à proteína, tais como a al-
O Rlivre é calculado a partir de 5 a 10% tura do pico de densidade eletrônica e a posi-
das reflexões, selecionadas de modo aleatório ção da molécula de água em relação aos
e excluídas do processo de refinamento. De- átomos da proteína, com os quais poderá
retamente posicionadas.
Já em estruturas de alta resolução (1,0–2,0 Å), po-
de-se identificar um número significativo de moléculas
de água na superfície da proteína com boa precisão.
Contudo, é importante mencionar que a utilização de
moléculas de água em demasia em um modelo final
pode mascarar regiões da densidade eletrônica e indu-
zir a erros de interpretação, como a atribuição de
águas a densidades que correspondem a cadeias late-
rais dos resíduos, outros tipos de solventes ou ligantes.
Como o Rfator pode ser interpretado como uma
Figura 17-13: Critérios sugeridos para medida de quanto a densidade eletrônica é satisfeita,
avaliação da qualidade de modelos de moléculas de água mal posicionadas podem diminuir o
estruturas cristalográficas de valor para o Rfator, porém, sem melhorar a acurácia
macromoléculas, de adequado (verde) a ina- do modelo. Nesses casos, a comparação entre os va-
dequado (vermelho). Diferença entre o Rlivre lores de Rfator e Rlivre é fundamental para avaliar a
e Rfator > 7% indica baixa correlação entre possibilidade de sobreajuste do modelo (diferença en-
os dados experimentais e o modelo tre Rlivre e Rfator > 7%). A Tabela 4-13 apresenta va-
estrutural. Entretanto, se essa diferença for < lores representativos das estatísticas de refinamento
2% sugere-se que o conjunto de dados esteja para um bom modelo cristalográfico.
demasiadamente “preso”. Valores de RMSD Uma estratégia frequentemente em-
(ver capítulo 8) indicam a presença de erros pregada para a identificação de erros de in-
no modelo. Por outro lado, valores terpretação em modelos estruturais
excessivamente baixos de RMSD (por baseia-se nas características geométricas dos
exemplo, 0,004 Å) indicam excesso nas aminoácidos e das estruturas 2árias (como
restrições estereoquímicas, com maior peso distâncias, ângulos de ligação e diedros φ e ψ,
à otimização da geometria em detrimento dos ver capítulo 2).
dados de difração experimental durante os As distâncias interatômicas e ângulos de
ciclos de refinamento. ligação dos resíduos de aminoácidos são bem
conhecidos e empregados como guia para
formar ligações de hidrogênio. avaliação de modelos estruturais. A medida é
Frequentemente, densidades eletrônicas expressa pelo valor de RMSD para todas as
próximas à cadeia polipeptídica são atribuídas distâncias e ângulos de ligação na proteína em
a íons provenientes das soluções de cristali- estudo.
zação, como sódio, cálcio e amônio. Em geral, As relações entre os ângulos diedrais
essas densidades apresentam características para os átomos da cadeia principal que con-
específicas como formas, estado de coorde- tém estrutura 2ária foram analisadas em ter-
nação ou propriedades eletrônicas que auxili- mos de valores permitidos e proibidos em um
am a identificação correta do íon e o seu gráfico conhecido como Gráfico de Rama-
modo de ligação. chandran (Figura 18-13, ver capítulo 2).
O número de moléculas de águas que podem ser Contudo, faz-se necessário salientar que
identificadas e associadas a um determinado modelo alguns resíduos podem localizar-se fora das
estrutural irá depender da qualidade do modelo e dos regiões permitidas por diferentes razões. Por
dados cristalográficoa (ou seja, da sua resolução). Por exemplo, o resíduo de glicina, devido à ausên-
exemplo, em estruturas de média resolução (2,5 a 3,0 cia de uma cadeia lateral volumosa, pode ser
Å) o número de moléculas de água esperado é baixo, encontrado fora das regiões permitidas. Por
pois apenas aquelas moléculas que estão fortemente outro lado, o resíduo de prolina pode locali-
associadas à proteína (usualmente localizadas no sítio zar-se em regiões proibidas em função de
ativo ou em outras regiões funcionais) podem ser cor- isomeria estrutural (isto é, isômeros cis e
Tabela 4-13: Exemplo de estatísticas de ficação e validação de novos alvos molecula-

refinamento de uma estrutura de boa res de interesse terapêutico. Além disso, ini-
qualidade. Dados referentes aos estudos ciativas como os programas genoma e
cristalográficos para a determinação da proteoma de vários organismos têm forneci-
estrutura celobiohidrolase I de Trichoderma do dados importantes para o detalhamento
harzianum (PDB ID 2YOK). das bases moleculares responsáveis pela es-
trutura e função de biomoléculas.
Refinamento
Simultaneamente, o aprimoramento das
Resolução 45,3-1,67 (1,71-1,67) técnicas de determinação estrutural e análise
de moléculas, como a cristalografia de rai-
Rfator/Rlivre (%) 14,6/17,3 os-X, ressonância magnética nuclear (RMN) e
a calorimetria, têm contribuído substancial-
Número de átomos
mente para a melhor compreensão dos com-
Proteína 3193 ponentes energéticos e espaciais que
compõem as interações entre fármacos e re-
N-acetil-D-GlcN 42 ceptores.
PEG 23 Nas últimas décadas, os métodos cris-
talográficos ganharam enorme destaque co-
Água 562 mo estratégia útil para o planejamento de
fármacos. A sua aplicação vai desde os estu-
Fator B (Å2)
dos em pesquisa básica, visando à elucidação
Proteína 10,3 das características estruturais e funcionais de
alvos moleculares, até a pesquisa aplicada,
N-acetil-D-GlcN 29,7 caracterizada pela aplicação do conhecimento
PEG 30,4 estrutural para a identificação de moléculas
com atividade biológica e otimização de pro-
Água 24,2 priedades farmacodinâmicas e farmacociné-
ticas.
RMSD
Atualmente, um dos maiores desafios
Tamanho de ligação (Å) 0,011 na área de planejamento de novos fármacos é
aumentar a taxa de sucesso na identificação
Ângulo de ligação (º) 1,331 de novas entidades químicas (NCEs, new
trans).
Ocasionalmente, se a resolução for alta
o suficiente para permitir uma interpretação
precisa, um resíduo pode aparecer fora dos
limites aceitáveis (Figura 18-13). Exemplos
como esse não são incomuns e, portanto, é
fortemente recomendada a inspeção criterio-
sa de todos os resíduos de uma proteína,
principalmente aqueles indicados em regiões
não favoráveis no gráfico de Ramachandran.
Figura 18-13: Gráfico de Ramachandran
Planejamento baseado na estrutura representativo para uma estrutura de boa
do receptor qualidade. Destaque para o resíduo de serina
que, apesar de localizado em um uma região
Os avanços nas ciências biomédicas vem proibida, é perfeitamente corroborado pelo
contribuindo significativamente para a identi- mapa de densidade eletrônica.
chemical entities). Nesse contexto, destaca-se imunodeficiência humana (HIV).

a estratégia de grande impacto denominada Devido à função central exercida no de-
planejamento baseado na estrutura do re- senvolvimento do vírus, a protease do HIV
ceptor (SBDD, Structure Based Drug Design). tornou-se um alvo prioritário de muitas in-
Os métodos de SBDD se baseiam no conheci- dústrias farmacêuticas. As primeiras investi-
mento da informação 3D da macromolécula gações para a identificação de inibidores da
alvo, que geralmente é obtida de estruturas protease de HIV se basearam em dados es-
determinadas por cristalografia de raios-X, truturais de um modelo teórico construído
por RMN ou através de modelagem por ho- com o auxílio de métodos de modelagem
mologia. comparativa. A primeira estrutura cristalo-
As estratégias de SBDD têm como prin- gráfica da protease de HIV foi resolvida em
cípio o entendimento do mecanismo que leva sua forma nativa no final da década de 1980.
ao aparecimento de doenças, aliado à identifi- Subsequentemente, mais de 250 complexos
cação de alvos moleculares que forneçam entre inibidores e esta protease foram obti-
novas oportunidades para o desenvolvimento dos, fornecendo bases estruturais sólidas
de NCEs. O planejamento de fármacos utili- para o desenvolvimento de uma série de fár-
zando estruturas 3D de biomoléculas pro- macos, ainda em uso terapêutico.
porcionou o desenvolvimento de uma O planejamento de inibidores da protea-
importante variedade de inovações terapêuti- se de HIV é um dos exemplos de maior su-
cas, trazendo benefícios notáveis à saúde hu- cesso na aplicação dos métodos
mana das mais diversas populações mundiais. experimentais e computacionais ao desenvol-
A informação sobre o modo de ligação vimento de novos fármacos. O desenvolvi-
de substâncias bioativas, levando em conta a mento do peptideomimético saquinavir
complementaridade de interações entre li- (Invirase®, Roche), primeiro inibidor da prote-
gante e receptor, é de grande utilidade no ase de HIV aprovado pelo FDA (Food and Drug
planejamento de candidatos a novos fárma- Administration) nos Estados Unidos para o
cos. A partir da obtenção e avaliação farma- tratamento da AIDS, em 1995, teve sua ori-
cológica de séries de compostos sintéticos, gem em dados cristalográficos obtidos com
pode-se estudar a relação entre as suas dife- os inibidores peptídeos desta protease (Figura
renças estruturais e as atividades medidas 19-13).
(relação estrutura atividade), estabelecendo Os modelos de interação, obtidos por cristalografia,
pressupostos úteis na elaboração de estraté- indicavam que a substituição isostérica da ligação amí-
gias de modificação molecular. dica central por um grupo hidroxietilamina estaria re-
Devido à complexidade e à quantidade lacionada com o aumento de potência e seletividade.
de informação gerada, métodos de modela- Isto motivou a síntese e avaliação bioquímica de uma
gem molecular (como ancoramento, modela- série de análogos, que confirmaram esta hipótese.
gem comparativa e dinâmica molecular, vistos A etapa seguinte dos estudos consistiu na avaliação
em capítulos anteriores) são constantemente do tamanho da sequência peptídica para uma ótima ini-
empregados para caracterizar as interações bição. Estudos de modelagem molecular foram em-
predominantes entre ligantes e receptores pregados para priorizar a síntese de derivados com
biológicos. Os compostos bioativos mais pro- tamanhos distintos de cadeia. Aliados a testes biológi-
missores nas diversas etapas de investigação cos, estes experimentos mostraram que o tamanho
podem ser então submetidos a ensaios cris- mínimo da cadeia peptídica deveria ser de 5 resíduos de
talográficos, visando tanto validar os resulta- aminoácidos.
dos computacionais quanto refinar e ampliar Em seguida, foi investigada a influência da variação
o nível de informação molecular. Um dos das cadeias laterais nas unidades peptídicas. Vários
principais exemplos de doenças que se bene- análogos foram obtidos, embora nenhum tenha apre-
ficiaram destas técnicas envolve o tratamen- sentado melhora considerável da potência inibitória.
to da AIDS, causada pelo vírus da Por outro lado, a substituição do resíduo de prolina na
dade científica. No campo da cristalografia, as

ideias genômicas foram extrapoladas procu-
rando retornar à sociedade um conjunto de
informações representativas da biodiversida-
de do universo proteico, gerando estruturas
tridimensionais em nível atômico para a maior
parte das proteínas facilmente obtidas à par-
tir do conhecimento de suas sequências de
DNA (www.nigms.nih.gov / Initiatives /
PSI.htm).
A escala dessa abordagem é estabelecida, inicial-
mente, na definição e seleção de sequências de ami-
noácidos mais susceptíveis à determinação estrutural,
procurando-se evitar proteínas mais “problemáticas”.
Contudo, o esforço empregado na de-
terminação do genoma estrutural é significa-
tivamente maior do que no sequenciamento.
Figura 19-13: (A) Homodímero da protease de Isto se deve à grande diferença de complexi-
HIV-1 em complexo com inibidor saquinavir dade dos métodos envolvidos e à variabilida-
(PDB ID 1FB7). (B) Estrutura química do de no comportamento dos alvos proteicos em
saquinavir. (C) Detalhes do modo de ligação diferentes estágios do processo de determi-
do inibidor saquinavir no sítio ativo da enzima. nação estrutural em larga escala.
Uma vez que a estrutura tridimensional
molécula do inibidor por grupos piperidina ou 3-carbo- de uma proteína é muito mais conservada que
nil-decahidro-isoquinolina (DIQ) acarretou em uma me- sua sequência de aminoácidos, o conheci-
lhora significativa da potência inibitória. mento de seu enovelamento torna-se uma
Os modelos de interação sugeriram que a maior ferramenta muito valiosa para se estudar e
potência do derivado DIQ (saquinavir, Figura 19B-13) es- descobrir relações evolucionárias imperceptí-
taria relacionada a um menor grau de liberdade con- veis em nível de sequência. Essas similarida-
formacional conferido por este substituinte, indicando des estruturais podem, por exemplo, sugerir
um favorecimento entrópico para a energia livre de li- propriedades funcionais às proteínas de fun-
gação. Posteriormente, a análise do complexo cristalo- ções ainda desconhecidas.
gráfico saquinavir-protease revelou que a porção DIQ A contribuição mais prontamente visível
do inibidor adotava uma conformação de energia míni- da genômica estrutural é a rápida expansão
ma, característica de grupos cíclicos saturados, confir- do número de estruturas de proteínas dispo-
mando o modo de ligação predito (Figura 19C-13). níveis no PDB e, geralmente, a um custo re-
As informações obtidas no desenvolvi- duzido devido à eficiência e otimização das
mento do saquinavir serviram de base para o técnicas desenvolvidas em centros especiali-
planejamento de novos inibidores da protease zados.
de HIV, tais como ritonavir (Norvir®, Abbott), Uma seleção adequada de alvos é fun-
indinavir (Crixivan®, Merck Sharp & Dohme) e damental para assegurar que as estruturas
nelfinavir (Viracept®, Agouron Phamaceu- resolvidas por esses centros sejam realmente
ticals). valiosas para toda a comunidade científica e
industrial, seja devido ao interesse intrínseco
Genoma estrutural das proteínas estudadas, ou visando uma
melhoria do mapeamento do universo protei-
Os sucessos conquistados pelos proje- co, fornecendo modelos para novos estudos
tos genômicos deram um importante suporte de modelagem comparativa (Figura 20-13).
à abordagem do tipo “larga escala” na ativi- Nesse contexto, uma segunda contri-
buição importante dos projetos de genômica mo hospedeiro, o qual naturalmente não

estrutural para a comunidade científica é o possui este gene (ou fragmento de gene).
desenvolvimento de métodos e tecnologias
para a produção eficiente de proteínas e de- Luz síncrotron: acelerador de partículas poligo-
terminação estrutural, que possam ser ado- nal que produz luz usando eletroímãs po-
tados em laboratórios de pesquisa menores derosos e ondas de radiofrequência para
contribuindo, assim, com o avanço da área ao acelerar elétrons a uma velocidade próxi-
retor do mundo. ma à da luz em um anel de armazena-
mento.
Mapa de densidade eletrônica: Região de maior

probabilidade de se encontrar os elétrons.
O mapa de densidade eletrônica é o re-
sultado final de um experimento de difra-
ção de raios-X. A análise detalhada do
mapa orienta a construção do modelo es-
trutural da proteína.
Padrão de difração: padrão produzido a partir de

uma estrutura tridimensional periódica,
como átomos de um cristal, que contém
Figura 20-13: Fluxograma representativo de informação sobre a separação dos planos
um projeto de genoma estrutural. cristalográficos. A análise do padrão de
difração permite que se possa deduzir a
13.7. Conceitos-chave estrutura do cristal.
Cristal: sólido no qual os átomos constituintes PDB: banco de dados de proteínas de acesso li-
estão organizados num padrão tridimensi- vre em http://www.rcsb.org.
onal bem definido, que se repete no espa-
ço, formando uma estrutura com uma Raios-X: radiação eletromagnética com compri-
geometria específica. mento de onda entre 0,01-10 nm (0,1-100
Å).
Cristalização: processo de separação sólido-lí-
quido no qual há transferência de massa Refinamento: processo supervisionado de cons-
de um soluto a partir de uma solução lí- trução e ajuste do modelo estrutural aos
quida supersaturada para uma fase sólida dados de difração de raios-X.
cristalina pura.
Sistema de clonagem LIC: estratégia em biolo-
Cromatografia: método de separação e identifi- gia molecular para a clonagem indepen-
cação dos componentes em uma mistura. dente de ligação capaz de aumentar a
Ampalmente empregado para a purificação taxa de sucesso na obtenção de proteína
de proteínas. expressa na forma solúvel, com alta pure-
za e em grande quantidade.
Difração: fenômeno de interação entre a radia-
ção eletromagnética com a matéria com Solução de cristalização: solução que favorece a
consequente dispersão dessa radiação. cristalização de proteínas constituída de
componentes como agentes tamponantes,
Expressão em sistema heterólogo: expressão de aditivos que facilitam o processo de cris-
um gene (ou parte dele) em um organis- talização e agentes precipitantes.

BERGFORS, T. Protein Crystallization. 2nd.ed.
San Diego: International University Line,
2009.
BLUNDELL, T. L.; JOHNSON, L. N. Protein

Crystallography, 1st.ed. Academic Press,
1976.
JANSON, J.-C. Protein Purification:

Principles, High Resolution Methods,
and Applications. 3rd.ed. New Jersey:
Wiley, 2011.
MCPHERSON, A. Introduction to
Macromolecular Crystallography.
Hoboken: John Wiley & Sons, 2009.
RUPP, B. Biomolecular Crystallography:

Principles, Practice, and Application to
Structural Biology. New York: Garland
Science, 2010.
STOUT, G. H.; JENSEN, L. H. X-ray Structure

Determination: A Practical Guide. John
Wiley & Sons, 1989.
WLODAWER, A.; et al. Protein crystallography

for non-crystallographers, or how to get
the best (but not more) from published
macromolecular structures. FEBS j. 275,
1–21, 2008.

Bioinformatica

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Bioinformatica

Enviado por

Direitos autorais:

Formatos disponíveis

Capa

Ficha catalográfica elaborada por Rosalia Pomar Camargo CRB 856/10

B615 Bioinformática da Biologia à flexibilidade

1. Bioinformática 2. Biologia Molecular

Tanto para formação em nível de graduação quanto pós-graduação, desde cedo me

MIR, Luis Genômica. São Paulo: Atheneu, 2004.

À primeira vista, química teórica e bioinformática são assuntos sem correlação. E,

Assim, Bioinformática: da Biologia à Flexibilidade Molecular emprega uma

Cada capítulo foi portanto organizado com um foco principal na formação em

Camila S. de Magalhães João Renato C. Muniz

Charley Christian Staats Joice de Faria Poloni

Dennis Maletich Junqueira Laurent E. Dardenne

Diego Bonatto Luís Maurício T. R. Lima

Edwin A. Yates Marcelo A. Lima

Agradeço especificamente ao Pablo, Rodrigo e Liana que, gastaram incontáveis

Este livro é fruto da excelência acadêmica de seus autores, originada de anos

Este reconhecimento se estende às Universidades e Institutos de Pesquisa nas quais

“O todo sem a parte não é todo, Hugo Verli

Gregório de Matos Guerra (1636-1696) proteína codificada. Esta estrutura é então

ao emprego de ferramentas computacionais

Tabela 1-1: Nomes dos 20 aminoácidos codifi-

Figura 3-1: IBM 7090, computador que Mar-

gumas centenas de sequências sem maiores Inicialmente, como veremos adiante

Figura 5-1: Representação de algumas das principais áreas da bioinformática. As metodologias

mensional. organismo, tecido ou tipo celular. Em linhas

A manipulação de sequências é menos

significado de conservações de resíduos maiores ou mente ineficientes comparados a novas fer-

Atualmente, enquanto CPUs possuem até em

múltiplos núcleos fez com que a capacidade chegamos neste momento.

modelos oriundos de ressonância mag- mellifera) aparece como uma hélice em

Representação do fluxo de informação em sistemas a vida se manifesta, a informação que a rege

forma, se a bioinformática se dedica ao estudo, por

ser aminoácidos, nucleotídeos e monossaca- timidina. A estes compostos podem ainda se

com sua acidez ou basicidade, a carga dos resíduos po-

Figura 5-2: Os dois principais grupos de carboidratos envolvem monossacarídeos compostos

celular de fungos, dentro outros. presentes em biomoléculas (Figura 7-2).

Figura 7-2: Exemplo da complexidade de possíveis monossacarídeos encontrados na natureza.

secundários em plantas e uma infinidade de

cia proteica podem interferir nestes níveis de organiza- DNA:

1 podem gerar um mesmo tipo de estrutura

bém denominado de folhas β do, enquanto nas folhas β estas

gicas, envolvidas no DNA e em complexos nos específicos in vivo.

Tabela 2-2: Tipos de hélices encontrados em proteínas.

Tipo de hélice Resíduos / Ligação de Elevação / Elevação / Direção mais

Tabela 2-3: Tipos de hélices encontrados em ácidos nucleicos.

micas particulares de cada tipo de monômero uma cartacterização precisa da estrutura

se enovela para adotar uma determinada es-

Figura 15-2: Parâmetros geométricos empregados como descritores da geometria de ácidos

muito elegante na "tabela periódica" de pro- Membranas

2.6. Conceitos-chave Equilíbrio pseudo-rotacional: processo de inter-

Carbono anomérico: átomo de carbono nume- Esqueleto peptídico: estrutura de peptídeos ou

Ligação fosfodiéster: ligação formada entre dois

Ligação glicosídica: ligação formada entre dois

Ligação peptídica: ligação formada entre dois

Mapa de Ramachandran: um gráfico que des-

Nucleosídeo: molécula formada por uma base

Nucleotídeo: molécula formada por uma base

Piranoses: monossacarídeos cujo anel é com-

2.7. Leitura recomendada

BLOOMFIELD, Victor A.; CROTHERS, Donald M.;

GARRATT, Richard C., ORENGO, Christine A. The

PETSKO, Gregory A.; RINGE, D. Protein

Dennis Maletich Junqueira

Alinhamento de múltiplas sequências. dentre estes, as técnicas de alinhamento de