Você está na página 1de 292

Capa

Hugo Verli (Org.)

1a edio
So Paulo, 2014
Hugo Verli Organizador

Bioinformtica:
da Biologia Flexibilidade
Molecular

1a Edio

So Paulo
Sociedade Brasileira de Bioqumica e Biologia Molecular - SBBq
2014
Ficha catalogrfica elaborada por Rosalia Pomar Camargo CRB 856/10

B615 Bioinformtica da Biologia flexibilidade


molecular / organizao de Hugo Verli. - 1. ed. - So Paulo : SBBq, 2014.
282 p. : il.

1. Bioinformtica 2. Biologia Molecular

CDU 575.112
ISBN 978-85-69288-00-8
Esta obra foi licenciada sob uma Licena
Creative Commons Atribuio-No Comercial-Sem Derivados 3.0 No Adaptada.

Elaborao de imagens
Pablo Ricardo Arantes
pablitoarantes@gmail.com

Reviso de texto
Liana Guimares Sachett
lianasachett@gmail.com
Contedos
Apresentao ............................................................................................................. vii
Autores ........................................................................................................................ ix
Agradecimentos ........................................................................................................ x
Captulo 1: O que bioinformtica? ..................................................................... 1
Captulo 2: Nveis de informao biolgica ......................................................... 13
Captulo 3: Alinhamentos ........................................................................................ 38
Captulo 4: Projetos genoma .................................................................................. 62
Captulo 5: Filogenia ................................................................................................ 80
Captulo 6: Biologia de sistemas ............................................................................ 115
Captulo 7: Modelos tridimensionais ..................................................................... 147
Captulo 8: Dinmica molecular ............................................................................. 172
Captulo 9: Atracamento .......................................................................................... 188
Captulo 10: Dicroismo circular .............................................................................. 209
Captulo 11: Infravermelho ..................................................................................... 220
Captulo 12: RMN ...................................................................................................... 236
Captulo 13: Cristalografia ...................................................................................... 251
Apresentao
A ideia deste livro surgiu a partir da minha experincia pessoal com duas disciplinas
em bioinformtica, uma para o curso de graduao em Biomedicina e uma para o
Programa de Ps-Graduao em Biologia Celular e Molecular do Centro de
Biotecnologia, ambos na Universidade Federal do Rio Grande do Sul.

Tanto para formao em nvel de graduao quanto ps-graduao, desde cedo me


deparei com uma ausncia quase total de materiais didticos em portugus (e naci-
onais!), de perfil mais geral, aplicvel a cursos de graduao, com poucas e
importantes excesses, que devem ser mencionadas pelo seu papel pioneiro, dentre
as quais destaco:

MORGON, Nelson H.; COUTINHO, K. Mtodos de Qumica Terica e Modelagem Molecular. So


Paulo: Editora Livraria da Fsica, 2007.

MIR, Luis Genmica. So Paulo: Atheneu, 2004.

primeira vista, qumica terica e bioinformtica so assuntos sem correlao. E,


de fato, as pesquisas nestas reas "puras" frequentemente apresentam pouca ou
nenhuma sobreposio. De um lado, temos o estudo das propriedades estruturais e
eletrnicas de molculas e, de outro, o estudo de sequncias de nucleotdeos, ami-
nocidos e a busca por assinalamento de funes a estas sequncias. H, assim,
uma aparente separao entre, por exemplo, campos de fora e rvores Bayesia-
nas. Contudo, esta separao apenas aparente, tendo em vista que a manifesta-
o da funo gnica passa por estruturas tridimensionais de biomolculas. Um
polimorfismo de nucleotdeo nico acarreta em uma mudana na conformao e di-
nmica de uma protena, o que por sua vez pode interferir em sua funo. Por outro
lado, a flexibilidade de regies de protenas pode muitas vezes ser relacionada a
eventos evolutivos, ampliando nosso entendimento do sistema em estudo e permi-
tindo, assim, a realizao de extrapolaes a sistemas ortlogos ou parlogos.

Assim, Bioinformtica: da Biologia Flexibilidade Molecular emprega uma


definio abrangente para bioinformtica, envolvendo qualquer tcnica
computacional aplicada ao estudo de sistemas biolgicos (como o prprio nome
sugere). Busca, por conseguinte, oferecer uma percepo multidisciplinar (ou talvez
j estejamos beirando a transdisciplinaridade?) da rea, abordando tanto aspectos
relacionados a sequncias de nucleotdeos e aminocidos quanto a estrutura e
dinmica de protenas. Adicionalmente, considerando que tcnicas experimentais
baseadas no uso de computadores devem, idealmente, ter seus resultados
comparados a tcnicas experimentais no-computacionais, este livro tambm inclui
captulos com algumas das tcnicas experimentais mais frequentemente
empregadas na validao dos nmeros que os programas nos oferecem.

Nesta viso, de certa forma holstica, buscamos abordar no somente cidos nu-
cleicos e protenas, mas carboidratos e membranas biolgicas. exceo do ltimo,
todos so agrupados como biopolmeros buscando facilitar a construo de relaes
entre monmeros formadores, suas conexes e as caractersticas dos polmeros re-
sultantes. Afinal de contas, todas as clulas possuem membranas, e 2/3 das prote-
nas de eucariotos so glicosiladas. Assim, busca-se oferecer ao leitor uma percep-
o mais prxima da importncia de todas estas biomolculas para a vida e, em
muitos casos, sua participao em processos patolgicos.

A linguagem escolhida para este material foi focada nas reas biolgicas e da sade,
tendo em vista que estas compreendem talvez o maior volume de problemas alvo
abordados por estas tcnicas. Adicionalmente, destaque foi dado na aplicao das
ferramentas em detrimento do esmiuamento de teoria, cdigos, metodologias e
implementaes, para as quais um grande nmero de livros mais avanados e
especficos est disponvel. Em contrapartida, esta linguagem pode contribuir para
que alunos de cursos de reas no-biolgicas visualizem o problema por um foco
distinto, aproximando-os assim do problema alvo.

Cada captulo foi portanto organizado com um foco principal na formao em


Bioinformtica para cursos de graduao. H, contudo, diversas inseres ao longo
do texto, em vermelho e fonte diferente, que buscam oferecer detalhes mais avanados,
potencialmente teis a alunos de ps-graduao. Ao final, a definio dos concei-
tos-chave de cada captulo foi includa. Tal foco na graduao nos levou a maximizar
a traduo de expresses do ingls para o portugus, mencionando sempre a ex-
presso inglesa original, para fins de referncia. Contudo, em vrios casos, a ampli-
tude do uso de expresses originadas no ingls nos levou a mant-las no texto, pois
a traduo no teria eco nas demais fontes de leitura na rea. Outra escolha envol-
veu a omisso de endereos na web, em decorrncia de sua frequente modificao.
Contudo, a partir do nome das ferramentas, no deve haver dificuldades para que
os leitores identifiquem-nas pelos buscadores comuns na internet.

Embora tenhamos nos dedicado a empregar uma linguagem geral e acessvel, creio
que este esforo estivesse fadado a ser incompleto desde seu incio em decorrncia
da amplitude de reas que compe a bioinformtica. Assim, alguns captulos sero
de leitura mais fcil para alunos de cursos com maior formao em bioqumica, ou-
tros em biologia molecular, ou ainda em programao. Vejo este esforo de cons-
truo de uma linguagem comum para a rea como uma obra em constante
desenvolvimento e, caso o material seja de proveito para vocs, certamente nos
dedicaremos a evolu-lo em uma prxima edio.

Todo o livro foi organizado para ser aproveitado de forma digital, principalmente em
tablets. Fontes maiores foram empregadas para que a leitura fosse mais fcil e me-
nos cansativa nestas telas. E a distribuio do material, gratuita, para um acesso o
mais democrtico possvel entre os estudantes.

Por fim, ao esperar que estes megabytes de texto e fotos possam lhe ser teis,
contribuindo para sua aproximao bioinformtica, qui incentive-os a se apro-
fundarem na rea, agradeo a todos os que contribuiram para a elaborao deste
material. Sem eles, seu tempo, dedicao, excelncia e experincia, todo este es-
foro no seria possvel.

Hugo Verli
Autores
Bruno Csar Feltes Ivarne L. S. Tersariol
Centro de Biotecnologia, UFRGS Departamento de Bioqumica, Unifesp

Camila S. de Magalhes Joo Renato C. Muniz


Plo de Xerm, UFRJ Grupo de Biotecnologia Molecular, IFSC - USP

Charley Christian Staats Joice de Faria Poloni


Centro de Biotecnologia, UFRGS Centro de Biotecnologia, UFRGS

Dennis Maletich Junqueira Laurent E. Dardenne


Depto Gentica, UFRGS Laboratrio Nacional de Computao Cientfica

Diego Bonatto Lus Maurcio T. R. Lima


Centro de Biotecnologia, UFRGS Faculdade de Farmcia, UFRJ

Edwin A. Yates Marcelo A. Lima


Instituto de Biologia Integrativa, Universidade de Departamento de Bioqumica, Unifesp
Liverpool
Marcius da Silva Almeida
Fabio Lima Custdio Instituto de Bioqumica Mdica, UFRJ
Laboratrio Nacional de Computao Cientfica
Priscila V. S. Z. Capriles
Fernanda Rabaioli da Silva PPG Modelagem Computacional, UFJF
Centro de Biotecnologia, UFRGS
Raphael Trevizani
Fernando V. Maluf Laboratrio Nacional de Computao Cientfica
Centro de Inovao em Biodiversidade e Frmacos,
IFSC - USP Rafael V. C. Guido
Centro de Inovao em Biodiversidade e Frmacos,
Glaucius Oliva IFSC - USP
Centro de Inovao em Biodiversidade e Frmacos,
IFSC - USP Rodrigo Ligabue Braun
Centro de Biotecnologia, UFRGS
Gregrio K. Rocha
Laboratrio Nacional de Computao Cientfica Rogrio Margis
Centro de Biotecnologia, UFRGS
Guilherme Loss de Morais
Laboratrio Nacional de Computao Cientfica Yraima Cordeiro
Faculdade de Farmcia, UFRJ
Helena B. Nader
Departamento de Bioqumica, Unifesp

Hugo Verli
Centro de Biotecnologia, UFRGS

Isabella A. Guedes
Laboratrio Nacional de Computao Cientfica
Agradecimentos

O esforo de elaborao deste livro no seria possvel sem a dedicao de todos os


autores. Por isso agradeo inicialmente a todos que contriburam para este material
e acreditaram na proposta de um material gratuito e digital, em sua origem. Tal
esforo implicou em meses de trabalho gratuito, para o benefcio dos alunos.

Agradeo especificamente ao Pablo, Rodrigo e Liana que, gastaram incontveis


horas na elaborao de figuras e reviso do texto.

Este livro fruto da excelncia acadmica de seus autores, originada de anos


dedicados atividade cientfica no mais alto nvel. E tal atividade s foi possvel
atravs do fomento de rgo como CNPq, CAPES, FAPERGS, FAPESP e FAPERJ aos
quais, em nome de todos os autores, agradeo.

Este reconhecimento se estende s Universidades e Institutos de Pesquisa nas quais


os autores esto sediados, com seus apoios fsicos, logsticos, administrativos e fi-
nanceiros. Nominalmente, estas instituies incluem: UFRGS, UFRJ, Universidade de
Liverpool, LNCC, Unifesp, IFSC-USP e UFJF.
1. O que Bioinformtica?

O todo sem a parte no todo, Hugo Verli


A parte sem o todo no parte,
Mas se a parte o faz todo, sendo parte,
No se diga, que parte, sendo todo.

Gregrio de Matos Guerra (1636-1696) protena codificada. Esta estrutura ento


empregada para guiar o planejamento racio-
1.1. Introduo nal de novos compostos, como se um chavei-
ro construsse uma chave (o frmaco) a partir
1.2. Origens da fechadura. Por mais que a analogia seja
simples, ainda serve como base para algumas
1.3. Problemas alvo das mais frequentes estratgias de planeja-
mento de frmacos. E, embora a ideia de que
1.4. Tendncias e desafios este processo flexvel, e no rgido (mais
como uma mo encaixando em uma luva,
sendo a mo o frmaco e a luva o receptor)
date da dcada de 1960, so processos to
1.1. Introduo complexos que demoramos em torno de 15
anos para lanar um novo frmaco no mer-
Gregrio de Matos, poeta brasileiro que cado (e este tempo no est diminuindo).
viveu no sculo XVII, h quase 400 anos Assim, ao invs de procurar definies
apresentou, na frase de epgrafe deste cap- restritivas, este livro se prope a empregar
tulo, seu entendimento sobre a indissociabili- definies amplas, que sirvam de suporte pa-
dade das partes para compreenso do todo. ra um entendimendo da grande gama de po-
No nosso caso, o todo a bioinformtica. As tencialidades e aplicaes da bioinformtica,
partes, contudo, no so to bvias quanto se buscando suportar inclusive futuras aplica-
possa imaginar em um primeiro momento. es da metodologia, ainda em desenvolvi-
Tampouco h consenso sobre estas. Assim, mento ou por serem desenvolvidas.
nossa discusso sobre o que bioinformtica Ao mesmo tempo que sequncias codi-
no pretende estabelecer definies rgidas, ficantes geram seus efeitos biolgicos como
mas guias para que o leitor entenda o quo estruturas tridimensionais, o estudo destas
complexa e dinmica esta jovem cincia. pode e muito se beneficiar do estudo de se-
Esta complexidade usualmente nos quncias de protenas relacionadas (por
passa despercebida. Por exemplo, quando exemplo, alas flexveis tendem a apresentar
pensamos no impacto do projeto genoma hu- uma elevada variabilidade filogentica). Mes-
mano, uma das principais implicaes a me- mo o estudo de sequncias no codificantes
lhoria dos processos teraputicos acessveis pode se beneficiar do conhecimento de estru-
populao. Mas a identificao de um novo turas tridimensionais, visto que a regulao
gene ou mutao em um gene conhecido, por de sua expresso realizada por fatores de
mais que seja associado a um processo pato- transcrio proteicos. Assim, h uma retro-
lgico, est a uma grande distncia de um no- alimentao entre as informaes originadas
vo frmaco. A partir da sequncia, o em sequncias biolgicas e em suas respecti-
paradigma mais moderno para desenvolvi- vas estruturas 3D.
mento de novos frmacos passa pela carac- Em linhas gerais, este livro parte do en-
terizao da estrutura tridimensional da tendimento de que a bioinformtica se refere
1. O que Bioinformtica?

ao emprego de ferramentas computacionais


no estudo de problemas e questes biolgi-
cas, abrangendo tambm as aplicaes rela-
cionadas sade humana como o
planejamento de novos frmacos.
Neste caminho, da sequncia de nucleo-
tdeos at estruturas proteicas, alcanando
por fim frmacos, diversas reas do conheci-
mento esto envolvidas. Biologia molecular,
biologia celular, bioqumica, qumica, fsica e
computao so talvez as principais grandes
reas do saber envolvidas nesse processo,
cada uma contribuindo com diversas especia-
lidades.

1.2. Origens
O que apresentaremos neste livro como
bioinformtica pode ser separado em duas Figura 1-1: Watson e Crick em frente a um
grandes vertentes: modelo da hlice de DNA. Cavendish
i) a bioinformtica tradicional, ou cls- Laboratory, Universidade de Cambridge, 1953,
sica (pela primazia do nome bioinfor- reproduzida sob licena.
mtica), que aborda principalmente
problemas relacionados a sequncias de tacam-se os trabalhos de Linus Pauling e
nucleotdeos e aminocidos, e Robert Corey, no incio da dcada de 1950, e
ii) a bioinformtica estrutural, que a- de Gopalasamudram N. Ramachandran, no
borda questes biolgicas de um ponto incio da dcada de 1960, que ofereceram as
de vista tridimensional, abrangendo a bases para a compreenso da estrutura tridi-
maior parte das tcnicas compreendidas mensional de protenas.
pela qumica computacional ou modela- Desde estes trabalhos at a primeira
gem molecular. vez em que se relatou o uso de programas de
computadores para visualizar estruturas tri-
Podemos traar como momento chave dimensionais de molculas passaram-se mais
para ambas as vertentes da bioinformtica o de 10 anos quando, em 1966, Cyrus Levinthal
incio da dcada de 1950, quando a revista publica na revista Scientific American o tra-
Nature publicou o trabalho clssico sobre a balho desenvolvido no Massachusetts
estrutura em hlice da molcula de DNA por Institute of Technology por John Ward e
James Watson e Francis Crick (Figura 1-1). Robert Stotz.
Neste momento, as bases moleculares para o Ainda nesta dcada se d o primeiro es-
entendimento estrutural da replicao e tra- foro de sistematizao do conhecimento
duo do material gentico foram apresenta- acerca da estrutura tridimensional dos efeto-
das, permitindo-nos entender como aquela res da informao gentica, as protenas, em
"sequncia de letras" (as bases do DNA) se 1965, com o Atlas of Protein Sequence and
organizam tridimensionalmente. Structure, organizado por diversos autores,
Este trabalho, contudo, deve ser visto dentre os quais destacaremos Margaret
como parte de um momento histrico, com- Dayhoff.
posto por diversas contribuies fundamen- Este destaque se deve ao fato do papel-
tais para o nosso entendimento de molculas chave exercido pela Dra. Dayhoff na forma-
biolgicas e suas funes. Dentre estas des- o das razes do que entendemos hoje por
1. O que Bioinformtica?

bioinformtica, tanto em sua faceta voltada Tabela 1-1: Nomes dos 20 aminocidos codifi-
para sequncias quanto para estruturas. Foi cadores de protenas junto a suas represen-
uma das pioneiras no uso de computadores taes em 1 e 3 letras.
para o estudo de biomolculas, incluindo tan- Aminocido Representao Representao
to cidos nucleicos quanto protenas. Por de 3 letras de 1 letra
exemplo, ela que inicia o uso da representa- Alanina Ala A
o de uma nica letra para descrever cada
Cistena Cys C
aminocido (Tabela 1-1), ao invs das usuais
trs letras, em uma poca em que os dados c. asprtico Asp D
eram armazenados em cartes perfurados c. glutmico Glu E
(Figura 2-1). Desenvolveu as primeiras matri- Fenilalanina Phe F
zes de substituio e fez importantes contri- Glicina Gly G
buies no desenvolvimento dos estudos Histidina His H
filogenticos. Tambm teve participao im-
Isoleucina Ile I
portante no desenvolvimento de mtodos
para o estudo de molculas por cristalografia Lisina Lys K
de raios-X (como veremos no captulo 13). Leucina Leu L
Com o desenvolvimento de computado- Metionina Met M
res mais poderosos e com o avano no en- Asparagina Asn N
tendimento dos determinantes da estrutura e Prolina Pro P
da dinmica proteica, tornam-se possveis os
Glutamina Gln Q
primeiros estudos acerca da dinmica e do
enovelamento de protenas por simulaes de Arginina Arg R
dinmica molecular por Michael Levitt e Arieh Serina Ser S
Warshel, nos anos de 1970, estudos estes Treonina Thr T
agraciados com o prmio Nobel de Qumica Valina Val V
em 2013 (Figura 3-1). Triptofano Trp W
A partir dos trabalhos destes e de ou-
Tirosina Tyr Y
tros pesquisadores, diversos avanos foram
feitos progressivamente nos anos que se se- mais baratos nos permitem abordar proble-
guiram, tanto no entendimento de biomol- mas, literalmente, inimaginveis h poucos
culas quanto no emprego de tcnicas anos. Os mtodos e a dimenso dos proble-
computacionais para retroalimentar este en- mas abordados por um aluno de iniciao ci-
tendimento. Por exemplo, o aumento na ob- entfica sero, em sua maioria, totalmente
teno de informaes de alta qualidade obsoletos ao final de seu doutoramento
sobre a estrutura 3D de biomolculas vem (considerado o mesmo nvel de impacto dos
servindo de suporte para o desenvolvimento veculos de divulgao). A cada ano que passa
de campos de fora cada vez mais precisos, podemos abordar problemas mais comple-
enquanto novas abordagens vm possibilitan- xos, de forma mais completa, e mais pesqui-
do o alinhamento de sequncias cada vez sadores com menos recursos podem
mais distantes evolutivamente. trabalhar nestas reas de pesquisa, o que
Contudo talvez possamos afirmar que, a torna a bioinformtica uma das reas do co-
partir destas bases, os maiores impactos da nhecimento mais acessveis para pesquisado-
rea na cincia estejam se delineando neste res em incio de carreira.
exato perodo da histria, em que dois impor- Em contrapartida, esta situao acarre-
tantes fatores se manifestam: o avano (e ta na necessidade de atualizao e renovao
barateamento) no poder computacional e os dos procedimentos computacionais constan-
projetos genoma. temente para nos mantermos competitivos
Computadores cada vez mais rpidos e na comunidade cientfica da rea. O trabalho
1. O que Bioinformtica?

Figura 2-1: IBM 7090, computador que Mar-


garet Dayhoff utilizou no incio de seus
trabalhos (NASA Ames Resarch Center, 1961).
Figura 3-1: Agraciados pelo prmio Nobel de
que algum tenha publicado com simulaes qumica de 2013, os Professores Martin
por dinmica molecular (captulo 8) alguns Karplus, Michael Levitt e Arieh Warshel.
anos atrs, com uma simulao de, digamos,
10 ns, hoje estaria totalmente desatualizado, O crescimento deste volume de infor-
exigindo no mnimo uma ordem de grandeza a maes ainda est longe de cessar. Estudos
mais (idealmente, com replicatas e/ou condi- de transcriptoma, metaboloma ou glicoma
es adicionais como controle). Como conse- ainda tm muito a agregar no nosso conheci-
quncia, as concluses obtidas em um mento do funcionamento de sistemas biol-
trabalho no necessariamente se manteriam gicos, potencializando tanto aplicaes
em um novo trabalho. Similarmente, uma r- teraputicas quanto biotecnolgicas. Contudo,
vore filogentica obtida a partir de um deter- isto exigir cada vez mais avanos da bioin-
minado alinhamento e matriz de pontuao h formtica, seja em hardware, software ou em
20 anos poderia ser diferente hoje, com fer- estratgias de anlise de dados e construo
ramentas mais robustas de alinhamento (co- de modelos.
mo ser visto no captulo 3). Esta uma Um exemplo neste sentido envolve a gi-
situao bastante desafiadora, assim como gantesca defasagem entre nossa capacidade
uma grande oportunidade, para os futuros bi- de lidar com sequncias e com estruturas 3D.
oinformatas. Enquanto em um computador pessoal sim-
Mas esta situao por si no suficiente ples podemos realizar alinhamentos com al-
para o aumento explosivo do emprego de es- gumas centenas de sequncias sem maiores
tratgias computacionais no estudo de siste- dificuldades, localmente ou na web, depen-
mas biolgicos, o que principalmente devido dendo do mtodo, e recebendo a resposta
ao projeto Genoma Humano. A partir deste, e quase que imediatamente, para realizar uma
da popularizao de outros projetos genoma simulao por dinmica molecular de uma
(captulo 4), criou-se um gigantesco e cres- nica protena precisaramos, neste mesmo
cente volume de sequncias de genes cujas computador, de alguns meses.
relaes evolutivas e funcionais precisam ser Um ltimo aspecto importante nesta
elucidadas, como ponto de partida para novos contextualizao inicial da bioinformtica,
desenvolvimentos teraputicos. Hoje, pos- dentro da proposta apresentada por este li-
svel identificar um novo candidato a receptor vro, diz respeito importncia relativa das di-
alvo de novos frmacos a partir de organis- ferentes biomolculas na manifestao da
mos muito distantes evolutivamente de ns, informao gentica, mantendo a homeosta-
como leveduras, bactrias ou mesmo plantas. sia e servindo como alvo de modulao far-
1. O que Bioinformtica?

macolgica ou emprego biotecnolgico. Tra- ambiente e o local onde a protena estar na


dicionalmente, os cidos nucleicos e as pro- clula ou organismo, a ocorrncia de modifi-
tenas receberam a maior ateno enquanto cao co- ou ps-traducionais e a sua intera-
alvos da bioinformtica, os primeiros como o com chaperonas. Para ilustrar o quanto
repositrios da informao biolgica e as lti- este fenmeno complexo, embora diversas
mas como efetores desta informao. Esta sequncias com identidade mnima possam
percepo, contudo, vem sendo progressiva- ter estruturas 3D extremamente parecidas,
mente relativizada. Membranas e carboidra- em alguns casos a troca de um ou poucos re-
tos, a despeito de no estarem codificados sduos de aminocidos pode modificar total-
diretamente no genoma (no h um cdon mente a funo, chegando at a interferir na
para um fosfolipdeo ou para um monossaca- forma tridimensional que uma protena adota.
rdeo), so fundamentais homeostasia da Em contrapartida, algumas informaes
grande maioria dos organismos em todos os presentes em sequncias gnicas ou mesmo
domnios da vida. E entender estes papis peptdicas no so necessariamente observ-
vem se tornando um importante alvo da bio- veis em estruturas tridimensionais. Por
informtica. exemplo, regies promotoras ou reguladoras
da expresso gnica so facilmente descritas
1.3. Problemas alvo como informaes 1D, e peptdeos sinal ou n-
trons esto normalmente ausentes nas for-
Considerando o tipo de informao ma- mas nativas de protenas, sendo mais
nipulada, os problemas e questes abordados facilmente observveis por sequncias das
pela bioinformtica podem ser agrupados en- biomolculas em questo.
tre aqueles relacionados a sequncias de bio- Adicionalmente, estruturas 3D de mo-
molculas e aqueles relacionados estrutura lculas so formas muito mais complexas de
de biomolculas (Figura 4-1). primeira vista, serem manipuladas que sequncias 1D, o que
considerando que de forma geral estruturas agrega uma srie de dificuldades nos estudos
de protenas so determinadas por seus ge- de bioinformtica. Assim, diversas tarefas
nes, poderamos imaginar que lidar com es- tendem a ser muito simplificadas (ou mesmo
truturas 3D seria redundante a manipular de outra forma no seriam possveis atual-
sequncias, conjuntos de informaes 1D. Esta mente) quando trabalhamos com sequncias
percepo limitada e no se configura como em vez de estruturas. Por exemplo, a identifi-
verdade para diversas questes. Na verdade, cao de uma assinatura para modificao
existem aspectos nicos em cada conjunto de ps-traducional muito mais gil em uma
informao, no diretamente transferveis sequncia do que em um conjunto de milhares
para o outro. de tomos distribudos em um espao tridi-
Inicialmente, como veremos adiante mensional.
(item 1.4 e captulo 2), o enovelamento de Por fim, talvez o motivo mais prtico
protenas um fenmeno extremamente para separarmos as duas abordagens se re-
complexo e ainda no totalmente compreen- fere facilidade de obteno das informa-
dido, de forma que no somos capazes de es. Os mtodos experimentais para
transformar uma sequncia linear de amino- sequenciamento de cidos nucleicos esto
cidos (codificada por seu gene) em uma es- muito mais avanados do que os mtodos
trutura 3D (salvo para algumas situaes para determinao da estrutura 3D de bio-
especficas, que sero vistas ao longo do li- molculas. A diferena de capacidade de de-
vro). terminao dos dois conjuntos de dados de
Outro aspecto importante que o eno- ordens de grandeza.
velamento de protenas, em muitas situaes,
depende de mais do que sua sequncia de Questes relacionadas a sequncias
aminocidos, envolvendo aspectos como o
1. O que Bioinformtica?

Figura 4-1: Representao de algumas das principais reas da bioinformtica. As metodologias


que lidam majoritariamente com estruturas 3D esto representadas em laranja, enquanto as
metodologias envolvidas principalmente com sequncias esto representadas em verde.
Devemos lembrar, contudo, que esta separao imperfeita. Por exemplo, a modelagem
comparativa parte de sequncias, a funo de um gene pode ser determinada pela estrutura da
protena associada.

A manipulao de sequncias menos Vale destacar que estas anlises podem receber a
custosa computacionalmente, nos possibili- contribuio de estudos envolvendo a estrutura das bi-
tando lidar com genomas inteiros. Isto permi- omolculas de interesse ou mesmo ser validadas por
te realizar anlises em indivduos ou mesmo estas. Por exemplo, resduos conservados evolutiva-
populaes de indivduos, nos aproximando do mente possuem grande chance de possurem papel
entendimendo dos organismos em sua com- funcional (como atuando na catlise) ou estrutural
plexidade biolgica. Podemos traar a histria (estabilizando a estutura proteica). Assim, comparar
evolutiva de um conjunto de organismos ou um alinhamento estrutura 3D pode tanto explicar
construir redes de interao entre centenas quanto oferecer novas abordagens e consideraes ao
ou milhares de molculas de um determinado significado de conservaes de resduos maiores ou
organismo, tecido ou tipo celular. Em linhas menores em conjuntos de sequncias.
gerais, os objetos de estudo relacionados a
sequncias de biomolculas incluem: Questes relacionadas a estruturas
i) comparaes entre sequncias (ali-
nhamento); Ao contrrio da manipulao de se-
ii) identificao de padres em se- quncias, estruturas exigem um maior poder
quncias (assinaturas); de processamento para serem manipuladas.
iii) caracterizao de relaes evoluti- Na prtica, podemos manipular uma ou um
vas (filogenia); pequeno punhado de estruturas simultanea-
iv) construo e anotao de geno- mente (embora este nmero venha crescendo
mas; progressivamente). Neste caso, o foco costu-
v) construo de redes (biologia de ma ser o entendimento de molculas e dos
sistemas). eventos mediados por estas, individualmente,
incluindo:
1. O que Bioinformtica?

i) obteno de modelos 3D para pro- dades de processamento central) ou sim-


tenas e outras biomolculas (por plesmente processadores (ou ainda micro-
exemplo, modelagem comparativa); processadores) so partes dos computadores
ii) identificao do modo de interao responsveis pela execuo das instrues
de molculas (atracamento); estabelecidas pelos programas. Desde seu
iii) seleo de compostos com maior surgimento em torno da metade do sculo
potencial de inibio (atracamento); XX, as CPUs tornaram-se progressivamente
iv) caracterizao da flexibilidade mo- mais complexas, confiveis, rpidas e baratas.
lecular (dinmica molecular); Esse processo foi previsto pioneiramente por
v) avaliao do efeito de mudanas na Gordon E. Moore, no que ficou sendo conheci-
estrutura e ambiente molecular na di- do desde ento como a lei de Moore. Segundo
nmica e funo de biomolculas (din- esta lei, o nmero de transistores em um
mica molecular). processador (na verdade em qualquer circuito
integrado) dobra aproximadamente a cada 2
O uso de sequncias para alimentar estudos estru- anos (Figura 5-1). O impacto do fenmeno
turais mais comum na construo de modelos tridi- descrito nesta observao na vida moderna
mensionais de protenas a partir de suas sequncias enorme, envolvendo desde nossos computa-
codificadoras, no mtodo denominado modelagem dores, celulares e cmeras digitais at a pre-
comparativa (captulo 7). Contudo, outras relaes ex- ciso de estudos climticos (com impacto na
tremamente teis podem ser estabelecidas. Por exem- preveno de catstrofes e na agricultura),
plo, por serem estruturas usualmente flexveis, alas medicina, engenharia, indstria blica e aero-
tendem a possuir uma maior capacidade de acomodar espacial. Com o aumento da velocidade e ba-
mutaes ao longo da evoluo. Isto permite uma rateamento das CPUs, podemos a cada ano
comparao entre resultados de alinhamentos e, por construir modelos mais precisos de fenme-
exemplo, perfis de flexibilidade observveis atravs de nos biolgicos progressivamente mais com-
simulaes por dinmica molecular. plexos. Na prtica, o avano da bioinformtica
est ligado intrinsecamente lei de Moore.
1.4. Tendncias e desfios Em uma CPU podemos encontrar no
somente um microprocessador, mas mais de
Como uma rea em rpido desenvolvi- um, o que chamado multi-processamento e
mento, a bioinformtica exige de seu prati- estas CPUs de processadores de mltiplos
cante uma constante ateno a novas ncleos (multi-core processing). Hoje, a gran-
abordagens, mtodos, requerimentos e ten- de maioria dos processadores empregados
dncias. Programas podem se tornar rapida- em computadores, notebooks e celulares j
mente ineficientes comparados a novas possui mltiplos ncleos. Se o programa que
ferramentas ou mesmo obsoletos. Avanos estamos utilizando for adaptado para este ti-
de hardware podem (e na verdade vem fa- po de processamento, o clculo poder ser
zendo isso) catapultar o nvel de exigncia distribudo pelos ncleos de processamento,
metodolgica pelas revistas de ponta. E h tornando o clculo significativamente mais
algumas reas em especfico nas quais a co- rpido. A grande maioria dos aplicativos em
munidade cientfica vem concentrando esfor- bioinformtica j possui verses compatveis
os. So por conseguinte reas de grande com processamento em mltiplos ncleos, e
impacto potencial e grande competio na li- devemos estar atentos escolha destas ver-
teratura cientfica, dentre as quais destacare- ses e instalao de forma que essa carac-
mos algumas abaixo. terstica esteja funcional, sob pena de
subutilizao da CPU.
Processamento em CPU e GPU J GPUs (Graphical Processing Units ou
unidades de processamento grfico) so mi-
CPUs (Central Processing Units ou uni- croprocessadores desenvolvidos inicialmente
1. O que Bioinformtica?

GPUs. Desde o alinhamento de sequncias


filogenia, do atracamento molecular din-
mica molecular, mltiplos pacotes esto dis-
ponveis, tanto pagos quanto gratuitos,
capazes de explorar a computao em GPU, e
este nmero vem crescendo a cada ano,
apontando para uma nova tendncia na rea.
O usurio deve, contudo, observar seu pro-
blema alvo, pois a acelerao fornecida pela
GPU depender das caractersticas do pro-
blema em questo e da eficincia e portabili-
dade do cdigo empregado.
A combinao de CPUs e GPUs com
Figura 5-1: Representao da lei de Moore, in- mltiplos ncleos fez com que a capacidade
dicando o aumento no nmero de transistores de processamento de alguns supercomputa-
em microprocessadores no perodo de 1971 a dores de h alguns anos j esteja disponvel
2011. Adaptada de William Wegman, 2011 para computadores pessoais, nos chamados
(Creative Commons). supercomputadores pessoais.

como unidades especializadas na manipulao Predies a partir de sequncias


de representaes grficas em computado-
res. Esto, assim, normalmente localizadas Quando estudamos uma sequncia de
nas placas de vdeo de nossos computadores. nucleotdeos de DNA desconhecida impor-
O termo GPU foi popularizado a partir de 1999 tante determinar seu papel funcional, por
com o lanamento da placa de vdeo exemplo, se codificante de protenas ou no.
GeForce256, comercializada pela Nvidia. E, sendo codificante, qual protena produzida
O desenvolvimento das GPUs remonta ao final da traduo e qual sua funo. Tais
ao incio dos anos de 1990, com o aumento do predies so realizadas a partir de algorit-
emprego de grficos em 3D nos computado- mos construdos a partir de bancos de dados
res e videogames. De fato, alguns dos pri-
meiros exemplos de hardware dedicado ao
processamento em 3D esto associados a
consoles como PlayStation e Nintendo 64.
Atualmente, enquanto CPUs possuem at em
torno de uma dezena de ncleos de proces-
samento, GPUs podem facilmente alcanar
centenas ou mesmo milhares de ncleos de
processamento, permitindo uma grande ace-
lerao na manipulao de polgonos e for-
mas geomtricas, encontradas em aplicaes
3D (como os jogos) e sua renderizao (Figura
6-1). Tal aumento de performance ao dividir a
carga de trabalho em um grande nmero de
ncleos de processamento abriu um grande
horizonte de possibilidades em computao
cientfica, implicando em grande aumento na Figura 6-1: Representao dos ncleos de
velocidade de manipulao de dados. processamento em CPUs e GPUs. O grande
Diversos aplicativos em bioinformtica nmero de ncleos em GPUs permite a reali-
vm sendo portados para trabalhar com zao de clculos complexos rapidamente.
1. O que Bioinformtica?

existentes, relacionando determinada se- A despeito desta diversidade de estra-


quncia a caractersticas e propriedades es- tgias, a predio da energia livre em proces-
pecficas. Contudo, somente uma pequena sos moleculares continua sendo um grande
quantidade de organismos teve seu genoma desafio. Em decorrncia do elevado custo
sequenciado at o momento e, destes, so- computacional associado a estes clculos, di-
mente uma pequena parte de genes teve sua ferentes tipos de simplificaes e generaliza-
funo determinada experimentalmente. De- es precisam ser realizadas,
vemos, portanto, lembrar que as predies comprometendo nossa capacidade de em-
destes modelos esto relacionadas a quo preg-los de forma ampla e fidedigna.
completos foram os bancos de dados que os
basearam. E que estes esto em contnuo Enovelamento de protenas
avano (ou seja, uma predio feita h 5 anos
no necessariamente ser igual a uma predi- Como veremos adiante no livro, o eno-
o hoje que, por sua vez, pode ser diferente velamento de protenas um dos processos
de uma predio de funo gnica daqui a 5 mais complexos conhecidos pelo ser humano.
anos - discutiremos no captulo 3 alguns indi- O nmero de estados conformacionais poss-
cadores da qualidade dessas associaes). veis para uma protena pequena gigantesco,
dos quais um ou alguns poucos sero obser-
Predio de energia livre vveis em soluo em condies nativas. Os
mtodos experimentais usualmente empre-
Os fenmenos moleculares so regidos gados para tal, a cristalografia de raios-X e a
pela termodinmica, tanto para reaes qu- ressonncia magntica nuclear, so mtodos
micas na sntese de um novo frmaco quanto caros e ainda possuem algumas limitaes
ao da DNA polimerase ou ao enovela- importantes em determinadas situaes,
mento de protenas. Entender termos como apontando para a Bioinformtica um potencial
entropia, entalpia e energia livre torna-se, as- e importante papel na determinao da es-
sim, fundamental na adequada descrio trutura de biomolculas.
destes fenmenos e, a partir desta, sua pre- Mas para que precisamos saber como
viso computacional. Quando a medida destas a estrutura tridimensional de uma determi-
variveis se tornar precisa o bastante, pode- nada biomolcula? Esta pergunta possui mui-
remos esperar a substituio de diversos ex- tas respostas, incluindo a compreenso de
perimentos em bancada por clculos em como a natureza evoluiu, como os organis-
computadores mas, infelizmente, ainda no mos funcionam, como os processos patolgi-
chegamos neste momento. cos se desenvolvem (e podem ser tratados) e
Predies de energia livre tem impacto como as enzimas exercem suas funes ca-
direto na identificao da estrutura 2ria de talticas. Tomemos este ltimo caso como
molculas de RNA, na localizao de regies exemplo.
do DNA para ligao de reguladores da Com o entendimento de como protenas
transcrio, para a especificidade de enzimas se enovelam, ser possvel construir novas
por substratos e receptores por ligantes ou protenas, capazes de adotar formas que a
moduladores (fisiolgicos ou teraputicos, is- natureza no previu at o momento, enzimas
to , frmacos). Assim, diversos mtodos fo- aptas a catalizar reaes de importncia eco-
ram desenvolvidos para a obteno destas nmica, com menor toxicidade, o que ter por
medidas, tais como a perturbao da energia si impacto ambiental. Ainda, abre-se a possi-
livre, a integrao termodinmica, a energia bilidade de planejamento racional de enzimas
de interao linear, a metadinmica e diversas e protenas envolvidas na detoxificao de
estratgias empricas voltadas ao pareamen- reas. Esta linha de pesquisa est em seu in-
to de nucleotdeos ou atracamento molecular. cio, e o nmero de grupos de pesquisa dedi-
cados ao redor do mundo para trabalhar na
1. O que Bioinformtica?

engenharia de protenas vem aumentando prever a estrutura de glicanas com graus va-
gradativamente. Mas, infelizmente, ainda no riados de complexidade com grande preciso,
possuimos uma base terica que nos permita um campo no qual os mtodos experimentais
entender e prever, com preciso e de forma possuem grandes dificuldades em abordar.
ampla, a estrutura 3D de protenas.
Contudo, esta problemtica vem sendo Validao experimental
abordada a cada ano com maior sucesso. Pa-
ra protenas com no mnimo em torno de Em linhas gerais, mtodos computacio-
30% de identidade com outras protenas de nais devem ser comparados a dados experi-
estrutura 3D j determinada, podem ser obti- mentais para validao. Esta afirmao,
dos modelos de qualidade prxima quela de embora tomada geralmente como um axio-
mtodos experimentais. Em outros casos, ma, bastante simplista, e no expressa cla-
estruturas cristalogrficas podem ser refina- ramente a complexidade e desafio nesta
das por mtodos computacionais, agregando tarefa. Alguns pontos especficos incluem:
explicitamente informaes ausentes nos ex- i) nem sempre h dados experimentais
perimentos (como a flexibilidade molecular). disponveis para validar os clculos e si-
Outro exemplo a construo de alas flex- mulaes realizados. Por exemplo, este
veis, de difcil observao experimental mas o caso com frequncia para alinha-
que podem ser abordadas por diferentes m- mentos de sequncias, para relaes fi-
todos computacionais. logenticas, para predies ab initio da
Para cidos nucleicos, a construo estrutura de protenas e para a descri-
computacional de estruturas 3D de molculas o da flexibilidade de biomolculas ob-
de DNA tarefa relativamente simples, que tidas por dinmica molecular. Nem
usualmente no requer os custos associados sempre h fsseis ou outras evidncias
a experimentos de cristalografia e ressonn- arqueolgicas para validar antepassa-
cia magntica. Para molculas de RNA, con- dos evidenciados por estudos filogen-
tudo, a elevada flexibilidade traz consigo ticos. Por outro lado, no h mtodos
desafios adicionais. Mesmo assim, em diver- experimentais com resoluo atmica e
sos casos as estratgias computacionais temporal, de forma que a validao de
possuem vantagens em lidar com molculas simulaes por dinmica molecular
muito flexveis. Talvez o caso mais emblem- em grande medida indireta (uma estru-
tico neste sentido sejam as membranas bio- tura obtida por cristalografia nica,
lgicas. Estas macromolculas biolgicas no sem variao temporal, enquanto os
so observveis nos experimentos usuais ca- modelos oriundos de ressonncia mag-
pazes de determinar estruturas com resolu- ntica nuclear correspondem a mdias
o atmica, embora atravs de simulaes durante o perodo de coleta do dado);
por dinmica molecular tenham suas estru- ii) os dados experimentais devem ser
turas descritas com elevada fidelidade. adequados ao estudo computacional
Outro caso em que os mtodos compu- empregado. Assim, se estamos estu-
tacionais parecem possuir vantagens em re- dando a formao de um complexo fr-
lao aos experimentais envolve os maco-receptor, resultados in vivo
carboidratos. Embora sejam molculas em devem ser evitados, enquanto os expe-
vrios aspectos mais complexos que prote- rimentos in vitro preferidos. Se adminis-
nas, carboidratos biolgicos no parecem so- tramos um determinado frmaco por
frer enovelamento nem adotar tipos de via oral a um camundongo, este frma-
estrutura 2ria em soluo (embora o faam co passar por diversos processos far-
em ambiente cristalino), o que os torna na macocinticos (absoro, distribuio,
prtica um problema estrutural mais simples metabolizao e excreo) que muito
que protenas. De fato, vem sendo possvel provavelmente iro interferir na ao
1. O que Bioinformtica?

frente ao receptor alvo. Portanto, para que, infelizmente, nem sempre tem contra-
estudos de atracamento, dados in vivo parte em experimentos de "bancada". E esses
devem ser evitados; adjetivos no carregam consigo qualificaes
iii) a margem de erro do dado experi- quanto confiabilidade dos resultados gera-
mental deve ser considerada quando dos.
comparada aos dados computacionais.
Frequentemente a margem de erro para 1.5. Leitura recomendada
experimentos na bancada maior que
para aqueles realizados em computa- KHATRI, Purvesh; DRAGHICI, Sorin. Ontological
dores, limitando a extenso da valida- Analysis of Gene Expression Data: Current
o. Usando novamente o exemplo de Tools, Limitations, and Open Problems.
estudos de atracamento, se a afinidade Bioinformatics, 21, 3587-3593, 2005.
experimental de um frmaco por seu
receptor de 0,11 0,04 M, valores MORGON, Nelson H.; COUTINHO, K. Mtodos
tericos de 97 nM a 105 nM estaro de Qumica Terica e Modelagem Mo-
corretos. Por outro lado, frequente- lecular. So Paulo: Editora Livraria da F-
mente os resultados experimentais so sica, 2007.
expressos como a menor dose testada,
por exemplo, > 5 M. Assim, qualquer MIR, Luis. Genmica. So Paulo: Atheneu,
valor maior que 5 M ser validado pelo 2004.
dado experimental, o que cria uma
grande dificuldade de validao (como
comparar 5 a, digamos, 1.000?);
iv) as condies nas quais os experi-
mentos foram realizadas devem ser
observadas com estrito cuidado. Tem-
peratura, contaminantes, sais e concen-
traes diferentes daquelas no
ambiente nativo so frequentemente
requeridas por alguns mtodos experi-
mentais, e podem interferir nos resulta-
dos. Por exemplo, a melitina (principal
componente do veneno da abelha Apis
mellifera) aparece como uma hlice em
estudos cristalogrficos mas deseno-
velada no plasma humano, como pode
ser confirmado por experimentos de di-
croismo circular com fora inica com-
patvel com o plasma.

Assim, a despeito do axioma da exign-


cia de validao experimental para estudos
computacionais, no infrequente que um
dado computacional apresente maior preci-
so que um dado obtido na bancada. Na reali-
dade, um modelo computacional,
frequentemente chamado de terico em opo-
sio aos mtodos ditos experimentais, no
nada alm de um experimento computacional
2. Nveis de Informao Biolgica

Hugo Verli

Representao do fluxo de informao em sistemas a vida se manifesta, a informao que a rege


biolgicos. est armazenada nas molculas de DNA.
Contudo, tais dados no so usados direta-
2.1. Introduo mente, mas atravs de uma molcula inter-
mediria, o RNA (mais precisamente o
2.2. Macromolculas biolgicas RNAm), sintetizado por um processo denomi-
nado transcrio (uma molcula de cido
2.3. Nveis de organizao nucleico transcrita em outra molcula de
cido nucleico). Esta molcula de RNAm ir
2.4. Descritores de forma servir como molde para a sntese de prote-
nas, em um processo chamado de traduo
2.5. Formas de visualizao (uma molcula de cido nucleico traduzida
em uma molcula de protena). As protenas,
2.6. Conceitos-chave assim expressas, iro reger a maioria dos fe-
nmenos relacionados funo dos organis-
mos e perpetuao da vida (embora
diversos outros processos sejam modulados
2.1. Introduo por outras biomolculas). Esta informao
segue um sentido to conservado na natureza
Por mais que possam apresentar enor- que foi convencionado denomin-lo como
mes diferenas em suas caractersticas os dogma central da biologia molecular (Figura
seres vivos, desde bactrias a mamferos, 1-2).
passando por plantas e fungos, so compos- A importncia do dogma central no en-
tos aproximadamente pelos mesmos tipos de tendimento da informao e funo biolgicas
molculas. Estes compostos incluem prote- pode ser exemplificada no fato de que ele
nas, cidos nucleicos, lipdeos e carboidratos, aborda os trs tipos mais comuns de mol-
molculas nas quais a vida como conhecemos culas estudadas por tcnicas de bioinformti-
baseada. ca, o DNA, o RNA e as protenas,
Cada uma destas classes de biomolcu- estabelecendo um fluxo de informao uni-
las apresenta, contudo, enormes variaes de versal vida como conhecemos. Adicional-
forma, estrutura e funo na natureza, o que mente, a efetivao da informao gentica,
possibilita a gigantesca variedade e complexi- atravs das protenas, acarreta na construo
dade de manifestaes da vida em nosso pla- e manuteno de outras biomolculas, igual-
neta. Mesmo em estruturas que no so mente essenciais ao desenvolvimento da vida,
normalmente consideradas vivas, como o como carboidratos e lipdeos. Em decorrncia
caso dos vrus, estas biomolculas so tam- de sua elevada massa molecular, protenas,
bm encontradas e se mostram essenciais cidos nucleicos, lipdeos agregados em
execuo de suas funes, sejam estas pato- membranas e carboidratos complexos so
lgicas ou no. chamados de macromolculas.
Independentemente da forma pela qual Embora carboidratos e lipdeos no estejam explici-
2. Nveis de Informao Biolgica

muitos destes usados at hoje como frmacos. Desta


forma, se a bioinformtica se dedica ao estudo, por
ferramentas computacionais, dos fenmenos relacio-
nados vida, o estudo de micromolculas tambm
torna-se foco da bioinformtica ao abordar compostos
relacionados manuteno fisiolgica ou teraputica
(neste caso, no planejamento de novos candidatos a
agentes teraputicos).
As tcnicas modernas de bioinformtica
so capazes de lidar com todas estas biomo-
lculas que, contudo, possuem particularida-
des derivadas de suas diferenas qumicas.
Tais aspectos devem ser conhecidos de forma
a permitir a construo de modelos compu-
tacionais mais precisos e adequados ao estu-
do dos mais diversos aspectos relacionados
Figura 1-2: Representao do dogma central vida.
da biologia molecular, no qual o fluxo de No h uma forma nica de representar
informao em sistemas biolgicos as diferentes molculas biolgicas. Cada es-
descrito, desde seu armazenamento no DNA tratgia de representao possui suas vanta-
at a manifestao da funo biolgica. O es- gens e desvantagens, que devem ser
quema tradicional sofreu a adio do proces- avaliadas de acordo com o estudo em anda-
so de enovelamento de de reconhecimento mento. Estratgias com menor volume de in-
molecular devido ao seu carter fundamental formao associado possuem menor custo
para a manifestao da funo gnica. computacional e, portanto, nos permitem
Adaptado de Hup, 2012. avaliar rapidamente grandes quantidades de
dados, por exemplo, genomas inteiros de di-
tamente inseridos no dogma central, no devemos mi- ferentes organismos, cada um contendo de-
nimizar sua importncia. Apesar de por muito tempo zenas de milhares de protenas. Por outro
estes compostos terem sido reconhecidos simples- lado, estratgias com maior volume de infor-
mente por papis energticos e estruturais, ambos mao associado acarretam em custo com-
vm sendo demonstrados como envolvidos em inme- putacional gigantesco nos limitando a, por
ros fenmenos biolgicos, como na glicosilao de exemplo, um punhado de protenas, de dois ou
protenas e na formao de jangadas lipdicas. Estes, trs organismos. O trnsito por tal disparida-
por sua vez, podem interferir diretamente na execuo de um dos grandes desafios atuais para o
da funo de protenas e na homeostasia dos organis- profissional que trabalha com bioinformtica.
mos.
No somente macromolculas so importantes bi- 2.2. Macromolculas biolgicas
ologicamente. Protenas sintetizam uma infinidade de
compostos de baixa massa molecular, ou micromol- As biomolculas descritas no dogma
culas, que atuam como neurotransmissores, sinaliza- central da biologia molecular, protenas, DNA
dores e moduladores dos mais variados tipos e RNA, so o que chamamos de biopolmeros,
representando, portanto, diferentes tipos de informa- isto , polmeros produzidos pelos seres vi-
o em sistemas biolgicos. Por exemplo, a infeco vos. Somam-se a este grupo de molculas os
do nosso organismo por bactrias desencadeia um carboidratos, que tambm podem ser encon-
processo inflamatrio mediado por derivados lipdicos trados como polmeros em meio biolgico.
denominados prostaglandinas. Para combater micro- As propriedades de um polmero tor-
-organismos competidores, fungos e bactrias produ- nam-se consequncia das propriedades de
zem pequenos compostos com atividade antibitica, suas unidades monomricas constituintes. No
2. Nveis de Informao Biolgica

caso dos biopolmeros, os monmeros podem adenosina, a guanosina, a citidina, a uridina e a


ser aminocidos, nucleotdeos e monossaca- timidina. A estes compostos podem ainda se
rdeos. Assim, o conhecimento destas unida- ligar diferentes nmeros de grupos fosfato.
des bsicas ir auxiliar diretamente no estudo Assim, a adenosina pode se apresentar mo-
de suas formas polimricas e, por conseguin- nofosfatada (AMP, do ingls adenosine
te, das funes biolgicas destes polmeros monophosphate), difosfatada (ADP, do ingls
sintetizados na natureza. adenosine diphosphate) ou ainda trifosfatada
(ATP, do ingls adenosine triphosphate).
cidos nucleicos Conforme veremos adiante, carboidratos apresen-
tam caractersticas conformacionais especficas, como
Os compostos denominados cidos sua capacidade de deformar seu anel em diferentes
nucleicos so polmeros sintetizados a partir estados conformacionais. Esta caracterstica se soma
de unidades denominadas nucleotdeos. Os grande flexibilidade da ligao fostodister na criao
nucleotdeos so formados por trs partes de um esqueleto bastante flexvel para cidos
constituintes: uma base nitrogenada, um car- nucleicos. Em contrapartida a esta flexibilidade da par-
boidrato e um grupo fosfato. A base nitroge- te sacardica dos nucleotdeos, cada base nitrogenada
nada pode ser adenina (A), guanina (G), essencialmente planar, uma vez que constituem-se de
citosina (C), uracila (U) ou timina (T), enquanto anis aromticos, e portanto apresentam flexibilidade
a parte sacardica poder ser -D-ribose (fre- bastante reduzida.
quentemente abreviada simplesmente como
ribose, para o RNA) ou a 2-desoxi--D-ribose Protenas
(usualmente abreviada como desoxirribose,
para o DNA) (Figura 2-2). Nas molculas de As protenas so polmeros sintetizados
cidos nucleicos, os nucleotdeos so ligados pelas clulas a partir de aminocidos. So
atravs da denominada ligao fosfodister talvez as biomolculas mais versteis na na-
(ver adiante). tureza, sendo capazes de adotar uma gigan-
Quando a base nitrogenada est ligada tesca possibilidade de arranjos
ao carboidrato, na ausncia do grupo fosfato, tridimensionais, no encontrada nos demais
os compostos gerados so denominados nu- biopolmeros. No por acaso, constituem-se
cleosdeos. Formados por ligao de diferen- no principal produto direto da informao ge-
tes nucleotdeos -D-ribose temos a ntica, a partir da traduo do RNAm.
O genoma codifica diretamente 20 ami-
nocidos (22 contando selenocistena e pirro-
lisina, que so codificadas por codons de
parada) para composio de protenas (Figura
3-2), embora outros resduos de aminocidos,
no codificados no genoma (Figura 4-2), pos-
sam ser sintetizados a partir destes e exercer
funes bastante especficas, como o cido -
amino butrico (GABA), um neurotransmissor
inibitrio no sistema nervoso central, ou co-
mo o resduo cido -carbxi glutmico (GLA),
constituinte de diversas protenas plasmti-
cas e fundamental na hemostasia.
Os aminocidos codificados no genoma
apresentam algumas caractersticas bem de-
Figura 2-2: Representao esquemtica de finidas e compartilhadas entre si. Todos os
um nucleotdeo e suas variaes na base ni- resduos apresentam uma regio comum, in-
trogenada e no carboidrato. dependente do resduo. Esta regio denomi-
2. Nveis de Informao Biolgica

Figura 3-2: Estrutura dos aminocidos codificados no genoma, organizados segundo as propri-
edades de suas cadeias laterais. No topo o esqueleto peptdico representado como encontra-
do dentro de uma protena, tanto em sua forma 2D quanto 3D. Nesta ltima, o grupo R (cadeia
lateral) est apresentado como uma esfera amarela, enquanto a continuao da cadeia poli-
peptdica como esferas verde-escuras. As cadeias laterais esto apresentadas em sua ionizao
mais comum, plasmtica.

nada esqueleto peptdico, e composta pelo pelho da outra).


grupo amino, pelo grupo cido carboxlico e exceo da glicina, todos os aminocidos so qui-
pelo tomo de carbono que liga estes dois rais, em decorrncia da presena de quatro substiuin-
grupos, denominado carbono (C). A dife- tes diferentes ligados ao C. Salvo casos especficos,
rena entre estes resduos est no grupa- todos os aminocidos quirais so encontrados em so-
mento ligado ao C, chamado cadeia lateral mente uma forma enantiomrica, L. Como conse-
(Figura 3-2). quncia, todas as protenas so quirais, e isto tem
Enantimeros so compostos que, diferindo so- implicaes importantes em fenmenos bioqumicos e
mente no arranjo de seus tomos no espao (como no na prtica teraputica.
caso de L-Ser e D-Ser), correspondem um imagem Dois enantimeros interagem de forma idntica
especular do outro (isto , uma o reflexo em um es- com compostos que no sejam quirais. Por exemplo, a
2. Nveis de Informao Biolgica

fluenciadas pelo pH do meio circundante. De acordo


com sua acidez ou basicidade, a carga dos resduos po-
de ser modificada e, por conseguinte, algumas propri-
edades da protena. Assim, dependendo do
compartimento celular, uma mesma protena pode
apresentar ionizao distinta de seus resduos de ami-
nocidos e, por conseguinte, propriedades eletrostti-
cas diferentes. Tais caractersticas destacam a
importncia de uma avaliao adequada do estado de
ionizao dos resduos de aminocidos das protenas
em estudo, principalmente o resduo de histidina.
Durante a sntese proteica, os aminoci-
dos so conectados atravs da denominada
ligao peptdica (ver adiante). Neste proces-
so, o grupo carboxilato de um resduo e o o
grupo amino de outro resduo de aminocido
Figura 4-2: Exemplos de aminocidos encon- reagem, dando origem a um grupo amida que
trados em nosso organismo mas no codifi- compe a ligao peptdica.
cados no genoma humano.
Carboidratos
interao de L-Ser e D-Ser com a gua idntica. Em
contrapartida, compostos quirais interagem diferente- Carboidratos compem um terceiro
mente com cada enantimero. Assim, a interao de L- grupo de biomolculas. So compostos que,
Ser e D-Ser com uma dada protena seria diferente. ao contrrio das protenas, no esto codifi-
Assim, se tivermos um frmaco quiral, uma de suas cados diretamente no genoma. Enquanto a
formas enantiomricas ser ativa e a outra provavel- sntese de protenas guiada por um molde (a
mente inativa, menos ativa ou mesmo txica. molcula de RNAm), a sntese de carboidra-
O esqueleto peptdico de aminocidos apresenta um tos no segue uma referncia direta, mas um
grupo do tipo cido carboxlico somente em aminoci- processo complexo e menos especfico.
dos livres, monomricos, ou na posio terminal da Embora o genoma no codifique a sequncia oli-
protena, denominada regio C-terminal (o final da se- gossacardica, ele determina a expresso de diversas
quncia polipeptdica). Da mesma forma, s encontra- enzimas que sintetizam carboidratos, ligam-os a outras
mos o grupo amino na regio demominada N-terminal estruturas polissacardicas ou ainda modificam os re-
(o incio da sequncia polipeptdica). exceo destas sduos monossacardicos, adicionando ou removendo
extremidades, os grupos amino e carboxlico reagem, grupamentos substituintes nos anis furanosdicos ou
dando origem a um grupo amida. Assim, dentro de piranosdicos (Figura 5-2). Todo este processo bas-
uma protena, cada aminocido contribui com um um tante especfico, envolvendo tipos de monossacardeos
tomo de nitrognio e com uma carbonila para a for- ou ainda posies especficas dentro destas molculas.
mao de uma amida contida no esqueleto peptdico. Uma das principais famlias de enzimas envolvidas nes-
Os aminocidos frequentemente so te processo so as denominadas glicosil transferases.
agrupados de acordo com as propriedades de Esta famlia de biomolculas apresenta
suas cadeias laterais (Figura 3-2). Inicialmen- uma grande variedade de formas (e, por con-
te, podem ser separados em resduos polares seguinte, funes), desde suas formas mo-
e apolares. Os resduos polares incluem ami- nomricas at grandes polmeros com
nocidos no-carregados e carregados (com centenas de unidades monossacardicas. So
carga positiva ou negativa), enquanto os res- encontrados ligados a protenas, formando as
duos apolares incluem aminocidos aromti- chamadas glicoprotenas; sulfatados, dando
cos e alifticos (no aromticos). origem aos glicosaminoglicanos; ligados a li-
As propriedades dos aminocidos so altamente in- pdeos em membranas celulares (os glicolip-
2. Nveis de Informao Biolgica

Figura 5-2: Os dois principais grupos de carboidratos envolvem monossacardeos compostos


por anis de 5 (furanoses) e 6 membros (piranoses). So apresentados 3 tipos de visualizao
para estas molculas, duas 2D e uma 3D.

deos) e como exopolissacardeos da parede monossacardicas j foram observadas como


celular de fungos, dentro outros. presentes em biomolculas (Figura 7-2).
A forma majoritria de monossacarde- Em analogia ligao peptdica, carboi-
os biolgicos em soluo um ciclo, mais co- dratos so ligados entre si (ou a outras mo-
mumente composto por 5 ou 6 tomos. Os lculas) atravs da denominada ligao
carboidratos com anis de 5 membros so glicosdica. Contudo, aminocidos possuem
denominados furanoses (como a ribose e a somente um grupo amino e um grupo cido
desoxirribose), por semelhana ao composto carboxlico em seu esqueleto peptdico, de
furano, enquanto os carboidratos com anis forma que somente um tipo de ligao pept-
de 6 membros so denominados piranoses dica possvel entre dois resduos (o mesmo
(como a glicose, a manose e a galactose), pe- se d com nucleotdeos). Como a ligao gli-
la sua similaridade com o composto pirano cosdica entre dois monossacardeos for-
(Figura 5-2). mada pela reao entre dois grupos
Estes anis apresentam caractersticas conforma- hidroximetileno (CHOH), e cada monossacar-
cionais importantes. No caso das furanoses, podem ser deo possui vrios destes grupos, mltiplas li-
as formas em envelope e torcida. No caso das pirano- gaes entre dois monossacardeos
ses, podem ser as formas em cadeira e bote torcido consecutivos tornam-se possveis. Cria-se,
(Figura 6-2). Cada uma destas formas pode apresentar assim, um complexo espectro de possveis li-
ainda variaes, especficas para cada carboidrato em gaes entre os mesmos dois monossacar-
soluo. Esta transio entre diversos estados confor- deos.
macionais de monossacardeos denominada de equi- O tomo de carbono na posio 1 (C1) de um mo-
lbrio pseudo-rotacional. nossacardeo apresenta propriedades especficas, sen-
Os carboidratos possuem algumas di-
ferenas importantes em relao aos amino-
cidos. So, em geral, compostos mais
polares, o que indica que iro interagir forte-
mente com a gua. Outra diferena impor- Figura 6-2: Equilbrio conformacional entre a
tante se refere sua diversidade. Em forma de cadeira e bote torcido para o res-
comparao aos 20 aminocidos codificados duo de cido idurnico, componente da hepa-
no genoma, mais de 100 possveis unidades rina.
2. Nveis de Informao Biolgica

Figura 7-2: Exemplo da complexidade de possveis monossacardeos encontrados na natureza.

do denominado carbono anomrico. Para um mesmo constituem em polmeros biolgicos, mas em


monossacardeo, o carbono anomrico pode ser en- agregados moleculares de lipdeos anfipticos
contrado em duas possveis configuraes, e (Figu- organizando uma bicamada (Figura 8-2).
ra 5-2). Assim, uma ligao glicosdica entre o carbono Apresentam papel fundamental vida, com-
anomrico (C1) de uma manose e o tomo C3 de outra partimentalizando a clula, definindo seus li-
manose poderia ocorrer de duas formas, -Man-(13)- mites, propriedades e organizando estruturas
Man ou -Man-(13)-Man. No caso de glicoprotenas, celulares.
contudo, a forma aquela usualmente encontrada importante ter em mente que mem-
para o resduo de manose (para outros resduos, a for- branas so muito mais do que simples "pare-
ma anomrica preferencial pode ser diferente). des" delimitadoras da clula. Os
Tomando como exemplo o tetrassacardeo -Man- componentes de membranas so variados,
(12)--Man-(12)--Man-(13)-Man, comumente includos diferentes tipos de lipdeos, prote-
encontrado em glicoprotenas do tipo oligomanose, o nas e carboidratos. A presena e localizao
primeiro resduo de manose (denominada extremidade destes componentes pode ser modulada de
no-redutora) possui seu carbono anomrico ocupado forma dinmica em funo de necessidades
na ligao glicosdica, tendo sua configurao (neste da clula, tecido ou organismo, sinalizando e
exemplo ) fixa. Em contrapartida, o quarto resduo de modulando cadeias de eventos e definindo
manose possui seu carbono anomrico livre. Esta por- regies da clula com propriedades especfi-
o denominada redutora, e tem a configurao do cas (a chamada polaridade celular).
carbono anomrico varivel, isto , pode estar tanto na Molculas anfipticas apresentam como
forma quanto . caracterstica a presena simultnea de uma
regio polar, tambm chamada de cabea po-
Membranas lar (hidroflica ou lipofbica) e de uma regio
apolar, tambm chamada de cauda hidrofbi-
Diferentemente dos cidos nucleicos, ca (hidrofbica ou lipoflica). Assim, membra-
protenas e carboidratos, membranas no se nas celulares possuem superfcies polares e
2. Nveis de Informao Biolgica

res, hormnios, metablitos primrios e se-


cundrios em plantas e uma infinidade de
compostos, em decorrncia de sua importn-
cia biolgica (e teraputica), so potenciais
alvos de estudos computacionais. Contudo,
justamente em decorrncia de sua grande
variedade qumica, torna-se difcil estabelecer
padres ou referncias estruturais, como o
caso das biomacromolculas vistas anterior-
mente. Frequentemente, esta caracterstica
Figura 8-2: Representao de uma membrana cria uma srie de dificuldades e desafios no
POPE (palmitoil oleil fosfatidil etanolamina) emprego de ferramentas computacionais no
contendo a enzima PglB (oligossacaril estudo de micromolculas. Dentre estas difi-
transferase) de Campylobacter lari. Os culdades destaca-se a necessidade de desen-
tomos de oxignio esto representados em volvimento de parmetros especficos para
vermelho, os tomos de carbono em verde, cada molcula (como veremos no captulo 8).
os tomos de hidrognio em branco e
nitrognios em azul. A enzima est 2.3. Nveis de organizao
representada como cartoon verde.
A classificao da estrutura de bioma-
interiores apolares. As caractersticas destas cromolculas envolve, didaticamente, quatro
duas regies, contudo, podem variar bastante diferentes nveis de complexidade. Esta sepa-
em funo da composio dos lipdeos, inter- rao facilita o nosso entendimento do como
ferindo na carga, espessura e fluidez da e do porqu macromolculas adotarem de-
membrana (e, por conseguinte, na sua capa- terminadas formas em meio biolgico e, a
cidade de modular fenmenos biolgicos). partir destas, desempenharem funes espe-
cficas. Adicionalmente, cada nvel traz volu-
"Micromolculas" biolgicas me e tipos de informao diferentes, exigindo
poder computacional e abordagens distintas,
Quando pensamos nos efetores da in- como veremos adiante.
formao gentica natural que a primeira Em princpio, estes nveis apresentam
famlia de biomolculas que venha a nossa um componente hierrquico, ou seja, a infor-
mente seja a das protenas, codificadas dire- mao de um nvel importante ou necess-
tamente no genoma. Contudo, como vimos ria para o nvel de complexidade seguinte.
anteriormente, outros tipos de biomolculas Contudo, outros fatores podem participar
so fundamentais ao funcionamento dos or- neste processo.
ganismos, mesmo que estas no estejam co- Por exemplo, no caso das protenas, embora nor-
dificadas diretamente no DNA. malmente consideremos que a informao contida na
Da mesma forma como no h um con- estrutura 1ria (isto , a sua sequncia de aminocidos)
junto de bases nitrogenadas que codifique seja determinante para a sua estrutura 2ria, ela no o
monossacardeos ou lipdeos, diversos com- nico determinante. Concesses podem ser realizadas
postos de baixa massa molecular (por isso para permitir uma estrutra 3ria ou mesmo 4ria mais
muitas vezes chamados de micromolculas, estvel.
em oposio s macromolculas, compostos Assim, uma determinada regio em hlice pode ser
de elevada massa molecular) no possuem parcialmente desestruturada para facilitar a formao
codificao direta no genoma, mas so pro- de um determinado domnio (ver adiante). Este tipo de
duzidos a partir de enzimas que, estas sim, considerao importante na validao de modelos
tm suas sequncias de aminocidos defini- tericos para a estrutura de protenas, como veremos
das pela molcula de DNA. Neurotransmisso- no captulo 7.
2. Nveis de Informao Biolgica

Adicionalmente, fatores externos prpria sequn- DNA:


cia proteica podem interferir nestes nveis de organiza- GGTATAGGCGCTGTTCTTAAGGTGCTAACAACGGGGT
o. Um dos fatores mais comuns a glicosilao de TACCCGCGTTGATCTCGTGGATAAAACGCAAACGCCA
protenas, que frequentemente estabiliza partes da ACAG
mesma e, assim como as chaperonas, pode interferir
na forma proteica tridimensional existente em meio bi-
RNA:
olgico.
GGUAUAGGCGCUGUUCUUAAGGUGCUAACAACGGG
GUUACCCGCGUUGAUCUCGUGGAUAAAACGCAAAC
Estrutura 1ria GCCAACAG
O nvel inicial de complexidade, a estru-
Aminocidos:
tura 1ria, consiste num padro de letras (ou
pequenos conjuntos de letras) que representa GIGAVLKVLTTGLPALISWIKRKRQQ
a composio do biopolmero. Esta sequncia
de letras representa uma informao de na- Sequncia sacardica:
tureza unidimensional (1D), em que a nica di- -D-GlcNAc,6S-(13)--D-GlcA-(14)--D-
menso descrita a ordem de aparecimento GlcNS,3S,6S-(14)--L-IdoA,2S-(14)--D-
dos monmeros. GlcNS,6S
Para cidos nucleicos, a estrutura 1ria
consiste numa sequncia de nucleotdeos, en- Figura 9-2: Representao da estrutura 1ria
quanto para protenas em uma sequncia de de diferentes biomacromolculas: DNA, RNA,
aminocidos e, para carboidratos, em uma protena (estas trs representando o peptdeo
sequncia de monossacardeos (Figura 9-2). melitina, componente do veneno da abelha
Este ltimo caso o nico para o qual no h Apis mellifera) e carboidratos (representando
uma descrio de uma nica letra para cada uma sequncia repetitiva de heparina). A letra
monmero, principalmente em face do eleva- S na sequncia oligossacardica indica
do nmero de possveis monmeros encon- sulfatao.
trados na natureza, maior que o nmero de
letras no alfabeto. Estrutura 2ria
Embora de menor complexidade, a es-
trutura 1ria nos oferece um grande volume de A partir da sequncia de monmeros
informaes sobre a forma nativa da biomo- descritos, em uma determinada ordem espe-
lcula e, por conseguinte, sobre suas funes. cfica, na estutura 1ria surgem interaes en-
Tais informaes advm principalmente da tre monmeros vizinhos e com as molculas
comparao de sequncias de biomolculas de solvente circundantes. Por exemplo, en-
(aminocidos ou nucleotdeos) em busca de quanto dois nucleotdeos vizinhos tendem a
padres especficos associados a determina- "empilhar" os anis das bases, uma cadeia la-
das caractersticas ou funes. Uma vez teral de um aminocido polar vai se expor
identificados, esses padres ou assinaturas gua, maximizando interaes por ligao de
podem ser usados na busca das mesmas ca- hidrognio com este solvente. De forma se-
ractersticas em outras protenas, desconhe- melhante, uma cadeia apolar ir se expor aos
cidas. Estas comparaes ainda nos permitem lipdeos em uma membrana, maximizando in-
estudar a evoluo destas biomolculas e de teraes hidrofbicas com este outro solven-
seus organismos, contribuindo no entendi- te.
mento de como a vida se desenvolveu e atin- Estas interaes entre monmeros
giu o seu estgio atual de complexidade (ver acabam por dar origem a padres repetitivos
captulo 5). de organizao espacial, denominados de es-
trutura 2ria (Figura 10-2). Estes padres ou
elementos aparecem em nmero relativa-
2. Nveis de Informao Biolgica

mente pequeno de tipos, de forma que a es- Tabela 1-2: Tipos de alas mais comuns
trutura tridimensional de biomolculas pode encontrados em protenas.
ser descrita como uma combinao de con-
juntos destes elementos. Tipo Tamanho
Diferentes composies de estrutura (n de resduos)
o

1 podem gerar um mesmo tipo de estrutura


ria voltas 3
2ria. No por acaso, as propriedades destas voltas 4
estruturas 2rias, mesmo que formadas por
voltas 5
sequncias diferentes, apresentam seme-
lhanas. Por exemplo, uma ala em protenas voltas 6
frequentemente uma estrutura 2ria bastan- alas 6-16a
te flexvel, enquanto folhas e hlices tendem
alas 6-16a
a ser mais rgidas.
As estuturas 2rias mais frequentemente a
A despeito de tamanhos semelhantes, as formas
lembradas so aquelas relacionadas a prote- destas alas se aproximam das letras que as
nas. Incluem trs grupos de elementos prin- denominam. Na volta os resduos das extremidades
cipais: as alas, as hlices e as folhas . da ala esto prximos, e na volta observa-se uma
As alas ou voltas so elementos en- distoro na geometria.
volvidos na conexo entre hlices e folhas.
Tendem a ser, portanto, estruturas flexveis Por exemplo, sua flexibilidade permite que atuem como
para acomodar as mais variadas orientaes tampas ou abas, cobrindo stios ativos e regulando o
que estas hlices e fitas podem adotar entre acesso de moduladores ou substratos. De forma ainda
si. Embora alas pequenas possam ser bas- mais direta, alas so frequentemente os elementos de
tante rgidas, suas flexibilidades tendem a au- estrutura 2ria mais expostos ao solvente. Assim, mui-
mentar conforme o tamanho da ala aumenta tas vezes envolvem-se em contatos protena-protena
(Tabela 1-2). Justamente em funo desta (ou com outras biomolculas), os quais podem ser de-
elevada flexibilidade, alas so mais suscept- terminantes para a funo proteica. Assim, embora
veis evolutivamente a sofrerem mutaes mais susceptveis evolutivamente a mutaes, no so
(salvo se estiverem sob alguma presso evo- incomuns alas com resduos conservados, fundamen-
lutiva, determinada por alguma funo espe- tais para suas respectivas funes biolgicas.
cfica). Em outras palavras, a troca de um A hlice e as folhas foram inicial-
resduo por outro de propriedades distintas mente descritos por Linus Pauling e Robert B.
pode ser mais facilmente acomodada nesta Corey em 1951, embora as primeiras propos-
estrutra flexvel do que nos outros tipos de tas para as estruturas em folhas datem de
estrutura 2ria, mais rgidos. dcadas mais cedo, em 1933, por Astbury e
Enquanto hlices e folhas apresentam periodicidade Bell. As folhas so formadas por sequnci-
ao longo de suas estruturas (semelhana nos pares de as de aminocidos (cada sequncia denomi-
ngulos e a cada aminocido, ver adiante), alas se nada de fita) quase completamente
distinguem por no apresentarem periodicidade. Ainda, extendidas. Estas fitas, quase lineares, inte-
embora alas sejam frequentemente consideradas co- ragem lado a lado ao longo de seus eixos lon-
mo elementos sem estrutura definida (as chamadas gitudinais, atravs de uma srie de ligaes de
random coils), ou mesmo com estrutura aleatria, isto hidrognio entre o grupamento N-H de uma
no sempre verdade. Alas podem adotar formas fita e o grupamento C=O da fita vizinha (Figura
mais definidas, dependendo de seu tamanho e compo- 10-2). Para que esta organizao seja poss-
sio. vel, os tomos de C adotam orientao in-
De forma semelhante, equivocado subestimar a tercalada, acima e abaixo do plano da folha.
importncia das alas, considerando somente seu pa- Esta organizao se assemelha a uma srie
pel como elemento de conexo. Alas apresentam di- de dobraduras em uma folha de papel, de
versos impactos funcionais importantes em protenas. forma que este tipo de estrutura 2ria tam-
2. Nveis de Informao Biolgica

bm denominado de folhas pregueadas (Fi- da hlice.


gura 10-2). Diversos tipos de hlices podem ser en-
A forma pregueada de folhas tambm acompa- contrados em protenas (Tabela 2-2). A hlice
nhada pelas cadeias laterais dos resduos de aminoci- mais comum, denominada de hlice , apre-
dos, ora acima do plano da folha, ora abaixo. Contudo, senta 3,6 resduos de aminocidos por volta
resduos em fitas vizinhas orientam suas cadeias late- da hlice, e cada aminocido (n) realiza ligao
rais para o mesmo lado, frequentemente de forma jus- de hidrognio com o quarto resduo seguinte
taposta (Figura 10-2). Isto permite, por exemplo, que (n + 4), que perfaz (aproximadamente) uma
uma face da folha seja hidrofbica e a outra hidroflica. volta completa da hlice. Outro tipo de hlice
A organizao das fitas em folhas pode comum em alguns tipos de protena a hlice
seguir duas orientaes possveis: i) a poro de poli-prolina II encontrada, por exemplo, em
N-terminal de uma fita interagindo com a protenas de parede celular de plantas e no
poro N-terminal da fita vizinha (e, conse- colgeno. Neste tipo de hlice, contudo, como
quentemente, o C-terminal interagindo com o o tomo de nitrognio da prolina est ligado a
C-terminal), ou ii) a poro N-terminal de uma trs tomos de carbono, no h formao de
fita interagindo com a poro C-terminal da ligao de hidrognio durante a organizao
fita vizinha. Estas duas possibilidades de inte- da hlice.
raes de fitas do origem a dois tipos de fo- Existem, ainda, outros tipos de hlice, menos co-
lhas : as paralelas e as antiparalelas. muns, como a hlice e a hlice 310 (Tabela 2-2). Quan-
As folhas paralelas e antiparalelas di- to nomenclatura, a hlice 310 foge ao padro de uso
ferem em outras caractersticas. Esta organi- de letras gregas das hlices e . O nmero 3 repre-
zao diferenciada das fitas acarreta, por senta o nmero de resduos por volta da hlice, en-
exemplo, em um padro distinto de ligaes quanto o nmero 10 reflete o nmero de tomos entre
de hidrognio. Enquanto nas folhas antipara- duas ligaes de hidrognio vizinhas dentro da hlice.
lelas as ligaes de hidrognio formam um Assim, segundo esta nomenclatura, a hlice seria
ngulo de 90o com as fitas, nas folhas para- chamada de 3,613 e a hlice de 4,416. Tais nomencla-
lelas estes ngulos se tornam maiores (e as turas, contudo, no so normalmente empregadas.
interaes mais fracas) (Figura 10-2). No so s as protenas que que apre-
As folhas podem ser encontradas em formas pu- sentam estruturas 2rias. cidos nucleicos e
ras, paralelas ou antiparalelas, ou mistas, em que fo- carboidratos tambm podem apresentar pa-
lhas paralelas pareiam com folhas antiparalelas. dres repetitivos de organizao espacial,
Contudo, folhas paralelas tendem a ser menos est- definidos pela sequncia de monmeros que
veis conformacionalmente que folhas antiparalelas. os constituem.
Esta diferena pode ser bastante significativa, suficien- A molcula de DNA pode adotar trs ti-
te para acarretar na desnaturao de protenas por pos de estrutura 2ria, denominados A, B e Z
seus inibidores, como foi proposto na ao de serpinas (Figura 11-2), embora a forma B seja a estru-
sob suas proteses alvo. tura mais comum e a partir dela sejam defini-
O trabalho pioneiro de Pauling e Corey das as fendas maior e menor do DNA (Tabela
no incio dos anos 50 do sculo XX identificou 3-2). A transio entre estas formas deter-
no somente as folhas, mas tambm hlices minada pela hidratao, tipos de ctions e da
em sequncias polipeptdicas. A formao da prpria sequncia de nucleotdeos. Contudo, a
hlice, de forma similar s folhas, tambm dificuldade em mimetizar as interaes biol-
envolve a realizao de ligaes de hidrognio gicas, envolvidas no DNA e em complexos
entre grupos N-H e C=O vizinhos no espao DNA-protenas, durante a determinao de
(mas no na sequncia) (Figura 10-2). Contu- estruturas 3D dificulta associaes mais cla-
do, enquanto nas folhas estas interaes se ras de cada tipo de estrutura 2ria a fenme-
do com resduos em fitas vizinhas, nas hli- nos especficos in vivo.
ces estas interaes acontecem com resduos Diferentes tipos de estrutura 2ria acar-
mais prximos na sequncia, entre as voltas retam em diferentes propriedades estruturais
2. Nveis de Informao Biolgica

Figura 10-2: Representao dos tipos mais comuns de estrutura 2ria encontrados em protenas.
Em verde esto as hlices (A), em azul as hlices 310 (B), em salmo as hlices (C), em ciano
as folhas paralelas (D) e roxo as antiparalelas (E). As ligaes de hidrognio entre tomos do
esqueleto peptdico esto apresentadas como linhas tracejadas em marrom. As estruturas so
partes que compe as protenas descritas pelos cdigos PDB 18D8, 1ABB, 2QD1, 1EE6 e 1PC0, e
para cada uma duas diferentes orientaes so apresentadas. Note que as cadeias laterais
apontam para fora do eixo das hlices e, para as folhas, para cima e para baixo do plano
definido pelas fitas.

na molcula de DNA, como na largura e pro- diretamente relacionadas especificidade da


fundidade das fendas maior e menor e na dis- interao do DNA com protenas e frmacos.
posio e orientao dos grupos fosfato, A forma B do DNA pode assumir dois sub-estados,
propriedades estas que, por sua vez, esto denominados BI e BII, definidos por diferenas em tor-
2. Nveis de Informao Biolgica

Tabela 2-2: Tipos de hlices encontrados em protenas.

Tipo de hlice Resduos / Ligao de Elevao / Elevao / Direo mais


volta hidrognio resduo () volta () comum
hlice 3,6 n+4 1,5 5,4 direita
hlice 310 3 n+3 2,0 6,0 direita
hlice 4,4 n+5 1,2 5,3 direita
poli-Pro I 3,3 - 1,7 5,6 direita
poli-Pro II 3 - 3,1 9,3 esquerda

es na parte sacardica e no grupo fosfato (ver adian- trapartida para formar um par A-U ou C-G,
te). Essa regio, formada por carboidrato e fosfato, forma-se uma protuberncia ou bojo.
tambm denominada de esqueleto do DNA, em analo- Estes bojos, isto , bases no pareadas em uma du-
gia ao esqueleto peptdico. A lgica a mesma: o es- pla-fita, tambm podem ser encontradas em folhas .
queleto composto pela regio comum a todos os Neste caso, resduos de aminocidos de uma fita dei-
monmeros formadores do biopolmero. Adicional- xam de interagir com a fita vizinha, dando origem a es-
mente, outras formas de DNA j foram identificadas te outro tipo de estrutura 2ria de protenas.
(alguns autores afirmam inclusive que poucas letras As alas de grampos em molculas de
do alfabeto sobram para nomear novas formas de RNA so anlogas s voltas observadas em
DNA que por ventura venham a ser identificadas), em- protenas, conectando duas fitas por um
bora muitas ainda no tenham papel biolgico claro. pequeno segmento de poucos resduos. No
A maioria dos genomas eucariticos est sujeita a RNA, quando a fita dobra-se sobre si mesma,
um fenmeno de metilao do DNA, que consiste na deixa alguns resduos (no mnimo 4) projeta-
adio de um grupo metila no tomo de carbono na dos para fora, formando uma ala. Neste tipo
posio 5 dos resduos de citosina. Como uma modifi- de estrutura 2ria, a ala est vizinha a so-
cao estrutural epigentica envolvida na regulao do mente uma regio de pareamento de bases,
potencial regulatrio e transcricional do DNA, deve-se enquanto que h duas regies, a cada lado do
estar atento necessidade de incluir tal modificao na bojo, de bases pareadas.
descrio deste cido nucleico. As alas internas podem ser entendidas
No somente o DNA, mas tambm o como uma dupla fita de DNA em que, no seu
RNA possui estrutura 2ria. Contudo, ao con- meio, as bases no so complementares e,
trrio do DNA, que uma molcula contendo por isso, no pareiam. Assim, ambas as fitas
duas ftas de cidos nucleicos, na maioria das apresentam bases que no esto pareadas, o
situaes o RNA uma molcula composta que a diferencia do bojo. Por fim, as junes
por uma nica fita. Assim, enquanto no DNA conectam 3 ou mais regies de bases parea-
os pareamentos entre bases que do origem das.
estrutura 2ria surgem da interao de mo- O terceiro tipo de biopolmero constitu-
lculas (fitas) diferentes e complementares, inte de biomacromolculas, os carboidratos
no RNA a estutura 2ria surge de interaes podem, similarmente a protenas e cidos
na prpria fita, que dobra-se sobre si mesma. nucleicos, adotar padres repetitivos de or-
As estruturas 2rias de RNA incluem re- ganizao de suas unidades formadoras, mo-
gies de bases pareadas, alas de grampos, nossacardeos, isto , em elementos de
alas internas, bojos (do ingls bulge) e jun- estrutura 2ria.
es. Quando o RNA se dobra sobre si, ele Polissacardeos lineares desenvolvem
forma pareamentos entre bases complemen- estruturas de hlices, similarmente prote-
tares de forma anloga quelas vistas no nas e cidos nucleicos. No caso destas mol-
DNA. Quando uma das fitas no RNA pareado culas, contudo, a variabilidade de
apresenta bases que no possuem uma con- organizaes possveis muito maior, de for-
2. Nveis de Informao Biolgica

Figura 11-2: Representao dos tipos mais comuns de estrutura 2ria encontrados no DNA, ilus-
tradas para sequncias de 12 nucleotdeos. Em vermelho esto as hlices B (A), em azul as
hlices A (B) e em magenta as hlices Z (C). As estruturas pelos cdigos PDB 3BSE, 3V9D e
279D. Para cada uma duas diferentes orientaes so apresentadas, e o esqueleto das
molculas de DNA est representado como fitas.

ma que no h definio especfica para um mas repetitivas, e a denominao de alas desordena-


ou alguns tipos de hlices, como vimos ante- das pode tambm ser aplicada a polissacardeos.
riormente. Ao invs disto, cada tipo de polis- Adicionalmente, carboidratos no se apresentam
sacardeo apresentar um nmero de somente como polissacardeos lineares, mas como oli-
resduos por volta, elevao por resduo e go- ou polissacardeos ramificados. Esta ramificao
elevao por volta, assim como seu sentido agrega um grau adicional de complexidade na descri-
para a direita ou para a esquerda (vide tabela o da forma destes compostos. Mesmo assim, ainda
2-3). possvel descrever a forma destes compostos, caso a
Estas caractersticas, contudo, so normalmente caso, como veremos adiante.
determinadas experimentalmente atravs de difrao
de raios-X, na qual a amostra est na fase cristalina.
Esta uma condio adequada descrio, por exem-
plo, da quitina, polissacardeo encontrado na natureza Estrutura 3ria
em condies semelhantes. Contudo, quando estes po-
lissacardeos so transpostos para solues biolgicas, A importncia do conhecimento da es-
estas molculas adotam uma elevada flexibilidade e, trutura 2ria de biomolculas reside, principal-
por conseguinte, grande variao conformacional. No mente, no fato de que estes elementos se
raramente, perdemos a capacidade de identificar for- organizam no espao tridimensional, dando
2. Nveis de Informao Biolgica

Tabela 2-3: Tipos de hlices encontrados em cidos nucleicos.

Tipo de pb / Elevao / Elevao / Fenda maior () Fenda menor () Direo


hlice volta pb () volta () Largura Profundidade Largura Profundidade
DNA A 11 2,9 32 2,7 13,5 11,0 2,8 direita
DNA B 10 3,4 34 11,7 8,5 5,7 7,5 direita
DNA Z 12 3,8 45 - convexa 4 9 esquerda
origem ao que chamamos de estrutura 3ria. der da gua (tambm chamado de colapso
Em outras palavras, a estrutura 3ria de uma hidrofbico), ocasionando a expulso deste
dada biomolcula corresponde montagem solvente da regio central da protena.
dos seus elementos de estrutura 2ria. Por Simultaneamente, os resduos polares
outro lado, a estrutura 3ria (ou a 4ria, que so expostos ao solvente, e interaes inter-
veremos a seguir) que ir exercer a funo resduo so estabelecidas. Assim, a estrutura
biolgica da molcula em questo. enovelada, nativa, ter uma quantidade mni-
Os diversos elementos de estrutura 2ria ma de molculas de gua em seu interior e
de uma dada molcula se organizam em uma um nmero mximo de contatos inter-resduo
estrutura 3ria atravs de um fenmeno de- (Figura 12-2).
nominado enovelamento (tambm chamado A ideia de ambiente molecular para o enovelamento
em portugus de dobramento, do termo em ou para que uma dada biomolcula exera sua funo
ingls folding). Neste processo, uma combi- mais complexa do que parece primeira vista. Embora
nao de foras converge para que a biomo- a ideia usual seja de que o meio aquoso seja predomi-
lcula adote uma conformao mais estvel nante, diversos tipos de ambientes aquosos podem ser
no meio biolgico alvo. encontrados dentro de um organismo, tecido ou clula.
O termo conformao usado para descrever a Por exemplo, o pH pode apresentar grandes variaes
forma de uma dada molcula, como j empregado entre vacolos lisossomais, citoplasma, plasma, se-
neste captulo. Contudo, deve-se adotar uma distino creo gstrica ou duodenal. Por outro lado, a fora
entre conformao e estrutura, importante para o en- inica da soluo pode mudar drasticamente na proxi-
tendimento de propriedades moleculares. Estrutura se midade de membranas com diferentes cargas.
refere a uma nica forma, bem definida e conhecida. Outro tipo de ambiente molecular que deve ser
Conformao se refere a uma forma dentre mltiplas destacado definido pelas membranas biolgicas.
possveis, em um determinado meio ou ambiente mo- Membranas so fluidos, e molculas inseridas em
lecular. Assim, comum nos referirmos a estrutura membranas esto solvatados pelas molculas de fos-
cristalina de uma dada protena, pois no cristal temos folipdeos. Assim, sendo o interior de membranas apo-
uma nica forma 3D, como uma foto nica que compe lar (ou seja, lipoflico), o colapso hidrofbico pode
um filme. Em soluo, contudo, h diversas formas si- acontecer ao inverso, com a exposio de resduos
multaneamente co-existindo. Neste caso, cada forma apolares para o solvente (neste caso, a membrana).
pode ser denominada de conformao. Podemos, de Ambientes mais especficos para o enovelamento de
forma mais precisa, dizer que a forma de uma biomo- protenas podem ainda ser criados por outras prote-
lcula, determinada por cristalografia de raios-X, nas, denominadas chaperonas. Como um barril, chape-
uma conformao cristalogrfica. ronas podem isolar uma protena do meio aquoso,
O processo de enovelamento mais es- levando a formao de interaes inter-resduo que
tudado para protenas, biopolmeros que no seriam observveis de forma significativa em sua
apresentam uma versatilidade de estrutura ausncia. Por conseguinte, podem contribuir direta-
3ria que nenhuma outra biomolcula possui. mente na formao de estruturas 3rias.
Isso faz todo o sentido, tendo em vista que Alm de interaes no covalentes en-
so as protenas os principais efetores da in- tre os resduos de aminocidos de uma dada
formao gnica. Em protenas, o enovela- protena (ou as bases de um cido nucleico e
mento envolve a aproximao mtua de os monossacardeos de um polissacardeo) e
resduos hidrofbicos, que buscam se escon- destes com o solvente, o enovelamento de
2. Nveis de Informao Biolgica

protenas tambm influenciado por intera- comumente resduos de asparagina ou serina, embora
tambm possam participar resduos de treonina, hidro-
xiprolina, tirosina, arginina, triptofano e cistena. De-
pendendo do aminocido, a parte sacardica pode estar
ligada a tomos de nitrognio, oxignio, carbono ou en-
xofre, dando origem s glicosilaes chamadas de N-,
O-, P-, C- ou S-ligadas.

Estrutura 4ria
A despeito da funo de um gene ser
exercida por uma protena com estrutura 3D,
envolvendo a transmisso de informao de
uma estrutura 1ria para uma estrutura 3ria,
ainda h um quarto e ltimo nvel de organi-
zao de biomacromolculas, denominado de
estrutura 4ria. Nem todas as biomolculas,
Figura 12-2: Representao 2D do contudo, apresentam este grau de organiza-
enovelamento de uma protena hipottica, o.
com o direcionamento de resduos A estrutura 4ria constituda por agre-
hidrofbicos (crculos pretos) para o interior gados macromoleculares, principalmente de
da protena e dos resduos hidroflicos para protenas. Estas biomolculas podem adotar
sua superfcie (crculos brancos). Reproduzida estados oligomricos, sejam estes compostos
de Tomixdf, 2008 (Creative Commons). por 2 (dmeros), 3 (trmeros), 4 (tetrmeros),
5 (pentmeros), 6 (hexmeros) ou mais su-
es covalentes, associadas a modificaes bunidades necessrias realizao de deter-
co- ou ps-traducionais. minada funo em condies nativas. No caso
Durante ou aps a sntese proteica (tra- de cidos nucleicos, a estrutura 4ria tambm
duo), podem ser formadas ligaes dissul- pode ser observada, por exemplo, em com-
feto entre grupamentos sulfidrila (SH) de plexos entre DNA e protenas, como histonas.
resduos de cistena, cofatores como o gru- No porque uma protena se mostra como um
pamento heme podem ser adicionados ou oligmero em ambiente cristalino que em soluo a
mesmo processos reversveis podem ocorrer, mesma organizao, necessariamente, ser observada.
nos quais reaes como N-acetilao ou fos- Mesmo in vivo, diferentes ambientes fisiolgicos po-
forilao podem ser observadas de forma dem acarretar em mudanas no estado oligomrico de
transiente. Mas o tipo mais abundante de mo- uma protena. Por exemplo, um peptdeo que se mostra
dificao co- ou ps-traducional na natureza como monmero no plasma pode formar tetrmeros
a glicosilao de protenas, ou seja, a adio quando inserido em membranas.
de uma estrutura oligossacardica a um de- Portanto, assim como no caso da estrutura 3ria, a
terminado aminocido. Assim, a adio destas estrutura 4ria frequentemente se constitui em uma
ligaes covalentes e grupamentos altera no complexa combinao de mltiplas possibilidades que
somente a forma 3D da protena, mas sua podem ser modificadas ou reguladas em funo de
flexibilidade e mltiplas propriedades fisico- inmeras variveis qumicas e biolgicas. Reproduzir
qumicas, enzimticas e, por fim, pode tam- com preciso este comportamento dinmico um dos
bm exercer papel importante em suas fun- principais desafios para a bioinformtica.
es biolgicas.
A glicosilao de protenas ocorre em mais de 70% 2.4. Descritores de forma
das protenas de eucariotos. Diversos aminocidos po-
dem estar envolvidos na ligao a carboidratos, mais O uso dos conceitos de nveis hierr-
2. Nveis de Informao Biolgica

quicos nos permite entender as organizaes conhecido como mapa de Ramachandran (Fi-
bsicas da estrutura 3D de macromolculas. gura 13-2).
Estes nveis, contudo, nos oferecem defini- O uso de ngulos de toro para descrever a estru-
es qualitativas, gerais, que no abordam tura e a conformao molecular no se limita somente
nuances ou variaes dentro dos nveis. Por a protenas, mas tambm pode ser aplicado a cidos
exemplo, definir uma regio da protena como nucleicos e carboidratos. Em cada caso, o nmero de
uma hlice no nos informa se esta hlice ngulos de toro definido pelas caractersticas das
apresenta ou no algum grau de deformao. ligaes entre os monmeros, isto , se uma ligao
Similarmente, podemos saber que uma de- peptdica, glicosdica ou fosfodister.
terminada sequncia de nucleotdeos de DNA Para a descrio da forma de uma ligao peptdica
assume uma hlice do tipo B, mas esta clas- em uma protena so empregados trs ngulos: , e
sificao simplemsente no avalia a defor- . Os ngulos e so aqueles descritos no mapa de
mao provocada nesta hlice por um Ramachandran, localizando-se antes e depois do C
frmaco intercalador do DNA. (pores N- e C- terminais da ligao, respectivamen-
Portanto, em acrscimo aos nveis hie- te). O ngulo , por sua vez, corresponde ao grupa-
rrquicos de classificao da estrutura de mento amida, ou seja, a ligao entre os grupamentos
macromolculas, h a necessidade de intro- N-H e C=O (Figura 14-2).
duzir medidas quantitativas da forma destes A ligao glicosdica pode ser descrita por dois ou
compostos. Podemos, assim, calcular preci- trs ngulos torcionais. Em analogia ligao peptdi-
samente formas associadas a determinados ca, podem ser empregados os ngulos e (poro
eventos biolgicos (como a regulao da ex- no-redutora e poro redutora, respectivamente). A
presso de um gene) e, por conseguinte, in- exceo quando descrevem-se ligaes envolvendo o
terferir nestes processos de forma racional tomo de carbono na posio 6 de piranoses (como
(como no desenho de novos frmacos capa- glicose, manose, fucose e etc.) e na posio 5 de fura-
zes de inibirem a expresso deste gene). noses (como na ribose e na desoxirribose). Nestes ca-
Considerando que protenas, carboidra- sos, h a necessidade de se considerar um terceiro
tos e cidos nucleicos so biopolmeros, suas ngulo torsional, denominado .
formas tridimensionais so definidas, basica- O terceiro caso de biopolmeros usualmente des-
mente, pelas conectividades entre seus mo- critos por ngulos torcionais, os cidos nucleicos, con-
nmeros constituintes (isto , aminocidos, sistem em um caso parte. Como podemos observar
monossacardeos e bases nitrogenadas, res- na Figura 14-2, o grupamento fosfato agrega grande
pectivamente). flexibilidade cadeia, exigindo assim sete ngulos tor-
Esta forma de compreender a estrutura sionais para sua adequada caracterizao, a saber: , ,
de biomacromolculas foi proposta inicial- (na regio 5'), (entre os tomos 3' e 4' da pentose),
mente em 1963 por Gopalasamudram e (na poro 3'). H, ainda, o ngulo , formado entre
Narayan Ramachandran. Neste trabalho, G. N. o carbono 1' da pentose e a base nitrogenada.
Ramachandran descreve a forma de dois ngulos torsionais no so, contudo, a
aminocidos vizinhos como fruto dos ngulos nica forma de descrever e avaliar a forma de
de toro ao redor do C (Figura 13-2), deno- biomacromolculas. A despeito de serem bi-
minados e . Assim, em funo das cadeias opolmeros, protenas, carboidratos e cidos
laterais de cada aminocido, algumas combi- nucleicos apresentam suas particularidades,
naes de ngulos e seriam favorecidas, exigindo assim descritores especficos, capa-
enquanto outras proibidas. As combinaes zes de lidar com as propriedades fisico-qu-
favorecidas correspondem s estruturas 2rias micas particulares de cada tipo de monmero
de protenas que ns conhecemos e ofere- (e, por conseguinte, em lidar com as diferen-
cem, assim, uma medida quantitativa para tes propriedades biolgicas resultantes).
definir hlices, fitas, alas e voltas. O grfico Como mencionado anteriormente, biomolculas em
que combina os valores de ngulos e para condies biolgicas apresentam no somente uma,
um determinado dipeptdeo ficou assim sendo mas mltiplas conformaes que coexistem, simulta-
2. Nveis de Informao Biolgica

Figura 13-2: Mapas de Ramachandran para casos gerais (resduos que no sejam prolina ou
glicina), para resduos de glicina e para resduos de prolina. Os pontos correspondem s
distribuies de ngulos e de cerca de 100 mil resduos componentes de 500 estruturas
proteicas obtidas em alta resoluo. As regies onde se localizam as estruturas secundrias
tpicas esto destacadas nos mapas. [Figura baseada em LOVELL, Simon C. et al. Structure
Validation by C Geometry: , and C Deviation. Proteins, 50, 437-450, 2003; e Hollingsworth,
Scott A. & Karplus, P. Andrew. A fresh look at the Ramachandran plot and the occurrence of
standard structures in proteins. Biomol. Concepts, 1, 271283, 2010].

neamente. Assim, os valores de ngulos torsionais de- pareadas no so descritas por estes par-
vem ser considerados como mdias, referncias geo- metros.
mtricas em torno das quais o comportamento da Considerando um espao cartesiano definido pelos
molcula em questo ir variar em soluo. eixos x, y e z, sendo z o eixo maior da regio de parea-
mento e bases (Figura 15-2), os parmetros geomtri-
cidos nucleicos cos oriundos da translao de bases em uma dupla fita
envolvem: i) o deslocamento do par de bases ao longo
Em acrscimo aos ngulos torcionais os do eixo x ou do eixo y; ii) o deslocamento de uma base
cidos nucleicos, ao formarem pares de ba- em relao outra, seja como uma distenso ao longo
ses, definem quase duas dezenas de parme- do eixo y (do ingls stretch), seja como cisalhamento
tros geomtricos distintos, importantes para ao longo do eixo x (do ingls shear), ou ainda um esca-
uma cartacterizao precisa da estrutura lonamento acima ou abaixo do plano xy (do ingls
destas biomolculas (Figura 15-2). Isto ocorre stagger); iii) o deslocamento de um par de base em
em decorrncia de movimentos de translao relao a outro par de base, seja como uma elevao
ou rotao que cada base ou par de bases ao longo do eixo z (do ingls rise), seja como um desli-
pode sofrer dentro da regio pareada. Assim, zamento ao longo do eixo y (do ingls slide) ou ao longo
molculas ou regies de cidos nucleicos no do eixo x (chamada em ingls de shift).
2. Nveis de Informao Biolgica

quncia, algumas posies na sequncia de


aminocidos tornam-se conservadas evoluti-
vamente como decorrncia de determinantes
estruturais. Ao mesmo tempo, podem haver
determinantes funcionais para a conservao
de posies na sequncia ao longo da evolu-
o.
Em contrapartida, como os aminocidos
podem ser agrupados de acordo com a se-
melhana em suas propriedades fisico-qumi-
cas, diferentes combinaes de resduos
podem levar a uma mesma estrutura 3D. De
fato, sabe-se que a estrutura 3ria de prote-
nas mais conservada ao longo da evoluo
que a estrutura 1ria. Em outras palavras, pro-
tenas com identidade muito baixa entre suas
sequncias podem possuir estruturas 3rias
Figura 14-2: ngulos torsionais para muito semelhantes.
protenas, carboidratos e cidos nucleicos Conclui-se, assim, que sequncias de
ilustrados para, respectivamente, um aminocidos podem arranjar-se em um con-
tripeptdeo, um trissacardeo e um junto de formas 3D mais ou menos definidos
trinucleotdeo. e finitos. Estas formas so denominadas mo-
tivos (ou no ingls fold), e possuem diversas
Os parmetros originados da rotao de bases ou classificaes a partir de suas caractersticas
pares de bases entre si produzem diferentes tipos de (Figura 16-2). Dada a relao entre forma e
inclinao (definidas em ingls como tip, inclination, roll funo, o conhecimento do motivo de uma
e tilt), dependendo do vrtice e do eixo ao longo dos dada protena (diretamente por mtodos ex-
quais ocorre o movimento do par de bases. Pares de perimentais como cristalografia de raios-X,
bases podem ainda sofrer modificaes caracterizan- ver captulo 13, ou por inferncia a partir de
do-os como: i) torcidos (chamadas em ingls de twist, similaridade de sequncia, ver captulo 3)
propeller twist ou buckle), e ii) abertos (definida em in- um passo importante para a elucidao de
gls como opening). seu mecanismo de ao em nvel molecular.
Por exemplo, um barril- um motivo
Protenas que se assemelha a um barri, onde as tiras de
madeira correspondem a fitas (Figura 16-2).
Considerando os 20 aminocidos codifi- Define, assim, uma cavidade central que pode
cados no genoma, poderamos imaginar que tanto servir como carreador de substncias,
teramos 20n possveis protenas diferentes, como no caso das nitroforinas, ou como poro,
sendo n o nmero de aminocidos. A situao, como no caso das porinas. Embora o nmero
felizmente, no to complexa por uma srie de fitas possa mudar (8 no caso das nitro-
de motivos. forinas e 16 no caso das porinas), a caracte-
Um primeiro aspecto a ser observado rstica geral do motivo se mantm. Essas
que, quando uma sequncia de aminocidos relaes so ilustradas visualmente de forma
se enovela para adotar uma determinada es- muito elegante na "tabela peridica" de pro-
trutura 3ria, alguns aminocidos se localizam tenas, desenvolvida pelos professores
em pontos chave para a estabilizao da es- Richard Garratt e Christine Orengo. Para
trutura 3D. Assim, sua modificao poderia acessar as classificaes dos diferentes mo-
desestabilizar total ou parcialmente a con- tivos j identificados, os bancos de dados
formao nativa da protena. Como conse- CATH e SCOP so as fontes mais completas
2. Nveis de Informao Biolgica

Figura 15-2: Parmetros geomtricos empregados como descritores da geometria de cidos


nucleicos.

de informaes. que tira de cena a ideia de anlise de uma


Um outro conceito, que se confunde e molcula a partir de suas sub-unidades for-
em vrios momentos usado como sinnimo madoras. Segundo, estes agregados apre-
de motivo, o de domnio proteico. Um dom- sentam-se como um fluido, diferentemente
nio uma parte da sequncia polipeptdica de das outras biomolculas que vimos. Assim,
enovelamento independente (e, potencial- no faz sentido analisar cada molcula de li-
mente, de funo tambm independente). As- pdeo individualmente em uma membrana,
sim, se um domnio for recortado de um gene mas o seu comportamento como um todo ou
e expresso separadamente ele deve, em prin- como uma mdia ao longo de mltiplos lip-
cpio, manter suas caractersticas estruturais. deos.
Um domnio proteico pode ser compos- Contudo, a despeito da natureza fluida
to por mais de um motivo intrinsecamente de membranas e da sua capacidade de adotar
associado. Por outro lado, um mesmo motivo mltiplas formas, os lipdeos (e tambm pro-
pode ser encontrado e mais de um domnio de tenas) no se distribuem homogeneamente
uma mesma protena. ao longo das membranas, podendo formar
regies ou domnios enriquecidos em um de-
terminado componente. Assim, para o estudo
das propriedades de membranas biolgicas
Membranas torna-se necessrio caracteriz-las estrutu-
ralmente. Isto pode ser feito atravs de di-
No temos falado muito de membranas versas medidas, tais como a rea por lipdeo,
at este momento por alguns motivos. Pri- espessura da membrana e coeficientes de di-
meiramente, membranas no so biopolme- fuso lateral de lipdeos ou protenas embe-
ros, mas agregados de mltiplas molculas, o bidas na membrana, dentre outros (Figura
2. Nveis de Informao Biolgica

8-2). tem-se a este meio, so as membranas que fazem a


A rea por lipdeo nos oferece informaes acerca maior parte do ajuste em sua estrutura para receber
do grau de compactao das molculas que constitu- as protenas (esse processo est relacionado s dife-
em uma membrana, ou seja, uma rea menor indica renas de compressibilidade entre estas biomolculas).
uma membrana mais compacta. Isto, por sua vez, su- Como consequncia, a insero de protenas em mem-
gere uma interao mais intensa entre os componentes branas biolgicas promove uma perturbao na orga-
da membrana. nizao da bicamada lipdica, podendo tanto aumentar
Embora protenas inseridas em membranas adap- quanto reduzir a espessura desta na regio ao redor da

Figura 16-2: Exemplos de motivos proteicos, coloridos por cada elemento de estrutura 2ria. So
apresentados barris compostos por fitas-, em A a protena verde fluorescente (do ingls green
fluorescent protein, GFP, cdigo PDB 1EMG), em D a porina OMP32 (cdigo PDB 2FGQ) e em G o
transportador FECA (cdigo PDB 1KMO); feixes de hlices , em B a bacteriorodopsina (cdigo
PDB 1AP9), em E a protena SERCA1 (cdigo PDB 1WPG) e em H parte do sistema fotossinttico
de uma cianobactria (cdigo PDB 1JB0); e ferraduras compostas por hlices , em C um inibidor
de crescimento tumoral (cdigo PDB 1BD8), em F uma repetio rica em resduos de leucina,
associada fixao de nitrognio (cdigo PDB 1LRV) e em H a lipovitelina (cdigo PDB 1LSH).
Partes das estruturas foram omitidas buscando maior clareza na imagem. Imagem construda
usando o programa Pymol, a partir de organizao proposta em "The Protein Chart", de Richard
C. Garratt e Christine A. Orengo, 2008, Wiley-VCH.
2. Nveis de Informao Biolgica

protena. de uma Leu, e mesmo impossvel em cartoon ou su-


perfcie. Portanto, pode ser muito til combinar estas
2.5. Formas de visualizao representaes tridimensionais a alinhamentos de se-
quncias da regio de interesse.
O corolrio uma imagem fala mais do O mesmo vale para a apresentao de sequncias
que mil palavras tambm se aplica ao estudo isoladas de estruturas. Enquanto uma mutao em um
de molculas. E, de fato, o desafio de repre- nico nucleotdeo pode interferir na funo proteica, is-
sentar graficamente protenas vem acompa- so no feito pela troca de uma letra por outra na se-
nhando os pesquisadores desde o incio dos quncia, mas por mudanas que esta troca acarretam
estudos da estrutura destas molculas. Os na estrutura da protena. O entendimento deste pro-
primeiros relatos do uso de representaes cesso pode depender simplesmente da nossa imagina-
em cartoon para protenas datam da dcada o ou da visualizao da respectiva mudana na
de 1960. Atualmente, mltiplas representa- protena.
es esto nossa disposio, com qualidade Existem diversas formas de apresentar
grfica a cada momento superior, e gerados estruturas tridimensionais de macromolcu-
atravs de ferramentas gratuitas (Figura 17- las, e escolher entre estas formas envolve
2). tanto escolhas metodolgicas quanto pesso-
Podemos definir hlices de protenas ais. Algumas propriedades so mais facil-
por suas caractersticas geomtricas, nomes mente observadas em alguns tipos de
ou pelos pares de ngulos e . Mas visuali- visualizao. Por exemplo, o volume da ca-
zar uma hlice proteica, tridimensionalmente, deia lateral de um resduo de Val muito mais
no deixa dvidas quanto ao seu significado. facilmente observvel enquanto seus tomos
Portanto, o cuidado com a maneira pela qual so apresentados como esferas do que como
iremos apresentar, visualmente, os aspectos bastes ou arames (Figura 17-2). Diferentes
estruturais que estudamos e tenhamos rela- tipos de molculas, similarmente, se benefi-
cionados a alguma funo biolgica, uma ciam de algumas formas de visualizao. Por
parte fundamental no trabalho do bioinfor- exemplo, a forma de cartoon a mais comum
mata. para descrever protenas, mas pouco til na
Formas de visualizao, contudo, so representa-
es muitas vezes incapazes de descreverem detalhes
sobre a molcula em estudo. difcil distinguir visual-
mente uma hlice de uma hlice 310 ou de uma hlice
. Por outro lado, estas hlices podem apresentar de-
formaes importantes, tambm de difcil visualizao.
Assim, a combinao de representaes visuais, quali-
tativas, com medidas precisas, quantitativas, da estru-
tra molecular uma estratgia bastante til no estudo
de macromolculas.
A ideia de combinar mltiplas estratgias na apre-
sentao de um determinado aspecto molecular no
se limita somente s formas de descrever visualmente
ou numericamente a estrutura molecular. Embora a vi-
sualizao de estruturas 1rias, isto , de sequncias de
nucleotdeos, aminocidos ou monossacardeos no
nos oferea muitos artifcios visuais, devemos nos
lembrar que as formas apresentadas na Figura 17-2 Figura 17-2: Exemplo das formas de
no informam o leitor facilmente sobre quais resduos visualizao mais comumente empregadas na
compe a nossa macromolcula. difcil distinguir, em descrio de biomolculas, aplicadas a uma
representaes de arames, bastes ou esferas, uma Ile protena.
2. Nveis de Informao Biolgica

descrio de carboidratos ou membranas. tura tridimensional nativa, isto , equiva-


Em muitos casos poderemos empregar lente quela observada em seu local bio-
combinaes destas formas, como na descri- lgico de ao e funcional. Tambm
o por cartoon de uma protena e de sua es- chamado por alguns autores de dobra-
trutura de glicosilao como bastes. mento.

2.6. Conceitos-chave Equilbrio pseudo-rotacional: processo de inter-


converso entre as diferentes conforma-
Anfipatia: propriedade de molculas que possu- es adotadas por carboidratos.
em tanto regies hidroflicas quanto hi-
drofbicas. Esqueleto do DNA: parte da molcula de DNA
composta pelas partes comuns a todos os
Cadeia lateral: regio varivel dos aminocidos nucleotdeos, isto , o carboidrato e o
codificados no genoma, responsvel pela grupo fosfato (ou seja, so excludas as
variao de suas propriedades. regies das bases nitrogenadas).

Carbono anomrico: tomo de carbono nume- Esqueleto peptdico: estrutura de peptdeos ou


rado como 1 em carboidratos. A mudana protenas sem as cadeias laterais dos
em sua estereoqumica d origem s for- aminocidos (ou seja, somente as regies
mas anomricas e em carboidratos. comuns aos aminocidos).

Carbono : tomo de carbono do esqueleto Estrutura 1ria: sequncia de letras que compe
peptdico no qual a cadeia lateral de cada biomolculas (principalmente DNA, RNA e
aminocido est ligada (referindo-se aos protenas, mas tambm carboidratos).
20 aminocidos codificados no genoma
para sntese proteica). o primeiro tomo Estrutura 2ria: padres estruturais definidos pe-
de carbono vizinho ao grupo carbonila. la organizao das unidades monomricas
(isto , nucleotdeos, aminocidos e mo-
Conformao em bote torcido: forma adotada nossacardeos) de cada biomolcula em
pelo anel de alguns monossacardeos. formas tridimensionais. Estes padres po-
dem classificados segundo suas diferentes
Conformao em cadeira: forma adotada pelo formas.
anel de alguns monossacardeos, seme-
lhante a uma cadeira quanto vista de lado. Estrutura 3ria: estrutura 3D completamente
enovelada.
Conformao em envelope: forma adotada pelo
anel de alguns monossacardeos, destaca- Estrutura 4ria: organizao definida pela agre-
damente as furanoses. gao de mltiplas estruturas 3rias.

Dogma central da biologia molecular: represen- Furanoses: monossacardeos cujo anel com-
tao do fluxo de informao em sistemas posto por 5 tomos, quatro de carbono e
biolgicos, comeando na molcula de um de oxignio. O nome vem da seme-
DNA e culminando na sntese proteica - lhana deste anel com o composto furano.
mas no no sentido oposto. Envolve prin-
cipalmente os fenmenos de replicao, Ligao fosfodister: ligao formada entre dois
transcrio e traduo. nucleotdeos, atravs de seus grupos fos-
fato.
Enovelamento: processo segundo o qual uma
sequncia polipeptdica adquire sua estru- Ligao glicosdica: ligao formada entre dois
2. Nveis de Informao Biolgica

monossacardeos.

Ligao peptdica: ligao formada entre dois


aminocidos, atravs do grupo amino de
um resduo e do grupo carboxila do outro,
dando origem a uma funo amida.

Mapa de Ramachandran: um grfico que des-


creve a variao da energia em funo da
rotao dos ngulos de diedro e , ao
redor do C.

Nucleosdeo: molcula formada por uma base


nitrogenada ligada a um carboidrato (ri-
bose ou desoxirribose), sem o grupo fos-
fato.

Nucleotdeo: molcula formada por uma base


nitrogenada ligada a um carboidrato (ri-
bose ou desoxirribose) e a um grupo fos-
fato.

Piranoses: monossacardeos cujo anel com-


posto por 6 tomos, cinco de carbono e
um de oxignio. O nome vem da seme-
lhana deste anel com o composto pirano.

2.7. Leitura recomendada


ALBERTS, Bruce; et al. Biologia Molecular da
Clula. 5.ed. Porto Alegre: Artmed, 2010.

BLOOMFIELD, Victor A.; CROTHERS, Donald M.;


TINOCO, JR., Ignacio. Nucleic Acids
Structure, Properties, and Functions.
Sausalito: University Science Books, 2000.

GARRATT, Richard C., ORENGO, Christine A. The


Protein Chart. Nova Iorque: Wiley-VCH,
2008.

PETSKO, Gregory A.; RINGE, D. Protein


Structure and Function. New York:
Oxford University Press, 2009.
3. Alinhamentos

Dennis Maletich Junqueira


Rodrigo Ligabue Braun
Hugo Verli

Alinhamento de mltiplas sequncias. dentre estes, as tcnicas de alinhamento de


sequncias tornaram-se ferramentas essen-
3.1. Introduo ciais e primordiais na anlise de sequncias
biolgicas. Atualmente, diversos programas
3.2. Alinhando sequncias online, ou mesmo de instalao local, so ca-
pazes de alinhar centenas de sequncias em
3.3. Tipos de alinhamento poucos minutos.
Devido extenso de suas aplicaes, o
3.4. Alinhamento simples alinhamento de sequncias biolgicas um
processo de fundamental importncia para a
3.5. Alinhamento mltiplo global bioinformtica. Conceitualmente, os alinha-
mentos so tcnicas de comparao entre
3.6. Alinhamento mltiplo local duas ou mais sequncias biolgicas, que bus-
cam sries de caracteres individuais que se
3.7. BLAST encontram na mesma ordem nas sequncias
analisadas.
3.8. Significncia estatstica Em geral, as molculas consideradas
por estes programas, sejam elas formadas
3.9. Alinhamento de 2 estruturas por nucleotdeos (DNA ou RNA) ou aminoci-
dos (peptdeos e protenas), so polmeros
3.10. Alinhamento de >2 estruturas representados por uma srie de caracteres, e
a comparao entre as molculas depende
3.11. Alinhamento flexvel apenas da comparao entre as respectivas
letras. Apesar da facilidade e da aparente
3.12. Conceitos-chave simplicidade do processo, a anlise de simila-
ridade das sequncias uma tarefa complexa
e uma etapa decisiva para grande parte dos
mtodos de bioinformtica que fazem uso de
3.1. Introduo sequncias biolgicas.
Durante o alinhamento, as sequncias
O avano nas tcnicas de sequencia- so organizadas em linhas e os caracteres
mento do DNA tem permitido um crescente biolgicos integram as colunas do alinha-
aumento no nmero de genomas disponveis mento (Figura 1-3). Seguido organizao ini-
em bancos de dados pblicos. Esta maior dis- cial, algoritmos especficos buscaro a
ponibilidade exigiu um grande aumento na ca- melhor correspondncia para as sequncias
pacidade computacional de armazenamento e em questo, permitindo a criao de espaos
no investimento em desenvolvimento de tc- entre estes caracteres para que, ao final, to-
nicas de processamento adequadas para a das as sequncias tenham o mesmo compri-
anlise destes dados. Algoritmos de anlise mento. Isto possibilita uma fcil visualizao
tiveram de ser criados e aperfeioados e, da similaridade, permitindo que caracteres
3. Alinhamentos

Figura 1-3: Alinhamento de quatro sequncias de nucleotdeos envolvendo 55 caracteres. a)


Grupo de sequncias no alinhadas, cada sequncia ocupando uma linha individual. b) Grupo de
sequncias alinhadas, onde caracteres idnticos so dispostos em uma mesma coluna e estas
so identificadas por asteriscos (dispostos na parte inferior do alinhamento). Nucleotdeos
ausentes em determinadas sequncias so substitudos por hifens para identificar eventos de
insero/deleo.

idnticos ou similares em cada uma das se- acumulou diferentes variaes ao longo do
quncias integrem a mesma coluna. A ideia processo evolutivo. O termo homologia uti-
central destes algoritmos minimizar as dife- lizado frequentemente para definir estes
renas entre as sequncias, buscando um ali- eventos onde, atravs da relao de ances-
nhamento timo. Comumente, a similaridade tralidade, dois indivduos distintos possuem
entre as sequncias envolvidas expressa regies em seu DNA (incluindo regies codifi-
pelo termo identidade, que quantifica a por- cantes) herdadas de um ancestral comum.
centagem de caracteres idnticos entre duas Neste caso, a similaridade deve-se descen-
sequncias. dncia comum e, portanto, as sequncias en-
A relevncia e abrangncia do uso do volvidas na anlise so ditas homlogas.
mtodo tornam os procedimentos de alinha- Cabe ressaltar que a homologia no re-
mento o cerne para diferentes campos dentro quer necessariamente alta identidade de ca-
da grande rea da bioinformtica. Alm de racteres entre as sequncias, uma vez que a
fundamentais em pesquisas de filogentica e maior ou menor identidade entre elas depen-
anlise evolutiva, os alinhamentos so exigi- der da taxa de evoluo do organismo ou da
dos em estudos de inferncia estrutural e espcie (consultar captulo 5). Ainda, a simi-
funcional de protenas, anlises de similarida- laridade entre sequncias pode ser gerada
de e identificao de sequncias e em estudos no somente por descendncia, mas por
aplicados ao campo da genmica. presso seletiva de um determinado ambien-
Atravs dos mtodos de alinhamento, te. Nestes casos, teremos regies similares
possvel obter informaes a respeito da re- na sequncia de nucleotdeos (ou aminoci-
lao evolutiva entre organismos, indivduos, dos) que surgiram de maneira independente,
genes ou entre sequncias diversas (Figura sem qualquer relao de descendncia, e
2a-3). Se duas sequncias distintas podem evoluram por convergncia, no sendo por-
ser alinhadas com certo grau de similaridade, tanto homlogas. Assim, no possvel
possvel inicialmente assumir que elas com- quantificar a homologia entre as sequncias
partilharam, em algum momento do tempo envolvidas, somente dizer se h ou no.
passado, um ancestral comum e, por isso, Quando identificamos quantos caracteres se
so evolutivamente relacionadas. A partir da repetem nas mesmas posies entre duas ou
separao destas sequncias de seu ances- mais sequncias estamos, de fato, verificando
tral comum, individualmente cada uma delas a identidade entre estas, e no a homologia.
3. Alinhamentos

Figura 2-3: Aplicaes dos mtodos de alinhamento de sequncias biolgicas. a) Inferncia


filogentica a partir do alinhamento de quatro sequncias de nucleotdeos. b) Inferncia da
estrutura de uma protena alvo (Desconhecida) a partir do alinhamento com uma sequncia de
aminocidos cuja estrutura tridimensional conhecida (Conhecida). c) Inferncia da funo de
um domnio proteico a partir da comparao de sequncias de aminocidos. d) Comparao de
sequncias de uma poro de determinado gene de indivduos afetados e no afetados por uma
doena gentica. Os asteriscos identificam colunas com total similaridade dos caracteres.

As tcnicas de alinhamento vm se centagem) revela padres referentes com-


mostrando fundamentais na construo de posio qumica e podem fornecer
algoritmos que visam comparar a informao embasamento para a definio de um arranjo
de diversas sequncias biolgicas. exemplo tridimensional semelhante, principalmente no
do programa BLAST, estes algoritmos permi- caso de protenas (Figura 2b-3). A mesma
tem comparar uma sequncia alvo com mi- relao feita para inferir a funo de dom-
lhares de dados disponveis em grandes nios de uma protena recm-descoberta, ain-
bancos de armazenamento, fornecendo um da sem funo definida. Sabendo que sua
valor de significncia estatstica associada a forma est diretamente relacionada sua
esta comparao de similaridade. Devido funo, atravs da comparao com outras
facilidade de acesso e rapidez no processa- protenas com estrutura e funo j estabe-
mento de dados, estes programas vm cada lecidas, possvel inferir a funo realizada
vez mais ampliando as possibilidades e op- por determinado domnio da protena sob in-
es para o tipo de comparao ou pesquisa a vestigao (Figura 2c-3). Nestes casos, as
ser realizada. sequncias envolvidas no alinhamento no
Os mtodos de alinhamento podem ain- so necessariamente homlogas. Atravs do
da ser necessrios para fornecer informa- fenmeno da evoluo convergente, diferen-
es a respeito da funo e da estrutura de tes regies codificantes do DNA podem gerar
sequncias biolgicas, particularmente nos produtos proteicos com funes similares,
alinhamentos de ribonucleotdeos e aminoci- sem obrigatoriamente compartilharem um
dos (Figura 2-3). Nestes casos, a similaridade ancestral comum.
entre duas ou mais sequncias (dada em por- Finalmente, as tcnicas de alinhamento
3. Alinhamentos

tm grande importncia para a anlise de ge- entre tais estruturas. importante destacar
nes e genomas. Com o aumento da disponibi- tambm a diferena entre alinhamento e so-
lidade de sequncias nucleotdicas de breposio de estruturas. Apesar desses ter-
genomas completos, e mesmo com o surgi- mos ainda serem empregados na literatura
mento de modernas tcnicas de biologia mo- como sinnimos, eles se referem a procedi-
lecular, como o microarray e deep mentos diferentes. Conforme mencionado
sequencing, os mtodos de comparao per- acima, enquanto o alinhamento de estruturas
mitiram o entendimento a respeito da variabi- busca identificar equivalncias entre pares de
lidade gentica de indivduos e populaes. aminocidos nas estruturas a serem sobre-
A comparao entre genomas de dife- postas, a sobreposio necessita desse co-
rentes espcies, ou at mesmo de indivduos nhecimento prvio sobre as equivalncias.
da mesma espcie, possibilita a anlise de va- Sendo assim, a sobreposio estrutural busca so-
riaes (mutaes ou polimorfismos) nas se- lucionar um problema muito mais simples, ou seja, mi-
quncias e, em alguns casos, permite a nimizar a distncia entre dois resduos j reconhecidos
identificao de relaes entre variaes no como equivalentes. Isso se d por encontrar transfor-
DNA e susceptibilidade a determinadas doen- maes que satisfazem o menor desvio mdio quadr-
as, beneficiando o campo da gentica e reas tico (RMSD) ou as equivalncias mximas dentro de um
relacionadas. Adicionalmente, como um re- valor limite para o RMSD.
curso para a caracterizao de eventos evo- Considerando que a estrutura das pro-
lutivos, os alinhamentos permitem anlises tenas mais conservada que a sequncia, o
comparativas entre genomas. A abrangncia alinhamento de estruturas confere maior es-
e importncia evolutiva dos eventos de que- pecificidade ao alinhamento de sequncias
bra e reparo de DNA, ou mesmo dos eventos quando comparado ao alinhamento de se-
de recombinao, inverses e translocaes, quncias independente de estrutura. A maio-
tem sido desvendados, primariamente, atra- ria dos mtodos de sobreposio de
vs dos mtodos de alinhamento. estruturas adequado para identificar simi-
Alm do alinhamento de sequncias, o laridades entre estruturas proteicas. O ali-
alinhamento de estruturas constitui outra im- nhamento de duas ou mais estruturas,
portante ferramenta em estudos de bioinfor- porm, constitui uma tarefa mais difcil, e sua
mtica. A metodologia bastante diferente preciso depende tanto do mtodo usado
daquela empregada em alinhamentos de se- quanto do objetivo do usurio.
quncias, pois passamos de um problema uni-
dimensional para um problema 3.2. Alinhando sequncias
tridimensional. Sua utilizao passou a ser di-
fundida a partir de 1978, com o trabalho de primeira vista, o processo de alinha-
Rossmann e Argos, comparando os stios ati- mento entre diferentes sequncias parece
vos de enzimas cujas estruturas eram conhe- simples e no sujeito a qualquer tipo de erro.
cidas at aquele momento. Os mtodos de No entanto, esta afirmativa s verdadeira
sobreposio simples de estruturas esto em casos onde os organismos envolvidos
disponveis h mais tempo, tendo sido pro- possuem uma baixa taxa evolutiva (Figura 3a-
postos a partir da dcada de 1970, enquanto 3). Quando consideramos sequncias hom-
os mtodos de comparao e alinhamento se logas amostradas de organismos com alta
desenvolveram posteriormente, principal- taxa evolutiva, ou at mesmo sequncias si-
mente a partir da dcada de 1990. milares, porm no homlogas, nos depara-
A comparao de estruturas se refere mos com casos particulares que tornam o
anlise de similaridades e diferenas entre processo de alinhamento complexo e, muitas
duas ou mais estruturas, enquanto o alinha- vezes, sujeito a uma interpretao especial-
mento de estruturas se refere determina- mente subjetiva por parte do usurio (Figura
o de quais aminocidos seriam equivalentes 3b-3).
3. Alinhamentos

A comparao de sequncias homlo- e nas protenas, onde podero gerar conse-


gas de organismos evolutivamente distantes quncias moleculares. Erros de replicao
um desafio para os programas de alinha- gerados pela DNA-polimerase durante a re-
mento. As diferentes presses seletivas mol- plicao do DNA, ou mesmo os eventos de
dam os genomas de maneira imprevisvel e, recombinao, so os principais fatores atre-
muitas vezes, acarretam a perda ou ganho de lados gerao destes indels nos genomas.
nucleotdeos ao longo do processo evolutivo. Em regies codificadoras, estes eventos po-
Para estes casos, a adio de lacunas (gaps) dem acarretar mudanas no quadro de leitura
em matrizes de alinhamento, representadas da protena e torn-la no funcional.
por -, possvel e muitas vezes necessria. Em termos analticos, a insero de la-
As lacunas representam um ou mais eventos cunas dificulta o processo de alinhamento e
de insero ou deleo de nucleotdeos. Estes exige interpretaes cautelosas. Para deter-
eventos, comumente chamados de indels (in minados casos, especialmente em anlises
para insero, e del para deleo), so fruto evolutivas e filogeogrficas, comum que
de processos mutagnicos (espontneos ou regies do alinhamento com determinado n-
induzidos) e, dependendo da regio atingida, vel de incerteza, especialmente regies com
podem ser expressos nas molculas de RNA grande nmero de lacunas, sejam eliminadas

Figura 3-3: Alinhamentos de nucleotdeos. a) Duas sequncias homlogas originadas de


organismos com baixa taxa de evoluo so dadas e seu alinhamento proposto. b) Duas
sequncias homlogas amostradas de organismos com alta taxa de evoluo so dadas e
diferentes alinhamentos so propostos. Os hifens representam eventos de insero ou deleo
nicos na sequncia. Os asteriscos identificam colunas com total similaridade dos caracteres.
3. Alinhamentos

da anlise. Contudo, at o momento no exis- e aplicadas para os mais diversos casos de


tem programas capazes de lidar com as lacu- comparao entre sequncias de aminocidos
nas de forma coerentemente biolgica. (Figura 4b-3).
Apesar de sabermos que se tratam de even-
tos evolutivos comuns e bem caracterizados,
as incertezas sobre o nmero de eventos e
sua intensidade tornam as lacunas, em gran-
de parte dos casos, um fator de confuso pa-
ra anlises de alinhamento.
Conforme mostrado na Figura 3-3, dife-
rentes alinhamentos so possveis para um
mesmo grupo de sequncias. A pergunta que
se segue : como reconhecer o melhor resul-
tado quando nos deparamos com diversos Figura 4-3: Matrizes de custo utilizadas no
alinhamentos possveis para um mesmo con- clculo de pontuao dos alinhamentos. a)
junto de dados? Buscou-se resolver este pro- Matriz de custo exemplo utilizada para
blema atravs da criao de um sistema de clculos de pontuao em alinhamentos de
pontuao para comparar os resultados de nucleotdeos. b) Matriz de custo BLOSUM62
diferentes alinhamentos. Caracteres idnticos utilizada para clculo da pontuao em
em sequncias diferentes representam igual- alinhamentos de aminocidos.
dades ou correspondncias (matches) e, por
serem resultados preferenciais durante o Ainda, necessrio que as lacunas de
processo de alinhamento, so pontuados po- alinhamentos recebam determinadas pontu-
sitivamente. Pelo contrrio, caracteres no aes, pois so frequentemente encontradas
idnticos que ocupam a mesma coluna so em alinhamentos de dados biolgicos. Se la-
chamados de desigualdades, ou mismatches, cunas podem ser adicionadas em qualquer
e recebem atribuies negativas. Como resul- posio sem qualquer restrio, tanto nas
tado, o melhor alinhamento possvel para du- extremidades quanto no interior das sequn-
as sequncias aquele que maximiza a cias, possvel gerar alinhamentos com mais
pontuao total, somando os valores de lacunas do que propriamente caracteres a
matches e debitando os valores de serem comparados (Figura 3b-3, alinhamento
mismatches. 2). Com o intuito de prevenir insero exces-
Do ponto de vista biolgico, as mudan- siva, a adio de lacunas penalizada durante
as entre as bases nitrogenadas nas sequn- a atribuio da pontuao de uma sequncia,
cias de nucleotdeos no ocorrem com a conforme um conjunto de parmetros, cha-
mesma probabilidade (Figura 4a-3). Sendo mado de penalidades por lacuna (gap
assim, podemos atribuir valores de penalties, PL). A abrangncia da lacuna
mismatches diferentes s transies (trocas pontuada pelo respectivo nmero de indels
de purinas por purinas ou pirimidinas por piri- presentes no alinhamento. A frmula mais
midinas) e s transverses (trocas de purinas comum para clculo destas penalizaes se-
por pirimidinas ou pirimidinas por purinas). gue abaixo:
Para sequncias de aminocidos, necessrio
escolher ativamente uma matriz de pontua- PL = g + e (L 1)
o especfica. Essas matrizes so resultados
diretos de estudos de variao proteica e es- onde L o tamanho da lacuna (nmero de
to diretamente relacionadas probabilidade indels presentes na lacuna), g a penalidade
de substituio de um aminocido por outro pela abertura da lacuna (necessria para evi-
(matrizes BLOSUM e PAM). Atualmente, as tar que os alinhamentos contenham lacunas
matrizes BLOSUM so as mais disseminadas desnecessrias) e e a penalidade atribuda a
3. Alinhamentos

cada indel (novamente para evitar grandes enumerar todas as possibilidades. Os alinha-
lacunas sem necessidade). Os valores de pe- mentos gerados por estes programas so
nalidade por lacuna so desenhados para re- chamados heursticos, e compreendem m-
duzir a pontuao de um alinhamento quando todos aproximados de busca pelo resultado
este possui uma quantidade de indels desne- timo. Diferentes mtodos foram criados pa-
cessria. Apesar da disseminao deste con- ra diferentes tipos de alinhamento (Figura 6-
ceito, no h qualquer relao matemtica ou 3). Entre estes, devido eficincia e rapidez
biolgica sustentando este clculo. impor- de processamento das informaes de um
tante destacar que, atravs da propriedade de alinhamento, incluindo o clculo de pontua-
alinhamento livre de colunas em branco (ou o, os algoritmos de programao dinmica
seja, gaps no so alinhados), as penalizaes so, atualmente, os mais utilizados para este
ainda impedem o alinhamento de indels entre fim, tanto em alinhamentos simples como in-
as sequncias envolvidas na anlise. Assim, o tegrado aos algoritmos de alinhamentos
melhor alinhamento entre as sequncias ser mltiplos.
dado por um valor que resulta da soma dos fundamental assumirmos, para a mai-
valores associados a cada um dos matches, or parte dos problemas em bioinformtica, o
mismatches e lacunas, de acordo com um alinhamento como um modelo de relao
critrio pr-definido (Figura 5-3). evolutiva entre as sequncias envolvidas. E
O mtodo de pontuao foi a soluo como modelo, est sujeito presena de cer-
encontrada para avaliar e classificar diferen- tos problemas na explicao dos eventos
tes alinhamentos em busca da melhor expli- evolutivos reais. Portanto, os alinhamentos
cao para a relao evolutiva entre as devem ser avaliados com extrema cautela. A
sequncias. O prximo problema encontrado facilidade e a aparente simplicidade na anlise
foi enumerar todas as possibilidades de ali- dos programas tornam o processo mecnico
nhamentos para um grupo de dados. Assu- e desvinculado de anlises crticas pela maior
mindo-se duas sequncias com tamanho de parte dos usurios. A associao dos mto-
100 caracteres cada, poderamos enumerar dos de alinhamento a outras anlises de bio-
at 1077 possveis alinhamentos, diferentes informtica tende a desvincular a real
entre si. A extenso de possibilidades inviabi- importncia desta tcnica e a coloca apenas
liza a enumerao de todos os casos devido como um procedimento, e no formalmente
ao tempo e ao requerimento de enorme pro- como uma tcnica sujeita anlise crtica. Isto
cessamento destes dados. Apesar da exign- pode ocasionar na obteno de modelos in-
cia computacional, alguns algoritmos so corretos ou mesmo de falsos positivos.
capazes de realizar tal tarefa e ainda aplicar o
mtodo de pontuao para cada um dos ca- 3.3. Tipos de alinhamento
sos, em busca do melhor resultado. No en-
tanto, estes algoritmos no so capazes de Em estudos de bioinformtica, comum
lidar com sequncias que contenham mais compararmos molculas de dois ou mais in-
que algumas dezenas de caracteres. Em vir- divduos, sejam eles da mesma espcie ou de
tude da capacidade de explorar todas as so- espcies diferentes. Quanto maior o nmero
lues do problema, o processo realizado por de sequncias comparadas, maior o tempo
estes algoritmos chamado de alinhamento exigido para concluso do alinhamento e, de-
timo. pendendo das sequncias envolvidas, maior a
Contudo, em virtude da inerente demora dificuldade dos algoritmos em encontrar o
do processo, foi necessrio desenvolver al- melhor resultado. Conforme a quantidade de
goritmos que acelerassem a busca de um ali- sequncias envolvidas, podemos dividir os
nhamento capaz de explicar de maneira tima alinhamentos em dois tipos: alinhamentos
os processos evolutivos para um determina- simples, ou par-a-par, e alinhamentos mlti-
do grupo de sequncias sem, no entanto, plos, ou de mltiplas sequncias (Figura 7-3).
3. Alinhamentos

Figura 5-3: Esquema de pontuao para avaliao de alinhamentos. a) Duas sequncias de


desoxirribonucleotdeos no alinhadas. b) Proposio de um alinhamento para as sequncias
dadas em a. O alinhamento possui 24 colunas de matches, 4 colunas de mismatches e duas
lacunas com 3 e 4 indels. A pontuao total para o alinhamento desta sequncia -7. c)
Proposio de um segundo alinhamento para as sequncias dadas em a. O alinhamento possui
24 colunas de matches, 4 colunas de mismatches e trs lacunas com 1, 2 e 4 indels. A
pontuao total para o alinhamento desta sequncia -8. A partir deste exemplo, o
alinhamento com a maior pontuao o mostrado em b. Os valores de pontuao utilizados
neste exemplo so especificados na parte inferior da figura.

Os alinhamentos simples descrevem especifi- (Figura 7-3). Em algoritmos que buscam o


camente a relao de similaridade entre duas alinhamento global de duas sequncias, re-
sequncias quaisquer. J os alinhamentos fora-se a busca do alinhamento completo
mltiplos incluem trs ou mais sequncias na das sequncias envolvidas, procurando incluir
anlise de similaridade e, dependendo do ob- o maior nmero de matches do incio ao final
jetivo do usurio, podem envolver at cente- das sequncias. Quando necessrio, estes al-
nas de sequncias. goritmos permitem a insero de lacunas pa-
Conceitualmente, ainda podemos dividir ra que as sequncias tenham o mesmo
os alinhamentos, tanto simples, como mlti- tamanho no resultado do alinhamento (Figura
plos, em dois grandes tipos. Os alinhamentos 7b-3).
que levam em considerao toda a extenso Graficamente, os stios com caracteres
das sequncias so conhecidos como globais, idnticos so representados ligados por bar-
enquanto aqueles que buscam pequenas re- ras verticais, enquanto os stios que possuem
gies de similaridade so chamados de locais caracteres diferentes nas duas sequncias, ou
3. Alinhamentos

da disponibilidade de sequncias completas


de protenas, foi necessrio buscar mtodos
de alinhamento que privilegiassem a busca de
similaridade, no entre sequncias completas,
mas apenas entre pores isoladas destas
sequncias. Durante a dcada de 1980 iniciou-
se o desenvolvimento de novos algoritmos de
alinhamento, j que os desenvolvidos at
Figura 6-3: Tipos de alinhamento e os aquele momento no eram aplicveis para
algoritmos aplicados bioinformtica. esta particularidade. Entre estes novos algo-
ritmos, o desenvolvido por Smith e
mesmo a presena de uma lacuna em uma Waterman, em 1981, ganhou maior destaque
delas, permanecem sem qualquer notao e atualmente o principal algoritmo utilizado
(Figura 7-3). O principal algoritmo envolvido por programas para realizao de alinhamen-
no processamento de alinhamentos globais tos locais. Nestes casos, privilegia-se o ali-
aquele desenvolvido por Needleman e nhamento de partes da sequncia, buscando
Wunsch durante a dcada de 1970. Alm de apenas as regies com a maior similaridade
ter uma notvel importncia metodolgica, (Figura 7c-3). Em algoritmos para busca lo-
este algoritmo tem grande importncia na cal, o alinhamento pra no final das regies
histria do alinhamento, pois foi o primeiro de alta similaridade e substitui as regies ex-
algoritmo a aplicar o mtodo de programao cludas por hifens (lacunas) no resultado final
dinmica para a comparao de sequncias (Figura 7c-3).
biolgicas.
Em seu incio, os mtodos de alinha- 3.4. Alinhamento simples
mento eram utilizados especialmente para a
comparao par-a-par de sequncias de pro- Para entender como se processa um
tenas inteiras. No entanto, com a ampliao alinhamento par-a-par e como o grau de si-

Figura 7-3: Diferenas entre alinhamento local e global. a) Duas sequncias de nucleotdeos de
tamanhos diversos so amostradas e alinhadas por algoritmos diferentes. b) No alinhamento
local, a prioridade encontrar as regies altamente similares, independentemente do tamanho
desta regio. Neste caso, pores da sequncia que no foram alinhadas com alta similaridade
foram excludas do resultado final. c) No alinhamento global, as duas sequncias so alinhadas
por completo, independentemente do nmero de lacunas que tenham que ser inseridas.
3. Alinhamentos

milaridade entre elas pode ser computado, um esquema de pontuao, seja ele referente
apresentamos trs dos principais algoritmos a nucleotdeos ou aminocidos. Da mesma
desenvolvidos para este fim: algoritmos de forma, necessrio fornecer um valor de pe-
programao dinmica, anlise de matriz de nalidade para a abertura e extenso das la-
pontos (dot matrix) e mtodo de palavra ou k- cunas. A partir destas informaes, o
tuple. algoritmo calcular uma relao entre todos
A programao dinmica , atualmente, os caracteres das sequncias e fornecer o
o mtodo mais utilizado por programas para melhor alinhamento como resultado final.
realizar o alinhamento de sequncias. Em ca- Como exemplo, consideraremos a Figu-
sos simples (par-a-par), capaz de encontrar ra 8-3. So dadas duas sequncias, sequncia
o melhor alinhamento para duas sequncias 1 e sequncia 2, um esquema de pontuao e,
atravs da aplicao da pontuao de simila- para facilitar o entendimento do clculo, um
ridades. , portanto, um mtodo de execuo valor nico de penalidade por lacuna de -8. O
relativamente rpida nos computadores mo- algoritmo toma as sequncias e transforma a
dernos, requerendo um tempo e memria de relao entre elas em uma tabela, onde as li-
processamento proporcional ao produto do nhas so definidas pelos caracteres da se-
tamanho das duas sequncias envolvidas. quncia 01, e as colunas pelos caracteres da
O mtodo baseado no princpio de oti- sequncia 02. A fim de permitir lacunas no
mizao de Bellmann, e prope a soluo de incio do alinhamento, o algoritmo impe a in-
problemas complexos atravs da resoluo sero de uma coluna e de uma linha iniciais
dos seus diversos subproblemas. Os subpro- contendo o smbolo de indel. A partir deste
blemas so resolvidos e seus resultados so ponto, para cada um dos elementos da ma-
armazenados pelo algoritmo. A vantagem triz, o algoritmo calcular a melhor pontua-
funcional da resoluo em partes que, ge- o dos subcaminhos associados ao
ralmente, problemas complexos combinam alinhamento: uma substituio, uma insero
uma srie de subproblemas. Como o algorit- na sequncia 01 ou uma insero na sequncia
mo acumula os resultados dos diferentes 2. Assim, o melhor subcaminho ser calcula-
subproblemas, acelera a resoluo do pro- do segundo uma funo de pontuao, con-
blema complexo. Assim, a designao pro- forme abaixo:
gramao nada tem a ver com programao
de computadores, mas com a organizao
dos resultados j solucionados para resolu-
o de um problema maior. A partir do elemento (1,1) da matriz e ao
Conforme discutimos anteriormente, em longo da primeira linha, apenas a terceira
determinados casos, duas sequncias podem condio satisfeita (valor da clula es-
apresentar diferentes alinhamentos. Se no querda + valor da penalidade por lacuna). Na
h indels e as sequncias so similares, o ali- primeira coluna, apenas a segunda condio
nhamento rpido e no deixa dvidas. No satisfeita. Para outros elementos, as trs
entanto, quando existe certa diversidade en- condies devem ser calculadas e aquela que
tre as sequncias envolvidas e uma quantida- resultar no maior valor escolhida para for-
de suficiente de indels, a soluo para o mar a matriz. Alm disso, os procedimentos
alinhamento menos bvia visualmente. dos algoritmos de programao dinmica po-
Nestes casos, os algoritmos de programao dem ser representados por pequenas setas
dinmica buscaro solucionar os subproble- para indicar qual subcaminho obteve o melhor
mas envolvidos e fornecero o melhor resul- valor (Figura 8-3).
tado. Outro mtodo importante na rea de
Para clculo do melhor alinhamento en- alinhamento de sequncias a anlise de ma-
tre duas sequncias, o algoritmo de progra- triz de pontos ou matriz dot. um mtodo
mao dinmica necessita da especificao de simples e bastante eficiente em anlises de
3. Alinhamentos

Figura 8-3: Alinhamento de duas sequncias de nucleotdeos atravs do mtodo de


programao dinmica. a) As sequncias a serem alinhadas so dispostas em uma tabela onde
o nmero de colunas corresponde ao nmero de caracteres da sequncia 1 mais um (devido
adio de uma coluna para uma lacuna) e o nmero de linhas corresponde ao nmero de
caracteres da sequncia 2 mais um. O caractere atribudo primeira linha e primeira coluna ,
por definio, o smbolo -, atribudo a uma lacuna. Atravs da matriz de penalidades calculam-
se os valores para as trs possibilidades F(i,j), buscando a equao que resulte no maior valor.
O valor arbitrrio de penalidade por lacuna (PL) de -8. Em virtude de a primeira linha no
possuir valores de comparao na diagonal superior esquerda e acima, considera-se apenas a
terceira equao. b) O valor demarcado em verde o primeiro a ser calculado aps o
preenchimento da primeira linha e primeira coluna, representando o menor valor encontrado no
clculo para F(i,j). Alm do clculo, o algoritmo de programao dinmica insere informaes a
respeito da direo da informao. Como o valor 1 foi o maior valor encontrado e representa o
clculo utilizando a informao situada na diagonal superior esquerda, demarcada em verde,
insere-se uma seta nesta direo. c) O preenchimento completo da tabela e as respectivas setas
ilustrando a direo da informao. Algumas casas esto demarcadas com duas setas, pois
apresentaram dois valores mximos idnticos na resoluo das equaes. Ao final dos clculos,
iniciando pelo canto inferior direito, seguem-se as setas em busca dos maiores valores. d)
Relacionando os dados da tabela com a simbologia apresentada, chega-se ao alinhamento final
entre as sequncias 1 e 2.
3. Alinhamentos

delees/inseres e para detectar repeties sequncias disposta na vertical e a outra na


diretas ou inversas, especialmente em se- horizontal (Figura 9-3). Regies do grfico
quncias de nucleotdeos. Alm disso, vem que possuam o mesmo caractere tanto na
sendo utilizado para buscar regies de parea- sequncia disposta na horizontal, quanto na
mentos intra-cadeia capazes de formar es- sequncia disposta na vertical, sero assina-
truturas 2rias em molculas de RNA. Este lados. Esta marcao representa os possveis
mtodo permite a visualizao grfica das correspondncias (matches) entre uma se-
regies de similaridade entre sequncias quncia e outra.
atravs da construo de uma matriz de Qualquer regio de similaridade entre as
identidade. O nmero de linhas desta matriz duas sequncias ser evidenciada por uma li-
definido pelo nmero de caracteres de uma nha diagonal de assinalaes. Pontos no dis-
das sequncias, e o nmero de colunas de- postos na diagonal representam
finido pelo nmero de caracteres da outra correspondncias aleatrias que no esto
sequncia a ser comparada (Figura 9-3). relacionadas com a similaridade entre as se-
primariamente um mtodo visual, e no for- quncias. A deteco de regies de alta simi-
nece o alinhamento propriamente dito como laridade pode ser beneficiada, em alguns
resultado final, embora seja frequentemente casos, atravs da comparao de dois ou
utilizado quando se deseja visualizar as re- mais caracteres ao mesmo tempo. Nestes
gies de similaridade entre duas sequncias. casos, necessrio escolher um nmero de
caracteres como janela.
Alm disso, arbitrariamente, um nmero
de correspondncias deve ser escolhido. Por
exemplo, para comparar duas sequncias
com 100.000 caracteres, podemos escolher
uma janela de 15 caracteres e 10 correspon-
dncias requeridas. O algoritmo varrer a
matriz de 15 em 15 caracteres e, quando, en-
tre estes quinze caracteres, existirem 10 for-
mando correspondncias entre as duas
sequncias, o algoritmo inserir uma marca-
o de similaridade. Geralmente, esta varia-
o do mtodo utilizada para a comparao
de longas sequncias de DNA.
Por ltimo, outro algoritmo bastante
Figura 9-3: Anlise de matriz de pontos de comum no alinhamento par-a-par de dados
duas sequncias de DNA. Os pontos biolgicos o k-tuple, ou mtodo de palavras.
assinalados em cinza representam a Este mtodo geralmente mais rpido que o
concordncia de caracteres entre a sequncia mtodo de programao dinmica, embora
1 e a sequncia 2. A partir da diagonal direita no garanta o melhor alinhamento como re-
inferior, so traadas diferentes retas. Aquela sultado. Este tipo de algoritmo especial-
que atingir o maior nmero de pontos mente til em casos onde se busca
assinalados deve ser escolhida como similaridade de uma nica sequncia contra
resultado para o alinhamento entre as duas um grande conjunto de dados. Para isso, o al-
sequncias. A linha contnua representa a goritmo dividir uma sequncia alvo em pe-
possibilidade mais adequada a esta anlise e quenas sequncias, geralmente conjuntos de
as linhas tracejadas representam dois a seis caracteres, chamados de palavras.
possibilidades de insucesso. Da mesma forma, o conjunto total de se-
quncias do banco de dados ter cada uma
Neste mtodo, inicialmente, uma das das sequncias subdivida em pequenas pala-
3. Alinhamentos

vras. As palavras da sequncia alvo sero Alinhamento progressivo


comparadas s palavras oriundas do banco
de dados. Aps a busca de identidade, o algo- Leva em considerao a relao evolu-
ritmo alinhar as duas sequncias completas tiva entre as sequncias. Os algoritmos utili-
(sequncia oriunda do banco de dados que te- zam as relaes filogenticas para gerar o
ve uma palavra similar com umas das pala- resultado de alinhamento. Inicialmente, so
vras da sequncia alvo e a prpria sequncia realizados alinhamentos par-a-par de todos
alvo) a partir das palavras similares e esten- os possveis pares. Nesta comparao, verifi-
der a anlise de similaridade para as regies ca-se apenas o nmero de caracteres dife-
vizinhas, antes e depois da palavra similar. rentes entre as duas sequncias (verificar o
Atravs de uma matriz de penalidade, o algo- conceito de distncia evolutiva observada no
ritmo calcular o alinhamento que teve o captulo 6). Estas distncias sero utilizadas
maior valor de pontuao. comum, para es- para a construo de uma filogenia (geral-
ta segunda etapa dos clculos de similarida- mente atravs do mtodo de neighbor-
de, a utilizao de algoritmos de programao joining). A partir desta filogenia o alinhamento
dinmica. ser construdo progressivamente, depen-
dendo da relao entre as sequncias sendo,
3.5. Alinhamento mltiplo global por isso, chamado de alinhamento progressi-
vo.
Da mesma forma que no caso dos ali- Tomemos como exemplo um ramo de
nhamentos simples, o mtodo de programa- uma dada filogenia que inclui duas sequncias.
o dinmica usualmente utilizado para lidar O algoritmo construir um alinhamento atra-
com mltiplas sequncias. Nestes casos, uti- vs de programao dinmica para estas du-
liza-se o conceito de soma ponderada dos pa- as sequncias. A partir deste primeiro
res (weighted sum of pairs, WSP). Atravs alinhamento, estas duas sequncias sero
deste conceito, para qualquer alinhamento agora tratadas como uma, e sero alinhadas
mltiplo de sequncias, uma pontuao para prxima sequncia filogeneticamente rela-
cada par possvel formado por estas sequn- cionada. Devemos notar que todo o restante
cias ser calculada (Figura 8-3) e, ao final, os das sequncias ser alinhado baseando-se
valores de similaridade para cada um dos pa- neste primeiro par. um mtodo rpido e
res sero somados. Apesar de conceitual- amplamente utilizado para alinhar um grande
mente simples, este mtodo exige grande nmero de sequncias. Atualmente, os pro-
capacidade computacional e, dependendo da gramas mais populares de alinhamento pro-
quantidade de sequncias envolvidas, pode gressivo so o CLUSTALW e CLUSTALX.
requerer longo tempo para processamento.
Mtodos alternativos tiveram que ser Pontuao baseada em consistncia
criados para acelerar os clculos para alinha-
mento de sequncias, incluindo-se: alinha- Baseado no algoritmo de alinhamento
mento progressivo, pontuao baseada em progressivo, no leva em considerao ape-
consistncia (consistency-based scoring), nas o primeiro par de sequncias alinhadas.
mtodos iterativos de refinamento, algorit- Durante a realizao do clculo, realiza outros
mos genticos e modelos ocultos de Markov. alinhamentos par-a-par para aperfeioar as
Cabe ressaltar que todos estes mtodos rea- comparaes entre as sequncias. O principal
lizam buscas aproximadas pelo resultado ti- programa a utilizar este algoritmo o T-
mo e, portanto, se tratam de mtodos COFFEE.
heursticos.
Mtodos iterativos de refinamento
Funcionam como os algoritmos de ali-
3. Alinhamentos

nhamento progressivo, mas os grupos de se- ra avaliar a probabilidade em cada posio ou


quncias so realinhados constantemente ao para buscar sequncias com o mesmo padro
longo das anlises, garantindo que o alinha- em um banco de dados.
mento inicial no defina o resultado final. O A desvantagem do mtodo de perfis
principal programa a utilizar este algoritmo est na especificidade da nova matriz de custo
como base para os clculos de alinhamento obtida. Se o alinhamento inicial contiver pou-
o MUSCLE. cas sequncias, pode no representar ade-
quadamente a variabilidade de caracteres em
Algoritmos genticos uma determinada posio e prejudicar o al-
goritmo na busca por similaridade com outras
Estes algoritmos buscam simular o sequncias. Este mtodo principalmente
processo evolutivo no conjunto de sequncias utilizado para alinhamentos de aminocidos.
a serem alinhadas, aplicando conceito de se-
leo e recombinao. ainda um mtodo Anlise de blocos
lento e, devido aleatoriedade do processo,
no garante o mesmo resultado para dife- Assim como a anlise de perfis este
rentes alinhamentos do mesmo conjunto de mtodo requer, inicialmente, a seleo da re-
dados. O programa SAGA um dos poucos a gio de maior similaridade de um alinhamento
implementar algoritmos genticos. mltiplo. Estas regies podem ser chamadas
de blocos e diferem dos perfis por no aco-
Modelos ocultos de Markov modarem indels, que sero automaticamente
eliminados das anlises. Este mtodo tam-
Modelo baseado em probabilidades es- bm capaz de realizar a busca de pequenas
tatsticas, destacando os eventos de substi- regies de similaridade entre sequncias, de
tuio e insero ou deleo de caracteres. maneira semelhante ao mtodo de palavras.

3.6. Alinhamento mltiplo local Anlise de motivos


Na busca por regies localizadas de si- Este mtodo especialmente utilizado
milaridade entre diferentes sequncias, so na busca por motivos proteicos em sequnci-
aplicados principalmente os seguintes algo- as de aminocidos. O mtodo foi desenvolvido
ritmos: anlise de perfis, anlise de blocos e atravs do alinhamento de milhares de se-
anlise de motivos. quncias de aminocidos extradas de gran-
des bancos de dados de protenas. A partir
Anlise de perfis deste alinhamento, analisou-se cada uma das
colunas para buscar um padro de substitui-
A partir de um alinhamento primrio de o entre os aminocidos. Estes padres de
todas as sequncias envolvidas na anlise e mudana refletem uma maior probabilidade
utilizando uma matriz de custo padro, o al- de substituio. Para proceder ao alinhamen-
goritmo seleciona as regies altamente con- to, os algoritmos que aplicam a anlise de
servadas e produz uma nova matriz de motivos iniciam o processo por uma anlise
pontuao (matriz de custo), chamada de de blocos. As regies de alta similaridade so
perfil. A construo deste perfil pode ser re- ento analisadas para buscar os padres de
alizada atravs de dois mtodos diferentes substituio descritos inicialmente. O conjunto
(mtodo das mdias e mtodo evolutivo) e de padres resultante da anlise das colunas
inclui pontuaes para matches, mismatches chamado de motivo. A probabilidade de
e lacunas. Assim que produzido, este perfil existncia de cada motivo em uma sequncia
pode ser utilizado para alinhar sequncias en- de protena estimada atravs do banco de
tre si utilizando as pontuaes calculadas pa- dados do SwissProt.
3. Alinhamentos

3.7. BLAST proteica genrica incluem:


i. Remoo de repeties ou regies de
O BLAST, ou Ferramenta de Busca por baixa complexidade na sequncia de
Alinhamento Local Bsico (Basic Local busca.
Alignment Search Tool) um algoritmo capaz Uma regio de baixa complexidade definida como
de realizar buscas baseadas em alinhamento uma regio composta por poucos tipos de elementos.
que, apesar de no serem exatas, so confi- Essas regies normalmente apresentam pontuaes
veis e muito rpidas, sendo estas suas vanta- altas que podem confundir o programa em sua busca
gens em relao a outros mtodos. Ele um por sequncias com similaridade significativa. Por esse
dos programas mais usados em Bioinform- motivo, tais regies so identificadas antes da prxima
tica devido velocidade em que consegue etapa e ignoradas.
responder a um problema fundamental em ii. Estabelecer uma lista de palavras
biologia celular e molecular: comparar uma com k-letras.
sequncia desconhecida com aquelas deposi- Sendo este um caso envolvendo sequncias protei-
tadas em bancos de dados. cas, k = 3, ou seja, cada palavra tem tamanho 3. Como
O algoritmo do BLAST aumenta a velo- mostrado na Figura 10-3, so listadas palavras com
cidade do alinhamento de sequncias ao bus- comprimento de 3 caracteres, sequencialmente, at
car primeiro por palavras comuns (ou que a ltima letra da sequncia de busca seja includa.
k-tuples) na sequncia de busca e em cada
sequncia do banco de dados. Em vez de bus-
car todas as palavras de mesmo tamanho, o
BLAST limita a busca quelas palavras que
so mais significantes. O tamanho de palavra
fixado em 3 caracteres para sequncias de
aminocidos e em 11 para sequncias de nu-
cleotdeos (3 se as sequncias forem traduzi-
das nos 6 quadros de leitura possveis). Esses
so os tamanhos mnimos para obter uma
pontuao por palavras que seja alta o sufici- Figura 10-3: Exemplo de lista de palavras
ente para ser significativa sem perder frag- geradas pelo BLAST.
mentos menores, mas importantes, de
sequncia. iii. Listar as possveis palavras corres-
pondentes.
Funcionamento do algoritmo BLAST Diferente de outros algoritmos (como o FASTA), o
BLAST considera apenas as palavras de maior pontua-
Para funcionar, o BLAST necessita de o. As pontuaes so estabelecidas por comparao
uma sequncia de busca (query) e de sequn- das palavras listadas na etapa ii com todas as outras
cias alvo. Comumente, as sequncias alvos palavras de 3 letras. Uma matriz de substituio
so o conjunto de sequncias depositadas em (BLOSUM62) usada para pontuar as comparaes
um banco de dados, local ou na web. Um dos entre pares de resduos. Existem 203 possveis pontua-
conceitos principais empregados pelo BLAST es de correspondncia considerando uma palavra de
de que alinhamentos estatisticamente signi- 3 letras. Como exemplo, a comparao das palavras
ficantes contm pares de segmentos de alta PQG e PEG tem pontuao de 15, enquanto a compara-
pontuao (HSP, high-scoring segment pairs), o de PQG com PQA pontua como 12. A seguir, um li-
e so esses HSPs que o algoritmo busca entre miar T para pontuao de palavras vizinhas usado
a sequncia sendo analisada e aquelas depo- para reduzir o nmero de possveis palavras corres-
sitadas no banco de dados. pondentes. As palavras cujas pontuaes forem maio-
As principais etapas do funcionamento res que o limiar T sero mantidas na lista de possveis
do algoritmo BLAST, para uma sequncia correspondncias, enquanto aquelas cujas pontuaes
3. Alinhamentos

forem menores sero descartadas. Considerando o ex- regies de correspondncia exata com distncia menor
emplo anterior, se T = 13, PEG ser mantida, enquanto que A na mesma diagonal sero unidas como uma nova
PQA ser abandonada. regio, mais extensa. Posteriormente, essas regies
iv. Organizar as palavras de alta pontu- so estendidas da mesma maneira como ocorre no
ao. BLAST original, com os HSPs sendo pontuados com
As palavras remanescentes, com alta pontuao, base em uma matriz de substituio.
so organizadas em uma rvore de busca. Isso permite
que o programa compare as palavras com as sequn-
cias do banco de dados de maneira rpida.
v. Repetir os passos iii e iv para cada
palavra de k-letras originadas da se-
quncia de busca.
vi. Varrer as sequncias do banco de
dados em busca de correspondncias
com as palavras remanescentes.
O BLAST realiza uma varredura das sequncias de-
positadas no banco de dados, buscando pelas palavras
de alta pontuao (como PEG, no exemplo anterior). Se
uma correspondncia exata for encontrada, ela ser
empregada para nuclear um possvel alinhamento sem Figura 12-3: Esquema da extenso de zonas
lacunas (gaps) entre a sequncia de busca e a deposi- de correspondncia entre sequncias
tada no banco de dados. identificadas pelo BLAST.
vii. Estender as correspondncias exa-
tas entre pares de segmentos de alta viii. Listar todos os HSPs do banco de
pontuao. dados cuja pontuao seja alta o sufici-
A verso original do BLAST estende o alinhamento ente.
para a esquerda e para a direita de onde ocorre uma Nessa etapa so listados todos os pares de seg-
correspondncia exata. A extenso parada apenas mentos cuja pontuao seja maior que um determina-
quando a pontuao acumulada pelo HSP comea a di- do ponto de corte S. A distribuio de pontuaes
minuir (um exemplo pode ser visto na Figura 11-3). obtidas por alinhamento de sequncias aleatrias a
base para determinao desse ponto de corte.
ix. Avaliar a significncia da pontuao
dos HSPs.
A avaliao estatstica de cada par de segmentos de
alta pontuao explora a Distribuio de Valores Extre-
mos de Gumbel. O valor de confiana estatstica e
apresentado pelo BLAST, chamado de valor de expec-
tativa, reflete o nmero de vezes que uma sequncia
no relacionada presente no banco de dados pode ob-
ter, ao acaso, um valor maior que S (ponto de corte).
Figura 11-3: Exemplo do esquema de Ou seja, o e reflete o nmero de falsos positivos entre
pontuao empregado pelo BLAST. os resultados de similaridade encontrados. Para p < 0,1,
o valor e se aproxima da distribuio de Poisson (ver
Para acelerar o processo, a verso atual do BLAST item 4.8).
(BLAST2 ou Gapped BLAST) emprega um limiar mais x. Transformar duas ou mais regies de
baixo para a vizinhana das palavras, mantendo a sen- HSP em um alinhamento maior.
sibilidade na deteco de similaridade de sequncias. Em alguns casos, duas ou mais regies de HSP po-
Assim, a lista de possveis correspondncias obtidas na dem ser combinadas em um trecho maior de alinha-
etapa iii maior. Como observado na Figura 12-3, as mento (uma evidncia adicional da relao entre a
3. Alinhamentos

sequncia de busca e a encontrada no banco de dados). sentes no banco de dados especificado


Existem dois mtodos para comparar a significncia pelo usurio.
das novas regies ligadas. Se, por exemplo, forem en- ii. blastp: BLAST protena-protena.
contradas duas regies de HSP combinadas com pares Usando uma sequncia proteica como
de pontuao (67 e 41) e (53 e 45), cada mtodo se entrada, d como resultado as sequn-
comportar de maneira diferente. O mtodo de Poisson cias proteicas mais similares presentes
conferir maior significncia ao conjunto com valor m- no banco de dados especificado pelo
nimo maior (45 em vez de 41). O mtodo de soma dos usurio.
pontos, ao contrrio, dar preferncia ao primeiro con- iii. blastpgp: BLAST iterativo com espe-
junto, pois 108 (67+41) maior que 98 (53+45). O cificidade de posio (PSI-BLAST). Usado
BLAST original usa o primeiro mtodo, enquanto o para encontrar protenas distantemente
BLAST2 emprega o segundo. relacionadas. Nesse caso, uma lista de
xi. Exibir os alinhamentos locais entre a protenas proximamente relacionadas
sequncia de busca e cada uma das criada. Essa lista serve de base para a
correspondncias no banco de dados. criao de uma sequncia mdia, que
O BLAST original produz apenas alinhamentos sem resume as caractersticas importantes
lacunas (gaps), incluindo cada um dos HSPs encontra- do conjunto de sequncias. A sequncia
dos inicialmente, mesmo que mais de uma regio de mdia usada para buscar sequncias
correspondncia seja encontrada numa mesma se- similares no banco de dados e um grupo
quncia do banco de dados. O BLAST2 produz um nico maior de protenas encontrado. O gru-
alinhamento com lacunas, podendo incluir todas as re- po maior usado na construo de uma
gies de HSP encontradas. importante destacar que o nova sequncia mdia e o processo
clculo da pontuao e do valor e leva em conta as pe- repetido. Ao incluir protenas relaciona-
nalidades por abertura de lacunas no alinhamento. das na busca, o PSI-BLAST muito mais
xii. Registrar as correspondncias en- sensvel na percepo de relaes evo-
contradas. lutivas distantes que o BLAST protena-
Quando o valor e dos alinhamentos encontrados protena tradicional.
entre a sequncia de busca e as do banco de dados sa- iv. blastx: traduo de nucleotdeos em
tisfazem o ponto de corte estabelecido pelo usurio, a 6 quadros-protena. Compara os produ-
correspondncia registrada. Os resultados da busca tos de traduo conceitual nos 6 qua-
so apresentados de forma grfica, seguidos por uma dros de leitura de uma sequncia de
lista de correspondncias organizada pela pontuao e nucleotdeos contra o banco de dados
pelo valor e, e finalizam com os alinhamentos. A Figura de sequncias proteicas.
13-3 traz um exemplo de resultado obtido pelo BLAST. v. tblastx: traduo de nucleotdeos em
6 quadros-traduo de nucleotdeos em
Diferentes tipos de BLAST 6 quadros. O mais lento dos programas
BLAST, tem por objetivo encontrar rela-
O BLAST constitui uma famlia de pro- es distantes entre sequncias de nu-
gramas, que podem ser usados para diferen- cleotdeos. Ele traduz a sequncia de
tes fins, dependendo das necessidades do nucleotdeo nos 6 possveis quadros de
usurio. Esses programas variam quanto ao leitura e compara os resultados contra a
tipo de sequncia de busca, o banco de dados traduo nos 6 quadros de leitura das
a ser empregado, e o tipo de comparao a sequncias de nucleotdeos depositadas
ser realizada. As diferentes aplicaes dispo- no banco de dados.
nveis pelo BLAST incluem: vi. tblastn: protena-traduo de nucle-
i. blastn: BLAST nucleotdeo-nucleot- otdeos em 6 quadros. Compara uma
deo. Usando uma sequncia de DNA co- sequncia de protena contra a traduo
mo entrada, d como resultado as nos 6 quadros de leitura das sequncias
sequncias de DNA mais similares pre- de nucleotdeos depositadas no banco
3. Alinhamentos

Figura 13-3: Exemplo de um resultado de busca realizada pelo BLAST. Diferentes informaes
so apresentadas: 1) representao grfica de domnios conservados identificados na
sequncia; 2) representao grfica de matches, indicando qualidade do alinhamento e
cobertura das sequncias identificadas; 3) informaes estatsticas dos resultados encontrados,
incluindo identidade e valor e; 4) alinhamento de cada sequncia encontrada com a sequncia de
busca (query).

de dados. dados. Os resultados so ps-analisa-


vii. megablast: para empregar um gran- dos em busca de alinhamentos individu-
de nmero de sequncias de busca. ais.
Quando se compara um grande nmero
de sequncias de busca (especialmente 3.8. Significncia estatstica
no BLAST por linha de comando), o
megablast muito mais rpido que o Em determinados casos, especialmente
BLAST executado por vrias vezes se- para buscar evidncia de homologia entre se-
guidas. Ele agrupa muitas sequncias de quncias, o alinhamento analisado sob o
busca, formando uma grande sequncia, ponto de vista estatstico. Nessa ptica, po-
antes de realizar a busca no banco de demos calcular quo bom pode ser um ali-
3. Alinhamentos

nhamento simplesmente levando em consi- a homologia destas sequncias, dado que se-
derao as razes de chance de alinhamento quncias no relacionadas podem conter si-
entre nucleotdeos quaisquer. Para isso, se- milaridades devido evoluo convergente.
quncias de nucleotdeos ou aminocidos so
geradas aleatoriamente, alinhadas em con- 3.9. Alinhamento de 2 estruturas
junto e avaliadas, segundo um determinado
esquema de pontuao. Para alinhamentos O alinhamento de estruturas um pro-
globais, pouco se sabe a respeito destas dis- blema matematicamente complexo que s
tribuies randmicas. No entanto, felizmen- pode ser resolvido por algoritmos heursticos.
te, estas tcnicas so bem entendidas para A Figura 14-3 apresenta um exemplo de ali-
casos de alinhamentos locais e, atualmente, nhamento estrutural simples. Diferentes al-
so amplamente utilizadas para a avaliao goritmos oferecem resultados diferentes
de similaridade, especialmente em bancos de para o alinhamento, e algumas vezes essas
dados que comportam grande quantidade de diferenas so grandes. Por esse motivo
sequncias. importante testar diferentes programas de
Para analisar a probabilidade associada alinhamento estrutural. Cada um deles tem
a determinado alinhamento necessrio, ini- pontos fortes e fracos, que podem ser explo-
cialmente, gerar um modelo aleatrio das se- rados a partir da leitura dos artigos que os
quncias em anlise. Esses novos propuseram originalmente.
alinhamentos sero pontuados seguindo um
determinado esquema de pontuao. Neste
contexto, ser calculada a probabilidade de se
obter aleatoriamente uma pontuao pelo
menos igual pontuao do alinhamento ori-
ginal. O valor associado aos mltiplos testes
realizados chamado de valor e (e-value).
Para banco de dados, este valor corresponde
ao nmero de distintos alinhamentos, com
uma pontuao igual ou melhor, que so es-
perados ocorrer na busca por sequncias si-
milares simplesmente por razes de chance
(aleatrios). Estes clculos estatsticos levam
em considerao a pontuao do alinhamento
e o tamanho do banco de dados. Quanto me-
nor o valor e, menor o nmero de chances de
uma determinada sequncia ser alinhada ale-
atoriamente com outras e, portanto, mais
significante o resultado. Por exemplo, um Figura 14-3: Exemplo de alinhamento de duas
valor e de 1e-3 (1x10-3 ou 0,001) significa que estruturas proteicas, oriundas de diferentes
h a chance de 0,001 de que a sequncia alvo organismos: hemoglobina humana e
seja alinhada com uma sequncia aleatria do mioglobina de elefante-asitico.
banco de dados. Por exemplo, em um banco
de dados que contm 10.000 sequncias, Existem trs etapas essenciais para as
neste caso, esperaramos encontrar at 10 diferentes estratgias de alinhamento estru-
outras sequncias que alinharo significativa- tural: a representao, a otimizao e a pon-
mente com a sequncia alvo. importante tuao. A representao se refere s
ressaltar que o fato de encontrarmos um va- maneiras de representar as estruturas de
lor e prximo de zero na comparao entre uma forma que no seja dependente de coor-
duas sequncias no necessariamente denota denadas espaciais e que seja adequada ao ali-
3. Alinhamentos

nhamento. A otimizao lida com a amostra- SARF2: transforma as coordenadas em um conjun-


gem do espao de possveis solues para o to de elementos de estrutura 2ria. Posteriormente,
alinhamento entre as estruturas. A pontuao avalia pares desses elementos comparando o ngulo
lida com a classificao dos resultados obti- entre eles, a menor distncia entre seus eixos e as dis-
dos e com sua significncia estatstica. A se- tncias mnimas e mximas entre cada elemento e a li-
guir apresentamos as caractersticas nha mdia. Um otimizador baseado em grafos
especficas de alguns dos mtodos mais utili- empregado para obter o maior nmero de conjuntos
zados para o alinhamento de duas estruturas. mutuamente compatveis, e ento o alinhamento final
DALI: emprega matrizes de distncias para repre- calculado por adio de mais resduos at que um valor
sentar as estruturas, transformando as estruturas 3D mnimo de RMSD, definido pelo usurio, seja atingido. A
em conjuntos 2D de distncias entre C. Se imaginar- pontuao final do alinhamento calculada como fun-
mos a sobreposio das matrizes, as regies de sobre- o do RMSD e do nmero de C pareados entre as es-
posio na diagonal representam similaridades na truturas. A significncia estatstica obtida por
estrutura 2ria (similaridades no esqueleto polipeptdi- comparao distribuio de pontuaes obtidas pelo
co), e similaridades fora da diagonal representam simi- alinhamento da protena leghemoglobina a centenas de
laridades na estrutura 3ria. As matrizes so ento estruturas no redundantes.
divididas em matrizes menores, de tamanho fixo, com CE: representa as protenas como conjuntos de dis-
base nas similaridades encontradas. Cada submatriz tncias entre C de oito resduos consecutivos na es-
unida a outras que sejam adjacentes para obter a ma- trutura. Primeiramente, so identificados todos os
triz de sobreposio com maior abrangncia. A signifi- pares de octmeros compatveis entre as estruturas.
cncia estatstica do alinhamento calculada com base Posteriormente, um algoritmo de extenso combina-
na distribuio encontrada em uma comparao de tria identifica e combina os pares mais similares entre
centenas de estruturas de baixa identidade. A pontua- as estruturas, adicionando mais pares a cada etapa do
o apresentada como nmero de desvios-padro clculo at a obteno do melhor alinhamento. A signi-
em relao a tal distribuio. ficncia estatstica dada por comparao s pontua-
SSAP: cria vetores ligando resduos a partir dos C, es obtidas em um conjunto de alinhamentos entre
representando a estrutura em duas dimenses, consi- estruturas com menos de 25% de identidade de se-
derando posio e direo. Um algoritmo de progra- quncia.
mao dinmica identifica similaridades entre as MAMMOTH: transforma as coordenadas da protena
matrizes de vetores, gerando uma nova matriz que em um conjunto de vetores unitrios a partir dos C de
posteriormente recalculada considerando as diferen- heptmeros consecutivos. A similaridade entre hept-
as entre cada posio de similaridade encontrada na meros calculada pela sobreposio de seus vetores,
primeira etapa em relao s outras posies de simi- a matriz de similaridade tima identificada e ento o
laridade, at que uma matriz tima seja atingida. A melhor alinhamento local entre estruturas identifica-
pontuao do SSAP no estatstica, mas foi calibrada do dentro de um valor de RMSD pr-definido. A signifi-
em relao ao banco de dados CATH. Assim, uma pon- cncia estatstica dada pelo valor p, baseado na
tuao maior que 70 indica similaridade entre as estru- comparao com a pontuao de alinhamentos obtidos
turas comparadas. aleatoriamente.
VAST: cria vetores a partir de elementos de estru- SALIGN: representa as protenas por um conjunto
tura 2ria cujo tipo, direo e conexo esto relaciona- de propriedades ou caractersticas calculadas a partir
dos com a topologia da protena. Esses elementos da sequncia e da estrutura ou definidas arbitraria-
(fragmentos) de estrutura 2ria so alinhados e compa- mente pelo usurio. Tais propriedades incluem tipo de
rados com alinhamentos gerados aleatoriamente. Ali- resduo, distncia entre resduos, acessibilidade da ca-
nhamentos com boa pontuao so agrupados e deia lateral, estrutura 2ria, conformao local da es-
depois realinhados usando um procedimento de otimi- trutura e caracterstica a ser definida pelo usurio. O
zao por Monte Carlo. A significncia estatstica da- programa calcula uma matriz de dissimilaridade entre
da pelo valor p (assim como ocorre no BLAST). O valor propriedades equivalentes, e a pontuao da dissimila-
p proporcional probabilidade de se obter o alinha- ridade calculada pela soma das matrizes de cada ca-
mento ao acaso. racterstica. A melhor sobreposio de matrizes
3. Alinhamentos

obtida por um algoritmo baseado em programao di- CE-MC: realiza o refinamento de um conjunto de ali-
nmica. A significncia estatstica no calculada pelo nhamentos de pares de estruturas empregando uma
SALIGN e o usurio obtm apenas os valores da pontu- tcnica de otimizao de Monte Carlo. O algoritmo mo-
ao de dissimilaridade. O programa fornece, entre- difica o alinhamento mltiplo aleatoriamente, e as mo-
tanto, um valor adicional de qualidade, apresentado dificaes so aceitas se houver melhoria na
como porcentagem de C cuja distncia menor que pontuao do alinhamento. O processo encerra quando
3,5 entre os pares de estruturas alinhadas. o alinhamento mltiplo no puder mais ser melhorado
por modificaes aleatrias.
MAMMOTH-Mult: essa extenso do MAMMOTH gera
inicialmente todos os alinhamentos de estruturas aos
3.10. Alinhamento de >2 estruturas pares. Um procedimento de organizao por mdias
empregado para agrupar as estruturas com base em
A maior parte dos mtodos disponveis suas similaridades aos pares, gerando uma rvore. O
para o alinhamento mltiplo de estruturas alinhamento mltiplo gerado por reorganizao des-
inicia-se estabelecendo todos os alinhamentos sa rvore, onde ramos similares vo sendo agrupados
entre pares de estruturas e, ento, emprega- aos pares, iterativamente.
os para estabelecer um alinhamento consen- SALIGN: pode realizar alinhamentos mltiplos de
so entre todas as estruturas. A Figura 15-3 duas maneiras, baseado em uma rvore ou por alinha-
apresenta um exemplo de alinhamento estru- mento progressivo. O primeiro caso muito similar ao
tural mltiplo. Os mtodos para obter o ali- MAMMOTH-Mult. No alinhamento progressivo, as es-
nhamento consenso variam entre os truturas so alinhadas na ordem em que so forneci-
programas de alinhamento. A seguir apre- das para o programa. A vantagem desse mtodo o
sentamos as caractersticas especficas de de seu custo computacional ser menor que o do mto-
alguns dos mtodos mais utilizados para o do baseado em uma rvore.
alinhamento de estruturas mltiplo.
3.11. Alinhamento flexvel
O alinhamento de estruturas conside-
rando sua flexibilidade est se tornando cada
vez mais importante devido melhor com-
preenso do enovelamento proteico. Cada vez
mais, percebe-se que no existem enovela-
mentos estanques, mas sim um gradiente
densamente populado por variantes confor-
macionais. Desta forma, torna-se mais difcil
definir domnios proteicos, sendo mais ade-
quado descrever as estruturas como conjun-
tos de estruturas supra-secundrias. Com
base nessa proposta, a diferena entre prote-
nas relacionadas reside na orientao relativa
desses subdomnios. A Figura 16-3 demonstra
as diferenas que podem ser observadas ao
alinhar um par de estruturas de maneira rgi-
da ou flexvel. A seguir apresentamos as ca-
Figura 15-3: Exemplo de alinhamento de ractersticas especficas de alguns dos
mltiplas estruturas proteicas, oriundas de mtodos mais utilizados para este tipo de ali-
diferentes organismos (histonas H3 de nhamento de estruturas.
levedura, mosca-da-fruta, homem, frango, FATCAT: o algoritmo adiciona tores entre pares
sapo-de-garras). de fragmentos proteicos alinhados, que so tratados
3. Alinhamentos

3.12. Conceitos-chave
Algoritmo: sequncia lgica de instrues ne-
cessrias para executar uma tarefa.

Alinhamento: mtodo de organizao de se-


quncias ou estruturas biolgicas para
evidenciar regies similares e dissimilares.
Estes mtodos esto geralmente atrelados
a inferncias funcionais ou evolutivas.

Alinhamento Mltiplo: alinhamento que envolve


mais de duas sequncias ou estruturas

Figura 16-3: Comparao entre alinhamento Alinhamento Simples: alinhamento que envolve
estrutural rgido e flexvel. A estrutura da apenas duas sequncias ou estruturas.
protena HasA (um captador bacteriano de
grupamentos heme) foi obtida para suas BLAST: Basic Local Alignment Search Tool (Fer-
formas intra- e extra-celular. Observe que o ramenta de Busca por Alinhamento Local
alinhamento rgido identifica similaridade Bsico), empregado para buscar sequn-
parcial entre as estruturas, enquanto o cias em bancos de dados com base em
alinhamento flexvel detecta o rearranjo sua similaridade.
espacial de parte da protena, evidenciando
sua identidade. Homologia: um termo essencialmente qualita-
tivo que denota uma ancestralidade co-
como corpos rgidos. De maneira geral, o programa mum de determinada sequncia.
permite a incluso dessas tores quando elas diminu-
em o valor final do RMSD, refletindo em um melhor HSP: pares de segmentos de alta pontuao
alinhamento estrutural. O alinhamento final obtido (high-scoring segment pairs), zonas de
por programao dinmica e se baseia na matriz de si- similaridade entre sequncias identificadas
milaridade entre os fragmentos pareados, obtidos na pelo BLAST.
primeira etapa do clculo.
FLEXPROT: mantm uma das protenas rgida, en- Identidade: Porcentagem de caracteres similares
quanto a outra pode sofrer alteraes em busca de entre duas sequncias (excluindo-se as
maior similaridade estrutural. As regies potencial- lacunas).
mente flexveis da protena so detectadas automati-
camente e empregadas nas alteraes Indels: identifica inseres e delees de carac-
conformacionais. teres ao longo do processo evolutivo.
ALADYN: alinha pares de estruturas com base em
sua dinmica interna e similaridade entre seus movi- Lacunas: regies identificadas por hifens que
mentos de grande escala. O posicionamento timo en- representam a insero/deleo de carac-
tre as protenas encontrado ao maximizar as teres ao longo do processo evolutivo.
similaridades entre os padres de flutuao estrutural,
que so calculados pelo modelo de redes elsticas. Matches: regies que apresentam caracteres
POSA: uma variante do FATCAT para o alinhamento idnticos entre diferentes sequncias.
mltiplo flexvel de estruturas. Emprega uma metodo-
logia combinada, introduzindo grafos de ordem parcial Mismatches: regies que apresentam caracteres
para visualizar e agrupar regies similares entre as es- no idnticos entre diferentes sequncias.
truturas.
3. Alinhamentos

Penalidades por lacuna (PL): conjunto de par-


metros necessrios para atribuir a pontu-
ao para uma lacuna em um sistema de
alinhamento por pontuao.

RMSD: desvio mdio quadrtico.

Traduo: traduo (in silico) de uma sequncia


de mRNA em sua possvel sequncia pro-
teica correspondente

3.13. Leitura recomendada


BOGUSKI, Mark S. A molecular biologist visits
Jurassic Park. Biotechniques, 12, 668-
669, 1992.

CARUGO, Oliviero. Recent progress in measuring


structural similarity between proteins.
Curr. Protein. Pept. Sci., 8, 219-241,
2007.

MADDEN, Tom. The BLAST sequence analysis


tool. In: McENTYRE, Jo; OSTELL, Jim
(Org.). The NCBI Handbook. Bethesda:
National Center for Biotechnology
Information, 2002.

MARTI-RENOM, Marc A.; et al. Structure


comparison and alignment. In: GU, Jenny;
BOURNE, Philip E. (Org.). Structural
Bioinformatics. 2.ed. Hoboken: John
Wiley & Sons, 2009.

MAYR, Gabriele; DOMINGUES, Francisco S.;


LACKNER, Peter. Comparative analysis of
protein structure alignments. BMC Struct.
Biol., 7, 50, 2007.

MOUNT, David W. Bioinformatics: Sequence


and Genome Analysis. 2.ed. Cold Spring
Harbor: Cold Spring Harbor Laboratory
Press, 2004.

ROSSMANN, Michael G.; ARGOS, Patrick. The


taxonomy of binding sites in proteins.
Mol. Cell. Biochem., 21, 161-182, 1978.
4. Projetos Genoma

Charley Christian Staats


Guilherme Loss de Morais
Rogrio Margis

Representao da montagem de genomas. gias de sequenciamento cada vez menos one-


rosas, muito tem se investido na gerao de
4.1. Introduo algoritmos e programas para analisar as se-
quncias genmicas geradas. Previamente s
4.2. Montagem de genomas anlises do genoma de H. influenzae, progra-
mas para montagem de genomas j existiam,
4.3. Montagem de transcriptomas tendo sido desenvolvidos para anlise de vo-
lumes de sequncias relativamente pequenos,
4.4. Identificao/anotao gnica como os dos fagos e CMV, com tamanhos
de aproximadamente 48.000 pares de bases
4.5. Identificao/anotao RNAnc (pb) e 229.000 pb, respectivamente. Para
genomas maiores, novos programas tiveram
4.6. Conceitos-chave que ser desenvolvidos em virtude da maior
complexidade e quantidade das sequncias
analisadas. Neste captulo, sero abordados
os conceitos bsicos e as principais ferra-
4.1. Introduo mentas para montagem e anotao de geno-
mas, assim como alguns programas para a
A anlise in silico das sequncias nucle- sua anlise.
otdicas de cromossomo(s) de um dado orga-
nismo, ou simplesmente genoma, constitui 4.2. Montagem de genomas
uma da mais importantes aplicaes da bioin-
formtica. Tem como objetivo desenvolver e Nos primeiros anos da era genmica, o
utilizar ferramentas para identificar e carac- sequenciamento de genomas era baseado na
terizar genes, elementos genticos mveis e metodologia de Sanger, ou mtodo didexi.
outros elementos presentes em um determi- Para obteno da sequncia dos genomas, os
nado genoma, assim como fazer intercorre- fragmentos de DNA gerados aps fragmen-
laes entre diferentes genomas com o tao qumica, fsica ou enzimtica eram sub-
intuitodebuscaraspectosevolutivoscomuns. clonados em vetores plasmidiais. Esta estra-
O primeiro organismo a ter a sequncia tgia, denominada sequenciamento shotgun,
de nucleotdeos de seu genoma determinado baseada na fragmentao aleatria dos cro-
foi a bactria Gram negativa Haemophilus mossomos em fragmentos de DNA com ta-
influenzae, em um projeto liderado por J. manho relativamente pequeno. Estes
Craig Venter. Desde 1995, ano de publicao fragmentos, cujo tamanho geralmente varia-
desta anlise genmica, as sequncias de mi- va de 2.000 a 5.000 pb, eram submetidos ao
lhares de genomas de outros organismos j sequenciamento. As sequncias obtidas a
foram determinadas e analisadas, no apenas partir de cada clone (chamadas de reads),
de espcies, mas tambm de variedades de com tamanho mdio de 600 a 800 pb, eram
espcies, raas e linhagens, entre outros. submetidos a um processamento para retira-
Com a grande disseminao de estrat- da de sequncias de baixa qualidade e, ento,
4. Projetos Genoma

utilizadas na montagem de contigs e genomas um destes reads alinhado entre si na procu-


(ver abaixo). ra de regies de identidade ou de sobreposi-
Com o advento das metodologias deno- o, de maneira a construir fragmentos
minadas next-generation sequencing NGS contguos (contigs), os quais podem ser defi-
(pirossequenciamento, Illumina, SOLiD, dentre nidos como a unio de duas ou mais sequn-
outros), tambm ocorre fragmentao alea- cias (reads) formadas por sobreposio de
tria do DNA genmico, mas geralmente no elementos comuns a pelo menos duas se-
so necessrios os passos de clonagem. quncias (Figura 1-4).
Comparativamente, estes novos mtodos Os primeiros algoritmos para montagem de geno-
permitem a obteno de reads de maneira mas se baseavam no alinhamento dos reads e na con-
muito mais rpida. Entretanto, o tamanho dos catenao de sequncias obtidas dos reads com os
reads menor, variando de algumas dezenas maiores alinhamentos. O processo se dava de forma
a poucas centenas de pares de base, depen- cclica, concatenando as sequncias com o maior ali-
dendo da metodologia. Assim como no se- nhamento at que todos estes alinhamentos fossem
quenciamento por Sanger, os reads obtidos utilizados. Esta montagem de genomas a partir de
passam por um controle de qualidade e ento reads tem como base os seguintes passos:
podem ser utilizados na montagem de geno- i) clculo de alinhamentos aos pares de todos os
mas. fragmentos;
Independente da metodologia de se- ii) escolha de dois fragmentos com a maior so-
quenciamento utilizada, como resultado se breposio;
tem uma grande lista de sequncias nucleot- iii) fuso dos dois fragmentos;
dicas - os reads - de tamanhos que podem iv) repetio dos passos anteriores at obteno
variar de 50 a 800 pb. Para montagem das de uma nica sequncia.
sequncias genmicas a partir destes reads,
diferentes estratgias so utilizadas, depen- Para as novas metodologias de sequenciamento,
dendo da metodologia empregada. Para o se- devido ao tamanho relativamente menor dos fragmen-
quenciamento convencional (Sanger), cada tos, algoritmos diferentes foram desenvolvidos. Os

Figura 1-4: Montagem de genomas utilizando a estratgia de sequenciamento de genomas por


shotgun. O painel esquerda ilustra um esquema utilizado para genomas de menor tamanho e
reduzido contedo de sequncias repetitivas. O painel direita ilustra uma estratgia mais
complexa, usado para organismos com genoma maior.
4. Projetos Genoma

programas de montagem atuais utilizam grafos de so- Tabela 1-4: Principais programas utilizados na
breposio ou grafos de Bruijn. Estes grafos identifi- montagem de genomas e transcriptomas.
cam reads com possibilidade de compartilharem Nome Anlise
trechos de sobreposio entre si utilizando uma estra- ABySS grandes genomas
tgia baseada no alinhamento em sementes.
ALLPATHS-LG grandes genomas
Com esta abordagem, pequenos fragmentos de
comprimento fixo obtido de cada read, os k-mers, so Celera WGS Assembler grandes genomas
usados como um ndice, e apenas pares de leituras que CLC Genomics genomas e
partilham uma semente so posteriormente avaliados. Workbench trancriptomas
Os grafos de Bruiijn baseiam-se na decomposio de Geneious genomas
reads em k-mers (por exemplo dodecmeros, ou seja Newbler genomas e
fragmentos de 12 nucleotdeos), os quais so utilizados transcriptomas
como nodos destes grafos. Uma ligao direta entre os genomas e
Phrap
nodos indica que estes k-mers ocorrem consecutiva-
transcriptomas
mente em um ou mais reads.
SOAPdenovo genomas e
Uma srie de programas foram desen-
transcriptomas
volvidos para a montagem de genomas, utili-
Staden gap4 package genomas pequenos e
zando diferentes algoritmos (Tabela 1-4). No
transcriptomas
caso de sequenciamento de genomas proca-
Trans-ABySS transcriptomas
riticos, ao final do processo esperada a
obteno de uma sequncia nica, a qual re- Velvet genomas pequenos e
presenta toda a sequncia nucleotdica do transcriptomas
cromossomo. Sabe-se, todavia, que plasm-
deos podem ser encontrados em diversos mais de 3 bilhes de pares de base (ca-
micro-organismos. Assim o nmero de so do genoma humano).
contigs ser dependente do nmero de plas-
mdeos e, em casos menos frequentes, do Para sobrepujar estas dificuldades, pas-
nmero de cromossomos presentes naquela sos intermedirios se tornam necessrios,
bactria. como a construo de sub-bibliotecas gen-
Ao ser analisado o genoma de organis- micas. Cada uma destas sub-bibliotecas se-
mos eucariotos, nos quais se encontra uma quenciada, de forma a gerar contigs. O
grande variao no nmero de cromossomos, conjunto de diferentes contigs oriundos de di-
um nmero maior de contigs esperado. Te- ferentes sub-bibliotecas ser utilizado para a
oricamente, cada cromossomo deveria ser gerao de scaffolds (Figura 1-4). Geralmen-
representado por um contig. Entretanto, nos te, so necessrios passos adicionais de clo-
passos iniciais de montagem de genomas so nagens de regies especficas do genoma e
observados dezenas a centenas de contigs, posterior sequenciamento destas para o fe-
dependendo da complexidade do organismo chamento do genoma.
cujo genoma esta sendo sequenciado. Os ge- Um dos maiores desafios, entretanto, para o se-
nomas de eucariotos, em especial de eucari- quenciamento de genomas reside na adequada monta-
otos superiores, possuem pelo menos duas gem de regies repetitivas. No genoma humano, por
caractersticas que tornam o processo de exemplo, existem pelo menos seis classes de sequn-
montagem mais complexo: cias repetitivas:
i) uma quantidade considervel de se- i) minissatlites, microssatlites ou satlites;
quncias repetitivas que dificulta o pro- ii) SINEs (elementos nucleares pequenos inter-
cesso de montagem devido a calados);
alinhamentos de alto escore com diver- iii) LINEs (elementos nucleares longos intercala-
sas sequncias; dos);
ii) o seu tamanho, podendo chegar a iv) transposons;
4. Projetos Genoma

v) retrotransposons; os mesmos se baseiam na circularizao do fragmento


vi) clusters de genes DNAr (genes responsveis de DNA do tamanho desejado, sendo as extremidades
pela sntese dos RNA ribossmicos RNAr). posteriormente reconhecidas devido etiqueta (tag)
utilizada para propiciar a circularizao por meio da li-
Estas diferentes classes, cujos tamanhos podem gao. Com a determinao das sequncias flanquea-
variar de centenas de pares de base, caso de micros- doras de uma repetio, h maior chance de conseguir
satlites e SINEs, a dezenas de milhares de pares de determinar a sua localizao em um genoma.
base, observado em clusters de genes DNAr, podem A qualidade de montagem do genoma
constituir mais de 50 % do tamanho de cada cromos- pode ser acompanhado por alguns ndices. A
somo humano. cobertura reflete a quantidade de reads as-
O grande desafio na montagem de sequncias ge- sociados a um determinado fragmento de
nmicas com alto contedo de elementos repetitivos DNA. Por exemplo, uma cobertura de 10X in-
se refere a correta quantificao e localizao destes dica que, para o genoma sendo avaliado, cada
elementos nos cromossomos. Desta forma, o desafio nucleotdeo foi encontrado em pelo menos 10
central da montagem de genomas reside na resoluo reads.
destas sequncias repetitivas, estando este desafio di- Outro valor importante refere-se ao
retamente associado metodologia de sequenciamen- N50. Trata-se de uma medida estatstica mui-
to utilizada. Por exemplo, se forem obtidos reads de to utilizada para avaliar a qualidade da mon-
tamanho menor que uma unidade de repetio, todos tagem, visto que revela o quanto de um
estes reads sero utilizados para formar um contig que genoma coberto por contigs grandes. Um
contm apenas a sequncia de repetio. Entretanto, valor de N50 igual a n significa que 50% dos
ao serem obtidos reads com tamanho maior que a uni- reads esto montados em um contig de ta-
dade de repetio, os mesmos podem ser utilizados na manho n ou maior. Por exemplo, na monta-
resoluo da localizao destas sequncias repetitivas gem do genoma de co domstico,
em um determinado cromossomo. depositado no NCBI sob o nmero de acesso
Alguns programas permitem montar genomas AAEX03, o sequenciamento dos 40 cromos-
complexos com repeties baseados em reads maio- somos, com uma sequncia total de
res (como os obtidos pela metodologia de Sanger ou 2.410.976.875 bases gerou 27.106 contigs
pirosequenciamento). Para tal, estes programas reali- com um N50 de 267.678. Isto significa que
zam a montagem em duas ou mais fases distintas, nas mais de 50% dos reads esto associados a
quais as sequncias repetitivas so processadas sepa- contigs de 267.678 bases ou maiores.
radamente. Em um primeira fase do processo de mon-
tagem, reads contendo sobreposio de sequncias 4.3. Montagem de transcriptomas
no ambguas so agrupados em contigs, cujas extre-
midades contm as regies limtrofes das sequncias Em anlises de novos genomas, um
de repetio. A segunda fase se caracteriza pela mon- ponto importante se refere identificao de
tagem de contigs no ambguos em sequncias maio- transcritos. Alm de fornecer indcios sobre
res, usando dados de reads mate-pair. quais genes esto sendo expressos em uma
Dados de sequenciamento paired-end oferecem a determinada situao fisiolgica a qual as c-
possibilidade da determinao exata de sequncias que lulas ou tecidos esto sendo expostos, o se-
flanqueiam uma determinada sequncia de repetio. quenciamento de transcritos tem uma
Em experimentos tradicionais associados ao sequenci- aplicao importante na procura de sequn-
amento de Sanger, um protocolo paired-end inicia-se cias codificantes em genomas. Esta estratgia
com longos fragmentos de DNA clonados em vetores tem uma aplicabilidade muito grande em or-
para sua replicao em Escherichia coli. As extremida- ganismos em que o contedo de ntrons por
des destes fragmentos poderiam assim ser facilmente gene grande, como em eucariotos mais
determinadas por sequenciamento. Protocolos paired- complexos.
end para as estratgias de sequenciamento atuais no Ao contrrio de genomas, em transcrip-
requerem passos de clonagem em E. coli. Entretanto, tomas o material de partida geralmente
4. Projetos Genoma

cDNA, obtido a partir de transcrio reversa lao poro do genoma que contm um gene. Al-
de RNA. A grande maioria dos trabalhos se d guns dos programas para este tipo de mapeamento in-
em torno de RNAm mas, cada vez mais, RNAs cluem Bowtie, Tophat e SOAP, dentre outros. Como
no codificantes, com possvel papel regula- resultado, uma determinada sequncia do genoma
trio, esto sendo avaliados por esta meto- representada por um grande nmero de reads, no caso
dologia (ver abaixo). O pool de cDNAs pode de genes mais expressos, ou um baixo nmero de
ento ser subclonado e ser submetido ao se- reads, no caso de genes menos expressos.
quenciamento pela metodologia de Sanger ou Deve ser levado em considerao, entretanto, que
diretamente fragmentado e ser submetido ao quanto maior o tamanho do gene mais se espera en-
sequenciamento NGS. Uma grande lista de contrar reads associados a este gene. Desta forma, a
reads ento obtida, os quais podem ser uti- maneira mais comum para se calcular a expresso re-
lizados para realizar a montagem do trans- lativa de um determinado gene o RPKM (reads per ki-
criptoma de novo ou ser ancorados a lobase of transcript per million mapped reads reads
sequncia de um genoma para ajudar na por kilobase de transcrito por milhes de reads mape-
identificao de sequncias codificantes e de ados). Esta abordagem permite uma anlise compara-
extremidades xon/ntron. tiva baseada em uma srie de anlises estatsticas para
No caso da montagem de novo, os comparao de transcritos com diferentes RPKMs de
reads so alinhados e aqueles que apresen- diferentes amostras biolgicas ou diferentes tempos
tam alinhamento positivo so fusionados, de tratamento, por exemplo.
dando origem a contigs. Entretanto, diferen- Quando so considerados organismos cujo genoma
temente da anlise de genomas, muitos ainda no foi determinado, uma construo do trans-
contigs so gerados, cada um possivelmente criptoma a partir de dados de RNAseq realizada (de
representando um mRNA maduro. novo). A partir das sequncias dos transcritos gerados,
Adicionalmente, alguns programas po- possvel ento fazer o clculo do RPKM de cada
dem, alm de realizar a montagem de trans- transcrito identificado.
criptomas ou alinhamento a genomas, fazer
uma anlise da representatividade de cada 4.4. Identificao/anotao gnica
transcrito dentro do conjunto total de RNA
analisado, por meio do clculo da frequncia A anotao de genomas o passo se-
relativa de cada transcrito identificado. Com guinte montagem dos genomas. Trata-se de
estes clculos possvel realizar anlises de um conjunto de protocolos e fluxos de traba-
expresso diferencial de genes. Dentre os pa- lho utilizados para delimitar, em uma deter-
cotes de programas utilizados, podem ser ci- minada sequncia genmica, possveis genes
tados Cufflinks-Cuffdiff, DegSeq, DESeq, e predizer a sua funo com base na similari-
EdgeR, entre outros. dade com sequncias conservadas. Basica-
A anlise desta expresso relativa de transcritos mente, existem dois grande grupos de genes
pode ser realizada com base em duas estratgias prin- avaliados nestas metodologias. O primeiro
cipais: grupo se refere queles cujo produto reco-
i) mapeamento a uma sequncia genmica pre- nhecido pelos ribossomos e dar origem a
viamente conhecida; uma protena (ou seja, RNAm). J o segundo
ii) anlise de novo, independente da sequncia engloba os genes cujo produto ter funes
genmica e baseada na montagem dos transcri- estruturais e funcionais dependentes da pr-
tos diretamente a partir dos reads. pria molcula de RNA, como RNAt e RNAr. Di-
ferentes abordagens so utilizadas para
Na primeira estratgia, os reads so mapeados ao identificar as sequncias de cada um destes
genoma, ou seja, as regies de identidade nucleotdica grupos de genes, como ser visto abaixo.
so ancoradas sequncia genmica, sendo identifica-
das por metodologias de sequenciamento que levam
em considerao o nmero de reads mapeados em re-
4. Projetos Genoma

Identificao de regies codifican- mente, contudo, determinou-se que os ntrons


tes exercem um importante papel regulatrio na
expresso gnica.
O mecanismo de delimitao da se- ntrons so elementos gnicos que, du-
quncia gnica drasticamente influenciado rante o processo de expresso gnica, so
pelo Domnio ao qual pertence o organismo excisados durante o processamento do RNA,
cuja sequncia genmica foi determinada. Isto em um grande complexo de reaes denomi-
se deve ao fato de que existe uma grande di- nado splicing. Os ntrons podem variar em
ferena nas estruturas de genes procariticos nmero e tamanho, dependendo da comple-
e eucariticos. xidade do organismo. Assim, em organismos
Genes procariticos codificantes de mais simples, como leveduras e fungos fila-
protenas so colineares com seus produtos mentosos, o nmero de ntrons por gene
gnicos. Esta caracterstica permite inferir pequeno (geralmente de 1 a 4 por gene), as-
que toda regio delimitada por um cdon de sim como o seu tamanho (geralmente girando
inico e um cdon de trmino, regio esta de- em torno de 50 pb).
nominada de ORF (Open Reading Frame), po- Ao contrrio, em organismos mais
tencialmente constitui uma regio codificante complexos como humanos e plantas, tanto o
de uma protena em um genoma procaritico. nmero de ntrons por gene quanto o seu ta-
Por sua vez, genes eucariticos codifi- manho aumentam significativamente, de for-
cantes de protenas so mais complexos, ge- ma que grande parte do gene constitudo
ralmente sendo caracterizados pela presena por ntrons (mais de 90%, dependendo do
de sequncias intervenientes ou ntrons. At organismo). Um comparativo entre as estru-
pouco tempo, acreditava-se que ntrons cons- turas bsicas de genes codificantes de prote-
tituam um produto da evoluo que povoou nas procariticos e eucariticos, assim como
as sequncias gnicas com o chamado DNA os seus respectivos processos de expresso,
lixo, de modo que uma mutao que eventu- apresentado na Figura 2-4.
almente viesse a acontecer tivesse maior Associado ao grande nmero de ntrons,
possibilidade de ocorrer em regies do gene genes de organismos eucariticos mais com-
que no tm capacidade codificante. Recente- plexos geralmente so caracterizados pelo

Figura 2-4: Esquema representando os elementos encontrados em genes procariticos (quadro


superior) e eucariticos (quadro inferior). Os genes esto representados no sentido 5-3 e
podem ser notadas as principais diferenas entre estas classes de genes, como a presena de
ntrons e regies regulatrias mais complexas em eucariotos.
4. Projetos Genoma

splicing alternativo. Este processo caracte- organismos eucariticos.


rizado pela incorporao diferencial de ntrons Os detectores de sinais procuram por
e xons no RNAm maduro, de forma a produ- caracteres funcionais especficos de genes,
zir diferentes protenas a partir do mesmo tanto associados transcrio quanto tra-
gene. duo. Sinais transcricionais incluem sequn-
Diferentes estratgias para procura de cias cannicas conservadas que delimitam as
genes em genomas foram desenvolvidas regies necessrias para que se inicie o pro-
considerando estas caractersticas diferenci- cesso de transcrio. Os sinais mais comu-
ais na estrutura de genes procariticos e eu- mente descritos em procariotos so as
cariticos. A procura de ORFs em genomas regies -35 e -10 e as sequncias de associa-
procariticos constitui uma estratgia simples o com a RNA Polimerase. J os sinais pro-
e direta. Entretanto, uma estratgia sujeita a curados em sequncias eucariticas
uma diversidade de erros. geralmente constituem a regio TATA box,
Nestas predies, no so considerados assim como o stio de clivagem e poliadenila-
elementos cannicos clssicos presentes na o, que caracteriza o terminador.
estrutura de genes (isto , sequncias con- Os sinais traducionais, por sua vez, se
servadas para ligao do fator sigma, regio referem basicamente s regies importantes
de ligao do ribossomo, stio de incio de tra- para recrutamento de ribossomos, como o
duo e stio de trmino de traduo) e ope- RBS (ribosome binding site, ou sitio de ligao
rons, os quais poderiam auxiliar na procura ab a ribossomos) em procariotos. Como este
initio (ou seja, diretamente a partir de se- mecanismo diferente em organismos euca-
quncia, sem informaes experimentais di- riticos, uma regio conservada, denominada
retas sobre o produto gnico) de genes em sequncia de Kozak, utilizada como sinal
genomas procariticos. Assim, a procura de traducional em eucariotos. Estas duas regies
genes baseada apenas na identificao de se localizam imediatamente a montante
ORFs geralmente leva a um nmero grande (upstream) aos respectivos cdons de incio, e
de resultados falsos positivos e falsos nega- desempenham um papel importante nos me-
tivos (Figura 3-4). canismos de delimitao de genes.
Para sobrepujar estas limitaes, me- Adicionalmente, a deteco de sinais
canismos de delimitao das sequncias g- que delimitam os ntrons tambm so utiliza-
nicas em genomas procariticos foram ento dos pois, como abordado anteriormente, os
desenvolvidos e se baseiam em algoritmos genes de eucariotos so amplamente povoa-
caractersticos para detectar, na sequncia de dos por ntrons. Desta forma, a correta predi-
DNA, dois tipos fundamentais de informaes: o da posio de ntrons fundamental para
sinais e contedo. Estes mecanismos foram correta anotao do gene, sendo que os
ento expandidos para procura de genes em principais sinais a serem avaliados so os nu-

Figura 3-4: A simples procura de ORFs pode gerar resultados falso positivos na procura de
genes em organismos procariticos. Como exemplo, uma sequncia de DNA de 2357 pb da
bactria E. coli HS (nucleotdeos 3027764 ao 3030120 Cdigo de Acesso junto ao NCBI
NC_009800.1), o qual contm o gene xdhA, foi avaliada quanto presena de ORFs com mais
de 150 pb com o programa ORF Finder. A sequncia anotada do gene encontra-se em vermelho,
ao passo que as possveis ORFs esto demarcadas em azul.
4. Projetos Genoma

cleotdeos que compem as extremidades cer sequncias codificantes. Com base nos
conservadas 5 e 3 do ntron, mais comu- mecanismos discutidos acima, dois principais
mente GT e AG (ver abaixo). sistemas para procura de genes em genomas
J os detectores de contedo classifi- de eucariotos foram construdos, denomina-
cam a sequncia de DNA em codificante e dos emprico e ab initio.
no-codificante. Como regio no-codificante
entendem-se ntrons, regies intergnicas e Procura emprica de genes
regies no traduzidas dos genes. Os detec-
tores de contedo podem ainda ser subdividi- A predio emprica ou baseada em evi-
dos em detectores extrnsecos e detectores dncia leva em considerao buscas por si-
intrnsecos. Os detectores de contedo ex- milaridade com outros bancos de dados
trnsecos se baseiam no fato de que regies (genmicos, transcritmicos ou protemicos)
codificantes so mais conservadas em rela- para identificar e delimitar as sequncias g-
o s no-codificantes propiciando, desta nicas. Mtodos de identificao de genes ba-
forma, a identificao de xons conservados seados em similaridade so considerados de
com base em procuras por homologia. alta confiabilidade para localizar e construir
O mecanismo bsico desta busca modelos gnicos, desde que existam relatos
atravs do programa BLAST (ver captulo 3). prvios de estruturas gnicas do prprio or-
Contudo, uma limitao nesta metodologia se ganismo (como, por exemplo, sequncias de
refere avaliao adequada da presena de RNAm) ou baseado em anlises de conserva-
ortlogos diretos. Desta forma, a distncia fi- o provenientes de alinhamentos de geno-
logentica (isto , evolutiva, ver captulo 5) mas de espcies filogeneticamente
entre o organismo cujo genoma est sendo relacionadas.
analisado e aqueles organismos cujas se- Especialmente para o caso de organis-
quncias esto depositadas nos bancos de mos eucariticos, alinhamentos de sequncias
dados pode influenciar diretamente no resul- oriundas de bancos de dados de protenas ou
tado. de transcritos contra o genoma em anotao
Detectores de contedo intrnseco, por permitem aferir que, geralmente, os gaps
sua vez, tem como foco principal algumas constituem os ntrons. Esta premissa fre-
caractersticas inatas do DNA, as quais per- quentemente acompanhada pela observao
mitem a predio do potencial de uma se- de que as sequncias limtrofes dos ntrons
quncia codificar ou no uma protena. Como identificados constituem os dinucleotdeos
exemplos de caractersticas avaliadas em de- consenso GT e AG, caractersticos stios 5 e
tectores intrnsecos podem ser citados: 3 dos ntrons. Estes alinhamentos geram
i) em muitos organismos h uma prefe- forte evidncia dos componentes das estru-
rncia das bases G ou C em relao s turas dos genes, muitas vezes definindo
bases A ou T na terceira posio do c- completamente a localizao de cada xon e
don; cada ntron (Figura 4-4).
ii) a utilizao diferencial de cdons si-
nnimos, ou seja, diferentes cdons que Procura ab initio de genes
codificam para o mesmo aminocido;
iii) frequncia de distintas sequncias A predio ab initio, por sua vez, depen-
nucleotdicas hexamricas; de tanto da informao de detectores de si-
iv) a periodicidade de ocorrncia de ba- nais quanto de contedo para delimitar a
ses, dentre outros. sequncia gnica. Para tal, os algoritmos que
se valem desta estratgia utilizam redes neu-
Estes caracteres so utilizados, por rais, transformadas de Fourier e, mais comu-
exemplo, em modelos de Markov para a mente, modelos de Markov. Para realizar
construo de modelos capazes de reconhe- estas deteces, os algoritmos so treinados
4. Projetos Genoma

com sequncias conhecidas do genoma em e ao alto nmero de sequncias genmicas


questo. Por exemplo, a Figura 5-4 ilustra o disponibilizadas a cada dia, h um consenso
grau de conservao dos nucleotdeos pre- de que a anotao automtica est se tor-
sentes na sequncia de Kozak de Drosophila nando indispensvel.
melanogaster, perfil este que pode ser utili- A forma mais simples de anotao au-
zado na predio de novas sequncias codifi- tomtica se d pela anlise de uma srie de
cantes neste organismo. Outro exemplo pode diferentes mecanismos de predio e delimi-
ser observado no grau de conservao das tao de sequncias gnicas e, ento, utiliza-
regies 5 e 3 provenientes de ntrons de ge- o de um algoritmo de seleo, tambm
nes humanos (Figura 6-4). denominado de combiner. Este algoritmo tem
Dentre as limitaes da predio ab a funo de selecionar a predio que melhor
initio est o fato de que, usualmente, o resul- represente os modelos gnicos frente os al-
tado obtido se refere s regies codificantes, goritmos utilizados. Para tanto, os combiners
sem informaes sobre regies no traduzi- estimam os tipos e as frequncias de erros
das ou transcritos provenientes de splicing oriundos de cada programa de predio, es-
alternativo. colhendo posteriormente as combinaes de
Assim, para sobrepujar estas limitaes evidncias que minimizam tais erros. Aps as
a combinao das duas estratgias parece ser predies ab initio e baseados em evidncia,
a mais eficaz nos fluxos de trabalho utilizados alguns dos combiners devem ser treinados
para predio de genes em genomas sequen- com sequncias no previamente utilizadas
ciados. Para tanto, alguns destes algoritmos nos programas de predies de genes.
so treinados com modelos gnicos j conhe- Os combiners mais atuais utilizam tc-
cidos, de organismos filogeneticamente pr- nicas que combinam evidncias no estocs-
ximos e, assim, provavelmente possuem uma ticas ponderadas (nonstochastic weighted
estrutura gnica muito parecida com a do or- evidence) que computam tanto o tipo quanto
ganismo que est em anlise. a abundncia de uma evidncia para o clculo
da sequncia gnica consenso. Uma lista dos
Anotao de regies codificantes algoritmos mais utilizados para confeco de
fluxos de trabalho para identificao de ge-
O passo seguinte identificao de se- nes est disponvel na Tabela 2-4.
quncias que possivelmente constituem ge- A anotao da funo de genes um
nes a sua anotao. A anotao manual foi processo basicamente comparativo, sendo
bastante utilizada na anlise dos primeiros utilizados bancos de dados de protenas, co-
genomas. Entretanto, devido complexidade mo o NCBI ou o UniProt (trEMBL + Swiss-Prot)

Figura 4-4: Identificao de genes baseada em evidncia. Utilizando BLASTn com base em dados
de transcritoma (cDNA, em azul), pode ser alcanada uma aproximao da sequncia do gene
(vermelho), inclusive permitindo a delimitao de xons e ntrons. As regies de identidade
esto delimitadas por traos verticais. Com base na sequncia de ntrons (quadros na poro
inferior), possvel construir modelos para sua predio. Modelo construdo com base no gene
F10E9.5 de Caenorhabditis elegans (cdigo de acesso NCBI NC_003281).
4. Projetos Genoma

Figura 5-4: Padro de conservao de


nucleotdeos da sequncia de Kozak, baseado
no alinhamento de 30 sequncias de cDNA
obtidas de D. melanogaster e analisados junto
ao servidor WebLogo. A medida de
conservao refletida pela altura da base.
Os nmeros abaixo representam o cdon de
incio de traduo (1 a 3), o segundo cdon do
mRNA (4 a 6) e a regio a montante (-8 a -1). Figura 6-4: Padro de conservao de
nucleotdeos nas regies 5 (painel superior) e
ou de domnios proteicos (PFAM, NCBI CDD, 3 (painel inferior) de ntrons humanos.
Interpro). Uma das vantagens da utilizao do Resultado obtido pelo alinhamento de 100
Swiss-Prot como banco de dados para identi- sequncias intrnicas e analisados junto ao
ficao dos produtos gnicos se refere ao fa- servidor WebLogo. A medida de conservao
to deste ser um banco de dados refletida pela altura da base. Os nmeros
manualmente curado, ou seja, inspecionado abaixo de cada esquema indicam o incio e o
contra possveis erros decorrentes da anota- fim do ntron (0 e 1 no esquema superior; -2 e
o automtica. Com base nestas anlises, -1 no esquema inferior), assim como as
quatro grupos distintos de anotaes podem regies adjacentes.
ser realizadas:
i) a existncia de um ortlogo direto genes se refere predio da localizao da
previamente caracterizado, revelado protena codificada por este gene. Por exem-
por BLAST, gerar a anotao com base plo, se uma protena possui muitas regies hi-
no nome do ortlogo; drofbicas, compatveis com sua insero em
ii) a inexistncia de um ortlogo direto, membrana, possivelmente esta ser uma
mas a presena de um domnio proteico protena integral de membrana. Adicional-
conservado, revelado por anlises em mente, protenas secretadas ou endereadas
PFAM ou Interpro, gerar a anotao a alguma organela geralmente apresentam
domain containing protein ou protena uma sequncia sinal.
contendo o domnio; Diversas ferramentas esto disponveis
iii) a inexistncia de ortlogos diretos para localizao de domnios transmembrana
previamente caracterizados ou domnios (TMHMM, TMPred, HMMTOp), baseando-se
conservados confere as anotaes pro- em mtodos estatsticos para aferio da
tena predita (predicted protein) ou pro- presena destes domnios. Mtodos mais ro-
tena hipottica (hypothetical protein); bustos para determinar a localizao celular
iv) quando um gene codificante de pro- de um produto gnico foram desenvolvidos e
tena hipottica possui ortlogos diretos, se baseiam em uma diversidade de mtodos
eles so denominados codificadores de estatsticos, geralmente treinados com se-
protena hipottica conservada quncias proteicas conhecidamente perten-
(conserved hypothetical protein). centes a algum sub-compartimento celular
(Tabela 3-4). De uma maneira geral, todas
Outro passo na anotao da funo de estas ferramentas so utilizadas na constru-
4. Projetos Genoma

Tabela 2-4: Principais algoritmos utilizados na predio de genes e a sua funcionalidade.


Algoritmo Descrio Aplicao
Predies ab initio e baseados em evidncia
Augustus Aceita evidncias baseadas em transcriptomas e banco de dados de Eucariotos
protenas
FGNESH Arquivos para treino derivados de anlise do fabricante Eucariotos

fgenesB Predio de genes e operons em bactrias baseadas em padres e Procariotos


cadeias de Markov
Genemark Arquitetura de busca baseada em self-training Procariotos e
eucariotos
Twinscan Extenso do algoritmo Genscan que utiliza homologia entre dois Eucariotos
genomas para guiar a predio de genes
GenomeScan Extenso do algoritmo Genscan que utiliza BLASTx para guiar a Eucariotos
predio de genes
Glimmer Utiliza modelos de Markov interpolados Procariotos
Combiners
Evidence Modeler Tem como resultado um modelo gnico pela combinao de Eucariotos
evidncias obtidas a partir de alinhamento de dados transcriptmicos
e protemicos com predies ab initio
Evigan Algoritmo de evidncias probabilsticas que usa redes Bayesianas Eucariotos
para pontuar e integrar predies ab initio e baseadas em evidncia
para produzir modelos gnicos.

o de fluxos de trabalho que integram dife- ficantes - RNAnc (RNAt, RNAr, dentre outros)
rentes ferramentas para analisar o resultado ainda no apresenta um grande nmero de
da predio de cada gene, conferindo uma programas quando comparada s estratgias
anotao geral (Figura 7-4). disponveis para anotao de genes codifican-
tes de protenas. Isto se deve, principalmente,
4.5. Identificao/anotao RNAnc grande heterogeneidade e pequena con-
servao dos RNAnc quando comparados a
Considerando o dogma central da biolo- sequncias de protenas. Ao contrrio de ge-
gia molecular, no processo de sntese proteica nes codificantes de protenas, RNAnc geral-
(traduo) h a participao direta de pelo mente no apresentam conservao de
menos trs classes distintas de RNAs: sequncia 1ria, dificultando a deteco destes
i) o RNA mensageiro, que servir de genes.
molde para sntese da protena; Um dos mecanismos mais utilizados na
ii) o RNA ribossmico que, como indica o busca de RNAt em genomas o tRNAscan-SE.
nome, um componente estrutural e Este algoritmo se baseia em uma srie de
funcional dos ribossomos; clculos estatsticos que avaliam, entre ou-
iii) o RNA transportador, que funciona tros parmetros, o potencial local para for-
como adaptador, carreando aminoci- mao das estruturas 2rias tpicas de tRNAs
dos para serem incorporados na cadeia em forma de trevo, assim como a presena
nascente da protena durante o proces- de bases invariantes que definem regies
so de traduo. conservadas presentes nos promotores des-
tes genes. Outro mecanismo de busca de
A anotao de genes de RNAs no codi- RNAts se refere ao algoritmo ARAGORN. A
4. Projetos Genoma

Tabela 3-4: Principais algoritmos utilizados na predio da localizao celular de protenas.


Algoritmo Descrio Aplicao
BaCelLo Com base na composio de aminocidos e sequncias de treino, Plantas, animais e
prediz em 5 localizaes (secretada, citoplasmtica, nuclear, fungos
mitocondrial e cloroplstica)
LOCtree Com base na sequncia N-terminal, prediz a localizao em Eucariotos e
secretada, citoplasmtica, nuclear, mitocondrial, cloroplstica e procariotos
organelar.
TARGETp Com base na sequncia N-terminal, prediz a localizao como Eucariotos e
secretada, mitocondrial e cloroplstica, dentre outras. procariotos
Wolf PSORT Com base na sequncia N-terminal e regras empricas, classifica o Animais, fungos e
endereamento em cloroplstico, citoslico, citosesqueleto, plantas
retculo endoplasmtico, extracelular, golgi, lisossmico,
mitocondrial, nuclear, peroxissomal, membrana plasmtica e
membrana vacuolar. Permite localizao mltipla.
Cell-PLoc Permite realizar a localizao de protenas em mais de 25 Eucariotos,
diferentes locais, baseados em treino com sequncias cuja procariotos e vrus
protena tem localizao conhecida.

estratgia deste programa para a procura de ii) elementos estruturais regulatrios


tRNAs em sequncias nucleotdicas se baseia em cis, caractersticos de alguns RNAm
em algoritmos heursticos para a predio da que desempenham funo de regulao
estrutura do tRNA baseada na homologia com da expresso gnica principalmente por
sequncias conservadas, assim como a po- meio da formao de estruturas 2rias;
tencialidade de formar estruturas 2rias tpicas iii) RNAs que podem sofrer o processo
do tRNA. Por fim, o tRNAfinder se baseia em de auto-splicing.
clculos para deteco da estrutura 2ria do
RNA predito para identificar genes de tRNA. Cada uma destas famlias representa-
J a predio de RNArs baseada em da por alinhamentos mltiplos, consensos de
conservao de sequncias. Ao passo que or- estruturas 2rias e modelos de covarincia. Por
ganismos procariticos possuem geralmente meio de comparao de sequncias com os
trs molculas de RNAr (23S, 16S e 5S) com- consensos obtidos para os modelos de cada
pletamente maduras e funcionais, eucariotos famlia, possvel identificar genes respons-
possuem quatro (28S, 18S, 5.8S e 5S). Cada veis pelos rRNAs, tais como os snoRNAs, que
uma destas sequncias apresenta grande so componentes do spliceossomo. Existe
grau de conservao com os ortlogos de di- ainda, contudo, uma grande gama de outros
ferentes organismos. Desta forma, ferra- RNAnc que no apresentam grau de conser-
mentas baseadas em Modelos Ocultos de vao necessrio para formar uma famlia.
Markov, como o RNAmmer, foram constru-
das para delineamento dos genes respons- Identificao de pequenos RNAs
veis pelos RNArs. Adicionalmente, um grande
banco de dados com famlias de RNA foi O termo pequeno RNA , conceitual-
construdo, e a cada ano novas adies de se- mente, muito vago e acaba englobando dife-
quncias de RNAs so feitas ao RFam. Estas rentes classes destes, como microRNAs,
famlias podem ser classificadas em trs siRNAs, TAS-siRNAs, tRFs, entre outras. Con-
grandes grupos: tudo, existem caractersticas dos pequenos
i) RNAs no codificantes (RNAnc); RNAs que podem ser utilizadas para identifi-
4. Projetos Genoma

car as classes distintas: no codificam prote- nhar um papel funcional, regulando a expres-
nas (apesar de alguns serem originados de so gnica em vrios nveis. Devido ao papel
regies codificadoras), possuem tamanho va- de forte regulador da expresso gnica, muita
riando entre poucas dezenas de nucleotdeos, ateno tem sido dada aos pequenos RNAs,
suas rotas de biognese e seus papis funcio- com um nmero crescente de trabalhos sen-
nais. do feitos relacionando estes com patologias e
Os pequenos RNAs fazem parte de um controlando processos bsicos do desenvol-
grupo de pequenas molculas, sendo conhe- vimento.
cidos h dcadas, e inicial e erroneamente O RNAi, algumas vezes denominado de
creditados como produtos de degradao de silenciamento gnico, um mecanismo que
RNA, no possuindo um papel biolgico espe- induz a diminuio da expresso gnica de um
cfico. Com a identificao do fenmeno de si- transcrito alvo atravs da clivagem do trans-
lenciamento gnico (RNAi) foi observado que crito alvo e sua posterior degradao, ou
pequenos RNAs poderiam, de fato, desempe- atravs da represso da maquinaria de tra-
duo. Estes mecanismos so denominados
tambm de Silenciamento Gnico Ps-Trans-
cricional (PTGS no ingls) (Figura 8-4). Exis-
tem adicionalmente alguns pequenos RNAs
que induzem silenciamento gnico em nvel
transcricional, ligando-se em regies de DNA,
impedindo sua transcrio. Este mecanismo
denominado de Silenciamento Gnico Trans-
cricional (TGS no ingls).
As metodologias de sequenciamento de
alta eficincia tem auxiliado de maneira con-
tundente na caracterizao de pequenos
RNAs, sendo que variaes de protocolos
tambm possibilitaram validar alvos (tcnica
de degradoma) e identificar pequenos RNAs
associados com protenas especficas (se-
quenciamento de cidos nucleicos associados
a protenas imunoprecipitadas).
Existe uma grande diversidade de pe-
quenos RNAs em clulas eucariticas, sendo
os principais listados na Tabela 4-4. Dentre
estas, os microRNAs so a classe de peque-
nos RNAs melhor descrita. Caracterizam-se
por serem transcritos a partir de genes MIR,
geralmente intergnicos, por uma RNA poli-
merase II, resultando em um pri-miRNA, o
qual recebe um 5'-CAP e um 3'-poli-A. Este
pri-miRNA processado por um complexo
proteico, denominado D-body, o qual or-
questrado por uma enzima classicamente de-
nominada DICER ou DROSHA (RNAses classe
III), resultando na liberao do pr-miRNA.
Este apresenta estrutura em forma de gram-
Figura 7-4: Um fluxo de trabalho genrico po devido alta complementaridade que suas
para anotao de genes. extremidades 5' e 3' possuem. O pr-miRNA
4. Projetos Genoma

novamente processado por uma enzima srio uma RNA polimerase dependente de
DICER, liberando o microRNA maduro, dupla- RNA, a qual utiliza o microRNA como iniciador
fita, de aproximadamente 20 nucleotdeos de da transcrio e a sequncia transcrito alvo
comprimento, o qual reconhecido por uma como molde. O longo RNA dupla-fita resul-
enzima ARGONAUTA e direcionado ao PTGS tante reconhecido tambm por uma enzima
(Figura 9-4). DICER, a qual cliva o tasiRNA, resultando na
Outra classe bastante estudada se re- sua forma madura (aproximadamente 20 nt).
fere aos siRNA (small interfering RNAs), os Os siRNAs so reconhecidos por enzi-
quais tem a biognese bastante variada, po- mas argonautas e podem tanto induzir o si-
dendo ser derivados de regies de sobreposi- lenciamento gnico por PTGS, mas tambm o
o de genes em orientao inversa remodelamento de cromatina, controlando a
natsiRNAs (natural anti-sense small expresso gnica em nvel trancricional (TGS).
interfering RNAs). A transcrio de ambos A interao entre microRNAs e transcrito alvo
transcritos resulta em uma regio de dupla- a melhor caracterizada, no sendo neces-
fita complementar, a qual reconhecida por srio uma complementariedade perfeita entre
uma enzima DICER que cliva o natsiRNA, re- o microRNA e transcrito alvo, apesar disto ser
sultando na sua forma madura (aproximan- mais comum em plantas. Em animais existe
damente 24 nt). uma regio de maior complementariedade
Existem tambm os tasiRNA (trans- denominada seed a qual se localiza entre a 2a
acting small interfering RNAs), derivados do e 7a bases no microRNA, e est relacionada
processamento do transcrito alvo de um mi- especificidade do microRNA com seu trans-
croRNAs. Para a sntese de tasiRNA, neces- crito alvo. Outra caracterstica o fato de ha-

Figura 8-4: Mecanismo de PTGS. A) clivagem: 1, uma protena argonauta reconhece uma fita do
pequeno RNA; 2, O microRNA associado com uma argonauta reconhece um transcrito alvo; 3,
ocorre a clivagem do transcrito alvo na posio medial do microRNA; 4, degradao do
transcrito alvo clivado por nucleases. B) represso da traduo: 1, uma protena argonauta
reconhece uma fita do pequeno RNA; 2, o microRNA associado com uma argonauta reconhece
um transcrito alvo; 3, ocorre represso da maquinaria de traduo.
4. Projetos Genoma

Tabela 4-4: Principais classes de pequenos RNAs com funo regulatria.

Classe Tamanho (nt) Funo Mecanismo de ao Origem Organismos


biolgica
microRNA 21-24 PTGS Clivagem e represso Intergnica e ntrons Plantas, animais,
ou miRNA da maquinaria de fungos e vrus
traduo
siRNA 21-24 PTGS, TGS Clivagem, represso da Intergnica, xons e Plantas, animais,
maquinaria de traduo ntrons fungos e vrus
e metilao de DNA
tasiRNA 21-22 PTGS Clivagem Transcritos alvo de Plantas, animais
microRNAs e fungos
natsiRNA 21-22 PTGS Clivagem Transcritos Plantas
convergentes
parcialmente
sobrepostos

ver pareamento guanina uracila (G-U), tam- bastante comum laboratrios que pesquisam
bm denominado de wobble entre o transcri- pequenos RNAs desenvolverem suas prprias
to alvo e o microRNA (Figura 9-4). ferramentas.
Existem dois desafios principais no em- J os programas de predio de alvos de
prego da bioinformtica a pequenos RNAs. O microRNAs e siRNAs podem ser baseadas em
primeiro relativo identificao da regio, ferramentas como o BLAST, procurando re-
ou precursor, que d origem ao pequeno RNA. gies complementares ao pequeno RNA. O
O segundo envolve a identificao dos genes problema que esta tcnica gera um nmero
alvos regulados por estes. As metodologias muito grande de falsos-positivos. Com isso,
de identificao da regio que resulta no pe- algumas ferramentas comearam a utilizar
queno RNA variam com a classe de pequenos outros aspectos envolvidos na interao entre
RNAs e esto intimamente relacionadas s pequenos RNAs e transcritos alvos, tais como
suas biogneses. caractersticas energticas, a presena da re-
Os microRNAs so a classe melhor ca- gio seed (em humanos), o pareamento per-
racterizada, de forma que h uma maior dis- feito entre 10-11 pares de base do microRNA
ponibilidade de ferramentas para identificao (vlido somente para PTGS, por clivagem) e a
destes, como os algoritmos miRTools, conservao de microRNAs e transcritos alvo
miRDeep, miRExpress, miRAnalyser e miRCat. em organismos diferentes.
A funcionalidade geral destes programas se Mesmo assumindo estas regras, exis-
baseia na anlise de reads de sequenciamento tem muitas interaes entre microRNA e
de bibliotecas de pequenos RNAs e na delimi- transcrito alvo que so excludas, e muitas
tao das regies de ancoramento com o ge- falsas que so includas, fazendo como que
noma. Com base no conjunto de sequncias seja necessrio a validao experimental
ancoradas, so realizados clculos para ava- desta interao. Especialmente para organis-
liao da estabilidade da possvel estrutura mos modelo, existem bancos de dados pr-
em forma de grampo gerado pelo transcrito. prios que disponibilizam, baseados em
Para as demais classes, no existe uma ferramentas de predio, os possveis alvos
metodologia padro, sendo que variaes da para um determinado miRNA. Um importante
ferramenta BLAST so geralmente utilizadas. banco de dados o microRNA.org, cujas pre-
Para a identificar siRNAs, por exemplo, pode- dies foram realizadas pelo algoritmo
se empregar a ferramenta SiLoCo. Mas miRanda.
4. Projetos Genoma

estatsticos ou em conservao de se-


quncia. Compreendem detectores extrn-
secos e intrnsecos.

Detectores de sinais: sistemas para delimitao


de regies codificantes baseados em ca-
racteres funcionais de genes, como ele-
mentos cannicos necessrios
transcrio ou traduo.

N50: ndice associado qualidade de montagem


de um sequenciamento. Um valor de N50
igual a N significa que 50% dos reads es-
to montados em um contig de tamanho N
ou maior.

ORF: open reading frame ou fase aberta de lei-


tura. Refere-se a toda sequncia nucleot-
dica delimitada por um cdon de incio e
um cdon de trmino de traduo.

Predio baseada em evidncia: identificao de


sequncias codificantes baseada em ex-
perimentos prvios, como transcriptomas.
Figura 9-4: Modelo simplificado da biognese
de microRNAs. A partir de um gene MIR, um Predio ab initio: identificao de sequncias
pr-miRNA transcrito e processado num D- codificantes baseada unicamente em cl-
body, por uma enzima DICER, liberando o pr- culos estatsticos.
miRNA, o qual processado novamente por
uma enzima DICER, liberando a forma madura Reads: resultado obtido do sequenciamento de
do miRNA. Este reconhecido por uma um determinado clone ou fragmento de
enzima argonauta e direcionado ao transcrito DNA/cDNA.
alvo, induzindo o silenciamento gnico.
Sequenciamento por Shotgun: metodologia de
4.6. Conceitos-chave sequenciamento caracterizado por frag-
mentao aleatria de um grande seg-
Anotao funcional: conjunto de abordagens que mento de DNA, determinao individual da
predizem a funo e classificam uma pro- sequncia de cada um dos fragmentos e
tena codificada por um genoma. agrupamento dos reads obtidos em
contigs.
Contig: conjunto de segmentos de DNA com so-
breposio de sequncia que, conjunta- Sinais transcricionais: sequncias conservadas
mente, representam uma sequncia associadas ao processo de transcrio,
consenso de DNA como por exemplo TATA box, Stios de cli-
vagem e poliadenilao, etc.
Detectores de contedo: sistemas para delimi-
tao de regies codificantes baseados na Sinais traducionais: sequncias conservadas as-
classificao da sequncia em codificante sociadas ao processo de traduo, como a
ou no codificantes, baseada em clculos sequncia de Kozak, cdon de incio de
4. Projetos Genoma

traduo, stio de ligao de ribossomo,


etc.

Transcriptoma: sequenciamento e avaliao ge-


ral de transcritos de uma clula/tecido
com o intuito de descrever os RNAs pre-
sentes naquele momento. Alm de trazer
informaes sobre a situao fisiolgica
daquele conjunto de clulas, permite
construir modelos para procura de genes
baseados em evidncia.

4.7. Leitura recomendada


GARBER, M. et al. Computational methods for
transcriptome annotation and
quantification using RNA-seq. Nat.
Methods, 8, 469-477, 2011.

RICHARDSON, E. J.; WATSON, M. The automatic


annotation of prokaryotic genomes. Brief.
Bioinform., 14, 36-45, 2013.

SLEATOR, R. D. An overview of the current


status of eukaryotic prediction strategies.
Gene, 461, 1-10, 2010.

WILLIANSON, V. et al. Detecting miRNAs in


deep-sequencing data: a software
performance comparison and evaluation.
Brief Bioinform., 14, 36-45, 2013.

YANDELL, M.; ENCE, D. A beginners guide to


eukaryotic genome annotation. Nat. Rev.
Genet., 13, 329-342, 2012.
5. Filogenia Molecular

Rodrigo Ligabue Braun


Dennis Maletich Junqueira
Hugo Verli

Estabelecimento de relaes evolutivas a partir de estava associada perfeio, representada


sequncias de aminocidos ou nucleotdeos. em sua forma plena pelo homem. O sistema
classificatrio de Lineu, por sua vez, se base-
5.1. Introduo ava em caractersticas visveis, arbitraria-
mente selecionadas para classificar os seres
5.2. Aplicaes vivos (por exemplo, nmero de patas ou de
ptalas), sendo o ser humano o organismo do
5.3. Representao de rvores topo da cadeia. Sistemas como este so con-
siderados sistemas artificiais, pois esto su-
5.4. Distncia gentica jeitos tendncia de seu autor em considerar
um caractere em detrimento de outro(s),
5.5. Inferncia filogentica conforme sua vontade ou necessidade. En-
tretanto, como o prprio Lineu reconheceu,
5.6. Abordagens quantitativas tais sistemas foram absolutamente necess-
rios para a fase inicial (descritiva) da biologia,
5.7. Abordagens qualitativas servindo de base para o sistema natural de
classificao e para as hipteses de similari-
5.8. Confiabilidade dade que surgiriam a seguir.
Ao final do sculo XVIII e incio do sculo
5.9. Interpretao de filogenias XIX, surgem os sistemas naturais de classifi-
cao. Estes buscavam refletir sobre a ordem
5.10. Conceitos-chave natural dos seres vivos atravs de poucas
caractersticas intrnsecas, geralmente asso-
ciadas forma. No entanto, com o objetivo de
tornar a classificao mais racional, tomaram
5.1. Introduo lugar debates sobre a real necessidade de
haver um sistema hierrquico de organizao
Desde seus primrdios, a humanidade dos organismos. Opositores da ideia conside-
se mostrou inclinada a organizar e classificar ravam que a classificao era, muitas vezes,
o mundo sua volta com o objetivo de facili- inadequada e desnecessria, e que no deve-
tar o entendimento e a comunicao. Em re- ria ser um fim em si mesma, seno um m-
lao ao mundo natural, diferentes sistemas todo para o levantamento de novas perguntas
foram empregados para compor mtodos de Biologia.
organizao e classificar os organismos, utili- Em 1818, a introduo do conceito de
zando critrios naturais ou artificiais. homologia por E.G. Saint-Hillaire causa uma
Um dos sistemas de maior influncia no revoluo nas cincias biolgicas. Para ele e
perodo pr-Darwiniano foi a Escala Natural seus colegas, partes homlogas correspon-
de Plato. Neste sistema, do fogo ao ser hu- diam s partes de animais diferentes com
mano, diferentes nveis eram organizados uma estrutura essencialmente semelhante,
maneira de uma escada. A ideia de ascenso mesmo com forma ou funo distintas. Por
5. Filogenia Molecular

exemplo, as asas de um morce- Willi Hennig. Na proposta de


go, as nadadeiras de uma baleia e Hennig (1950), organismos que
os braos de um macaco, segun- compartilhassem caractersti-
do esta lgica, so considerados cas derivadas (apomrficas)
rgos homlogos e podem ser- poderiam ser considerados
vir como critrio para agrupar descendentes do organismo
morcegos, baleias e macacos em ancestral, na qual a caracters-
um mesmo grupo. Assim, a ho- tica em seu estado primitivo (ou
mologia serviria como critrio plesiomrfico) passou para o
principal para uma classificao estado derivado.
natural dos organismos. A primeira rvore filogentica Desde a origem dos siste-
A partir da famosa publi- moderna (esboo de Darwin mas de classificao at a Cla-
cao de Darwin, A Origem das no manuscrito de A Origem dstica, os mtodos
Espcies, em 1859, a classifica- das Espcies) baseavam-se essencialmente
o dos organismos passou a ser no fentipo dos organismos, ou
no apenas natural, mas tambm a apresen- seja, em suas caractersticas fsicas clara-
tar uma condio essencial de ancestralidade mente discernveis. Entretanto, com o adven-
comum. Segundo este pensamento, os orga- to dos mtodos de sequenciamento, tanto
nismos so derivados uns dos outros, desde protico quanto genmico, cada vez mais os
o surgimento da vida na terra. Darwin repre- dados moleculares foram se tornando im-
sentou este padro atravs de um esquema portantes nas anlises evolutivas de ances-
de ramificao, onde os galhos representam tralidade. Neste sentido, a cincia passa de
o tempo entre o organismo ancestral e o no- um ponto de vista macroscpico a um ponto
vo organismo, e os ns representam os pr- de vista molecular de anlise.
prios organismos. Mais tarde, esta viria a ser O mtodo de sequenciamento de ami-
a primeira rvore filogentica utilizada para nocidos, iniciado por Sanger em 1954, abriu
representar processos evolutivos. caminho para que protenas de uma mesma
Com influncia direta da teoria evolutiva classe, em diferentes organismos, pudessem
de Darwin (e colaboraes de Wallace e ser comparadas quanto s suas origens evo-
Lamarck), desenvolve-se a Taxonomia Evolu- lutivas. Da mesma forma, ao decodificar a
tiva. Este sistema de classificao incorporou primeira longa sequncia de DNA, em 1977,
o vetor tempo (carter temporal normal- Sanger deu incio exploso do sequencia-
mente inferido por meio de fsseis) e, alm mento de cidos nucleicos, permitindo a
disto, adicionou uma quantificao da diver- comparao de genes em larga escala. im-
gncia estrutural entre os grupos (a chamada portante destacar que as sequncias molecu-
distncia patrstica). J em meados do sculo lares podem tanto ser comparadas entre si,
XX, inicia-se a Fentica (taxonomia numrica buscando conhecer a histria evolutiva de um
ou neodansoniana). Esta escola buscava in- gene ou protena (por exemplo, relaes entre
cluir na classificao dos organismos o mxi- hemoglobinas de diferentes mamferos),
mo possvel de caractersticas, quanto podem ser associadas a outros dados
atribuindo-lhes o mesmo peso na tentativa de na reconstruo da histria evolutiva de or-
eliminar qualquer subjetividade ou arbitrarie- ganismos (por exemplo, associando as rela-
dade. Seu impacto, entretanto, foi limitado es obtidas por comparao de DNA
devido s dificuldades em traduzir os ndices ribossomal de aves com datao de fsseis,
(valores) obtidos em informaes relevantes buscando estabelecer relaes de ancestrali-
do ponto de vista biolgico (como a separa- dade).
o de espcies, por exemplo). Na mesma No entanto, ao lidar com sequncias
poca, surge a Cladstica (ou sistemtica filo- moleculares, diferentes questes podem
gentica), liderada pelo entomlogo alemo surgir. Por exemplo, o conceito de gene di-
5. Filogenia Molecular

nmico e mudou muito desde sua primeira so usadas para descrever a dinmica das
definio. Alm disso, genes podem sofrer di- mudanas em uma linhagem ao longo de v-
ferentes processos evolutivos que alteram rias geraes.
sua estrutura e/ou funo, como mutaes e As taxas evolutivas so empregadas
rearranjos, ou ainda duplicaes e perdas de quando se buscam estimativas temporais pa-
funo. Esses fatores fazem com que a rela- ra datao de eventos evolutivos. Normal-
o 1:1 entre gene e organismo seja perdida. mente, se assume que as mudanas nas
Por exemplo, uma mesma leguminosa pode sequncias se acumulam a uma taxa mais ou
possuir duas cpias do gene para a protena menos constante ao longo do tempo. Esse
leghemoglobina (genes parlogos). Alm dis- conceito chamado de Hiptese do Relgio
so, muitas sequncias do genoma no che- Molecular. Entretanto, conhecido que as ta-
gam etapa de traduo, podendo conter xas evolutivas so dependentes de vrios fa-
elementos regulatrios ou transponveis. Tais tores, tais como o tempo de gerao, o
variaes aumentam a complexidade e difi- tamanho da populao e do prprio metabo-
cultam a interpretao das relaes de des- lismo, o que normalmente viola o modelo es-
cendncia. trito de relgio molecular. Com base nestas
informaes, diversos modelos foram pro-
5.2. Aplicaes postos para lidar com desvios no comporta-
mento temporal de diferentes linhagens
Ao classificarmos os organismos, atri- moleculares e, hoje em dia, so referidos co-
bumo-lhes uma histria evolutiva. Essa his- mo relgios moleculares relaxados.
tria, entretanto, frequentemente Atualmente, a inferncia filogentica
desconhecida. Sendo assim, necessrio in- um campo de pesquisa parte das outras ci-
ferir a sequncia de mudanas que levaram ncias. Tornou-se uma ferramenta comple-
ao surgimento de um novo organismo ou pro- mentar para diversas reas e indispensvel
tena. Contudo, existe apenas uma histria para outras. Apesar de ter sido idealizada pa-
verdadeira, que talvez jamais seja conhecida. ra desvendar apenas as relaes evolutivas
Assim, ao empregarmos as tcnicas filogen- entre organismos, atualmente a filogentica
ticas, o objetivo coletar e analisar dados ca- molecular aplicada a problemas muito mais
pazes de fornecer a melhor estimativa para diversos que este. Com o advento do relgio
chegarmos filogenia verdadeira. De certa molecular estrito, foi possvel aplicar a esti-
forma, a obteno de filogenias lembra a atu- mativa de tempo s filogenias e datar surgi-
ao de um historiador. Baseando-se em da- mento de espcies, disseminao de
dos disponveis no presente (tais como organismos e, at mesmo, entender grandes
organismos vivos, fsseis e sequncias mole- eventos biolgicos que ocorreram no passa-
culares), tenta-se obter uma imagem de co- do. Com a abordagem relaxada do relgio
mo teria sido o passado. molecular, iniciou-se a utilizao de modelos
Quando analisamos sequncias de nu- de dinmica populacional que comportam os
cleotdeos ou aminocidos para inferir uma fi- eventos coletivos de grupos especficos. Ain-
logenia, utilizamos informaes derivadas das da, com o avano da capacidade de processa-
taxas evolutivas para determinar a sequncia mento computacional, vem sendo possvel
de eventos que levaram ao surgimento de no- criar algoritmos capazes de reconstruir ge-
vos organismos. A taxa de evoluo molecu- nomas ancestrais. Tambm a partir da filoge-
lar refere-se velocidade na qual os ntica molecular desenvolveu-se o campo da
organismos acumulam diferenas genticas filogeografia. Segundo esta rea do conheci-
ao longo do tempo. Essa taxa frequente- mento, as filogenias podem ser utilizadas pa-
mente definida pelo nmero de substituies ra verificar a distribuio geogrfica de
por stio (ou posio no alinhamento de se- indivduos. Neste contexto, outras tcnicas,
quncias) por unidade de tempo e, portanto, alm das filogenias, so incorporadas s an-
5. Filogenia Molecular

lises, incluindo a estruturao de genes, as quncias de nucleotdeos ou aminocidos. As


anlises de redes e as anlises de hapltipos. hipteses sobre a histria evolutiva so o re-
A filogenia molecular busca inferir a his- sultado dos estudos filogenticos e se cha-
tria evolutiva de organismos ou outras enti- mam Filogenia.
dades biolgicas (como protenas e genes) a As filogenias ou rvores filogenticas
partir de sequncias de cidos nucleicos ou representam o contexto evolutivo dos orga-
aminocidos. Ao investigar as relaes entre nismos de forma grfica. So formadas por
diferentes espcies, anlises de genes ribos- ns (pontos) ligados por diversos ramos (li-
somais so comumente empregadas, pois in- nhas) (Figura 1-5). Os ns terminais, mais ex-
dependentemente da espcie ou do ternos na filogenia, identificam os indivduos,
organismo, os indivduos possuiro genes co- genes ou protenas que foram amostrados e
dificantes de RNA ribossmico. Em contra- includos na anlise filogentica. Geralmente
partida, quando se busca compreender as representam o alvo de estudo do pesquisador
relaes entre diferentes enzimas de uma e esto ligados aos ns mais internos na filo-
mesma famlia necessrio utilizar sequnci- genia atravs de traos horizontais, chama-
as de aminocidos, e no de nucleotdeos. Em dos de ramos terminais (Figura 1-5).
determinadas situaes, o genoma completo Os ns internos, pelo contrrio, repre-
pode ainda ser utilizado para inferir a filoge- sentam indivduos no amostrados. Eles
nia. Este o caso de diversos vrus, especial- identificam uma inferncia evolutiva do an-
mente quando se busca compreender a cestral comum mais recente dos ramos deri-
origem de novas variantes ou a disseminao vados daquele n e se ligam a ns cada vez
de uma cepa. O alvo de estudo (isto , se- mais internos, atravs dos ramos internos.
quncia de nucleotdeos ou aminocidos, gene Por exemplo, na Figura 1-5, os grupos de ns
ou genoma) depende, exclusivamente, do ob- terminais representados em verde possuem
jetivo da anlise e um dos principais fatores como ancestral comum o n laranja, mais in-
a ser definido primariamente pelo pesquisa- terno, enquanto os ns terminais azuis pos-
dor. suem como ancestral comum o n lils. Da
Atualmente, as filogenias funcionam co- mesma forma, o n vermelho a represen-
mo importantes ferramentas para diferentes tao do indivduo, gene ou protena mais an-
reas do conhecimento, incluindo as reas de cestral da filogenia que, atravs de processos
evoluo, gentica, epidemiologia, microbio- evolutivos, deu origem aos ns laranja e lils.
logia, virologia, parasitologia, botnica e zoo- O tamanho dos ramos horizontais pode
logia, dentre outras. Adicionalmente, de ter diferentes significados, dependendo do
maneira indita, a inferncia filogentica foi mtodo para inferncia da filogenia, conforme
utilizada como evidncia para a resoluo de
crime e principal prova durante um impasse
internacional envolvendo diferentes pases.
Em resumo, dependendo do objetivo, os m-
todos de construo de filogenias (inferncia
filogentica) so a base para diversas reas e
importantes objetos para o avano computa-
cional na anlise de dados biolgicos.

5.3. Representao de rvores


A Filogentica (termo obtido por unio
dos termos gregos para tribo e origem) a
cincia que busca reconstruir a histria evolu- Figura 1-5: Nomenclatura associada a rvores
tiva dos organismos, levando em conta as se- filogenticas.
5. Filogenia Molecular

veremos a seguir. No entanto, os ramos re- Partindo do princpio de derivao evo-


presentados na vertical (Figura 1-5) no ex- lutiva, onde um organismo d origem a outro
pressam qualquer significado, e seu tamanho (ou outros), podemos reconhecer dois princi-
no altera em nada a idia filogentica. Como pais processos na representao de filogeni-
a anlise pode ser feita em diferentes nveis, as: derivao dicotmica e derivao
utilizando dados moleculares de genes, pro- politmica. No primeiro caso, cada n interno
tenas, indivduos, espcies, gneros, famlias, d origem a apenas dois ramos. Para espci-
ou qualquer outro taxon, os ns terminais so es, por exemplo, a ramificao de um ances-
amplamente denominados OTUs (operational tral comum em dois ramos evidencia o
taxonomical units), ou unidades taxonmicas processo de especiao. No segundo caso,
operacionais (tambm chamados de folhas, trs ou mais ramos surgem de um mesmo n
Figura 2-5). A ordem e disposio exata das interno.
OTUs em uma filogenia denominada topolo- Apesar de rvores dicotmicas serem mais comuns
gia. e normalmente esperadas, em alguns casos, como a
disperso explosiva do HIV e do HCV, rvores politmi-
cas representam melhor o processo evolutivo. Casos
como estes, onde um ancestral comum origina simul-
taneamente vrias linhagens descendentes, so cha-
madas de politomias verdadeiras (hard polytomies).
Por outro lado, as politomias falsas (soft polytomies)
so casos onde a topologia no foi bem resolvida por
no haver certeza do padro de ancestralidade, tor-
nando mltipla uma diviso que se esperaria ser for-
mada por uma srie de divises dicotmicas.
Figura 2-5: rvore dicotmica dos grupos de Assim, ao agruparmos as OTUs segun-
vertebrados. As OTUs (ns terminais) esto do a sua ancestralidade, podemos reconhecer
representadas por cones (peixes diferentes padres: grupos monofilticos, pa-
pulmonados, anfbios, mamferos, tartarugas, rafilticos e polifilticos (Figura 2-5). Os gru-
lagartos e serpentes, crocodilos e aves). pos monofilticos incluem todos os membros
Observe que o grupo dos rpteis descendentes de um nico ancestral, assim
parafiltico (destacado em vermelho). O como o prprio ancestral. Na Figura 2-5, por
grupo seria considerado monofiltico se exemplo, as aves e os crocodilos so consi-
inclusse as aves. derados um grupo monofiltico, pois com-
partilham o mesmo ancestral comum. Da
Alm da forma grfica, as rvores filogenticas po- mesma forma, as aves, os crocodilos e os la-
dem tambm ser descritas na forma textual. Em vez gartos tambm podem ser considerados um
do diagrama com linhas e pontos, as relaes evoluti- grupo monofiltico, pois se originaram de um
vas so representadas por notaes com parnteses. mesmo ancestral. A anlise das relaes en-
A estrutura da rvore da Figura 2-5, por exemplo, po- tre os grupos, neste caso, depender do ob-
de ser descrita linearmente como (Peixes pulmonados, jetivo do pesquisador. Adicionalmente, os
(Anfbios, (Mamferos, (Tartarugas, (Lagartos, (Croco- grupos monofilticos podem ser denomina-
dilos, Aves)))))) ou (Peixes pulmonados + (Anfbios + dos clados por agruparem duas ou mais se-
(Mamferos + (Tartarugas + (Lagartos + (Crocodilos + quncias que so descendentes de um
Aves)))))). Estas notaes foram desenvolvidas para mesmo ancestral (Figura 3-5a e b). A organi-
utilizao computacional da informao filogentica. zao da topologia em que um clado est
Algoritmos e programas que realizam anlises mole- contido em outro comumente chamada de
culares necessitam da informao na forma textual e, clados aninhados ou clados embutidos (Figu-
quando necessrio, fornecem a sada para o usurio na ra 3-5c).
forma grfica. Os grupos parafilticos, por sua vez, se
5. Filogenia Molecular

destes grupos permite descrever caracters-


ticas resultantes de convergncia evolutiva,
pois uma mesma caracterstica se desenvol-
veu independentemente em diferentes gru-
pos.
Sabendo das relaes evolutivas entre
os txons e da existncia de ancestrais co-
muns, as rvores podem ser representadas
de maneira a evidenciar o ancestral mais an-
tigo (rvore com raiz ou enraizada), ou apenas
destacar as relaes evolutivas entre os t-
xons, sem destacar qual a OTU mais ances-
tral (rvore sem raiz ou no enraizada)
(Figura 4-5).
A raiz da filogenia a espcie ou se-
quncia ancestral a todo o grupo que est sob
anlise. Quando presente, a raiz aplica uma
Figura 3-5: (a) Exemplos de clados direo temporal rvore, permitindo obser-
destacados em verde. (b) Exemplos de var o sentido das mudanas evolutivas da raiz
organizaes da topologia que no (mais antigo) aos ramos terminais (mais mo-
caracterizam a existncia de um clado, dernos). Uma rvore no enraizada, pelo
destacados em laranja. (c) Diferentes nveis contrrio, reflete apenas a topologia estabe-
de clados que podem estar embutidos em um lecida entre as OTUs, sem indicar o ancestral
clado de maior ordem. Observe que os clados do grupo. rvores no enraizadas podem ser
de diferentes ordens, quando embutidos, confusas, e sua interpretao requer mais
formam clados monofilticos. cuidado devido facilidade em cometer erros
de anlise (Figura 4-5).
originam de um nico ancestral, mas nem to-
dos os organismos derivados deste ancestral
fazem parte do grupo. Na Figura 2-5, os rp-
teis so um grupo formado pelas tartarugas,
lagartos e crocodilos, e seu ancestral comum
est na base do ramo que d origem s tarta-
rugas. No entanto, este ancestral comum
tambm deu origem s aves e, por isso, os
rpteis no podem ser considerados um gru-
po monofiltico, mas um grupo parafiltico.
Finalmente, os grupos polifilticos pro-
vm de dois ou mais ancestrais diferentes.
Nestas relaes se encontram OTUs que
apresentam caractersticas comuns, mas que
possuem diferentes ancestrais comuns. Por
exemplo, a condio endotrmica (animais
que mantm a sua temperatura corporal
constante) apenas apresentada por aves e Figura 4-5: Comparao de rvores (a)
mamferos. Por este critrio, poderamos enraizadas e (b) no enraizadas. No primeiro
agrupar estes dois grandes grupos sem, no caso, possvel definir a direo das
entanto, compartilharem o mesmo ancestral mudanas evolutivas, devido presena do
comum direto (Figura 2-5). A organizao vetor tempo dado pela presena da raiz.
5. Filogenia Molecular

A identificao de uma raiz nas filogeni-


as geralmente requer a incluso de uma ou
diversas OTUs que representem grupos ex-
ternos. Os grupos externos devem ser an-
cestrais comuns das OTUs em estudo, j
conhecidos, que indicaro caracteres presen-
tes em organismos mais prximos aos an-
cestrais, provendo um direcionamento para a
interpretao dos processos evolutivos. Para
o caso do estudo de HIV, por exemplo, co-
mum que os vrus da imunodeficincia de s-
mios (SIV) sejam utilizados como grupo
externo nas filogenias, pois sabidamente es-
tes vrus deram origem ao HIV.
A adio de grupos externos aumenta o nmero de
topologias diferentes que uma filogenia pode assumir.
O nmero de rvores possveis varia com o nmero de
OTUs e com a presena ou ausncia de raiz. Para mais
de duas OTUs, a quantidade de possveis rvores com
raiz sempre maior que o nmero de rvores sem raiz.
A possibilidade de inferncia de diferentes topologias
para os mesmos dados moleculares ressalta a extre-
ma variabilidade de cenrios possveis na busca do
verdadeiro evento evolutivo. importante tambm
ressaltar que, assim como a complexidade, o tempo
computacional envolvido na construo das filogenias
aumenta exponencialmente com o aumento de OTUs.
Em relao topologia das rvores, a
inverso de ramos derivados de um mesmo
n no altera a relao evolutiva apresentada
pela rvore (Figura 5-5). Nesse sentido, a r-
vore filogentica pode ser comparada a um
mbile: cada pea suspensa livre para girar
em seu eixo, ficando mais prxima ou mais Figura 5-5: A poro terminal da rvore dos
distante espacialmente das outras peas, sem vertebrados (representada na Figura 2-5) foi
alterar a estrutura geral do objeto. Indepen- rearranjada de diferentes maneiras (as setas
dentemente da posio destas OTUs, aps o indicam o ponto de rotao). Conforme a
giro dos ramos, o mesmo ancestral comum analogia de um mbile, todas elas
ser identificado e, por isso, no h qualquer representam a mesma relao evolutiva.
alterao no significado da filogenia.
Quanto nomenclatura de rvores filo- gum atributo, como quantidade de mudana.
genticas, diferentes termos so emprega- Por sua vez, uma rvore ultramtrica (ou
dos, tais como cladogramas, filogramas e dendrograma) constitui um tipo especial de
dendrogramas (Figura 6-5). Um cladograma filogenia devido aos seus ramos serem equi-
uma rvore simples, que retrata as relaes distantes da raiz. Os dendrogramas podem,
entre os ns terminais. Pelo contrrio, uma desta forma, retratar o tempo evolutivo.
rvore aditiva (rvore mtrica ou filograma) importante ressaltar que alguns autores de-
apresenta informaes adicionais, pois o nominam qualquer filogenia como cladogra-
comprimento dos ramos proporcional a al- ma, o que pode ser confuso.
5. Filogenia Molecular

centes do ponto de vista evolutivo.


preciso, assim, conhecer o caso de
estudo e o tipo de pergunta que se busca
responder com cada filogenia. Ao lidarmos
com genes de diferentes espcies, por exem-
plo, importante saber da existncia e dispo-
sio de ntrons, da necessidade de lidar com
o gene inteiro ou apenas parte dele ou da ne-
cessidade de incluir regies regulatrias para
a anlise.
Um exemplo recente da aplicao de
anlises filogenticas est no caso da identi-
ficao da origem da linhagem do vrus influ-
enza H1N1, envolvido no surto de gripe de
2009. Para tanto, Smith e colaboradores
empregaram genomas completos de influen-
Figura 6-5: Nomenclatura de rvores za isolados de diferentes localidades e hos-
filogenticas. Observe que os cladogramas a pedeiros, e construram rvores filogenticas
e b so equivalentes, mas o filograma c e o para cada uma das oito regies do genoma
dendrograma d no o so. buscando identificar a fonte de cada rearranjo
presente no vrus envolvido no surto. Por
O tipo de dado molecular a ser empre- meio das rvores obtidas, foi possvel rastre-
gado nas anlises tambm deve ser levado ar a contribuio gentica dos vrus isolados
em conta. Sequncias de aminocidos so de aves, sunos e humanos (Figura 7-5). As-
mais conservadas que sequncias de cidos sim, o emprego da filogenia neste trabalho
nucleotdeos em decorrncia da degenerao permitiu no apenas caracterizar o vrus do
do cdigo gentico. So, portanto, teis em ponto de vista molecular, como tambm re-
anlises de produtos de genes ou espcies construir a histria evolutiva do agente etio-
que visam entender fenmenos que aconte- lgico de uma pandemia.
ceram h amplos perodos de tempo evoluti-
vo. Alm disso, por formarem um conjunto de 5.4. Distncia gentica
pelo menos 20 membros (contra quatro
membros presentes em DNA ou RNA), sua A formulao de modelos evolutivos
variao pode ser mais significativa. uma maneira de descrever matematicamente
A despeito desta diferena no volume os processos que moldam as mudanas nas
de informao, com a popularizao do se- sequncias de nucleotdeos ou aminocidos
quenciamento de cidos nucleicos, especial- dos organismos ao longo do tempo. Do ponto
mente DNA, sequncias de nucleotdeos de vista molecular, estas mudanas podem
passaram a ser as mais empregadas em es- ser resultado de diferentes foras evolutivas
tudos de filogenia. cidos nucleicos so mais que reorganizam a sequncia e a prpria es-
propensos a alteraes, podendo sofrer tran- trutura dos genes.
sies (quando ocorre a troca de uma purina Um modelo geral para descrever de
por outra purina, ou de uma pirimidina por maneira eficaz estas alteraes evolutivas
outra pirimidina) e transverses (quando deveria considerar os processos de substitui-
ocorre a troca de uma purina por uma pirimi- o, insero, deleo e duplicao, bem co-
dina ou vice-versa), alm de inseres ou de- mo ocorrncia de transposio ou at mesmo
lees de pares de base que interferem no de retrotransposio. Contudo, apesar de es-
quadro de leitura. Essa variabilidade pode ser tes fenmenos serem claros agentes na mo-
interessante no estudo de eventos mais re- delagem dos genomas, matematicamente
5. Filogenia Molecular

Figura 7-5: Representao esquemtica das recombinaes que originaram o vrus Influenza
envolvido no surto de gripe suna em 2009. Diferentes linhas representam diferentes regies
do genoma do vrus. Observe a interao entre vrus de origens aviria, suna e humana em
eventos que datam, pelo menos, desde 1990. Os eventos de recombinao e as anlises
temporais foram baseadas em anlises filogenticas (Adaptado de Smith e colaboradores,
Origins and evolutionary genomics of the 2009 swine-origin H1N1 influenza A epidemic. Nature,
459, 1122-1125, 2009).

ainda no factvel coloc-los como compo- as mudanas nas sequncias de nucleotdeos


nentes de modelos que expliquem inteira- de forma independente (Figura 8-5). Uma
mente o processo evolutivo. medida tradicional para expressar o nmero
Assim, devido grande relevncia dos de substituies de nucleotdeos que se acu-
mecanismos de substituio para a evoluo mularam nas sequncias desde a divergncia
dos genomas em diferentes organismos e da chamada de distncia gentica. Esta infor-
disponibilidade de modelos de probabilidade mao uma medida quantitativa da dissimi-
estatstica que expliquem este processo, as laridade gentica entre diferentes OTUs, e
trocas tm sido o principal alvo para o de- permite estabelecer uma estimativa relativa
senvolvimento de modelos matemticos e da quantidade de mudanas que ocorreram
compem a base de diversos mtodos de in- desde a divergncia.
ferncia filogentica. A distncia tambm um importante
Aps a divergncia de duas sequncias a conceito na construo de filogenias, pois est
partir de seu ancestral comum, de forma di- diretamente relacionada com a relao evo-
cotmica, fenmenos evolutivos garantiro lutiva entre duas OTUs: uma menor distncia
5. Filogenia Molecular

quncias homlogas com tamanho de 100pb,


a distncia p obtida ser 0,08. Este resultado
reflete a porcentagem de stios diferentes em
relao ao tamanho total da sequncia, e ge-
ralmente utilizado na especificao da es-
cala de distncia das filogenias (Figura 8-5).
A variao gentica em um determinado
stio pode decorrer de diferentes processos e
resultar em mais de uma substituio. As
mltiplas substituies, ou multiple hits,
ocorrem naturalmente e podem subestimar o
verdadeiro nmero de mudanas no clculo
da distncia p, j que escondem as diversas
trocas de nucleotdeos ou aminocidos. Na
Figura 8-5: Aps a divergncia de dois Figura 8-5b, por exemplo, apesar de ocorre-
organismos a partir de seu ancestral comum, rem duas substituies no mesmo stio ao
seus genomas acumularo diferenas longo de um dos ramos, aparentemente a se-
independentemente. (a) A medida da quncia derivada parece ter sofrido somente
dissimilaridade gentica entre duas um evento evolutivo. Sendo assim, a relao
sequncias homlogas ao longo do tempo entre as diferenas nas sequncias e o tempo
chamada de distncia gentica, e a relao decorrido da divergncia nem sempre linear,
temporal entre duas sequncias divergentes especialmente devido ocorrncia das mlti-
dada por 2t. (b) A ocorrncia de mltiplas plas substituies em um mesmo stio.
substituies ao longo do tempo na Devido ineficcia da distncia p em
divergncia de sequncias homlogas pode efetivamente estimar a distncia gentica en-
mascarar as verdadeiras diferenas entre as tre duas sequncias, diferentes modelos pro-
sequncias. Apesar de ocorrerem dois babilsticos foram desenvolvidos para
eventos de mutao na sequncia derivada 1, descrever as mudanas entre os nucleotdeos
apenas o ltimo evento observado, pois e corrigir a distncia observada. Tais modelos
ocorreram no mesmo stio. Os quadrados em implicam no uso de diversas suposies sim-
vermelho evidenciam as diferenas em ples a respeito das probabilidades de substi-
relao s sequncias ancestrais. tuio de um nucleotdeo por outro, mas
garantem uma aproximao da realidade
gentica indica uma relao evolutiva mais quando sustentadas por uma taxa de muta-
prxima, enquanto que um valor maior sugere o fidedigna.
uma derivao evolutiva proporcionalmente Estas tcnicas de correo so comu-
maior. Tipicamente, a informao da distncia mente conhecidas por modelos de substitui-
gentica incorporada inferncia filogenti- o (ou matrizes de substituio), e garantem
ca na definio do tamanho dos ramos. No a converso da distncia observada em medi-
entanto, alm desta informao necessria das de distncias evolutivas prximas da rea-
uma escala de distncia que especifique o n- lidade, permitindo reconstruir a histria
mero de mudanas que ocorreram ao longo evolutiva dos organismos.
do ramo. Diversos modelos de substituio foram propostos
O mtodo mais simplista para avaliar a para explicar as trocas de nucleotdeos em sequncias
distncia gentica entre duas sequncias de DNA, reduzindo a complexidade do processo evolu-
conhecido como distncia p. Este mtodo tivo a um padro de mudana simples que consegue
baseado na contagem das diferenas dividida ser explicado atravs de poucos parmetros. Todos
pelo nmero total de stios do alinhamento. estes modelos, no entanto, de alguma forma so inter-
Se oito stios so diferentes entre duas se- relacionados, diferindo principalmente no nmero de
5. Filogenia Molecular

parmetros utilizados para explicar estas substitui- cria as variveis e para representar, respectiva-
es. Devido influncia do modelo de substituio na mente, as taxas de transio e de transverso. Apesar
inferncia de filogenias, a escolha de um mtodo parti- da incluso de dois parmetros, as frequncias de
cular deve ser justificada. A estratgia mais simples equilbrio se mantm constantes em para cada nu-
utilizar os modelos que comportam o maior nmero de cleotdeo. Em 1981, Kimura adiciona um terceiro par-
variveis, embora a complexidade no esteja direta- metro () ao modelo j proposto, passando a ser
mente relacionada melhor qualidade de anlise das identificado como K3P. A atualizao do modelo permi-
sequncias. Com o aumento de parmetros, o sistema tiu dividir as taxas de transverso em duas variveis.
se torna mais complexo, aumentando a probabilidade Alguns genomas apresentam uma grande quanti-
de erro e exigindo um maior processamento computa- dade de guaninas e citosinas em relao a timinas e
cional. Assim, necessrio verificar os alinhamentos adeninas. Se algumas bases so mais frequentes que
caso-a-caso para atribuir o melhor modelo de substi- outras, ser esperado que algumas substituies
tuio na inferncia filogentica. ocorram com mais frequncia que outras. O modelo
A substituio de nucleotdeos ou aminocidos em criado por Felseinstein (F81) acomoda essas observa-
uma sequncia usualmente modelada sob a forma de es e permite que as propores individuais de cada
um processo quase aleatrio. Devido ao carter din- nucleotdeo (frequncia estacionria) sejam diferentes
mico desta aleatoriedade, necessrio enquadrar as de . importante ressaltar que este modelo conside-
substituies, seguindo certos pressupostos. Assim, as rar a mesma proporo de bases em todas as se-
substituies so descritas por um processo de Mar- quncias envolvidas no alinhamento. Se diferentes
kov homogneo, onde a probabilidade de substituio sequncias possuem diferente composio de bases, a
de um nucleotdeo X pelo Y no depende do estado pressuposio principal do modelo ser violada.
prvio do nucleotdeo X. O modelo HKY85, proposto por Hasegawa, Kishino
As probabilidades de mudana de um nucleotdeo e Yano, essencialmente mistura os modelos K2P e F81.
para outro (ou de um aminocido para outro) so es- Alm de supor que a frequncia das bases varivel,
pecificadas atravs de uma matriz 4x4 das taxas de este modelo permite que transies e transverses
substituio (ou 20x20 no caso dos aminocidos) que ocorram com taxas diferentes.
especificam com qual taxa cada um dos nucleotdeos Posteriormente, o modelo GTR (generalised time-
ou aminocidos poder mudar para outro. necessrio reversible), o mais complexo dos modelos aqui apre-
assumir tambm que os eventos de substituio sejam sentados, foi desenvolvido a partir do HKY85 com o in-
independentes ao longo dos stios das sequncias, e tuito de acomodar diferentes taxas de substituio e
ainda, possuam um carter reversvel. Alm disso, de- diferentes frequncias de bases. Este modelo requer
vem especificar a frequncia estacionria dos nucleot- seis parmetros para taxa de substituio e quatro pa-
deos, ou frequncia de equilbrio, onde ser atribuda a rmetros para a frequncia das bases, misturando to-
provvel proporo de cada um dos caracteres na se- dos os modelos aqui descritos.
quncia. Atualmente, alm destes mais de 200 modelos de
Para sequncias de nucleotdeos, o modelo de substituio podem ser aplicados a alinhamentos de
substituio mais simples foi proposto por Jukes e nucleotdeos. Alguns programas, como Modeltest e
Cantor em 1969 (JC69). Segundo este modelo, as mu- Jmodeltest, so capazes de selecionar o modelo de
danas entre os nucleotdeos podem ocorrer com a substituio que melhor se ajusta a um dado alinha-
mesma probabilidade, assumindo uma frequncia es- mento.
tacionria igual para todos (cada nucleotdeo tem 25% Uma importante extenso desses modelos de
de chance de ocorrer na sequncia). substituio incorpora a possibilidade de variao nas
Com o advento da publicao das primeiras se- taxas evolutivas entre os stios, permitindo ao modelo
quncias de genoma mitocondrial, na dcada de 1980, mais realismo. Assim, para cada stio no DNA ser atri-
se observou que as transies eram muito mais co- buda uma probabilidade de evoluo a uma taxa conti-
muns que as transverses. Devido uniformidade do da em um intervalo discreto de probabilidades. O
mtodo proposto por Jukes e Cantor, foi necessrio mtodo que garante a heterogeneidade de taxas evo-
criar um modelo que acomodasse essas diferenas. lutivas modelado atravs de uma distribuio gama
Assim, o modelo proposto por Kimura (K80 ou K2P) (), que considera um nmero especfico de taxas de
5. Filogenia Molecular

evoluo para os stios do DNA. 5.5. Inferncia filogentica


A aplicabilidade deste modelo nas inferncias filo-
genticas facilitada pela simplicidade do mtodo, j A reconstruo filogentica, ou seja, a
que apenas um nico parmetro () controla a forma reconstruo da histria evolutiva de orga-
da distribuio gama. Quando < 1, existe um grande nismos, um complexo processo que envolve
nmero de taxas de evoluo entre os stios das se- uma srie de etapas. O alinhamento, alm de
quncias em anlise, ou seja, quanto maior , menor a ser o primeiro passo, um importante ponto
heterogeneidade. Algumas vezes, uma proporo de para a inferncia de filogenias (ver captulo 3).
stios invariveis (I), no qual uma determinada propor- Um alinhamento preciso, alm de garantir
o de stios assumida como incapaz de sofrer subs- maior confiabilidade nas anlises posteriores,
tituio, pode tambm ser usada para modelar a requerido por todos os mtodos de infern-
heterogeneidade entre os stios. cia filogentica para construo da rvore.
Ao contrrio dos modelos de substituio de nucle- Depois que o alinhamento foi proposto,
otdeos, os modelos que explicam as trocas de amino- diversos mtodos podem ser usados para
cidos so tradicionalmente empricos. A partir da estimar a filogenia das sequncias estudadas.
anlise de alinhamentos de protenas com identidade Podemos dividir estes mtodos em dois prin-
mnima de 85% Dayhoff, em 1970, desenvolveu uma cipais grupos: mtodos quantitativos e mto-
srie de matrizes de probabilidade que explicavam as dos qualitativos (Tabela 1-5). Estes grupos
mudanas de aminocidos ao longo do tempo. diferem na forma como os dados so trata-
As matrizes PAM, como ficaram conhecidas, cor- dos, refletindo diretamente como os dados do
respondem a modelos de evoluo nos quais os ami- alinhamento sero inicialmente processados.
nocidos so substitudos aleatoriamente e Os mtodos quantitativos se baseiam na
independentemente, de acordo com uma probabilidade quantidade de diferenas entre as sequncias
predefinida que depende do prprio aminocido. do alinhamento para calcular uma rvore fi-
Em 1992, um novo modelo de substituio de ami- nal. J os mtodos qualitativos constroem di-
nocidos criado por Henikoff e Henikoff. A anlise de versas filogenias que so classificadas
sequncias de protenas distantes evolutivamente, seguindo uma determinada qualidade (crit-
possibilitada pelo modelo de Henikoff-Henikoff, estabe- rio). A filogenia que obtiver o maior valor as-
leceu as bases para a criao das matrizes BLOSUM. sociado tal qualidade ser a filogenia
As matrizes desta srie foram identificadas por nme- resultante.
ros (por exemplo, BLOSUM62) que se referem por- Os mtodos quantitativos compreen-
centagem mnima de identidade dos blocos dos dem os mtodos de distncia. Estes mtodos
aminocidos utilizados para construir o alinhamento. convertem o alinhamento em matrizes de
Matrizes similares, como GONNET e JTT, surgiram na distncia par-a-par para todas as sequncias
mesma poca. includas. Dentro destes algoritmos desta-
Em 1996, foi proposto um modelo de substituio cam-se dois mtodos principais: UPGMA e
especfico para protenas codificadas pelo DNA mito- aproximao dos vizinhos. Devido grande
condrial, onde foi observado desvio de transies entre eficincia computacional, estes mtodos ge-
aminocidos em relao s protenas codificadas pelo ralmente so utilizados para construo de
material gentico nuclear. Essa matriz, criada por uma filogenia inicial, que posteriormente
Adachi e Hasegawa, foi chamada de mtREV. submetida a algum mtodo do grupo qualita-
Finalmente, em 2001, Whelan e Goldman propem tivo. Como principal ponto negativo, estes
a matriz WAG, baseada em combinao e ampliao de mtodos apresentam apenas uma filogenia
vrios modelos de substituio anteriores. Tal matriz como resultado final (ver adiante).
considerada superior s suas antecessoras para des- Idealmente, todas as possveis rvores
crever filogenias de protenas globulares. para um dado alinhamento deveriam ser ana-
lisadas para garantir a escolha da melhor fi-
logenia. Para isso, necessrio atribuir certos
parmetros que avaliem, dentre todas as r-
5. Filogenia Molecular

Tabela 1-5: Comparao entre os tipos de mtodos para inferncia de filogenias.


Tipo Mtodo Princpio Programa
Agrupa sequencialmente as OTUs com Geneious
UPGMA
menor distncia evolutiva entre si MEGA
Mtodos MEGA
Busca a rvore com a menor
Quantitativos Aproximao dos vizinhos Geneious
soma total de ramos
HyPhy
PAUP
Busca a filogenia com menor nmero de
Mxima Parcimnia MEGA
eventos evolutivos
Mesquite
PAUP
Busca a rvore com o valor de maior
Mtodos Mxima Verossimilhana verossimilhana entre todas as filogenias PAML
Qualitativos phyML
construdas
MEGA

Amostra um nmero representativo de Mr. Bayes


Estatstica Bayesiana filogenias a partir do espao amostral total BEAST
de rvores e busca a mais provvel BAMBE

vores, aquela que explica as relaes evoluti- ao tempo e exigncia computacional, os mtodos
vas de forma mais precisa. heursticos so preferidos aos exatos. No entanto,
Assim, os mtodos qualitativos envol- qualquer um deles pode ser aplicado aos mtodos
vem algoritmos que atribuem um critrio de qualitativos de inferncia filogentica. Como desvanta-
otimizao para escolher a melhor filogenia. gem dos mtodos qualitativos, repetidos processos de
Nestes mtodos, diversas filogenias so procura em um mesmo conjunto de sequncias podem
construdas e, seguindo um critrio definido levar a resultados diferentes, dependendo da rvore
pelo algoritmo utilizado, uma filogenia ser que construda inicialmente pelo algoritmo.
identificada como a que melhor explica a re- Os mtodos exatos buscam todas as filogenias
lao evolutiva entre os OTUs. O critrio possveis para um grupo de sequncias. O funciona-
utilizado para atribuir um valor a cada filoge- mento destes mtodos geralmente envolve a seleo
nia e orden-las segundo este valor. aleatria inicial de trs OTUs para a construo de uma
Estes mtodos tm a vantagem de re- rvore filogentica no enraizada. Por tentativa, um a
querer uma funo explcita para escolha das um, novas OTUs, tambm tomadas aleatoriamente do
filogenias, sendo portanto independente da alinhamento, so inseridas em diferentes posies na
escolha do operador. No entanto, devido ao rvore. Esse procedimento repetido at todos os t-
carter de sua anlise, so mtodos mais re- xons serem inseridos, garantindo que todas as filogeni-
finados e intrinsecamente mais demorados as possveis para o alinhamento dado sejam geradas.
computacionalmente. Trs critrios de otimi- A partir da aplicao de um critrio de otimizao
zao so tradicionalmente empregados na (dado pelo mtodo qualitativo) para classificar as filo-
inferncia de filogenias: (a) Mxima Parcim- genias e orden-las segundo este valor, possvel or-
nia, (b) Mxima Verossimilhana e (c) Infern- ganizar um espao virtual que contm todas as
cia Bayesiana. filogenias possveis para o alinhamento empregado.
Por se tratarem de mtodos que buscam uma nica importante lembrar que, tomando poucas sequncias,
filogenia entre diversas rvores, os mtodos qualitati- milhes de rvores podem ser geradas. Este conjunto
vos exigem algoritmos que vasculhem o maior nmero total de filogenias comumente chamado de espao
possvel de filogenias em busca da melhor rvore. Dois amostral. Como exemplo, podemos organizar o espao
grupos de algoritmos so destacados: os algoritmos amostral de filogenias originadas a partir de um ali-
exatos e os algoritmos heursticos. Atualmente, devido nhamento de dez sequncias em um grfico bidimensi-
5. Filogenia Molecular

onal baseado no valor atribudo pelo critrio de otimi- computacionalmente, estes mtodos no garantem
zao a cada rvore (Figura 9-5). Nestas condies, que a filogenia correta seja encontrada, pois apenas al-
ser possvel observar que algumas rvores possuem gumas rvores do espao amostral total sero consi-
valores maiores que outras, formando picos que agru- deradas. Ainda assim, estes mtodos tem mostrado
pam as melhores filogenias. Da mesma forma, entre grande eficincia.
diferentes picos existem vales representados por r- Atualmente, os principais mtodos qualitativos de
vores com valores menores e, portanto, menos con- inferncia filogentica incorporam algoritmos de busca
sistentes. heurstica para amostrar as filogenias do espao
amostral virtual. Usualmente, estes algoritmos de
busca so executados em dois passos. Primeiramente,
diferentes rvores so construdas e, aps encontrar a
melhor rvore guiada por um critrio de otimizao,
aplica-se um algoritmo para modificar aleatoriamente
o arranjo dos ramos. Este mtodo permite testar se
outros arranjos so ou no mais consistentes.
Devido ao grande nmero de mtodos
para inferncia filogentica, a deciso quanto
ao uso de cada um de grande importncia
para a interpretao do resultado final: a filo-
genia. Ao escolher um mtodo, fundamental
verificar o poder (tamanho e quantidade de
sequncias necessria para resolver a filoge-
Figura 9-5: Descrio de parte do espao nia), a eficincia (habilidade de estimar a filo-
amostral das possveis filogenias para um genia correta com um nmero limitado de
determinado sistema, ordenadas segundo um dados), a consistncia (habilidade de estimar a
valor atribudo pelo critrio de otimizao. filogenia correta com um nmero de dados
Cada ponto no grfico representa uma ilimitado) e a robustez (habilidade de estimar
topologia diferente inferida a partir de um a filogenia correta quando certos pressupos-
conjunto de dez sequncias homlogas. O tos da anlise so violados).
espao amostral, neste caso, definido por At o momento, no existe um mtodo
2.027.025 filogenias e apresenta, segundo o que apresente todas estas caractersticas si-
critrio de otimizao, dois mximos locais e multaneamente e garanta a reconstruo fi-
um mximo global, que contm as melhores logentica correta. importante, sobretudo,
filogenias. Em destaque, algumas filogenias conhecer a biologia do organismo (ou dos or-
exemplificando as possibilidades de arranjo ganismos) em questo para que a escolha do
dos ramos. A seta indica a mudana de mtodo tenha, alm de tudo, uma justificativa
topologia da filogenia e o consequente biolgica.
aumento de seu valor dado pelo critrio de
otimizao. 5.6. Abordagens quantitativas
Os mtodos de busca exaustiva construiro um es- UPGMA
pao amostral de rvores atravs de mtodos espec-
ficos de modificao das filogenias. Por acumularem O mtodo baseado em distncias
um grande nmero de resultados, estes mtodos exi- UPGMA (unweighted pair-group method using
gem um tempo computacional muito elevado, por ve- arithmetic averages, ou mtodo de agrupa-
zes tornando-se proibitivos. mento par a par usando mdias aritmticas
Os algoritmos de busca heurstica procuram pela no ponderadas) foi proposto por Sneath e
melhor filogenia em um subconjunto de todas as filo- Sokal, em 1973, e o mtodo mais simples
genias possveis. Apesar de serem muito mais rpidos para reconstruo filogentica. O UPGMA
5. Filogenia Molecular

parte do pressuposto de que todas as linha- uma nova sequncia composta. O mesmo
gens evoluem a uma taxa constante (hiptese procedimento repetido at que existam
do relgio molecular). apenas duas sequncias a serem agrupadas
No UPGMA, uma medida de distncia (comumente, uma sequncia simples e uma
evolutiva computada para todos os pares de entidade composta).
sequncias utilizando um modelo evolutivo. Ao empregar sequncias de DNA ou
Aps, estas distncias so organizadas na protena proximamente relacionadas, o
forma de uma matriz, conforme ilustrado UPGMA pode construir duas ou mais rvores
abaixo: empatadas (tie trees). Essas rvores surgem
Sequncias 1 2 3 4 quando dois ou mais valores de distncia na
matriz se mostram idnticos. possvel re-
2 d1,2 presentar todas as rvores empatadas, mas
essa abordagem pouco til, uma vez que
3 d1,3 d2,3 tais rvores so muito semelhantes e surgem
por erros de estimativa das distncias. Para
4 d1,4 d2,4 d3,4 tais casos, sugere-se apresentar uma nica
rvore, geralmente a rvore consenso do
5 d1,5 d2,5 d3,5 d4,5 bootstrap (ver seo 5.8).
Por se basear na hiptese do relgio
O agrupamento das sequncias inicia- molecular, o UPGMA pode levar obteno de
do pelo par com menor distncia. Supondo topologias falsas quando tal hiptese no for
que d1,2 seja a menor distncia no exemplo satisfeita pelos dados. Sabe-se que o mtodo
acima, as sequncias 1 e 2 so agrupadas muito sensvel a variaes nas taxas evolu-
com um ponto de ramificao na metade tivas entre linhagens, fato este que levou a
dessa distncia (d1,2/2). As sequncias 1 e 2 so proposio de mtodos onde as variaes so
ento combinadas em uma entidade compos- ajustadas para a obteno de sequncias que
ta, agora denominada y, e a distncia entre satisfaam o relgio molecular. Apesar disso,
esta entidade y e as outras sequncias devido ao surgimento de mtodos mais ro-
computada (observe abaixo). bustos e mais eficientes em lidar com dados
no uniformes, o UPGMA encontra-se prati-
Sequncias y(1,2) 3 4
camente abandonado como alternativa para
3 dy,3 reconstruo filogentica.

4 dy,4 d3,4 Aproximao dos Vizinhos

5 dy,5 d3,5 d4,5 O mtodo de aproximao dos vizinhos


(neighbor joining ou NJ) foi proposto por
Saitou e Nei em 1987. Este mtodo se baseia
Supondo que dy,3 seja a menor distncia, em um aceleramento dos algoritmos de evo-
y e 3 so combinados em uma nova entidade luo mnima que existiam at ento. Em sua
composta, digamos, z. Seu ponto de ramifica- verso original, estes algoritmos buscavam a
o calculado levando em conta a distncia rvore com menor soma total de ramos, de
de cada membro de y (1 e 2) em relao a 3 e maneira que todas as rvores possveis pre-
dividindo por 2, ou seja, (d1,3+d2,3)/2. O mesmo cisavam ser construdas para que se verifi-
procedimento se repete, calculando a menor casse qual delas apresentava a menor soma.
distncia entre z e outra sequncia (suponha- O algoritmo de NJ facilitou esse processo,
mos que seja a sequncia 4). Calculam-se a tendo o princpio de evoluo mnima implcito
distncia de cada membro de z at 4, divide-se no processo e produzindo apenas uma rvore
o somatrio das distncias por dois e cria-se final.
5. Filogenia Molecular

Para construir a filogenia, o NJ comea 5.7. Abordagens qualitativas


por uma rvore totalmente no resolvida (to-
pologia em estrela) (Figura 10-5). Tendo como Parcimnia
base uma matriz de distncias (semelhante
matriz inicial construda pelo mtodo de O princpio de parcimnia foi proposto
UPGMA) entre todos os pares de sequncias, por Guilherme de Occam (ou William of
construda a partir da aplicao de um modelo Ockham) no sculo XVII. Occam defendia que
de substituio (conforme descrito na seo a natureza por si s econmica e opta por
5.4), o par que apresentar a menor distncia caminhos mais simples. O pensamento se es-
identificado, unido por um n (que represen- palhou por diversas reas do conhecimento e,
tar o ancestral comum deste par de se- atualmente, seu princpio conhecido como
quncias) e incorporado na rvore (na Figura Navalha de Occam.
10-5, f e g so unidos pelo n u). As distncias Historicamente, a parcimnia teve um
de cada sequncia do par so recalculadas papel muito importante no estabelecimento
em relao ao novo n u, assim como as dis- da disciplina de filogentica molecular. Desde
tncias de todas as outras sequncias so re- 1970, foi o critrio de otimizao mais utiliza-
calculadas em relao ao novo n u. O do para inferncia de filogenias.
algoritmo reinicia, substituindo o par de vizi- Contudo, atualmente a mxima parci-
nhos unidos pelo novo n e usando as distn- mnia foi substituda por outros mtodos,
cias calculadas no passo anterior. como mxima verossimilhana e inferncia
Quando duas somatrias de ramos so Bayesiana devido, principalmente, s simplifi-
iguais, a deciso sobre quais ramos unir de- caes nos processos evolutivos assumidas
pende do programa empregado. Alguns op- pelo mtodo e, sobretudo, nas limitaes de
tam pela primeira sequncia apresentada no seu uso. Apesar disso, a mxima parcimnia
arquivo de dados, enquanto outros escolhem ainda est integrada ao campo da inferncia
aleatoriamente qual dos pares deve ser unido filogentica por ser um mtodo rpido e, em
primeiro. rvores empatadas (tie trees) so alguns casos, muito efetivo.
raras com o uso de NJ, e recomenda-se o A aplicao do princpio de mxima par-
emprego da rvore consenso do bootstrap cimnia nas reconstrues filogenticas
(ver seo 5.8) para evit-las. Uma variao conceitualmente simples: dentro de um con-
do algoritmo NJ, o BIONJ tem se mostrado li- junto de filogenias, aquela filogenia que apre-
geiramente melhor que o NJ em casos pontu- sentar o menor nmero de eventos evolutivos
ais; no entanto, conserva o mesmo princpio (substituies) deve ser a mais provvel para
do algoritmo. explicar os dados do alinhamento.

Figura 10-5: Comeando com uma rvore em estrela (a), a matriz de distncias calculada para
identificar o par de ns a ser unido (nesse caso, f e g). Estes so unidos ao novo n u (b). A
poro em vermelho fixada e no ser mais alterada. As distncias do n u at os ns a-e so
calculadas e usadas para unir o prximo vizinho. No caso, u e e so unidos ao recm criado n v
(c). Mais duas etapas de clculo levam rvore em (d) e ento rvore em (e), que est
totalmente resolvida, encerrando o algoritmo.
5. Filogenia Molecular

Metodologicamente, o critrio de parci-


mnia deve determinar a quantidade total de
mudanas na filogenia, descrevendo o tama-
nho dos ramos. Adicionalmente, a parcimnia
guia a busca, entre todas as rvores poss-
veis, daquela filogenia que minimiza os passos
evolutivos de forma mxima sendo, portanto,
a filogenia de mxima parcimnia.
Assim que uma determinada filogenia
proposta, o mtodo calcular as probabilida-
des de mudanas dos nucleotdeos desde os
ramos terminais at os ramos mais ances-
trais da rvore. Por se tratar de um mtodo
qualitativo, a parcimnia considera cada stio Figura 11-5: Matrizes de custo aplicadas ao
do alinhamento individualmente e calcula as mtodo de mxima parcimnia para penalizar
probabilidades de ocorrncia dos quatro nu- as substituies de um nucleotdeo por outro.
cleotdeos nos txons ancestrais. (a) Matriz de custos iguais para todas as
Devido ao carter probabilstico do m- mudanas entre nucleotdeos. (b) Matriz de
todo, necessrio que certas pressuposies custo desigual, considerando a maior
sejam estabelecidas para especificar o custo probabilidade de ocorrncia de transies em
de substituio dos nucleotdeos. A forma relao s transverses ao longo do
mais simples do mtodo (Parcimnia de processo evolutivo.
Wagner) assume que as substituies de nu-
cleotdeos tem custo 1, enquanto que a no necessrio que algoritmos fossem desenvolvidos para
alterao no penalizada (Figura 11-5a). No acelerar os clculos na busca pela rvore de mxima
entanto, esquemas um pouco mais complexos parcimnia. Algoritmos de programao dinmica so
que levam em considerao as questes bio- capazes de lidar com a atribuio de custos e realizar
lgicas envolvidas no processo evolutivo fo- os devidos clculos para escolha da filogenia com o
ram propostas. Um esquema comum de menor custo. Diversos algoritmos foram desenvolvi-
matriz com custo desigual, proposto para es- dos, embora a parcimnia de Sankoff, desenvolvida em
pecificar as transies e as transverses, leva 1975, tenha se tornado uma das mais populares.
em considerao a diferena na probabilidade Aps a atribuio de uma matriz de
de mudana entre purinas e pirimidinas (Figu- custo e a proposio de uma filogenia, o al-
ra 11-5b). Comumente, a matriz especificada goritmo utilizar cada um dos stios informa-
sem que constem os respectivos nucleotde- tivos do alinhamento independentemente
os, no entanto, por conveno so atribudos para clculo dos custos (Figura 11-5).
nas linhas e colunas em ordem alfabtica (A, Considere a matriz desigual da Figura 11-
C, G e T). 5b e a filogenia inicialmente proposta na Fi-
Para o mtodo de parcimnia, apenas gura 12-5a. O esquema demonstra que para
stios variveis so considerados informati- cada stio informativo ser construda uma fi-
vos. Estes stios devem apresentar dois ca- logenia com a mesma topologia da rvore
racteres diferentes presentes em, no mnimo, proposta em 12-5a (ver adiante).
dois indivduos (Figura 12-5b). Aqueles stios Tomando, por exemplo, o stio 28, iden-
que no apresentam variao ou apresentam tificamos a presena de trs ancestrais no
autapomorfias (caracter diferente presente amostrados que, no entanto, para o clculo
em apenas um indivduo) sero descartados dos custos, tero que ter seus caracteres in-
automaticamente das anlises. feridos. Segundo o algoritmo de Sankoff, os
Devido ao tamanho dos alinhamentos e ao nmero clculos devem iniciar tomando os clados
de OTUs includas para a inferncia de filogenias, foi mais derivados (isto , mais recentes). Em 12-
5. Filogenia Molecular

Figura 12-5: Determinao dos custos de substituio pelo mtodo de parcimnia para um stio
do alinhamento de nucleotdeos. (a) Topologia da filogenia proposta para quatro txons (ver
adiante). (b) Alinhamento de nucleotdeos de quatro sequncias homlogas. Destacados em
cinza esto os stios informativos para o mtodo de parcimnia. Os demais stios so
considerados no informativos e sero descartados durante os clculos. (c) Clculo dos custos
para os dois clados presentes na filogenia proposta em a. O mtodo supe que a posio Y
possa ser ocupada por qualquer um dos quatro nucleotdeos. (d) Exemplo do procedimento
adotado pelo mtodo, supondo que a posio X na filogenia foi ocupada pelo nucleotdeo A.
necessrio considerar todas as possibilidades de caracteres nos stios ancestrais e calcular os
respectivos custos. (e) Arranjo de menor custo para a posio 28 do alinhamento de
nucleotdeos.

5c, a posio Y da filogenia necessariamen- liza 8. O mesmo procedimento ser repetido


te foi ocupada por um dos quatro nucleotde- considerando os outros trs nucleotdeos na
os. Em cada uma das proposies (A, C, G ou posio Y.
T), o custo associado substituio consul- Aps o clculo dos custos para as posi-
tado na matriz. No primeiro caso, a hiptese es Y e Z, necessrio verificar os cus-
para ocupao da posio Y A. O custo da tos de substituio de X para Y e X para
substituio em cada um dos ramos deve ser Z. A Figura 12-5d apresenta a primeira hi-
verificado e somado. Por exemplo, a substi- ptese para ocupao da posio X: o nu-
tuio de A por T possui custo 4. Como a cleotdeo A. Aqui, o algoritmo somar os
mesma substituio ocorreu em dois ramos custos de substituio de todos os ramos,
diferentes, somamos o custo total, que tota- novamente considerando cada um dos quatro
5. Filogenia Molecular

nucleotdeos na posio X, mas tambm filogenias.


considerando a variao nas posies Y e
Z. A Figura 12-5e identifica a filogenia com o Mxima Verossimilhana
menor custo para o stio 28. Note que o ca-
ractere mais ancestral pode ser tanto o nu- Idealmente, os mtodos de inferncia
cleotdeo T quanto C. Os mesmos clculos filogentica devem resgatar o mximo de in-
sero realizados para todos os stios do ali- formaes contidas em um dado conjunto de
nhamento, tomando a topologia dada em 12- sequncias homlogas, buscando desvendar a
5a e, ao final, os menores custos para cada verdadeira histria evolutiva dos organismos.
stio sero somados para encontrar o tama- Quando um grande nmero de mudan-
nho dos ramos da rvore. A rvore que pos- as evolutivas em diferentes linhagens de-
suir os ramos mais parcimoniosos ser masiadamente desigual, o mtodo de mxima
tomada como a rvore de mxima parcim- parcimnia tende a inferir filogenias inconsis-
nia. tentes, proporcionalmente convergindo r-
Computacionalmente, o clculo dos ta- vore errada quanto maior o nmero de
manhos de ramos mais parcimoniosos no sequncias no alinhamento. Assim, abre-se
um problema. O desafio da maioria dos m- espao para uma tcnica de inferncia filoge-
todos de reconstruo filogentica est na in- ntica mais robusta, que alie as informaes
ferncia da topologia. Assim como no mtodo do alinhamento a um modelo estatstico ca-
de mxima verossimilhana, discutido a se- paz de lidar com a probabilidade de mudana
guir, o mtodo de mxima parcimnia contar de um nucleotdeo para outro de maneira
com algoritmos heursticos para arranjo das mais completa.
topologias. A filogenia ento proposta pelo Dentro do campo da filogentica com-
algoritmo, e o critrio de parcimnia avalia a putacional, o mtodo de mxima verossimi-
rvore. A partir de perturbaes realizadas lhana primeiramente ocupou este espao e,
nesta topologia, uma nova topologia pro- desde ento, tem sido amplamente utilizado
posta e novamente o critrio qualifica a filo- devido qualidade da abordagem estatstica
genia. empregada.
Apesar de velozes, os mtodos de par- A implementao de uma concepo
cimnia falham ao estimar a relao evolutiva estatstica para a mxima verossimilhana,
entre um grande nmero de txons, especial- originalmente desenvolvida para estimar pa-
mente se diferentes linhagens possuem taxas rmetros desconhecidos em modelos proba-
evolutivas variveis ou taxas evolutivas muito bilsticos, se deu entre 1912 e 1922 atravs
rpidas. Nestes casos, comum que o mto- dos trabalhos de A. R. Fisher.
do agrupe incorretamente os txons com Apesar de utilizado para dados molecu-
maiores taxas de evoluo, levando infe- lares na dcada de 1970, o mtodo de mxi-
rncia da filogenia errada (atrao de ramos ma verossimilhana s se tornou popular na
longos). rea da filogentica a partir de 1981, com o
Ainda, por no ter um modelo de subs- desenvolvimento de um algoritmo para esti-
tituio especificado, o mtodo de parcimnia mar filogenias baseadas no alinhamento de
incapaz de considerar mutaes reversas ou nucleotdeos. Atualmente, diversos progra-
mltiplas substituies. Mtodos que geram mas implementam este mtodo para realizar
diferentes hipteses a partir do alinhamento, a inferncia filogentica, incluindo PAUP, ME-
considerando as observaes biolgicas na GA, PHYLIP, fastDNAml, IQPNNI e METAPIGA,
seleo do modo de substituio dos nucleo- dentre outros (Tabela 1-5).
tdeos e, assim, lidam com eventos aleatrios O objetivo principal do mtodo da mxi-
de probabilidade, substituram o uso da mxi- ma verossimilhana inferir a histria evolu-
ma parcimnia e, atualmente, so os princi- tiva mais consistente com relao aos dados
pais mtodos utilizados para a inferncia de fornecidos pelo conjunto de sequncias. Neste
5. Filogenia Molecular

modelo, a hiptese (topologia da rvore, mo- lhana desta filogenia ser necessrio utilizar
delo de substituio e comprimento dos ra- um modelo evolutivo, que ser importante
mos) avaliada pela capacidade de predizer para atribuir valores e parmetros s substi-
os dados observados (alinhamento de se- tuies e ajudar no clculo da probabilidade
quncias homlogas). Sendo assim, a veros- de que uma sequncia X mude para uma se-
similhana de uma rvore proporcional quncia Y ao longo de um segmento da rvo-
probabilidade de explicar os dados do alinha- re.
mento. Aquela rvore que com maior proba- Dado um determinado modelo evolutivo
bilidade, entre as outras rvores possveis, (JC69, K2P, F81, HKY ou GTR, por exemplo), e
produz o conjunto de sequncias do alinha- assumindo que cada stio do alinhamento
mento, a rvore que reflete a histria evo- evolui de maneira independente dos demais,
lutiva mais prxima da realidade, mais podemos calcular o valor de verossimilhana
verossmil e, por isso, de mxima verossimi- para cada um destes stios e, posteriormente,
lhana. multiplicar os valores de cada stio para en-
importante ressaltar que diferentes contrar a verossimilhana da rvore dada (Fi-
filogenias podem explicar um determinado gura 13-5 e a Figura 14-5). Stios que
conjunto de sequncias, algumas com maior apresentam delees sero eliminados da
probabilidade e, outras, com menor probabi- anlise.
lidade. No entanto, a soma das verossimi- Como os ns internos destas rvores,
lhanas de todas as rvores possveis para geradas a partir de cada stio do alinhamento,
um determinado conjunto de sequncias nun- so a representao de OTUs no amostra-
ca resultar em 1, pois no estamos lidando dos (isto , ancestrais) e, por conseguinte, no
com as probabilidades de que estas filogenias se conhecem suas sequncias de nucleotde-
estejam corretas, mas avaliando a probabili- os, ser necessrio considerar a ocorrncia
dade de explicarem o alinhamento que foi de todos os nucleotdeos (A, T, C e G) nestas
fornecido. posies da rvore (Figura 13-5c).
Se, por exemplo, aplicssemos o mto- Por certo, alguns cenrios so mais
do de mxima verossimilhana para inferir a provveis que outros; no entanto, todos de-
rvore filogentica de um grupo de sequnci- vem ser considerados durante os clculos de
as homlogas que incluem pores recombi- verossimilhana, pois apresentam alguma
nantes, encontraramos uma rvore probabilidade de terem gerado as sequncias
filogentica com um determinado valor de dadas no alinhamento. Adicionalmente, alm
verossimilhana. A utilizao do mtodo, por de calcular a probabilidade de todas as mu-
si s, garantiria como resultado a inferncia danas possveis para cada um dos stios do
de uma filogenia. No entanto, sabemos que alinhamento (Figura 13-5c), a expresso ma-
esta rvore, apesar de ser a mais plausvel temtica da verossimilhana ainda incluir o
para explicar o alinhamento dado, no tem tamanho dos ramos, dentre outros elementos
qualquer relao com a realidade evolutiva do do modelo de substituio, como um fator
organismo, j que eventos de recombinao determinante para o clculo (Figura 13-5d).
aconteceram no decorrer do tempo e impe- A probabilidade de ocorrncia de cada um dos qua-
dem a explicao sob a forma dicotmica de tro nucleotdeos no n mais interno da rvore ser
uma filogenia. igual respectiva frequncia estacionria dada pelo
A aplicao do mtodo de mxima ve- modelo de substituio, j que este parmetro especi-
rossimilhana exige a construo de uma fi- fica a proporo esperada de cada um dos quatro nu-
logenia inicial, geralmente obtida por mtodos cleotdeos. No modelo de Jukes e Cantor, por exemplo,
quantitativos. Como exemplo, considere a r- assume-se que os quatro nucleotdeos ocorrem em
vore filogentica proposta inicialmente e o propores iguais de 25%.
respectivo alinhamento de nucleotdeos da Conforme o exemplo da Figura 13-5d, a equao
Figura 13-5. Para calcularmos a verossimi- utilizada para calcular a verossimilhana da filogenia
5. Filogenia Molecular

proposta no stio 28, inicialmente, leva em considera- culo computacional, os algoritmos aplicados infern-
o a frequncia estacionria do nucleotdeo G, j que cia filogentica (baseados no princpio de Pulley) auto-
este o nucleotdeo que est sendo considerado como maticamente estimaro o tamanho de cada ramo de
presente no n mais ancestral da rvore. A probabili- modo que este maximize o valor da verossimilhana da
dade de este G ser substitudo por um A (PGA), ou per- rvore filogentica em construo. Nestes casos, o al-
manecer G (PGG) ser dada pelo modelo de substituio goritmo atribui diversos valores de distncia para um
escolhido. Da mesma forma, sero os casos PGT, PAC ramo e, a cada valor, verifica a verossimilhana da r-
(repetido duas vezes cada pelo fato de existirem dois vore, buscando aqueles valores que resultam na filo-
ramos terminais com o mesmo nucleotdeo). genia com a maior verossimilhana.
O tamanho dos ramos entre dois ns ser multipli- A probabilidade de observar os dados em um stio
cado pelas probabilidades de substituio dos nucleot- particular a soma das probabilidades de todos os
deos, levando em conta variaes em parmetros do possveis nucleotdeos que poderiam ser observados
modelo de substituio. Apesar da dificuldade de cl- nos ns internos da rvore (Figura 13-5c). O nmero de

Figura 13-5: Esquema do clculo da verossimilhana para uma filogenia e seu respectivo
alinhamento de nucleotdeos. (a) rvore filogentica proposta inicialmente para o alinhamento
em b. (b) Para cada posio do alinhamento destacada a organizao dos quatro stios do
alinhamento na rvore proposta em a. Como exemplo, apenas o stio do alinhamento
destacado em cinza ser considerado para o clculo da verossimilhana. Os quadrados pretos,
azuis, verdes e vermelhos nos ramos terminais das filogenias representam, respectivamente,
os nucleotdeos guanina, citosina, adenina e timina. (c) Probabilidade de cada uma das 64
possveis combinaes de nucleotdeos nos ns internos da rvore, j que estes representam os
stios de txons ancestrais no amostrados (PXY, PYT, PXZ, PZC). (d) O esquema para o clculo da
mxima verossimilhana leva em conta a multiplicao do tamanho dos ramos (t1, t2, t3, t4, t5 e t6)
pelas respectivas probabilidades de transio (PGG, PGT, PGA e PAC), alm da frequncia
estacionria dos quatro nucleotdeos no n mais ancestral (X).
5. Filogenia Molecular

ns internos rapidamente se torna muito grande com o


aumento do nmero de OTUs. Felizmente, atravs de
um algoritmo criado por Felseinstein (algoritmo de
poda), que se aproveita da prpria topologia da filo-
genia, esses clculos podem ser realizados de uma
maneira computacionalmente eficiente.
Neste processo, prope-se que os clculos da ve-
rossimilhana de uma determinada rvore sejam feitos
a partir de sub-rvores dos ramos terminais em dire-
o aos ns internos, semelhante ao algoritmo usado
para o clculo da parcimnia. No entanto, quando apli-
cado este mtodo inferncia por mxima verossimi-
lhana necessrio garantir que os modelos de
substituio, no presentes no mtodo de mxima Figura 14-5: Clculo da mxima
parcimnia, sejam reversveis, ou seja, que a probabili- verossimilhana de uma dada filogenia,
dade de mudana de A para T (PAT) seja a mesma que T considerando seu respectivo alinhamento de
para A (PTA). A introduo deste mtodo permitiu que nucleotdeos contendo quatro txons e 30
as anlises de verossimilhana pudessem ser aplicadas bases (Figura 13-5b). Para cada stio (L01, L02,
a grandes conjuntos de sequncias, de forma mais r- ..., L30) ser calculado um valor de
pida e efetiva. probabilidade que envolve a considerao de
Ao final, multiplicamos os valores de verossimi- todos os quatro nucleotdeos em cada um
lhana de todos os stios e encontramos o valor de ve- dos ramos ancestrais da filogenia. Pos-
rossimilhana da rvore (Figura 14-5): teriormente, os valores de verossimilhana
A expresso matemtica acima indica que a veros- de cada stio sero multiplicados para
similhana (L) igual multiplicao () das probabili- encontrar a verossimilhana total da filo-
dades de cada stio i (Di, calculado conforme Figura genia.
13-5), dada a rvore filogentica (topologia, modelo
evolutivo e tamanho dos ramos). Aquela rvore que ti- cessrio calcular sua verossimilhana e com-
ver o maior valor de verossimilhana entre todas as parar este valor com todas as rvores j
rvores possveis para um determinado alinhamento construdas. Como impossvel testar a ve-
de sequncias ser a rvore que melhor explica o ali- rossimilhana para todas as filogenias poss-
nhamento e, por isso, a rvore de mxima verossimi- veis, os algoritmos de mxima
lhana. Por fim, importante ressaltar que, apesar de verossimilhana incluiro buscas heursticas
estarmos avaliando nucleotdeos neste exemplo, o para solucionar este problema (estes mto-
mesmo raciocnio poderia ser aplicado para a inferncia dos construiro diferentes filogenias a partir
filogentica para um alinhamento de aminocidos. do mesmo conjunto de dados do alinhamen-
At o momento vimos, em linhas gerais, to).
como realizar o clculo de verossimilhana Na problemtica das filogenias, diferen-
para uma dada filogenia (Figura 13-5). No en- tes programas tm proposto as mais diver-
tanto, outra funo importante dos mtodos sas alternativas para avaliar o maior nmero
computacionais de inferncia filogentica de rvores do espao amostral total e en-
apontar a topologia e encontrar a rvore de contrar aquela com o maior valor de verossi-
mxima verossimilhana entre todas as r- milhana. No entanto, como regra geral, a
vores possveis para o conjunto de dados. In- maioria dos programas de mxima verossi-
felizmente, no existem algoritmos que milhana segue alguns passos comuns:
garantam a localizao da rvore real devido i) Uma filogenia preliminar com deter-
ao grande espao amostral de rvores poss- minada topologia construda (geral-
veis (Figura 9-5). mente so utilizadas rvores
Aps uma rvore ser construda, ne- construdas pelo mtodo de aproxima-
5. Filogenia Molecular

o de vizinhos); blicao, o reverendo apresenta o desenvol-


ii) Os parmetros para esta rvore so vimento de um mtodo formal para incorpo-
modificados buscando maximizar a ve- rar evidncias prvias no clculo da
rossimilhana (em alguns casos, a filo- probabilidade de acontecimento de determi-
genia vai sendo construda pela adio nados eventos.
de novos txons aleatoriamente). Para a Inicialmente, este mtodo foi aplicado
modificao da filogenia, os algoritmos apenas no campo da matemtica e, s a partir
podem implementar tcnicas de rear- de 1973, passa a ser incorporado no pensa-
ranjos de ramos, conforme descrito em mento biolgico e na inferncia filogentica.
5.4; Com o advento de diversos programas de
iii) O valor de mxima verossimilhana acesso livre para realizar a inferncia de filo-
para esta rvore armazenado; genias por estatstica Bayesiana, o mtodo se
iv) Outras topologias so construdas e difundiu e, atualmente, tornou-se um campo
seus parmetros tambm so avalia- de estudo especfico dentro da filogentica
dos; computacional.
v) Finalmente, a filogenia que possuir o A inferncia Bayesiana engloba o mto-
valor de mxima verossimilhana ser a do de mxima verossimilhana (Tabela 2-5)
melhor estimativa evolutiva para o dado mas, adicionalmente, inclui o uso de informa-
conjunto de sequncias. es dadas a priori. Estas informaes refle-
tem caractersticas a respeito da filogenia, do
Embora estes processos simplifiquem alinhamento ou dos txons, que o pesquisa-
os verdadeiros fenmenos biolgicos que go- dor sabe de antemo.
vernam a evoluo de uma sequncia, apre- Entre os principais parmetros que po-
sentando assim dificuldades em identificar a dem ser conhecidos antes da reconstruo
rvore com o maior valor de verossimilhana, filogentica pode-se destacar a taxa evoluti-
eles so normalmente robustos o bastante va, tipo de relgio molecular, parmetros do
para estimar as relaes evolutivas entre t- modelo de substituio, datas de coleta das
xons. amostras, datas para calibrao da filogenia
Como estes mtodos implicam em en- (achados fsseis, datao por carbono-14,
contrar a rvore com o valor mximo de ve- aproximaes arqueolgicas, etc.), distribui-
rossimilhana entre todas as rvores o geogrfica, organizao monofiltica de
amostradas, o resultado final sempre forne- um grupo de indivduos ou, at mesmo, par-
cer apenas uma filogenia, ao contrrio dos metros de dinmica populacional.
mtodos Bayesianos que sero vistos a se- Os valores atribudos a priori so incor-
guir. Cabe ressaltar que, devido ao uso de di- porados estatstica Bayesiana na forma de
ferentes algoritmos, na prtica, um mesmo probabilidades e comporo o termo chamado
conjunto de sequncias submetido a diferen- de probabilidade anterior (prior probability).
tes programas para inferncia filogentica Se sabemos de antemo que um determinado
por mxima verossimilhana dificilmente re- grupo de organismos ancestral em relao
sultar na mesma rvore. Por isso, neces- a outro, podemos atribuir uma maior proba-
srio ser cauteloso ao interpretar rvores bilidade quelas filogenias que relacionam
geradas pelo mtodo de mxima verossimi- estes organismos da maneira como sabemos
lhana. a priori.
Qualquer informao til, que forneci-
Anlises Bayesianas da pelo pesquisador antes da prpria recons-
truo da filogenia, poder ser convertida em
A estatstica Bayesiana nasceu com a uma probabilidade anterior para ser inserida
publicao de um ensaio matemtico do re- nas anlises de inferncia Bayesiana. No en-
verendo Thomas Bayes, em 1793. Nesta pu- tanto, as informaes cedidas a priori devem
5. Filogenia Molecular

Tabela 2-5: Comparao entre os mtodos de mxima verossimilhana e inferncia Bayesiana.


Mtodo Vantagens Desvantagens
Captura totalmente a informao dos stios Comparativamente ao mtodo Bayesiano, o
Mxima do alinhamento para construo das algoritmo para reconstruo por mxima
Verossimilhana filogenias verossimilhana mais lento
Tem grande ligao com a mxima Os parmetros para as probabilidades
Estatstica verossimilhana, sendo, no entanto, anteriores devem ser especificados e pode
Bayesiana geralmente mais rpida. Modelos ser difcil especificar quando as anlises
populacionais podem ser includos para so satisfatrias
inferncia das filogenias

ser distribuies de nmeros provveis (mni- milhana, ainda necessrio considerar tambm todos
mo e mximo), e no nmeros exatos. Quan- os tpicos j discutidos na seo anterior. O denomina-
do estes valores no so conhecidos ou dor L(D) uma integrao sobre todas as possibilida-
quando, por exemplo, no se quer atribuir des de topologias, tamanhos de ramo e valores para os
maior probabilidade a uma determinada to- parmetros do modelo evolutivo, o que garante que a
pologia, o parmetro ter uma distribuio soma da probabilidade posterior para todos eles seja 1.
uniforme de probabilidades. O denominador atuar como um normalizador para o
Na maioria dos aplicativos que lidam numerador. Reescrevendo, temos:
com inferncia Bayesiana existem distribui-
es uniformes associadas s probabilidades
anteriores que assumem que todos os valo-
res possveis so dados pela mesma probabi- onde o termo filogenia descreve a topologia da rvore,
lidade. o modelo de substituio e o comprimento dos ramos.
Alm das probabilidades anteriores, a Assim, atravs da multiplicao das probabilidades an-
inferncia Bayesiana baseada nas proba- teriores pela verossimilhana, divididos pelo fator de
bilidades posteriores de um parmetro como, normalizao, o mtodo busca a hiptese (topologia da
por exemplo, a topologia. Atravs da proba- rvore, o modelo de substituio e o comprimento dos
bilidade posterior possvel verificar a pro- ramos) em que a probabilidade posterior mxima.
babilidade de cada uma das hipteses O objetivo da inferncia Bayesiana cal-
(rvores filogenticas). Sendo assim, ao final cular a probabilidade posterior para cada fi-
das anlises, possvel estabelecer uma esti- logenia proposta. No entanto, para cada
mativa da probabilidade dos eventos retrata- rvore diversos parmetros devem ser espe-
dos por uma determinada filogenia, ou seja, a cificados pelo usurio, incluindo topologia, ta-
probabilidade de cada filogenia. As probabili- manho dos ramos, parmetros do modelo de
dades posteriores so calculadas utilizando a substituio, parmetros populacionais, rel-
frmula de Bayes: gio molecular, taxa evolutiva, etc. Dada uma
filogenia, todos os parmetros tero sua pro-
babilidade posterior calculada. Se dadas 1000
filogenias, teremos 1000 valores de probabi-
O termo L(H | D) chamado de distribuio de pro- lidade posterior para cada parmetro.
babilidades posteriores, e dado pela probabilidade da Devido impossibilidade de construo
hiptese (topologia da rvore, modelo de substituio e de todas as filogenias possveis para a maioria
comprimento dos ramos) a partir dos dados dispon- dos alinhamentos, a anlise Bayesiana se
veis (alinhamento de sequncias). O termo L(D | H) aproveita de tcnicas de amostragem para
descreve o clculo de mxima verossimilhana, en- estimar os valores esperados de cada par-
quanto o multiplicador L(H) a probabilidade anterior. metro.
Para o termo que envolve a funo de mxima verossi- Neste sentido, os mtodos de inferncia
5. Filogenia Molecular

Bayesiana utilizam as Cadeias de Markov tomado aleatoriamente. Se R maior


Monte Carlo (MCMC, Monte Carlo Markov que o nmero aleatrio gerado, a filo-
Chain) para aproximar as distribuies proba- genia ser tomada, no entanto se for
bilsticas em uma grande variedade de con- menor, a filogenia Y rejeitada;
textos. Esta abordagem permite realizar vi) Se a nova proposta Y for rejeitada,
amostragens a partir do conjunto total de fi- retorna-se ao estado X e novas modifi-
logenias, relacionando cada filogenia a um caes sero realizadas nesta filogenia;
valor probabilstico. Sem a aplicao de um vii) Supondo que a proposta Y tenha si-
mtodo que obtenha amostras do espao de do aceita, ela sofrer uma nova pertur-
possveis filogenias, como o modelo de MCMC, bao a fim de gerar uma nova filogenia;
a estimativa de todos os parmetros se tor- viii) Todas as rvores amostradas so
naria analiticamente impossvel nos atuais armazenadas para posterior compara-
computadores. o. Os pontos visitados formam uma
Um dos mtodos de MCMC mais usados
na inferncia filogentica uma modificao
do algoritmo Metropolis, chamado de Metro-
polis-Hastings. A ideia central deste mtodo
causar pequenas mudanas em uma filogenia
(topologia, tamanho dos ramos, parmetros
do modelo de substituio, etc.) e, aps a
modificao, aceitar ou rejeitar a nova hipte-
se de acordo com o clculo de razo das pro-
babilidades. Este mtodo garante que
diversas rvores sejam amostradas do espa-
o total de filogenias, amostrando filogenias
com probabilidade posterior mais alta (Figura
15-5):
i) Inicialmente, o algoritmo MCMC gera Figura 15-5: Esquema de amostragens MCMC
uma filogenia aleatria X, arbitraria- aplicada inferncia filogentica pelo mtodo
mente escolhendo o tamanho dos ra- Bayesiano utilizando o algoritmo de
mos para dar incio cadeia; Metropolis-Hastings. (a) Aps a proposio de
ii) O valor de probabilidade associado a uma filogenia inicial X, perturbaes
esta filogenia calculado (probabilidade aleatrias so realizadas para gerar a
posterior calculada atravs da frmula filogenia Y. Devido razo R>1, a nova
de Bayes); filogenia aceita. Nova perturbao
iii) Perturbaes aleatrias so realiza- realizada para gerar a filogenia W e, devido a
das nesta filogenia inicial X (mudanas razo de probabilidades R resultar em um
na topologia, no tamanho dos ramos, nmero menor que 1, um nmero aleatrio N
nos parmetros do modelo de substi- sorteado. Sendo R<N, a nova proposio
tuio, etc.) e geram uma filogenia Y; rejeitada e a cadeia retorna filogenia Y. (b)
iv) A probabilidade posterior calculada Andamento da cadeia na amostragem de
para a filogenia Y; filogenias. Cada crculo destaca uma nova
v) A filogenia Y tomada ou rejeitada filogenia que proposta aps a perturbao.
para o prximo passo baseado na razo As linhas conectando os crculos evidenciam a
R (probabilidade posterior de Y dividida direo do andamento da cadeia. Apesar de a
pela probabilidade posterior de X). Se R cadeia percorrer muitos passos, apenas
maior que 1, a filogenia Y tomada alguns sero registrados para anlise final
como base para o prximo passo. Se R (crculos pretos). Os crculos em vermelho
menor que 1, um nmero entre 0 e 1 so aqueles evidenciados em (a).
5. Filogenia Molecular

espcie de cadeia ao longo do espao e c representam um espao amostral de filo-


amostral total de filogenias. genias, semelhante ao apresentado na Figura
15-5b, e que os pontos pretos sejam as filo-
O principal objetivo da cadeia amos- genias que vo sendo amostradas com o de-
trar filogenias com probabilidades crescentes. senvolvimento da MCMC vemos que, ao final
No entanto, importante que o algoritmo uti- do processo, depois de empregados 100 mil
lizado para tal permita que algumas rvores passos (Figura 16-5c), um grande nmero de
com menor probabilidade sejam amostradas filogenias foi amostrado.
para evitar que a cadeia fique presa em pi- Ainda, na regio delimitada por um cr-
cos de mximo local (Figura 9-5). culo, assumimos que esto as filogenias com
Sendo assim, o clculo da razo R con- maior probabilidade de explicar a histria
siderando um valor aleatrio entre 0 e 1 ga- evolutiva de um grupo de organismos, ou se-
rantir que, em determinados momentos, ja, as filogenias reais. Note que quanto maior
uma filogenia com menor probabilidade seja o nmero de passos percorridos pela cadeia,
aceita. Por este mtodo, possvel amostrar maior a amostragem do espao de filogenias
filogenias da regio de um vale passando, por e maior o nmero de amostras dentro da re-
exemplo, de um pico de timo local para o pi- gio com filogenias de alta probabilidade.
co de timo global (Figura 9-5). Ao final, aps o trmino da cadeia, a
A proposta de novas rvores na cadeia distribuio das probabilidades posteriores de
de Markov uma etapa crucial para uma boa todos os parmetros deve ser verificada. No
amostragem de filogenias. Na abordagem
Bayesiana, uma boa amostragem inclui um
grande nmero de filogenias, suficientemente
diferentes entre si. Se filogenias muito dife-
rentes so propostas, sero rejeitadas com
muita frequncia, pois provvel que tenham
menor probabilidade posterior. Pelo contrrio,
se filogenias muito similares forem geradas, o
espao amostral no ser varrido adequada- Figura 16-5: Espao de possveis rvores
mente e a cadeia dever correr por muitos analisadas pela MCMC. Considerando que os
passos (amostrar um maior nmero de filo- quadrados descrevem o espao amostral de
genias), aumentando o tamanho da cadeia e o todas as filogenias possveis para um dado
tempo computacional. conjunto de sequencias, os pontos pretos
Estimar o quanto a cadeia deve percor- representam as filogenias que foram
rer para amostrar um nmero suficiente de amostradas ao longo da cadeia. Os crculos
filogenias para as sequncias dadas (espao presentes no canto esquerdo inferior
de rvores) um fator fundamental para ob- representam a regio de mximo global (isto
ter bons resultados em uma anlise Bayesia- , maior probabilidade) neste espao
na. Na maioria dos programas que utilizam amostral. O andamento da cadeia neste
estatstica Bayesiana para inferir filogenias, o exemplo o mesmo apresentado na Figura
usurio deve especificar o tamanho da cadeia. 15-5b (a) cento e trinta passos percorridos
Esse nmero de grande subjetividade, e de- pela cadeia; (b) trinta mil passos percorridos
pende diretamente da distribuio das proba- pela cadeia; (c) cem mil passos percorridos
bilidades anteriores, do nmero de txons pela cadeia. Nota-se que quanto maior o
includos na filogenia e da relao evolutiva nmero de passos percorridos, maior a
entre eles. amostragem de filogenias no espao. Da
A Figura 16-5 exemplifica o andamento mesma forma, aumenta a probabilidade de a
da amostragem da MCMC em um espao de cadeia amostrar aquelas filogenias de
filogenias. Supondo que os quadrados em a, b mximo global.
5. Filogenia Molecular

entanto, as amostras tomadas no incio da


cadeia so tipicamente descartadas, pois es-
to sob forte influncia do local de incio da
cadeia. As filogenias do incio da cadeia esto
muito longe de pontos mximos no espao
amostral e, por isso, provvel que todas as
novas filogenias sugeridas subsequentemente
sejam tomadas para o prximo passo (qual-
quer rvore proposta ser mais provvel que
as rvores iniciais semelhantes quela gerada
aleatoriamente).
Esta fase inicial conhecida como per-
odo de burn in (Figura 17-5). Conforme a ca-
deia avana, espera-se que a probabilidade Figura 17-5: Representao grfica das
das rvores amostradas aumente e, quando probabilidades das filogenias na cadeia ao
um nmero suficiente de filogenias for amos- longo de 300 milhes de amostragens. O
trado, chegue a uma distribuio estacionria. esquema demonstra duas visualizaes
Em termos Bayesianos, espera-se que a ca- possveis: esquerda, so mostrados apenas
deia atinja a convergncia. os pontos referentes s amostras tomadas
Um dos primeiros indicativos de que a ao longo da cadeia e, direita, as
cadeia convergiu para a distribuio correta amostragens sucessivas so ligadas umas as
est na estabilidade dos valores de probabili- outras para facilitar a visualizao do
dade dos parmetros da cadeia (cada par- comportamento da cadeia. Em cinza, a fase
metro da filogenia poder ter uma inicial de burn in da Cadeia de Markov Monte
distribuio independente). Portanto, a repre- Carlo.
sentao grfica dos valores das probabilida-
des e dos respectivos passos da cadeia (trace de dados). Apesar de ser computacionalmente intensi-
plot) uma importante ferramenta para mo- va, a ltima alternativa parece ser a mais confivel pa-
nitorar o desempenho da MCMC (Figura 17-5). ra verificar a convergncia. Contudo, o exame de ESS ,
Devido ao aumento brusco de probabili- ainda hoje, o mtodo mais utilizado. O tamanho amos-
dade das filogenias que so visitadas pelo an- tral efetivo uma estimativa para verificar o nmero
damento da cadeia, os grficos de amostras independentes existentes na cadeia, ou
necessariamente incluiro os valores medidos seja, quantas amostras no similares foram tomadas.
em escala logartmica (ln L, Figura 17-5). Em Atualmente, um ESS maior que 200 um indicativo de
estatstica Bayesiana, comum que seja atri- que a cadeia convergiu adequadamente.
budo um intervalo de credibilidade de 95% A tcnica de Metropolis Coupling, conhecida como
para os parmetros amostrados. Estes valo- MCMCMC ou (MC), atravs da introduo da corrida si-
res so obtidos atravs da eliminao de multnea de duas cadeias, pode ajudar na amostragem
2,5% dos valores mais baixos e de 2,5% dos de mximos globais e beneficiar na convergncia da
valores mais altos para um determinado pa- cadeia. Nesta tcnica uma cadeia, chamada de quente
rmetro. Um intervalo de credibilidade con- (hot chain), permite aproximar os valores de mxima e
tm o valor correto com 95% de mnima probabilidade das amostras para que a cadeia
probabilidade; no entanto, no se trata de um possa, de forma mais rpida, saltar entre picos de
intervalo de confiana. probabilidade, especialmente de mximos locais para
Adicionalmente, outros mtodos so teis para di- mximos globais. O aquecimento da cadeia dado pelo
agnosticar a convergncia da cadeia, tais como o exa- parmetro e visa diminuir a altura dos picos locais no
me do tamanho amostral efetivo (ESS) e a comparao espao amostral. Uma segunda cadeia simultnea,
de amostras resultantes de diferentes cadeias (vrias chamada de fria (cold chain), utiliza as informaes
cadeias de MCMC so aplicadas para o mesmo conjunto destes saltos da cadeia quente para melhorar a sua
5. Filogenia Molecular

amostragem e garantir a convergncia.


Os mtodos Bayesianos de inferncia filogentica
ainda tm a vantagem de aplicar modelos que envol-
vem diferentes tipos de relgios moleculares.
As distncias genticas, depois de tratadas pelos
modelos de substituio, no tem qualquer significado
sozinhas quando se deseja estimar, por exemplo, a ida-
de do ancestral comum mais recente de duas OTUs.
Esta e outras questes podem ser avaliadas quando
aplicamos uma medida de tempo nas inferncias, a fim
de calibrar as taxas evolutivas. Sequenciamentos de
amostras isoladas em diferentes pocas podem forne-
cer a calibrao adequada para inferncias temporais,
pois se assume uma taxa evolutiva constante ao longo
de um tempo t para todos os ramos de uma filogenia
(relgio molecular estrito).
As taxas evolutivas dependem de diversos fatores
e podem variar, nem sempre seguindo a constncia
proposta por este modelo. Aps a introduo de um ti-
po especfico de relgio molecular relaxado, as taxas
de evoluo podem variar ao longo da rvore para di-
ferentes grupos e no so correlacionadas, ou seja,
grupos evolutivamente prximos no necessariamente
tero taxas de evoluo semelhantes (relgio molecu-
lar relaxado no correlacionado).
Complexos modelos de dinmica popu-
lacional podem ser analisados sob uma pers-
pectiva Bayesiana. Quando o conjunto de Figura 18-5: rvore filogentica consenso
sequncias submetido s analises so isola- gerada por inferncia Bayesiana para 70
dos de uma populao homognea, os par- sequncias de nucleotdeos. As cores nos
metros de histria demogrfica podem ser ramos representam diferentes clados (B-H).
usados para modelar as mudanas populaci- O grupo externo est identificado como clado
onais ao longo do tempo. Desta forma, atra- A. O Clado H foi agrupado para facilitar a
vs da estatstica Bayesiana possvel, alm representao. Nos ns esto especificados
da inferncia filogentica, refinar as anlises e os valores de probabilidade posterior acima
datar filogenias e ramos especficos (Figura de 70. Abaixo, apresentada a escala
18-5), inferir caracteres ancestrais e analisar temporal inferida a partir da utilizao de um
a dinmica populacional sob uma tica evolu- relgio molecular relaxado.
tiva.
Esta caracterstica est relacionada ao nme-
5.8. Confiabilidade ro de filogenias que podem ser excludas, a
partir do conjunto total de filogenias, por no
O papel principal das tcnicas de infe- serem verdadeiras. Quanto maior o nmero
rncia filogentica desvendar as relaes de filogenias excludas neste processo, mais
evolutivas reais atravs de dados molecula- preciso o mtodo.
res, buscando garantir que esta reconstruo Em geral, na maioria dos casos de re-
seja fidedigna. Alm da inferncia das rela- construo filogentica, a falta de preciso
es evolutivas entre os txons, igualmente das filogenias est relacionada ao conjunto de
importante que a filogenia possua preciso. dados que est sendo fornecido no alinha-
5. Filogenia Molecular

mento. O gene considerado, o tamanho das replicatas sero reconstrudas. As colunas,


sequncias, o nmero de indivduos e o grupo representando os stios do alinhamento, se-
externo so atribuies fundamentais para ro aleatoriamente tomadas (amostradas)
uma reconstruo filogentica precisa e de- pelo algoritmo e, em seguida, sero agrupa-
pendem, especialmente, do objetivo do estu- das uma ao lado da outra de maneira a for-
do e da prpria disponibilidade de informao. mar um novo alinhamento (com o mesmo
Em muitos casos, o pesquisador ainda nmero de stios do alinhamento original, Fi-
dependente do nmero de amostras e do su- gura 19-5).
cesso de coleta em campo, sobretudo, quan- Por este mtodo, possvel que um
do seu objeto de estudo se trata de uma mesmo stio seja amostrado mais de uma vez
espcie rara ou de indivduos de difcil amos- e, portanto, alguns stios no sero selecio-
tragem. No entanto, apesar de toda a infor- nados para o novo alinhamento. Um nmero
mao relacionada ao conjunto de dados, a fornecido pelo usurio especificar o nmero
dificuldade de amostragem de indivduos pa- de pseudoreplicatas (novos alinhamentos)
rece ser, sem dvida, o principal problema que sero construdas. Assim que uma pseu-
relacionado a preciso das filogenias, pois a doreplicata for criada, o algoritmo constri a
falta de dados de variabilidade gentica com- filogenia correspondente.
promete a inferncia de histria evolutiva co-
erente.
Como possvel saber se a amostragem
foi suficiente e a filogenia confivel? Usual-
mente, a resposta para esta questo consiste
na reamostragem de dados. Se novas amos-
tras forem tomadas e a mesma filogenia for
reproduzida, a filogenia proposta tem seu va-
lor reforado. No entanto, na maioria dos ca-
sos, a reamostragem de dados da forma
usual (coletas de novos espcimes, reamos-
tragens em campo, achado fssil diferente,
etc) no factvel. Assim, algoritmos que
produzem diferentes amostragens utilizando
o mesmo conjunto de dados foram desenvol-
vidos para possibilitar a verificao da confia-
bilidade nos clados das filogenias. Destaca-se
entre estes algoritmos o mtodo de
bootstrap.
Bootstrap um mtodo de reamostra-
gem utilizado para realizar comparaes da
variabilidade das hipteses filogenticas, ofe-
recendo medidas de confiabilidade aos clados
propostos. A reamostragem realizada a Figura 19-5: Mtodo de boostrap para
partir do mesmo conjunto de dados, e novas filogenias. A partir do alinhamento original, as
amostras fictcias com o mesmo tamanho colunas que representam os stios sero
sero geradas. aleatoriamente amostradas para construir
Segundo este mtodo, cada stio do ali- pseudoreplicatas (um mesmo stio pode ser
nhamento ser tratado de forma indepen- sorteado diversas vezes). Estas, por sua vez,
dente. Conforme a Figura 19-5, inicialmente o sero utilizadas para a inferncia de
algoritmo reconstruir a filogenia a partir do filogenias, da mesma forma que o
alinhamento dado e, posteriormente, diversas alinhamento original.
5. Filogenia Molecular

importante ressaltar que a inferncia atribuda pela probabilidade posterior ge-


destas filogenias ser realizada pelo mtodo ralmente maior que aquela atribuda pelo
de construo especificado pelo usurio, seja mtodo de bootstrap. Por isso, enquanto uma
aproximao de vizinhos, mxima parcimnia confiana acima de 70 considerada susten-
ou mxima verossimilhana (para rvores tada para o bootstrap, apenas valores acima
bayesianas, veja adiante). Ao final, o algorit- de 90 podem ser considerados relevantes
mo analisar os clados e automaticamente para os mtodos Bayesianos.
verificar a presena de determinados agru-
pamentos em todas as filogenias construdas. 5.9. Interpretao de filogenias
Se, por exemplo, encontramos as sequncias
1 e 2 formando um clado em 70% das filoge- rvores filogenticas so diagramas
nias construdas, atribuiremos a confiabilidade que denotam a histria evolutiva de diferentes
de 70 ao clado formado por estas duas se- OTUs a partir de seu ancestral comum. Mais
quncias. Comumente, o valor de confiabili- do que isso, as filogenias moleculares so
dade dos clados colocado prximo ao ferramentas que ajudam no entendimento
ancestral comum do clado (Figura 18-5). dos diversos processos evolutivos que mol-
A partir dos resultados de confiabilidade dam o genoma dos organismos. Desta forma,
dos clados possvel tambm construir filo- a interpretao das implicaes evolutivas
genias baseando-se na rvore consenso ge- associadas a um, ou a um conjunto de txons,
rada pela regra da maioria (majority-rule est diretamente relacionada disposio dos
consensus tree). Neste mtodo, o algoritmo ramos internos e externos de uma rvore. In-
tabular todos os clados formados em todas dependentemente do mtodo de inferncia,
as replicatas geradas. Aqueles clados que ou da forma como a rvore apresentada, a
mais aparecerem serviro para montar a fi- interpretao dos resultados ser baseada
logenia consenso. nos mesmos pressupostos, ainda que mto-
Ao contrrio dos mtodos de aproxima- dos diferentes possam originar filogenias di-
o de vizinhos, mxima parcimnia e mxima ferentes.
verossimilhana, a confiabilidade de filogenias Inicialmente, necessrio observar a
construdas atravs de estatstica Bayesiana presena de uma raiz. Como j discutido, o
inerente ao processo. Como diversas filogeni- mtodo de enraizamento pelo grupo externo
as so amostradas ao longo do desempenho o mais comum e utiliza organismos sabida-
da Cadeia de Markov, no necessrio ne- mente relacionados ao grupo em evidncia,
nhum mtodo para simular reamostragens do servindo para orientar o algoritmo em rela-
mesmo conjunto de dados. As amostras se- o s caractersticas mais ancestrais do
ro resumidas a partir da distribuio poste- grupo. O grupo externo ajudar a evidenciar o
rior de filogenias como frequncia de clados tempo evolutivo. Na Figura 20-5, por exem-
individuais e sero identificadas por um n- plo, o grupo externo dado pelo orangotango,
mero prximo ao ancestral comum daqueles pois este compartilha o mesmo ancestral co-
clados (Figura 18-5). Portanto, o valor de mum que o restante do grupo. No caso de fi-
probabilidade posterior de um clado repre- logenias sem raiz, necessrio ter cautela
senta uma inferncia a respeito da probabili- nas interpretaes, pois este tipo de diagrama
dade daquele clado. apenas revela a relao entre os txons.
A comparao dos valores de bootstrap Depois de encontrada a raiz da filogenia,
e de probabilidade posterior dos clados para preciso avaliar os ramos. Dependendo do
filogenias construdas a partir do mesmo ali- mtodo, os ramos podem ter significados di-
nhamento utilizando mxima verossimilhana ferentes. Na Figura 18-5, os ramos evidenci-
e o mtodo Bayesiano, respectivamente, leva am o tempo real, apresentando OTUs
a concluso de que o mtodo Bayesiano su- amostradas no passado. Pelo contrrio, na
perestima a confiana aos clados. A confiana Figura 20-5, os ramos evidenciam apenas um
5. Filogenia Molecular

abilidade nos ramos. O tipo de mtodo, a for-


ma de amostragem e o nmero de OTUs po-
dem ser fatores de interferncia e, assim,
podem prejudicar a valorizao dos ramos.
O padro de organizao dos ramos de
uma filogenia denota o padro de ancestrali-
dade. As filogenias no so escadas, onde al-
guns organismos so mais evoludos que
outros, mas uma representao da histria da
derivao de OTUs. Na Figura 18-5, por ex-
emplo, possvel observar que os clados B,
C, D, E, F e G possuem um ancestral comum
que compartilha um outro ancestral com o
clado A. J o clado H, representado por um
tringulo para evidenciar um grande nmero
de txons naquele ponto da filogenia, teve um
ancestral comum dentro do clado G. Este pa-
dro sugere que o clado H se originou a partir
do clado G. Da mesma forma, podemos ob-
servar a disposio do clado G em relao ao
F e concluir que o primeiro se originou a partir
do segundo.
No caso da Figura 20-5, observamos
Figura 20-5: Diferentes representaes da que humanos e chimpanzs tiveram um mes-
filogenia dos primatas. mo ancestral comum. Com base nestes da-
dos, incorreto pensarmos que humanos so
tempo evolutivo representado pelo nmero derivados de chimpanzs, ou que humanos
de modificaes genmicas, desde o organis- so mais evoludos que chimpanzs. Estes
mo ancestral at os ramos terminais. Alm organismos esto apenas formando um
disso, deve-se perceber a escala na qual os mesmo clado dentro da filogenia dos prima-
ramos foram representados, pois estes indi- tas.
cam o nmero de substituies que provavel- Por ltimo, fundamental saber o obje-
mente ocorreram ao longo do processo tivo do estudo filogentico a ser realizado.
evolutivo e podem ajudar na interpretao rvores filogenticas devem ser construdas
das taxas evolutivas. para responder uma determinada questo,
Concluses evolutivas baseadas em r- que pode envolver apenas um, ou diversos
vores filogenticas devem ser sustentadas organismos.
em rvore confiveis e, por isso, a medida de Quando possvel, importante recons-
confiabilidade dos ramos deve ser denotada. truir a filogenia utilizando diferentes mtodos
Inicialmente, necessrio verificar o mtodo de inferncia e compar-las entre si. A con-
utilizado para reconstruo da filogenia e, cluso desta forma ser melhor sustentada.
quando necessrio, verificar o algoritmo utili- Alm disso, atualmente, a histria retratada
zado para gerar a confiabilidade dos clados. em uma filogenia no por si s satisfatria.
Ramos com maiores valores de confiabilidade Outras ferramentas podem ser utilizadas pa-
geraro concluses mais confiveis, enquanto ra complementar e sustentar a interpretao
que clados com baixos valores devero ser de uma filogenia, incluindo anlises de re-
interpretados com maior cuidado. No entanto, combinao, presso seletiva e estruturao
no necessrio negar totalmente conclu- populacional, verificao de coespeciao,
ses baseadas em filogenias com baixa confi- construo de redes filogeogrficas, compa-
5. Filogenia Molecular

rao com dados de fsseis, eventos geolgi- porte, semelhante ao guaxinim. Com o em-
cos, dados histricos e, at mesmo, anlises prego de diferentes dados, incluindo fsseis,
de dados comportamentais. anatomia de mamferos atuais, distribuio
Um exemplo da combinao de anlises geogrfica, sequncias de DNA de diferentes
filogenticas com dados histricos veio na pores do genoma, sequncias de aminoci-
confirmao da origem e disseminao hu- dos de diferentes protenas e mapeamento
mana a partir da frica. Atravs da utilizao cromossmico, foi possvel estabelecer uma
de dados histrico-antropolgicos (como histria evolutiva plausvel, capaz de descre-
vestgios materiais de homindeos ancestrais), ver a origem evolutiva do panda-gigante (Fi-
fsseis de homindeos e anlises de DNA mi- gura 21-5).
tocondrial de representantes de diferentes Por meio dessa anlise combinada de
etnias, os pesquisadores puderam traar as dados, se props que o panda-gigante, um
rotas de disseminao humana a partir da urso, derivou do ancestral comum dos ursos
frica. h cerca de 24 milhes de anos, muito antes
Outro exemplo est na soluo de um das derivaes que originaram todos os ou-
enigma que perturbou zologos por um longo tros ursos existentes hoje. Alm disso, ob-
perodo: a posio taxnomica do panda-gi- servou-se que os ursos e os prociondeos
gante entre os mamferos carnvoros. Apesar (grupo que inclui o guaxinim e o panda-ver-
de esta espcie ser fisicamente muito similar melho) possuem um ancestral comum que
a um urso, outras caractersticas, como den- deu origem s duas linhagens h aproximada-
tio e anatomia das patas, levaram propo- mente 30 milhes de anos.
sio de uma hiptese antes no imaginada. A filogenia molecular uma ferramenta
Tal hiptese propunha que o panda-gi- til quando empregada isoladamente, mas
gante (Ailuropoda melanoleuca) seria proxi- que pode se beneficiar de diferentes tipos de
mamente relacionado ao o panda-vermelho dados para propor uma histria evolutiva. Em
(Ailurus fulgens), um mamfero de pequeno ltima anlise, a deciso sobre que tipos de

Figura 21-5: Posio filogentica do panda-gigante, baseada na combinao de diferentes tipos


de dados. Baseado em BININDA-EMONDS, Olaf R.P. Phylogenetic position of the giant panda. Em:
LINDBURG, D.G. & Baragona, K. Giant pandas: Biology and conservation. Berkeley: University of
California Press, 2004; e em EIZIRIK, Eduardo e colaboradores: Pattern and timing of
diversification of the mammalian order Carnivora inferred from multiple nuclear gene
sequences. Mol Phylogenet Evol, 56, 49, 2010.
5. Filogenia Molecular

dados (alm dos moleculares) sero empre- que inclui todas as filogenias possveis
gados na anlise filogentica depender da (com raiz ou sem raiz) para um determi-
pergunta a ser respondida com essa tcnica. nado alinhamento.
No existem regras pr-estabelecidas, e as
estratgias analticas precisam ser propostas Frequncia de equilbrio: ponto em que no
caso a caso. existe mais alterao nas frequncias dos
alelos.
5.10. Conceitos-chave
Grupos irmos: clados que dividem um ancestral
Ancestral: organismo ou sequncia que originou comum.
novo(s) organismo(s) ou sequncia(s). Em
alguns casos pode ser considerado o mes- Homologia: similaridade originada por ancestra-
mo que primitivo. lidade comum.

Apomrfico: refere-se a um caractere novo ad- Inferncia filogentica Bayesiana: mtodo qua-
quirido ao longo do processo evolutivo, litativo de inferncia filogentica baseado
uma inovao. Uma apomorfia pode servir na estatstica Bayesiana. Atravs da Ca-
de diagnstico para separao de clados. deia de Markov Monte Carlo este mtodo
buscar as rvores mais provveis dentro
Aproximao dos vizinhos: neighbor joining das filogenias amostradas.
(NJ), mtodo de inferncia filogentica
quantitativo baseado em distncia genti- Mxima Parcimnia: mtodo qualitativo de infe-
ca. rncia filogentica que busca a rvore que
minimiza o nmero total de substituio
Autapomorfias: apomorfias especficas e restri- de nucleotdeos.
tas a um clado.
Mxima Verossimilhana: mtodo qualitativo de
Bootstrap: mtodo de reamostragem que per- inferncia filogentica que busca a rvore
mite verificar a confiabilidade dos ramos com a mxima verossimilhana.
de uma filogenia.
Monofilia: associao entre o ancestral comum e
Cadeias de Markov Monte Carlo: mtodo utiliza- todos os seus descendentes, formando um
do pela estatstica Bayesiana para amos- clado monofiltico.
trar as probabilidades de distribuio de
diferentes parmetros das filogenias. Mltiplas Substituies: eventos mltiplos de
substituio de nucleotdeo localizado em
Clado: grupo formado por um ancestral e todos um mesmo stio do DNA.
seus descendentes, um ramo nico em
uma rvore filogentica. Modelos de Substituio: modelos matemticos
utilizados para descrever o processo evo-
Derivado: que se originou de um ancestral e lutivo ao longo do tempo, podendo ser
mais recente no tempo evolutivo (nota: aplicados ao alinhamento de nucleotdeos
deve-se evitar o termo mais evoludo e, ou aminocidos.
em seu lugar, empregar derivado).
Ortlogo: genes homlogos em diferentes orga-
Distncia Gentica: medida quantitativa da di- nismos e que mantm a mesma funo.
vergncia gentica entre organismos.
OTU: unidade taxonmica operacional, folha ou
Espao Amostral de Filogenias: espao terico n terminal em uma rvore filogentica.
5. Filogenia Molecular

Parafilia: associao entre o ancestral comum e


apenas parte de seus descendentes, for- 5.11. Leitura recomendada
mando um clado parafiltico.
FELSENSTEIN, Joseph. Inferring Phylogenies.
Parlogo: genes homlogos de um mesmo or- Sunderland: Sinauer, 2004.
ganismo que divergiram aps duplicao.
GREGORY, T. Ryan: Understanding
Plesiomrfico: dotado de caractersticas do an- Evolutionary Trees. Evo. Edu. Outreach,
cestral que so conservadas nos descen- 2008, 1,121-137.
dentes.
LEMEY, Philippe; SALEMI, Marco; Vandamme,
Polifilia: associao entre diferentes OTUs sem a Anne-Mieke (Org.). The Phylogenetic
necessidade de um nico ancestral co- Handbook. 2.ed. Cambridge: Cambridge
mum, frequentemente originada por con- University Press, 2009.
vergncia evolutiva.
MATIOLI, Sergio Russo; FERNANDES, Flora M.C.
Primitivo: diz-se de caractersticas ou organis- (Org.). Biologia Molecular e Evoluo.
mos ancestrais, anteriores no tempo evo- 2.ed. Ribeiro Preto: Holos, 2012.
lutivo a organismos ou caractersticas mais
recentes. NEI, Masatoshi; KUMAR, Sudhir. Molecular
Evolution and Phylogenetics. Nova
Probabilidades Anteriores: distribuio dos valo- Iorque: Oxford University Press, 2000.
res de um parmetro filogentico que
sabido de antemo pelo pesquisador. PABN-MORA, Natalia; GONZLEZ, Favio. A
classificao biolgica: de espcies a ge-
Probabilidades Posteriores: conjunto da distri- nes. In: ABRANTES, Paulo C. (Org.), Filo-
buio dos valores de parmetros filoge- sofia da Biologia. Porto Alegre: Artmed,
nticos resultantes do mtodo de 2011.
inferncia Bayesiana.
SCHNEIDER, Horacio. Mtodos de Anlise Fi-
Sistemtica: estudo da diversificao das formas logentica: Um Guia Prtico. 3.ed. Ri-
vivas e suas relaes ao longo do tempo. beiro Preto: Holos, 2007.

Taxonomia: estudo que busca agrupar os orga-


nismos com base em suas caractersticas e
nomear os grupos obtidos, classificando-
os em alguma escala.

Taxon: grupo (de qualquer nvel hierrquico)


proposto pela taxonomia.

Topologia: descreve a ordem e a disposio


exata das OTUs em uma filogenia.

UPGMA: unweighted pair-group method using


arithmetic average, mtodo de inferncia
filogentica quantitativo baseado em dis-
tncia.
6. Biologia de Sistemas

"Pensar a complexidade esse o maior Joice de Faria Poloni


desafio do pensamento contemporneo, que Bruno Csar Feltes
necessita de uma reforma no nosso modo Fernanda Rabaioli da Silva
de pensar." Diego Bonatto

Edgar Morin & Jean-Louis Le Moigne for necessrio para resolv-lo de maneira
mais parcimoniosa.
6.1. Introduo neste contexto que emerge a diviso
disciplinar no estudo da natureza. Desde os
6.2. Biologia de Sistemas tempos da escola at a universidade, o co-
nhecimento a ser ensinado manifesta-se na
6.3. Estrutura de redes separao das disciplinas. Por exemplo, no
meio acadmico observamos a biologia com-
6.4. Propriedades de rede partimentada em botnica, zoologia, ecologia,
gentica, biologia celular e essas, por sua vez,
6.5. Tipos de redes subdivididas em outras reas. Como aspecto
positivo, o estudo das partes forma especia-
6.6. Perturbao de conectores listas e divide o trabalho, facilitando o enten-
dimento de suas partes componentes.
6.7. Conceitos-chave Contudo, neste processo tem-se uma reduo
da complexidade caracterstica dos fenme-
nos naturais, o que pode comprometer nossa
capacidade de entend-los.
6.1. Introduo De fato, a complexidade inerente bi-
ologia, ao funcionamento do nosso organismo
Uma das posturas metodolgicas mais e natureza. H a necessidade, assim, da
significativas do pensamento cientfico con- construo de uma abordagem que inclua es-
temporneo consiste em reduzir ta complexidade, de forma sis-
o todo a suas partes componen- tmica; que interligue as
tes. Por exemplo, entendemos o diversas interaes presentes e
funcionamento de um organismo que, ao confront-las, consiga
como fruto da ao de rgos. encontrar relaes mais infor-
Estes por sua vez, so compos- mativas e completas.
tos por tecidos, que so com- A partir desta premissa,
postos por clulas. As clulas emergem na dcada de 1950 as
tm como componentes mol- primeiras concepes sobre a
culas que, por fim, so compos- Biologia de Sistemas (BS). Essa
tas por tomos. rea, pautada nos conceitos de
Esta abordagem, especial- sistema e de complexidade, en-
mente importante e difundida na volve um estudo sistemtico de
rea biolgica, fruto das idias interaes em um sistema bio-
introduzidas pelo filsofo Ren lgico.
Descartes em meados do sculo XVII, indican- O conceito de sistema entendido como
do que cada problema encontrado deve ser um conjunto de partes ou elementos que
dividido em tantas pequenas partes quanto possuem relaes entre si, relaes estas
6. Biologia de Sistemas

que diferem-se daquelas realizadas com ou- veis e os bancos de dados e ferramentas de
tros elementos, fora do sistema. J a idia de anlise adaptaram-se ao volume crescente de
complexidade definida como a condio de informaes, permitindo construir modelos
elementos de um sistema e a relao entre mais amplos, capazes de lidar com aspectos
esses elementos em um determinado mo- e fenmenos inacessveis at ento. Assim
mento. em 2000, quando o Instituto de Biologia de
Um sistema complexo, por conseguinte, Sistemas foi fundado, a biologia de sistemas
um sistema composto de partes interco- emergiu como um campo prprio, estimulado
nectadas que, como um todo, exibe uma ou pelo aumento de dados micos e pelos
mais propriedades que no seriam observa- avanos da parte experimental e da bioinfor-
das a partir das propriedades dos componen- mtica visando o entendimento sistemtico
tes individuais, possibilitando assim a da biologia. Desde ento, grupos de pesquisas
observao de novos fenmenos. Portanto, a dedicados BS tm sido formados em todo o
BS um campo que investiga as interaes mundo.
entre os componentes de um sistema biolgi- Para tal, a BS depende de ferramentas
co, buscando contribuir no entendimento de interdisciplinares para obter, integrar e anali-
como estas interaes influenciam a funo e sar diversos tipos de dados, exemplificados
o comportamento do sistema. na Tabela 1-6. Essa abordagem requer novas
A busca da compreenso da biologia em tcnicas de anlise, ferramentas de inform-
nvel de sistema um tema recorrente na co- tica, mtodos experimentais e uma nova pos-
munidade cientfica. Norbert Wiener, em tura metodolgica, articulando partes
1948, foi um dos proponentes da abordagem normalmente estudadas separadamente.
sistemtica que levou ao nascimento da ci-
berntica, ou biociberntica, consolidada com 6.2. Biologia de Sistemas
os estudos do mdico neurologista, William
Ross Ashby (1903-1972). A partir de 1959, Em suas anlises, a BS relaciona partes
Robert Rosen, sob orientao do professor individuais de um sistema como representa-
Nicolas Rashevsky, props uma metodologia es grficas de conjuntos de ns ou vrtices
baseada na biologia relacional, onde o mais (V), conectados entre si por conectores ou
importante na biologia era o estudo da vida arestas (E, do ingls edge). Os ns podem re-
em si. Aps 20 anos, Ludwig von Bertalanffy presentar indivduos, protenas ou mesmo lu-
(1901-1972) criou a teoria geral dos sistemas, gares, enquanto que os conectores
tornando-se o precursor da BS. Em 1966 foi representam a conexo que est presente
formalizado o estudo da BS, com o lana- entre cada par de ns. Esta representao
mento da disciplina Teoria e Biologia de Sis- grfica denominada de rede.
temas pelo terico de sistemas Mihajlo Muitos exemplos de rede podem ser ci-
Mesarovic (1928). tados, como redes de cadeia alimentar, am-
A partir do trabalho destes pesquisado- plamente aplicadas na ecologia, redes neurais
res, a teoria geral dos sistemas pode ser defi- e de interao proteica usadas na biologia e
nida como a rea que estuda a organizao cincias mdicas, alm da prpria World Wide
abstrata de fenmenos, investigando todos Web, que representa uma das maiores redes
os princpios comuns a todas as entidades funcionais no mundo da comunicao e infor-
complexas (no somente biolgicas) e os mo- mtica.
delos que podem ser utilizados para a sua A anlise matemtica de redes deno-
descrio. minada de teoria de grafos, e consiste em um
Com o avano da biologia molecular nas dos principais objetos de estudo da matem-
dcadas que se seguiram, juntamente com o tica discreta. Desta forma, o termo rede
nascimento da genmica funcional, grandes representa as interaes funcionais de um
quantidades de dados tornaram-se dispon- sistema, enquanto que o termo grafo enfa-
6. Biologia de Sistemas

Tabela 1-6: Ferramentas utilizadas no estudo da BS.

Bioinformtica Funes biolgicas por meio de ferramentas da informtica


Genmica Sequncias de DNA
Transcriptmica Transcritos
Protemica Protenas
Interatmica Interaes proteicas
Interfermica/ RNAi/miRNA
microRNmica
Epigenmica Modificaes na cromatina e no DNA
Metabolmica Metablitos
Fluxmica Alteraes dinmicas de molculas dentro de uma clula ao longo do tempo
Bimica Bioma
Glicmica Totalidade de carboidratos
Farmacogenmica Genes que definem o comportamento da droga
Nutrigenmica Relao entre a dieta e os genes individuais
Toxicogenmica Estrutura e atividade do genoma e os efeitos biolgicos adversos na
exposio a xenobiticos
Imunmica Funo molecular associada aos transcritos de RNAm relacionados
resposta imune

tiza as anlises matemticas deste sistema. cas, porm no encontrou soluo para o
Neste captulo, contudo, usaremos ambos os problema. Contudo, a metodologia de anlise
termos como sinnimos. de Euler foi um marco histrico na anlise de
Historicamente, a teoria de grafos foi problemas combinatrios, alm de estabele-
desenvolvida em 1736 pelo matemtico suo cer o conceito de topologia que usado em
Leonard Euler na resoluo do problema das BS (ver adiante).
sete pontes de Knigsberg, atualmente co- O emprego da teoria de grafos e suas
nhecida como Kaliningrado, na Rssia. A cida- aplicaes tm apresentado um crescimento
de de Knigsberg atravessada pelo Rio explosivo devido a sua multidisciplinaridade e
Pregel e consiste de duas grandes ilhas que ao seu conceito de modelo que permite estu-
eram conectadas entre si e com as margens dar um objeto especfico sem negligenciar o
opostas por sete pontes (Figura 1A-6). O pro- meio em que este objeto se encontra. Por
blema apresentado a Euler consistia em des- exemplo, possvel estudar determinado
cobrir como caminhar pela cidade frmaco considerando a atividade que diver-
atravessando cada ponte apenas uma vez. A sos compostos e enzimas poderiam exercer
tcnica desenvolvida pelo matemtico suo sobre ele. Nesses estudos pode-se construir
foi adaptar o mapa de Knigsberg, transfor- uma rede onde os ns representam compos-
mando as margens e ilhas em ns e as pontes tos e enzimas e os conectores representam
em conectores (Figura 1B-6). Euler submeteu se h ou no relao entre eles, permitindo
a rede que desenvolveu a anlises matemti- analisar:
6. Biologia de Sistemas

quentemente empregados em BS.


Uma rede (ou grafo) G = (V, E) repre-
senta uma combinao de ns (V) e conecto-
res (E) que ligam os ns. Em uma rede, o
conjunto de seus ns denotado por V(G),
enquanto o conjunto de seus conectores por
E(G). Dessa forma, o nmero total de ns em
G representado por n, e o nmero total de
conectores representado por m:

n(G) = |V(G)| e m(G) = |E(G)|

Adicionalmente, conforme apresentado


na Figura 2A-6, um conector E deve apresen-
tar suas extremidades ligadas aos ns a e b (a
V e b V), sendo chamado eab, E(a, b) ou
apenas ab. Este conector pode ser represen-
tado da seguinte forma:

E = {(a, b) | a, b V}

As redes podem apresentar conectores


diretos, ou seja, um conector orientado em
determinada direo (exemplo ab, bc),
sendo assim chamadas de redes direcionadas

Figura 1-6: (A) Representao parcial do mapa


de Knigsberg e suas setes pontes. (B)
Ilustrao da rede desenvolvida por Euler.

i) a conectividade dos compostos ou en-


zimas, ou seja, que tipo de relao duas
molculas aleatrias podem apresentar
na rede;
ii) a centralidade, que caracteriza as
molculas que apresentam maior in-
fluncia sob a ao do frmaco em
questo.

Conceitos bsicos de grafos


Considerando-se a estreita relao en-
tre a BS e a teoria de grafos, alguns conceitos
matemticos podem nos ajudar a entender e Figura 2-6: Em (A) a representao da
empregar esta rea do conhecimento com interao de dois ns vizinhos (V = a, b)
maior domnio e propriedade. Assim, prosse- conectados pelo conector E(a, b). Em (B) a
guiremos com uma breve introduo sobre rede pode ser descrita como V = {a, b, c, d, e}
teoria de grafos e estrutura de rede, apresen- e E = {ab, bc, cd, de}, com n = 5 (5 ns de a a
tando alguns descritores matemticos fre- e) e m = 4 (4 conectores de 1 a 4).
6. Biologia de Sistemas

Figura 3-6: (A) Rede direta; (B) Representao da via de degradao ubiquitina-proteassoma, um
dos inmeros tipos de redes direcionadas encontradas em sistemas biolgicos.

ou dgrafos (Figura 3A-6). Nos conectores E = da por proteassomas, uma vez que no
(a, b) e E = (b, c), podemos dizer que a ante- possvel reverter a degradao da protena
cessor a b, e b antecessor a c. Da mesma (Figura 3B-6).
forma, b sucessor de a e c sucessor de b. Podem tambm existir redes no direci-
Um dgrafo definido por G = (V, E, f), sendo f onadas (Figura 4A-6), que apresentam co-
uma funo que associa cada elemento E a nectores orientados em ambas as direes
um par ordenado de ns em V. Uma rede re- (ab, bc), no sendo possvel assim esta-
presentando os mecanismos de degradao belecer antecessor ou sucessor. Um exemplo
ubiquitina-proteassoma de uma determinada tpico seria a reao reversvel de um subs-
protena pode ser um exemplo de rede direta trato A para um substrato B em uma via me-
aps o reconhecimento da protena ubiquitina- tablica como, por exemplo, a formao de

Figura 4-6: (A) Rede no direcionada; (B) Reao reversa de fosforilao e desfosforilao de
adenosina difosfato, representando um exemplo de redes no direcionadas em sistemas
biolgicos.
6. Biologia de Sistemas

diferentes molculas fosforiladas de adenosi- Ao analisarmos uma matriz devemos considerar


na conforme a reao AMPADPATP (Fi- cada n como uma coluna e uma linha distinta. Na an-
gura 4B-6). lise da primeira matriz iremos interpor o n represen-
Em alguns casos, podem existir dois ou tado na linha 1 (n a) com o n representado na coluna
mais conectores que ligam os mesmos ns 1 (n a) da mesma forma que as tabelas representadas
na rede. Esse tipo de interao chamado na Figura 6-6, e como no h interao de a com a, nos
multiconector, onde diferentes informaes referimos como 0. Da mesma forma, se consideramos
so representadas por cada conector, carac- a linha 1 (n a) e a coluna 2 (n b), h conexo, sendo
terizando assim um multidgrafo (Figura 5-6). representado por 1. Perceba que as matrizes so dife-
rentes na rede direcionada e no direcionada devido
atribuio de uma conexo direcionada. Na matriz dire-
cionada, tanto b est conectado a c quanto c est co-
nectado a b. Contudo, na matriz no direcionada,
somente c est conectado a b.
Tambm podemos definir uma rede como completa
se E(G) = V(G)(2), isto , se dois ns selecionados alea-
toriamente na rede G so adjacentes. Assim, uma rede
completa tem n ns e representada por Kn, sendo o
nmero de conectores em Kn representado por .

Figura 5-6: Multidgrafo G = (V, E), onde V = {a,


b, c, d} e E = {ab, ac, ca, cb, cd}.

Observa-se, assim, que as redes apresentam inte-


raes entre os ns e que essas interaes so delimi-
tadas pelos conectores. Portanto, se E = (a, b), logo os
ns a e b so vizinhos ou adjacentes, e E(a, b) inciden-
te aos ns a e b, lembrando que E(a, b) se refere ao
conector.
Uma das formas de representar e descrever tais in-
teraes entre os ns de uma determinada rede envol-
ve o uso de matrizes. Assim, se considerarmos uma
rede G contendo os ns va, ... vn a matriz que descreve
os elementos adjacentes em G dada por:

As tabelas representadas na Figura 6-6 so um


mecanismo visual para compreender como a matriz de Figura 6-6: (A) Rede no direcionada G = (V,
uma rede elaborada, tanto para redes no direciona- E), onde V = {a, b, c, d} e E = {ab, bc, cd} ou E =
das (Figura 6A-6) quanto direcionadas (Figura 6B-6). {ba, cb, dc}, representados tambm na tabela
Para as redes no direcionada (Figura 6A-6) e dire- pelo nmero 1, que indica a presena de um
cionada (Figura 6B-6), as matrizes so representadas conector entre dois ns, exemplo E = {ab, ba}
abaixo: = 1. A ausncia do conector entre dois ns
representada por 0. (B) Rede direcionada G =
(V, E), onde V = {a, b, c, d} e E = {ca, cb, dc}.
Neste caso, a tabela de interaes muda
devido ao direcionamento das conexes, por
exemplo E = {ca} = 1, mas E = {ac} = 0.
6. Biologia de Sistemas

O conjunto de ns e conectores de uma ca que a Vx, enquanto que b Vy ou a Vy e


rede pode ser apresentado em uma repre- b Vx. A aplicao de redes bipartidas na
sentao mais complexa e informativa, agre- modelagem de redes biolgicas pode ser vista
gando pesos (atributos) associados aos ns e em vrios contextos, desde a anlise de ge-
conectores (Figura 7-6). Redes que apresen- ntipos e SNPs (single-nucleotide poly-
tam ns e conectores com atributos so cha- morphism) em diferentes populaes at a
madas de redes ponderadas (G,w), onde G = representao de conexes ecolgicas e rea-
(V,E) e w = V, E R, sendo R o conjunto dos es enzimticas em vias metablicas.
nmeros reais e w correspondente funo O modelo de redes visto at agora, na
atributo. Por exemplo, pode-se representar qual um conector se liga a dois ns, apesar de
uma rede neural onde o atributo indica a dis- amplamente utilizado na avaliao da conec-
tncia que um sinal neural deve percorrer em tividade de redes biolgicas, pode ser uma
relao ao local de origem. Assim, se P uma representao simplista quando se trata de
trajetria na rede, w(P) considerada a ex- redes metablicas. A organizao biolgica
tenso de P. Redes ponderadas so ampla- que caracteriza as redes metablicas em um
mente usadas na bioinformtica, onde contexto bioqumico consiste de complexas
G,w(a,b) pode representar a quantidade e a fi- interaes, frequentemente envolvendo di-
delidade de informaes armazenadas em versos substratos e produtos. Para melhor
bancos de dados a respeito da interao entre representar a complexidade de reaes bio-
a e b (Figura 7-6). qumicas, usam-se redes conhecidas como
Tambm podemos nos referir a uma re- hipergrafos (Figura 9-6).
de como bipartida (Figura 8-6) onde, em G = Os hipergrafos so caracterizados pela
(V, E), V pode ser dividido em Vx e Vy. Assim, presena de hipervrtices, que conectam mais
cada n de Vx adjacente aos vrtices de Vy. de dois ns com propriedades distintas (Figu-
Desta forma, se consideramos E (a, b) signifi-

Figura 7-6: Representao de uma rede Figura 8-6: Representao de uma rede
ponderada descrevendo: i) diferentes tipos de bipartida, onde os ns cinzas e brancos
ns, onde cada cor representa diferentes representam diferentes grupos de uma
famlias de protenas (por exemplo, os ns anlise. Por exemplo, cada grupo pode
verdes representam serina/treonina cinases, representar duas linhagens diferentes de E.
ns azuis representam cinases dependentes coli. Para avaliar a eficincia de
de ciclinas e ns laranjas representam as transformao das linhagens, estas foram
tirosina cinases); ii) diferentes tamanhos de divididas em quatro amostras (representadas
ns, com atributo w(a), representando o pelos ns) e cada amostra foi incubada com
nmero de artigos w que citam a protena a; e diferentes plasmdeos. Os conectores
iii) a espessura do conector y, representando apresentam os plasmdeos que obtiveram
a fidelidade w da interao entre duas sucesso na transformao e so comuns
protenas distintas. entre as duas linhagens.
6. Biologia de Sistemas

E) nada mais so que uma rede G1 = (V1, E1),


onde V1 V e E1 E.

6.3. Estrutura de redes


Uma das caractersticas de uma rede
sua conectividade (tambm referida como
grau de n), sendo a conectividade total de
uma rede definida por C = E / N (N - 1), onde E
representa o nmero de conectores e N o n-
mero total de ns.
Considere os ns Va e Ve de uma rede.
Representamos como um dos possveis ca-
minhos de Va a Ve os vrtices Vb, Vc e Vd, for-
Figura 9-6: Representao de um hipergrafo. mando um conector a cada dois vrtices
As regies destacadas em vrias cores sucessivos, caracterizados por E1, E8, E4, E7
caracterizam as diferentes propriedades ou (Figura 11-6). O n que originou o caminho
atividades bioqumicas representadas na rede. chamado de n inicial, enquanto que o ltimo
Assim, cada cor estaria representando n do caminho chamado de n final. Um ca-
diferentes vias metablicas (A, B e C). Os ns minho onde o n inicial coincide com o n fi-
da rede indicam componentes presentes em nal, sem repeties de conexes
cada uma das vias metablicas e/ou intermedirias, chamado de circuito. Usando
participando de vias distintas nas regies a mesma rede da Figura 11-6, <d, b, c, e, d>
intersectadas. formam um circuito. O comprimento de um
caminho ou circuito consiste do nmero de
ra 9-6). Assim, os hipergrafos so frequente- conectores que pertencem ao caminho (ou
mente usados em organizaes bioqumicas, circuito) ou, no caso de uma rede ponderada,
devido interseco de componentes com pela soma dos atributos (ou pesos) dos co-
atividades em diferentes rotas metablicas. nectores.
Geralmente, as redes biolgicas so exten-
sas, apresentando um grande nmero de ns.
Contudo, anlises estatsticas indicam que,
dentro de uma rede maior (Figura 10A-6), po-
dem existir redes menores que participam da
composio geral e possuem maior conectivi-
dade entre si quando comparados rede mai-
or (Figura 10B-6). Essas subredes de G = (V,

Figura 11-6: Esquema representando uma


rede, onde V = {a, b, c, d, e} e E = {E1, E2, E3, E4,
E5, E6, E7, E8}.

Um caminho de comprimento k tem exatamente k +


1 ns, enquanto que um circuito de comprimento k tem
k = v ns. Se calcularmos o comprimento de Va a Ve,
com caminho E1, E8, E4, E7 temos k = 4 conectores com
Figura 10-6: (A) Rede de interaes protena- 4 + 1 ns. Para o circuito <d, b, c, e, d> que tem como
protena representando em laranja a subrede, caminho E6, E8, E3, E7 temos k = 4 conectores, com
o qual foi destacada em (B). quatro ns diferentes.
6. Biologia de Sistemas

Uma importante anlise em uma rede suas propriedades, como veremos adiante.
consiste em caracteriz-la conforme sua dis- Por exemplo, ao analisarmos a rede de inte-
tribuio de caminhos geodsicos. Um cami- rao de uma doena contagiosa, a possibili-
nho geodsico definido como a via mais dade desta doena at ento controlada
curta dentro de uma rede entre dois ns tornar-se uma epidemia depende principal-
quaisquer (i e j), sendo representado por (i, mente de duas variveis: o tipo de agente in-
j) em G. Um bom exemplo disso o experi- feccioso e a alta densidade de conexes (rotas
mento realizado por Stanley Milgram em de transmisso). O procedimento de quaren-
1960, onde cartas foram enviadas a indivdu- tena (isolamento) quando um determinado
os aleatoriamente. A misso de cada indivduo indivduo apresenta os sintomas da doena
era enviar a sua carta a algum que conside- justamente reduzir a conectividade da rede de
rasse capaz de fazer com que as cartas che- transmisso.
gassem ao seu destino final. Alguns modelos de rede (como as redes
Essa experincia relativamente simples de livre escala e hierrquica, discutidas adi-
conclui que existem aproximadamente seis ante no item 6.5.) podem apresentar cluste-
graus de separao entre dois indivduos rizao, isto , os ns tendem a se agrupar.
quaisquer no mundo. Da mesma forma, esse Isso significa que se um n A se liga ao n B, e
experimento foi a primeira demonstrao o n B se liga ao n C, ento h grandes
significativa do efeito "mundo pequeno" (ou chances de A se ligar a C tambm. Assim, a
do ingls, small world), que estabelece que as rede composta de centenas de tringulos,
redes apresentam ns conectados entre si ou seja, grupos de trs ns conectados entre
formando um caminho mais curto entre to- si, onde cada lateral de um tringulo pode
dos os ns. pertencer a outro tringulo.
O comprimento mdio de caminhos entre os ns (i, Podemos quantificar a frao de triplos ns que
j) definido pelo valor mdio de conectores entre os apresentam um terceiro conector preenchendo um tri-
ns e pode ser calculado por: ngulo pelo coeficiente de clusterizao:

assumindo-se que min (i, j) o caminho mais curto en- Na equao, o nmero trs presente no numerador
tre os ns i e j, sendo N o nmero total de ns. Adicio- devido ao fato que cada lateral de um tringulo con-
nalmente, o dimetro da rede definido como: tribui com outros trs triplos ns, alm de garantir que
C seja 0 C 1. Dessa forma, o coeficiente de clusteri-
zao avalia a probabilidade dos ns i e j serem vizi-
e representa o maior comprimento entre dois ns. Es- nhos, j que ambos so vizinhos do n h. Assim, o
tudos recentes tm revelado que redes biomolecula- coeficiente de clusterizao local de um n i pode ser
res, sociais e tecnolgicas apresentam valores de determinado por:
comprimento mdio de caminhos e dimetro relativa-
mente pequenos se comparados ao tamanho da rede,
apresentando ordem de grandeza log (n) ou menor
quando o tamanho da rede n. Da mesma forma, a onde um n i tem k vizinhos com e conexes entre eles.
densidade de uma rede calculada com base no n- Contudo, pode-se tambm atribuir o coeficiente de
mero de conexes que cada n possui, sendo definida clusterizao mdia para a rede total, sendo definido
como: por:

Ao analisarmos uma rede de processos biolgicos,


Avaliar a densidade de uma rede repre- notamos que esta apresenta um maior coeficiente de
senta avaliar o nvel de conectividade, tor- clusterizao mdia quando comparado a uma rede
nando-se muito importante na definio de aleatria. Isso possivelmente se deve ao fato de pro-
6. Biologia de Sistemas

cessos celulares ocorrerem de forma dependente da alterao ser brusca. Neste caso, observa-
organizao de diversos subconjuntos (clusters) de bi- se um aumento da distncia entre os ns, de
omolculas. forma que apenas poucos ns precisam ser
Em uma rede consideramos como sendo o grau de removidos para destruir a comunicao da
um n o nmero de conectores k que incidem a este rede. Assim, fica claro que a Internet apre-
n. Assim, a distribuio do grau P(k) definida por ser senta baixa resilincia na remoo de ns
uma frao de ns com grau k dentro de uma rede. com alto grau, tornando-se vulnervel a ata-
Ento sendo k = 0, 1, 2,... P(k) indica a probabilidade de ques de hackers.
determinado n ter grau k. A distribuio de grau de- Outro exemplo seriam as redes de inte-
finida por: rao protena-protena. Estas redes geral-
mente apresentam muitas protenas com
poucas interaes e algumas protenas pos-
onde temos n ns na totalidade da rede e nk representa suindo muitas interaes (chamadas de hubs,
a quantidade de ns com grau k. ver adiante). Desta forma, redes de interao
Uma rede aleatria que apresenta n ns conectados protena-protena so resilientes deleo de
ou no com probabilidade p, tem uma distribuio bi- ns aleatrios, porm extremamente vulne-
nominal de grau com parmetros N - 1 e p: rveis a ataques em protenas hubs.
Os ns de uma determinada rede po-
dem apresentar tendncias de conexo. Em
Outras redes, no entanto, tem distribuio de grau outras palavras, duas redes completamente
bem diferente. Redes de livre escala (como a maioria diferentes topologicamente podem apresen-
das redes biolgicas) apresentam distribuio do grau tar a mesma distribuio do grau. Assim, em
que segue uma Lei de Potncia P(k) ~k-, >1 (ver adi- uma rede preciso considerar o padro de
ante). correlao do grau dos ns, onde a conectivi-
Outra estimativa numrica pode ser feita, a funo dade de um n reflete nas suas possibilidades
de distribuio cumulativa avalia a probabilidade de de ligao.
um n ter um grau maior do que k: A tendncia de conexo que uma rede
apresenta pode ser chamada de assortativi-
dade e desassortatividade. A assortatividade
significa que os ns de uma rede apresentam
Agora, o que aconteceria se, por acaso, uma tendncia a interagirem com outros ns
resolvessemos excluir alguns poucos ns da semelhantes, por exemplo, ns do tipo A in-
rede? Certamente iramos alterar o compri- teragem preferencialmente com ns tambm
mento de alguns caminhos e circuitos da rede do tipo A (Figura 12A-6). Vrtices com alto
de forma pouco significativa. Contudo, se grau tendem a interagir com vrtices que
formos excluindo mais ns, progressivamen- tambm apresentam alto grau. No entanto,
te, veremos que a comunicao da rede fica chamamos de desassortatividade se os ns
cada vez mais esparsa, at se tornar desco- de uma rede interagem preferencialmente
nectada. A capacidade de uma rede de tolerar com ns diferentes dele mesmo, por exem-
a deleo de ns chamada de resilincia. plo, ns do tipo A tendem a interagir com ns
Em 2000, um estudo conduzido por Al- do tipo B. Neste caso, um n com alto grau
bert-Lszl Barabsi e colaboradores mos- tem tendncia a interagir com ns que apre-
trou que a Internet pode ser altamente sentem baixo grau (Figura 12B-6).
resiliente na remoo de ns aleatrios. Isso A correlao de grau dos ns i e j feita por distri-
se deve ao fato de que a quantidade de ns buio de probabilidade conjunta P(ki, kj) = P(ki) P(kj).
com baixo grau de interao maior em uma Podemos ainda calcular a assortatividade ou desas-
rede do que ns com alto grau de interao. sortatividade da rede como um todo, considerando:
Em compensao, se a remoo iniciar a par-
tir dos ns com mais alto grau de interao, a
6. Biologia de Sistemas

calcular a resilincia. Imagine dois ns conec-


tados na rede. Se estes ns pertencem a um
componente gigante, h grande probabilidade
Se r = 1 a rede considerada assortativa, enquanto de se comunicarem com uma extensa pro-
que se r = -1, a rede completamente desassortativa. poro de ns da rede. No entanto, ns que
Caracteristicamente, redes assortativas participam de pequenos componentes comu-
so mais resilientes e apresentam hubs bem nicam-se apenas com uma parte reduzida da
conectados, enquanto que redes desassorta- rede. Essa capacidade de comunicao res-
tivas so redes mais vulnerveis com ns co- ponsvel pela forma como a informao
nexos a hubs esparsos (Figura 12-6). transferida de um ponto a outro. Assim, as-
A conectividade de uma rede tambm sociamos a resilincia com a percolao local
pode ser avaliada pela teoria da percolao. (refere-se aos ns), enquanto que a percola-
Essa teoria tem por objetivo estudar a conec- o de ligao (refere-se aos conectores) es-
tividade da rede pela avaliao de sua arqui- t relacionada ao processo de disperso
tetura, caracterizando a distribuio do (Figura 13A-6).
tamanho dos clusters e descrevendo como Tambm podemos considerar os ns de
ocorre a transferncia de informaes, por uma rede como ocupados (funcionais) ou de-
exemplo, de A para B. socupados (falhos), dependendo da sua fun-
Redes aleatrias caracteristicamente cionalidade. A probabilidade de um n estar
apresentam baixa tendncia em possuir pe- ou no ocupado pode ser uniforme ou pode
quenos clusters isolados e uma grande pro- depender do grau do n, sendo que os ns
babilidade em formar um componente funcionais da rede formam o componente gi-
conectado gigante. Como visto anteriormente, gante em um modelo de percolao. Assim,
determinadas redes so altamente resilentes os ns ou conectores falhos no participam
deleo aleatria de ns. A variao na fra- da transferncia de informao, e igualmente,
o dos ns no maior componente da rede no participam do componente gigante (Figu-
(componente gigante) a forma mais fcil de ra 13B-6). Dessa forma, ao observar a propri-

Figura 12-6: Ilustrao representando em (A) uma rede assortativa com ns bem conectados
que apresentam conexes com outros ns tambm fortemente conectados. Em (B), uma rede
desassortativa, onde os poucos ns que apresentam mais conexes interagem com ns menos
conectados, resultando em uma rede menos densa.
6. Biologia de Sistemas

Levando em conta este modelo, o incio de


uma epidemia representa a transio de per-
colao.
Apesar de ter sido originalmente de-
senvolvida com o objetivo de responder s
perguntas em qumica orgnica, os modelos
de percolao tm sido usados com sucesso
para estudar diversos fenmenos, como
transferncia de sinal em neurnios e condu-
tividade eltrica. Em 1987, Robert H. Gardner
foi um dos primeiros pesquisadores a usar a
teoria de percolao na Ecologia da Paisagem,
sendo til tambm na avaliao de corredo-
res ecolgicos e redes de incndios florestais.

Figura 13-6: (A) Redes de percolao local e


de ligao, onde os ns slidos esto
ocupados ou funcionais, enquanto que os ns
brancos so desocupados ou falhos. (B)
Representao do componente gigante. Aps
o surgimento de ns e conectores falhos, sua
proporo alterada e, por conseguinte, as
possibilidades de transferncia de
informaes.

edade de percolao de um cluster, conside-


rando uma probabilidade de ocupao vari-
vel, podemos determinar que isso afeta Figura 14-6: Modelo simplificado de disperso
diretamente a conectividade de uma rede, de uma doena considerando um grupo de
tornando-a altamente resiliente ou no. Po- trabalho em uma empresa. Suponhamos que
rm, ao combinarmos a percolao local e de o indivduo central contraiu uma doena viral
ligao, teremos um modelo robusto contra de fcil transmisso, como a gripe simples.
falhas de ns ou conectores. Assim, todos os indivduos com os quais ele
Os modelos de percolao so utilizados entrou em contato neste perodo tambm
em muitas redes, porm um dos modelos contraram a doena (ns azuis), com exceo
mais interessante o da disperso de uma daqueles que foram vacinados (ns brancos).
doena. Nesse modelo, cada n representa o Neste caso, alm de no contrarem a doena,
hospedeiro e os conectores representam a tambm no a dispersaram. Os conectores
capacidade de transmisso da doena entre pontilhados indicam que no houve interao
um hospedeiro e outro. O n (indivduo hos- fsica durante o perodo passvel de contrair a
pedeiro) est ocupado se for suscetvel do- doena entre o indivduo saudvel com o
ena, enquanto que um n que representa um contaminado. Desta maneira, os indivduos
indivduo que tomou a vacina seria considera- representados pelo n verde claro, apesar de
do como desocupado. Da mesma forma, os no terem sido vacinados, no contraram a
conectores so considerados ocupados se h doena por no entrarem em contato com
possibilidade de transmisso (Figura 14-6). indivduos contaminados.
6. Biologia de Sistemas

6.4. Propriedades de rede interpessoais ou na nossa tendncia de orga-


nizar objetos por seu tipo, funo e cores,
Diversas propriedades so regularmen- dentre outros. Em nvel molecular visto, por
te empregadas na anlise de redes biolgicas, exemplo, em elementos que atuam num
cada uma fornecendo informao sobre as mesmo processo biolgico, como conjuntos
interaes e/ou componentes de um deter- de molculas de RNA responsveis pela de-
minado sistema. Estas propriedades podem gradao e sntese de cidos nucleicos ou
ser referentes a ns individuais, isto , grau de grupos de protenas que atuam num mesmo
n ou node degree, ou podem contemplar a processo biolgico como a replicao de DNA
rede como um todo como , por exemplo, o e a transcrio gnica.
caso da modularizao e do dimetro da rede. Existem dois tipos distintos de mdulos:
Em uma anlise de biologia de sistemas, i) Mdulo Variacional: apresenta carac-
a anlise estatstica destas propriedades pos- tersticas que variam entre seus com-
sui papel crtico na gerao de dados conclu- ponentes e so relativamente
sivos e confiveis, constituindo-se assim em independentes de outros mdulos, po-
redes capazes de descrever com alto grau de rm possuem um nmero considervel
fidelidade um determinado modelo biolgico, de ligaes com outros mdulos;
de identificar alvos proteicos crticos na rede ii) Mdulo Funcional: possui elementos
ou no desenvolvimento de caminhos molecu- que normalmente atuam juntos em al-
lares. guma funo fisiolgica distinta e so
semiautnomos (quasi-autonomous) de
Modularidade outros mdulos. Esses mdulos com-
preendem a maioria dos mdulos vistos
Uma das principais caractersticas em redes biolgicas.
quando nos referimos a propriedades da to-
pologia de redes a chamada modularidade Mdulos variacionais podem ser exem-
ou clusterizao. O conceito de modularidade plificados na Figura 15B-6 e C, representando
antigo e j amplamente usado em outras a formao de uma mandbula de rato. Ape-
reas do conhecimento, como nas cincias sar de se tratar da diferenciao de um teci-
sociais. Dentro das cincias biolgicas, um do, podemos us-la como modelo variacional
conceito comum nas reas da biologia evolu- devido ao fato de diferentes protenas e genes
tiva, biologia molecular, biologia de sistemas e serem responsveis pela formao de uma
biologia do desenvolvimento. unidade estrutural nica (o ramo ascendente
Todas as ideias de modularidade giram e da regio alveolar). Desta maneira, uma
em torno do conceito de padres de conecti- unidade estrutural (um nico osso) que se
vidade, onde seus elementos constituintes origina de diferentes mdulos. Assim, o m-
esto agrupados em subconjuntos altamente dulo variacional consiste numa integrao de
conectados. De forma geral, a modularidade vrios de genes que dividem efeitos pleiotr-
um princpio de unio entre diferentes tipos de picos entre si e que possuem poucos efeitos
elementos e conexes naturalmente forma- pleiotrpicos com outros clusters, sendo
das no meio biolgico, como na interao en- praticamente independente.
tre indivduos de mesma espcie. Um exemplo Mdulos de genes de desenvolvimento
a Pollenia rudis, uma espcie de mosca co- embrionrio, relacionados diferenciao ou
nhecida como cluster fly em decorrncia de formao de padres corporais, tendem a ser
seu hbito de se agrupar com indivduos da quase independentes de outros mdulos, uma
mesma espcie. vez que erros na sua expresso ou atuao
Este princpio visto em todos os luga- podem ser letais para o embrio. Por isso,
res, seja na nossa tendncia de formar socie- esses mdulos de desenvolvimento tendem a
dades e grupos preferenciais de interao depender de elementos dentro do prprio
6. Biologia de Sistemas

grupo para sua expresso. Podemos visuali- tra-mdulo), ou seja, ligadas no mesmo
zar um exemplo de um mdulo funcional na tempo e/ou espao,
Figura 15A-6. ii) date hubs, que so hubs que se ligam
a diferentes protenas em diferentes
mdulos (inter-mdulo), ou seja, dife-
rentes tempo e/ou espaos, conse-
quentemente apresentando um papel
global na rede (Figura 16-6). Estes ter-
mos podem ainda receber denomina-
es especficas no contexto do
conceito de centralidades (ver adiante).

Figura 15-6: Exemplos de uma rede com


diferentes mdulos representados. Os
mdulos variacionais B (azul) e C (verde) se
encontram praticamente independentes do
mdulo A (vermelho), porm possuem
protenas em comuns entre si. Contudo, o
mdulo A pode ser considerado funcional,
uma vez que possui apenas uma conexo com
cada outro mdulo, sendo praticamente
independente.

Ao determinarmos a quantidade e o tipo Figura 16-6: Diferentes tipos de centralidade


de mdulos presentes em uma rede devemos em uma rede biolgica. Em verde so apre-
levar em considerao o coeficiente de agru- sentadas protenas envolvidas em party hubs
pamento (Ci) ou clusterizao. O coeficiente e encontradas em mdulos. Em amarelo
analisa a tendncia de um n de se associar encontram-se as protenas no-hub/no-
com seus vizinhos (cliquishness), onde "cli- gargalo, que so aquelas que no possuem
que definido como um grafo maximamente alto valor de grau de n ou betweenness,
conectado. sendo consideradas componentes funcionais
Como mencionado anteriormente, a clusterizao dos mdulos. Em azul esto as protenas hub-
dada pela frmula Ci=2n/ki(ki-1), onde ki o tamanho da gargalo (date-hub) que possuem alto valor de
vizinhana de vrtices (ns) do vrtice i, e n o nmero grau de n e de betweenness, sendo
de conectores na vizinhana. Assim, quanto maior o consideradas fundamentais para o
coeficiente de clusterizao, mais conectado o clus- funcionamento de redes. Em vermelho esto
ter. Evolutivamente, as protenas que compem mdu- identificadas as protenas do tipo gargalo,
los altamente agrupados tendem a ser conservadas ou com alto valor de betweenness e essenciais
perdidas juntamente, caso haja uma variao dentro do na ligao entre mdulos e processos
grupo. biolgicos.
Outro conceito essencial para entender
a formao de um cluster em um sistema bi- Os party hubs so componentes clssi-
olgico a presena de hubs. Os hubs podem cos de mdulos funcionais, uma vez que estes
ser classificados em dois grupos: so quase independentes de outros mdulos,
i) party hubs, protenas altamente liga- enquanto date hubs so fundamentais para
das dentro do seu prprio mdulo (in- mdulos variacionais, pois estes se ligam a
6. Biologia de Sistemas

outros mdulos. Da mesma forma, essas anotaes no


Assim, uma mutao em um party hub so restritas a humanos, mas abrangem di-
vai afetar principalmente as protenas refe- versos organismos modelo como Mus
rentes ao seu prprio mdulo, enquanto a musculus, Gallus gallus, Saccharomyces
mutao em um date hub (Figura 16-6) pode cerevisiae, Caenohabditis elegans e
afetar vrios mdulos. Contudo, no existe Escherichia coli, alm de outros organismos
diferena de importncia entre party ou date no-modelo mas que j possuem alguma
hub. A deleo de um hub em um mdulo anotao.
funcional pode ser to letal quanto a deleo De um modo geral, a ontologia gnica
em um mdulo variacional. tem como funo, em uma rede de interao
Baseado em dados estruturais, os hubs protena-protena, agrupar protenas que fa-
podem ser ainda classificados em singlish am parte de um mesmo processo biolgico.
(com uma ou duas interfaces) e multi-interfa- Em biologia de sistemas o emprego de onto-
ce (com mais de duas interfaces). Hubs com logias gnicas pode se mostrar muito til pa-
interface singlish somente se ligam a outras ra direcionar a anlise da rede, possibilitando
protenas de maneira alternada e transitria, a verificao dos tipos de processos biolgi-
enquanto hubs multi-interface se ligam a di- cos existentes na rede e das protenas pre-
ferentes protenas concomitantemente. sentes. Um modelo hipottico de como uma
rede poderia se apresentar em termos de on-
Ontologias Gnicas tologias gnicas se encontra na Figura 17-6,
onde diferentes ns poderiam estar relacio-
Nos ltimos anos, o desenvolvimento e nados a diversos processos.
uso de tcnicas de anlise como microarran-
jos, ChIP-chip e espectrometria de massas e
suas aplicaes no estudo de cada vez mais
organismos gerou um grande acmulo de da-
dos genmicos e protemicos. A leitura e in-
terpretao simples e concisa destes vem
requerendo o desenvolvimento de novas
abordagens, contexto no qual, em 1990, foi
criado o chamado Gene Ontology Project.
Ontologia gnica refere-se ao produto
de um determinado gene e funo que ele Figura 17-6: Modelo hipottico da presena de
desempenha na maquinaria celular. So clas- ontologias gnicas em uma rede. Na figura
sificadas em trs nveis hierrquicos: acima, cada cor representa um processo
i) Componente celular, descrevendo a identificado. importante ressaltar que uma
localizao da protena na clula; protena pode estar presente em mais de uma
ii) Processo biolgico, referindo-se ontologia. Da mesma forma, uma ontologia
srie de eventos realizados por uma ou pode estar dentro de outra. Como por
mais funes celulares; exemplo, o quadrado amarelo poderia
iii) Funo molecular, descrevendo a significar transcrio, enquanto o quadrado
atividade que uma dada protena de- azul claro (inserido no amarelo) poderia
sempenha no meio celular. significar apenas o complexo de iniciao da
RNA polimerase II.
Essas informaes so guardadas em
forma de anotaes ontolgicas, onde cada A Figura 18-6 mostra um exemplo de
uma possui um nmero de identificao e se aplicao de ontologias gnicas em uma rede
encontram disponveis em bancos de dados biolgica. Nessa anlise foi utilizado o pro-
como www.geneontology.org. grama Biological Network Gene Ontology
6. Biologia de Sistemas

(BiNGO) 2.44, um plug-in do programa Grau de n


Cytoscape. possvel, assim, identificar pro-
tenas ou genes com efeitos pleiotrpicos, a Um dos parmetros bsicos de anlise
saber: a protena Tp53, a protena breast can- topolgica o parmetro de grau de n (ou
cer 1 (BRCA1) e a protena bloom syndrome node degree), referente quantidade de ns
protein (BLM), as quais se encontram nas trs adjacentes (diretamente conectados) a outro
ontologias da rede (reparo de DNA, regulao determinado n. Esses ns que apresentam
positiva da transcrio e ciclo celular). uma grande quantidade de conexes so cha-
mados de hubs, os quais so conectados a
outros hubs ou ns com menos conexes (Fi-
gura 16-6). Como veremos posteriormente,
uma rede de livre escala definida por uma
lei de potenciao, o que significa que essa
rede ter poucos ns altamente conectados.
O grau de n referente ao valor distribuio
de n, P(k), que informa a probabilidade de um
n ter k conexes, conforme visto em Estru-
tura de redes.
Numa viso biolgica, podemos exem-
plificar um hub como uma protena que se liga
a vrias outras e acaba possuindo uma funo
regulatria importante na rede. Normalmen-
te, protenas consideradas apenas hubs se
encontram dentro de mdulos. A perda de
conexes de uma protena hub pode lhe tirar
Figura 18-6: Exemplo de uma rede analisada esta condio modular. Sua deleo em uma
pelo plugin BiNGO 2.44, o qual analisa as rede de interao protena-protena poderia
principais ontologias gnicas. A rede mostra afetar a ao de diversas protenas vizinhas e
trs processos biolgicos (GOs): i) Regulao at mesmo na formao de mdulos.
do ciclo celular (ns de cor laranja); ii)
Regulao positiva da transcrio (ns de Betweenness
formato quadrado); iii) Resposta a dano de
DNA (ns com a linha azul). possvel O parmetro denominado betweenness
observar que mais de um n compe definido como o nmero de caminhos mais
diferentes GOs. curtos que passam por um nico n, esti-
mando a relao entre eles. Por exemplo, pa-
Centralidades para ns ra calcular o valor de betweenness de um n
n calculado o nmero de caminhos mais
Como vimos at ento, a grande vanta- curtos entre i e j, e a frao deste caminhos
gem da biologia de sistemas permitir a vi- que passam pelo n n. Deste modo, um n n
sualizao dos componentes moleculares de pode ser atravessado por diversos caminhos
um sistema biolgico de forma dinmica e alternativos, que ligam i e j.
global. Contudo, quando falamos de uma re- Matematicamente, o valor de betweenness dado
de, temos que levar em considerao todas pela seguinte frmula:
suas estruturas, como hubs e mdulos. Deste
modo, o objetivo da anlise de centralidades
procurar o elementos mais importantes na
topologia geral da rede. onde ij representam caminhos geodsicos entre os
ns i e j, e ij(n) o total destes caminhos mais curtos
6. Biologia de Sistemas

que passam por n.


Por exemplo, uma protena com alto
valor de betweenness apresentaria uma ele- onde o valor de closeness de um n v [Clo(v)] deter-
vada capacidade de interao e/ou sinalizao minado atravs do clculo e somatrio dos caminhos
com outras protenas, processos biolgicos mais curtos entre um n v e todos outros ns w
ou clusters. Uma protena com tais caracte- [dist(v,w)] dentro da rede.
rsticas chamada de bottleneck ou gargalo. Uma protena com alto valor de
Na Figura 16-6, temos dois exemplos de uma closeness poderia ser considerada relevante
protena com alto valor de betweenness. para muitas protenas, porm irrelevante para
No existe uma maneira bvia de se en- outras. Em termos biolgicos, ela seria im-
contrar protenas gargalo. Porm, possvel portante na regulao de muitas protenas,
que rotas de sinalizao possuam grande in- porm sua atividade pode no influenciar ou-
cidncia de protenas gargalo, uma vez que tras. Ao compararmos essas informaes
so necessrias para sinalizao entre com- com mdulos podemos dizer que uma rede
partimentos e processos biolgicos distintos. com uma mdia de closeness alta mais pro-
Contudo, protenas gargalo no necessaria- vvel de estar organizada como um mdulo
mente possuem um grande nmero de inte- funcional, enquanto uma com baixo valor de
raes com outras protenas. closeness mais provvel de estar organiza-
da como um mdulo variacional.
Closeness
O valor de closeness pode ser entendido
como o caminho mais curto entre um n n e Dimetro
todos os outros ns da rede, uma tendncia
de aproximao ou isolamento de um n (Fi- O dimetro pode ser considerado um
gura 19-6). Um alto valor de closeness indica dos primeiros parmetros referentes
que todos os outros ns esto prximos do compactao, isto , proximidade dos ns
n n, enquanto que um baixo valor indicaria da rede. Ele indica a distncia entre os dois
que os outros ns encontram-se distantes. ns mais afastados entre si de uma rede.
Sendo assim, definimos que uma rede possui
um alto dimetro quando a distncia geral
entre os ns muito ampla. Quando a distn-
cia entre os ns pequena, ento o dimetro
baixo. Deste modo, uma rede com baixo di-
metro considerada mais completa, uma
vez que suas protenas esto mais interliga-
das entre si.
Um baixo dimetro pode indicar que as
protenas de uma determinada rede possuem
Figura 19-6: Caracterizao de ns com uma maior facilidade de se comunicar e/ou
diferentes valores hipotticos de closeness. influenciar umas as outras, apontando para
Os ns em roxo, dadas as suas maiores uma relao funcional co-evolutiva (Figura
conectividades com a rede no geral, possuem 20-6).
um valor maior de closeness, enquanto que Os parmetros de centralidades podem
os ns em verde, por possurem poucas ser alterados com a adio ou deleo de ns
conexes com a rede, apresentam baixo valor ou conexes na rede (Figura 21-6). Como j
de closeness. mencionado, em um sistema molecular, a
perda de uma conexo pode ser considerada a
Este parmetro dado pela frmula: mudana de um domnio, impedindo a ligao
6. Biologia de Sistemas

Figura 20-6: Em (A) uma rede com alto


dimetro e em (B) rede com baixo dimetro.
Pelo fato dos ns da figura A estarem mais
interligados entre si, a rede considerada
mais compacta, pois seus ns mais
facilmente podem influenciar uns aos outros.
Entretanto, em B, a rede possui muito menos
conexes, portanto a deleo de um n ir
afetar a rede de um modo mais sutil.

de duas protenas ou a mudana de um pro-


duto gnico, criando protenas anormais que
no mais faro as mesmas conexes. Contu-
do, mudanas topolgicas nas redes biolgi-
cas so processos normais durante a
evoluo. A deleo e a duplicao de um ge-
ne, assim como a perda de interaes, sejam
pela mudana estrutural ou de funo, so Figura 21-6: Modificaes na topologia de
processos muitas vezes selecionados e ne- rede podem alterar as centralidades. Devido
cessrios para sobrevivncia celular. perda de conexes com ns fora do mdulo,
os ns marcados pelos quadrados foram
Centralidade para conectores transformados em party-hubs (ns verdes),
deixando de ser hubs-gargalos (ns azuis).
Os elementos mais informativos de uma Porm, marcados pelos quadrados pontilha-
rede de interao podem ser avaliados atra- dos, h ns que alm de ganharem conexes,
vs da anlise da centralidade. Dentre as passaram a se ligar a outros mdulos, saindo
possveis centralidades avaliadas, o do estado de no-hub/no-gargalo para hub-
betweenness de um conector pode medir a gargalo (ns amarelos). Marcados por crcu-
influncia de certos conectores no fluxo de los, os ns antes gargalos (ns vermelhos),
informaes entre os componentes da rede. agora pela perda de uma conexo, se tornam
O betweenness de um conector e sim- no-hubs/no-gargalos. Por fim, os ns
plesmente o nmero de caminhos mais cur- marcados pelos crculos pontilhados, devido
tos entre pares de ns que percorrem e. Se perda de muitas conexes (n central) e ao
uma rede contm mdulos que so conecta- ganho de uma conexo (n acima), se tornam
dos por poucos conectores intermodulares, gargalos, perdendo os status de hub-gargalo
ento os caminhos mais curtos entre os dife- e de no-hub/no-gargalo respectivamente.
rentes mdulos devem passar por estes pou-
cos conectores. Assim, os conectores unindo nector baixo, esse conector provavelmente
mdulos tero altos valores de far parte do mdulo, uma vez que dentro do
edgebetweenness (Figura 22-6). mdulo os ns so mais interligados entre si.
Neste caso, os pares de ns unidos pe- Portanto, edgebetweenness a frequncia de
los conectores sero de diferentes mdulos. um conector que se coloca sobre os caminhos
Se o valor de edgebetweenness de um co- mais curtos entre todos os pares de ns. Em
6. Biologia de Sistemas

Figura 22-6: Representao de


edgebetweenness. Conectores em vermelho
apresentam valores altos de betweenness, Figura 23-6: Ilustrao de uma rede aleatria
pois representam o caminho mais curto do consistindo em 109 protenas. A rede
fluxo de informao entre os trs mdulos apresenta P(k) 3,8. Observe que as conexes
representados. de cada n so valores prximos a 4, o que
est de acordo com k <k>.
uma rede proteica, um conector com alto va-
lor de betweenness provavelmente represen- probabilidade p, gerando uma rede de cone-
ta o caminho mais curto de comunicao xes aleatrias com aproximadamente pN . (N
entre dois processos biolgicos. - 1) 2. Dessa forma, o grau dos ns segue
Como conectores com altos valores de uma distribuio de Poisson com mxima em
betweenness so mais provveis por posicio- <k> e a maioria dos ns apresentando aproxi-
narem-se entre mdulos, a remoo sucessi- madamente o mesmo nmero de conexes k
va destes conectores pode eventualmente <k>, com grau prximo ao da mdia da rede.
isolar estes mesmos mdulos. Essa desor- Raramente surgem ns que apresentam mais
dem na rede, conforme ser visto adiante, ou menos conexes que <k>. Adicionalmente,
conhecida como perturbao de conector. redes aleatrias apresentam a propriedade
mundo pequeno e distribuio de grau ex-
6.5. Tipos de redes ponencial, sendo estatisticamente homog-
neas.
Rede Aleatria
Rede de livre escala
Os matemticos Paul Erds e Alfrd
Rnyi iniciaram seus estudos sobre redes ale- O modelo de rede de livre escala foi in-
atrias em 1960. Este modelo de rede tem troduzido por Barabsi e Albert em 1999 onde
impulsionado o interesse de diversos cientis- se observa que redes complexas, como as
tas ao longo dos anos por ser um dos primei- redes de citaes de artigos cientficos, redes
ros modelos de rede descoberto. Porm, metablicas, redes socais e a World Wide
apesar de amplamente estudadas, redes ale- Web apresentam distribuio de grau que se-
atrias no capturam a realidade de um sis- gue uma lei de potncia P(k) ~k-, >1. Essas
tema biolgico (Figura 23-6). redes so consideradas como livres de escala
Essas redes consistem de N ns, com (Figura 24-6) pois a lei de potncia no per-
cada par de ns conectados (ou no) com mite uma escala caracterstica.
6. Biologia de Sistemas

cia-se como uma pequena rede, sendo que a cada ins-


tante de tempo um novo n com m conexes adicio-
nado, onde a probabilidade do novo n se conectar ao
n i que est previamente presente depende de ki (grau
de i):

Esse crescimento gera uma rede de livre escala


com expoente de grau = 3. Aps t instantes de tempo,
temos uma rede com N = t + m0 e mt conectores.
As caractersticas da rede de livre esca-
la a tornam uma rede que apresenta um pe-
queno nmero de ns altamente conectados
(hubs), o que frequentemente determina suas
propriedades. Como j mencionado, falhas na
rede (ou remoo de ns aleatrios) apre-
sentam poucas consequncias, enquanto que
o ataque aos ns altamente conectados tor-
Figura 24-6: Ilustrao de uma rede de livre nar a rede fragmentada. Em sistemas biol-
escala consistindo de 109 protenas, na qual o gicos, uma rede bioqumica apresenta alta
grau de distribuio segue uma lei de resilincia contra mutaes aleatrias, en-
potncia. Neste tipo de rede, as protenas quanto que os hubs podem ser usados como
hubs (ns laranjas) tem papel essencial na candidatos importantes para alvo de frma-
manuteno da integridade da rede. cos. Um exemplo disso seria a protena EF-Tu.
Esta protena tem papel essencial durante a
Diferentemente da rede aleatria que elongao da sntese proteica, sendo inibida
apresenta um nmero fixo de N ns, as redes pelo antibitico quirromicina, que impede que
de livre escala apresentam uma ordem din- o complexo EF-Tu-GDP seja liberado do ribos-
mica de estruturao que permite o cresci- somo.
mento da rede pela adio de novos ns.
Assim, a rede aleatria consiste de um siste- Rede Hierrquica
ma aberto que inicia com um pequeno grupo
de ns e aumenta de tamanho exponencial- Como j vimos anteriormente, uma rede
mente no tempo devido insero de novos pode ser avaliada pelo grau de agrupamento
ns. A probabilidade deste novo n se conec- (clusterizao) de seus ns. Na maioria das
tar a ns com grande nmero de conexes redes baseadas em um sistema real (chama-
maior, sendo chamada de conexo preferen- das de redes reais), como por exemplo, parte
cial. Por exemplo, imagine que voc est bus- de uma via metablica, o coeficiente de clus-
cando um artigo sobre determinado assunto terizao significativamente maior se com-
na Internet. Certamente os artigos que voc parado a redes aleatrias. Da mesma forma,
encontrar mais facilmente sero publicaes ocorre a coexistncia da propriedade de livre
com alto grau de conexo por serem mais escala e clusterizao nas redes reais, como
conhecidos e bem citados quando compara- redes metablicas e de interao proteica.
das a publicaes pouco citadas e, conse- Contudo, grande parte dos modelos propos-
quentemente, menos conhecidas. tos para representar estas redes no conse-
Estes dois mecanismos, crescimento da rede e co- gue descrever a livre escala e a clusterizao
nexo preferencial originaram o algoritmo do modelo simultaneamente.
Barabsi-Albert, que estabelece que o crescimento ini- Adicionalmente, muitas redes reais
6. Biologia de Sistemas

apresentam mdulos, ou seja, a rede com- 2002, que construram um grfico de livre
posta de subredes funcionalmente separ- escala determinstico, na qual o coeficiente de
veis. Esses componentes separveis clusterizao de um n que possui k conexes
apresentam densa conectividade entre os segue a lei de escala C(k) ~k-1. Portanto, o
seus prprios ns, com conectividade mais modelo de rede hierrquico integra uma to-
dispersa em relao a componentes de ou- pologia livre de escala com alta modularida-
tros mdulos. Isso ocorre porque cada m- de, resultando em um coeficiente de
dulo apresenta a capacidade de executar uma clusterizao independente do tamanho do
tarefa identificvel, diferente de outro mdu- sistema.
lo. Contudo, essa separao de tarefas no
significa que um mdulo independente de 6.6. Perturbao e conectores
outro, mas sim que tem funes distintas.
Dessa forma, necessrio combinar a Como visto anteriormente, um grafo
propriedade de livre escala, o alto grau de consiste de um conjunto de ns e um conjunto
agrupamento e a modularidade de uma forma de conectores que conectam esses ns. Por-
interativa, gerando a rede hierrquica. A es- tanto, os ns so as entidades de interesse e
trutura hierrquica convencionalmente re- os conectores representam as relaes entre
presentada por um dendrograma ou uma as entidades.
rvore e atua relacionando os ns mais prxi- Quando tratamos de sistemas biolgi-
mos na rede, conforme Figura 25-6. Essas cos, podemos levar em considerao diferen-
redes podem ser formadas basicamente pela tes entidades como, por exemplo, DNA, RNA,
duplicao de clusters e repetidas indefinida- metablitos, pequenas molculas e/ou prote-
mente, integrando uma topologia livre de es- nas. Estes componentes biolgicos no atu-
cala com alta modularidade, resultando em am isoladamente, mas sim dependem da
um coeficiente de clusterizao independen- interao com outros componentes. Para que
tes do tamanho do sistema. Muitas vezes, em ocorra essa interao (comunicao) ne-
redes reais, a modularidade no apresenta cessria a presena de conectores.
um limite claro, sendo reconhecida principal- Conectores podem ser interaes fsi-
mente por ns altamente conectados entre si cas, bioqumicas ou funcionais. Por exemplo,
e conectados a outros mdulos. em redes metablicas, conectores podem ser
reaes que convertem um metablito em
outro ou enzimas que catalisam essas rea-
es; em redes de regulao gnica, conecto-
res podem representar a ligao fsica de um
fator de transcrio nos elementos regulat-
rios; em redes de doenas, conectores podem
representar as mutaes genticas associa-
Figura 25-6: Ilustrao de uma rede das doena; e em redes proteicas, os co-
hierrquica consistindo de 55 protenas em nectores podem ser ligaes fsicas entre as
modelo de dendrograma onde possvel protenas.
observar sua modularidade intrnseca. Como apresentado anteriormente, as
redes podem ser direcionadas e no direcio-
A principal caracterstica dessas redes nadas. Esse comportamento da rede depende
que no compartilhada por redes aleatrias da natureza da interao e, obviamente, da
ou de livre escala a hierarquia intrnseca, direcionalidade dos conectores (Figura 26-6).
sendo representada tambm na sua arquite- Em redes direcionadas, a interao entre dois
tura. Essa caracterstica hierrquica pode ser, ns tem uma direo bem definida que repre-
ainda, analisada quantitativamente, como ob- senta, por exemplo, a direo do fluxo do
servado por Dorogovtsev e colaboradores em substrato ao produto em uma rede metabli-
6. Biologia de Sistemas

ca. Em redes no direcionadas, a ligao no nismo de formao do complexo, incluindo o


tem uma direo definida, tal como a intera- tipo de conexo entre as protenas, as intera-
ao fsica entre protenas. es podem ser conceitualmente separadas
em dois grupos: aquelas que so permanen-
tes e aquelas que so temporrias. E, embora
no exista um limite bem definido para essa
separao, tendncias tm sido observadas
em relao a suas propriedades biolgicas
(Figura 27-6).
Em relao estrutura, por exemplo,
interaes temporrias so caracterizadas
por interfaces proteicas pequenas, enquanto
que as interfaces de protenas interagindo
permanentemente so maiores. Consequen-
temente, complexos proteicos com interfaces
maiores tendem a apresentar um maior grau
de mudana conformacional aps a ligao.
Alm disso, componentes de complexos per-
manentes tendem a ser co-expressos e mais
Figura 26-6: Representao de um conector estveis. Esta estabilidade gera uma presso
no direcionado e um direcionado. seletiva maior e em funo disso, uma taxa
evolutiva mais lenta.
Na abordagem da biologia de sistemas Como ser discutido adiante, interao
to importante quanto conhecer os ns que transitria tende a ser date, isto , as prote-
interagem entre si em uma rede compreen- nas podem se conectar em diferentes tempos
der, por exemplo, que tipo de interao pode e a interao permanente tende a ser party,
ocorrer na rede em questo, quais conectores isto , conexo proteica forte e constante.
so mais relevantes rede e qual o impacto As protenas com conectores perma-
da perturbao de um conector. Nesta seo nentes existem somente em sua forma com-
iremos discutir os tipos de conectores entre plexada e so muito estveis, enquanto
diferentes componentes de uma rede envol- aquelas com conectores transitrios possu-
vendo protenas e as consequncias da ruptu- em a capacidade de associao e dissociao
ra nestas conexes. in vivo. Dentre as protenas com conectores
transitrios, h aquelas em que a associa-
Interao protena-protena o/dissociao resultante de uma conexo
com baixa afinidade, porm constante (inte-
A interao protena-protena comum raes temporrias fracas) e aquelas em que
e crucial a vrios processos celulares, tais a associao/dissociao desencadeada por
como na ligao enzima-inibidor e na intera- um processo ativo (interaes temporrias
o antgeno-anticorpo. Os diferentes tipos de fortes) como, por exemplo, uma mudana
complexos proteicos tm sido definidos na li- conformacional ocorrida em consequncia de
teratura como obrigatrios e no obrigatri- um fator ligante.
os. No complexo obrigatrio, as protenas no A diferena entre as interaes acima
podem funcionar separadamente, diferindo do citadas distinguida puramente pelas propri-
complexo no obrigatrio onde as protenas edades da estrutura da interface proteica, isto
associam-se e dissociam-se dependendo de , da superfcie de contato das protenas. Es-
fatores externos, podendo tambm exercer sas propriedades conferem afinidade e espe-
funes fora do complexo. cificidade, e so determinadas principalmente
De acordo com a estabilidade e o meca- por foras intermoleculares como comple-
6. Biologia de Sistemas

Figura 27-6: Modelo esquemtico representando os diferentes tipos de interaes protena-


protena e as propriedades biolgicas relacionadas. Quanto maior o tamanho da base e a
intensidade da cor do tringulo, maior a relao entre o modo de interao proteica e a
propriedade biolgica.

mentaridade estrica, fora eletrosttica, in- fracas e ocorrem em funo da interao en-
terao hidrofbica e ligaes de hidrognio. tre cadeias ou subunidades apolares. Os
A complementaridade estrica otimiza complexos com conexes permanentes nor-
as interaes de van der Waals entre o com- malmente persistem no estado ligado, sendo
plexo. Normalmente, estas interaes de fra- a fora hidrofbica mais significativa. J em
ca energia ocorrem em funo da polarizao conectores transitrios, a alta hidrofobicidade
transiente de ligaes carbono-hidrognio ou se torna desfavorvel, pois esses complexos
carbono-carbono e, apesar de fracas, so ex- permanecem ligados por menos tempo.
tremamente importantes para o processo de As foras de atrao eletrostticas so
reconhecimento intermolecular pois crescem aquelas resultantes da interao entre dipo-
em intensidade com a rea de interao. los e/ou ons de cargas opostas e represen-
Complexos com conexes permanentes exi- tam fora significativa na interao
bem alta complementaridade estrica nas protena-protena, podendo definir o tempo de
protenas em contato, enquanto complexos vida do complexo.
com conexes temporrias demonstram bai- Dentre as foras intermoleculares dis-
xa complementaridade. cutidas acima, o fator dominante da interao
Como as interaes de van der Waals, permanente entre protenas consiste nas in-
as interaes hidrofbicas so pontualmente teraes hidrofbicas, enquanto vrias foras
6. Biologia de Sistemas

participam de interaes temporrias entre interaes (altamente conectadas) dentro de


protenas. Alm disso, protenas interagindo uma rede proteica. Algumas protenas hub
de forma temporria possuem interfaces que so altamente co-expressas com outras pro-
so menores em tamanho do que as interfa- tenas do mdulo, o que implica na existncia
ces de protenas permanentes, os aminoci- de complexos estveis (permanentes). Outras
dos que compem a interface e a proporo protenas possuem expresso independente,
de resduos hidrofbicos no diferem drasti- sugerindo a ligao com protenas em dife-
camente do resto da superfcie proteica e as rentes tempos, de modo transitrio. Esses
interfaces so levemente ricas em grupos hubs so classificados como party e date
polares neutros e em gua. hubs, respectivamente.
O tipo de interao tambm confere Na construo de redes proteicas, a di-
graus diferentes de restrio (presso seleti- ferenciao entre complexos permanentes e
va) na evoluo da protena. Protenas com transitrios tem importantes implicaes. Por
interao permanente tendem a evoluir em exemplo, na prospeco de novos frmacos, a
uma velocidade menor comparada a prote- alterao do padro de interao entre pro-
nas que formam complexos temporrios, tenas temporrias por modulao farmaco-
bem como possuir presso seletiva maior e lgica ocorre mais facilmente em
menor plasticidade em sua sequncia. comparao a protenas que formam com-
Evidncias sugerem que o modelo duplica- plexos permanentes. Portanto, uma rede de
o-divergncia aplica-se evoluo das re- interao proteica no um processo estti-
des proteicas. Uma das predies que na co, mas sim corresponde a um constante flu-
duplicao das protenas algumas ou todas as xo de informaes. Por conseguinte, na
conexes podem ser herdadas da protena anlise de dados de interao protena-pro-
ancestral. Consistente com esta hiptese, tena a discriminao das caractersticas da
protenas parlogas tendem a compartilhar interao e/ou o uso de centralidades de co-
padres de interao em uma frequncia nectores fundamental para obter modelos
maior do que a esperada ao acaso. No entan- mais realsticos.
to, tem sido proposto que depois que a dupli-
cao gnica ocorre, as interaes entre as Interao protena-cidos nucleicos
protenas so rapidamente perdidas. Portan-
to, duplicaes recentes so mais provveis Protenas que se ligam a cidos
de compartilhar interaes, comparadas a nucleicos tm um papel central em todos os
duplicaes mais ancestrais. processos regulatrios que controlam o fluxo
Outra distino acerca da interao de informao gentica. Por exemplo, prote-
proteica refere-se interao funcional e in- nas podem inibir, ativar e coordenar a trans-
terao fsica. A interao funcional pode ou crio do DNA, auxiliar e manter o
no corresponder a uma interao fsica dire- empacotamento e o rearranjo do DNA e o
ta em algum processo biolgico. Assim, na processamento do RNA, coordenar a replica-
interao fsica, a protena A conecta-se a o do DNA, promover a sntese de protenas
protena B e, na interao funcional, a protena e sinalizar o reparo do DNA, entre outros.
A atua com a protena B. Como exemplo de Esses possveis papis fisiolgicos so
interao funcional podemos imaginar dois determinados pela afinidade e especificidade
produtos gnicos que interagem em uma da interao DNA-protena, que a habilidade
mesma via em um processo biolgico, mas da protena em distinguir seu stio de ligao
no se conectam fisicamente. do restante do DNA. Estas propriedades de-
O tipo de interao tem um papel im- pendem de interaes precisas entre a se-
portante na determinao do comportamento quncia de aminocidos da protena e os
das protenas. Como j vimos, hubs so pro- nucleotdeos do stio especfico de ligao do
tenas envolvidas em um grande nmero de DNA.
6. Biologia de Sistemas

As protenas que se ligam a cidos i) a direo da interao entre as prote-


nucleicos podem ser, de forma simplificada nas e o eixo da dupla hlice perpendi-
separadas em trs grupos de acordo com a cular;
funo: ii) a direo da interao da protena
i) enzimas, onde a principal funo da paralela ao eixo da dupla hlice;
protena modificar a organizao do iii) ambos os modos de interao so
cido nucleico, como no caso das endo- observados ao mesmo tempo.
nucleases, glicosiltransferases, glicosi-
lases, helicases, ligases, metil- Assim como na formao de complexos
transferases, nucleases, polimerases, proteicos, discutido anteriormente, a forma-
recombinases, topoisomerases, trans- o de complexos DNA-protena ou RNA-pro-
locases e transposases, entre outras; tena tambm envolve foras
ii) fatores de transcrio, onde a princi- intermoleculares, tais como van der Walls,
pal funo da protena regular a fora eletrosttica, interao hidrofbica e li-
transcrio e a expresso gnica como gaes de hidrognio.
por exemplo, TFIIA, TFIIB, TFB, entre A regio da protena que reconhece a
outros; sequncia do cido nucleico denominada
iii) protenas estruturais que ligam-se motivo. Os motivos hlice-volta-hlice, dedo
ao DNA, que tm como principal funo de zinco e zper de leucina so os mais co-
suportar a estrutura e a flexibilidade do muns encontrados nas protenas que intera-
DNA ou agregar outras protenas, por gem com cidos nucleicos.
exemplo, protenas centromricas, pro- O motivo hlice-volta-hlice um dos elementos
tenas envolvidas no empacotamento e normalmente encontrados nos fatores de transcrio
na manuteno/proteo do DNA, pro- e nas enzimas de procariotos e eucariotos, sendo for-
tenas de reparo, protena envolvidas na mado por duas hlices conectadas por uma volta. O
replicao e protenas telomricas, en- motivo liga-se a cavidade maior do DNA e, em muitos
tre outras. complexos, o contato direto feito entre a cadeia de
aminocido e a sequncia de bases do cido nucleico.
A interao protena-protena tambm J o motivo dedo de zinco encontrado principal-
necessria para uma eficiente interao entre mente em fatores de transcrio de eucariotos. Um
protenas e cidos nucleicos. A interao pro- dedo de zinco composto por duas folhas antipara-
tena-protena com o DNA pode ocorrer de lelas e uma hlice , sendo o on zinco fundamental pa-
trs modos de acordo com a direo e o eixo ra garantir a estabilidade deste tipo de domnio.
da dupla hlice do DNA (Figura 28-6): Subunidades proteicas contm mltiplos dedos de zin-

Figura 28-6: Modos de interao protena-protena com a dupla hlice do DNA. A) perpendicular;
B) paralela e C) ambas as direes so observadas.
6. Biologia de Sistemas

co que se enrolam no DNA formando uma espiral, in- afinidade da protena pelo DNA e presena de
serindo a hlice na cavidade maior do DNA. gua no meio.
Fatores de transcrio de eucariotos e procariotos Muitas protenas so flexveis ao ponto
tambm podem conter o motivo zper de leucina, en- de alterar sua conformao quando se ligam
contrado em protenas regulatrias. Esse motivo ao DNA, enquanto outras so conhecidas por
formado por duas hlices paralelas, unidas por res- alterar a conformao do DNA aps a ligao.
duos de leucina. A afinidade da interao entre o DNA e uma
A estrutura do zper de leucina pode ser dividida em protena tende a estar relacionada relevn-
duas partes: a regio de dimerizao e a regio de liga- cia funcional da protena. Por exemplo, a afi-
o ao DNA. A dimerizao mediada pela formao nidade de um fator de transcrio por seu
de uma estrutura enrolada na regio carboxi-terminal stio de ligao proporcional ativao que
de cada hlice com sete resduos de leucina. A regio ele exerce. Ainda, alguns contatos mediados
que se liga ao DNA, tambm conhecida como regio por gua foram observados entre protenas e
bsica, encontrada na regio amino-terminal da hli- o DNA, participando de redes de ligaes de
ce que se projeta na cavidade maior do DNA. Embora hidrognio que conferem estabilidade ao
motivos de diferentes famlias de DNA sejam similares complexo.
estruturalmente, pouca homologia observada fora do
motivo. H baixa identidade entre motivos de diferentes Interao entre protenas e peque-
famlias de protenas e esta variao permite, portanto, nos compostos
o reconhecimento de diferentes conjuntos de sequn-
cias de DNA. Alm disso, a posio do domnio dentro Considerando-se que a interao prote-
da cavidade maior do DNA tambm varia, refletindo a na-protena normalmente envolve superfcies
necessidade funcional e estrutural de cada protena. relativamente grandes, pode-se imaginar que
A afinidade e a especificidade na ligao molculas menores no seriam efetivas na
de protenas ao DNA no podem ser endere- modulao da ligao dos complexos por
ados somente a alguns resduos de amino- apresentarem reas menores e, por conse-
cidos, mas o envolvimento de toda a protena guinte, interaes menos intensas. Contudo,
deve ser considerado. Por exemplo, a maioria ao empregarmos estruturas qumicas dife-
das protenas que se ligam ao DNA possuem rentes de aminocidos, podemos no s
domnios desordenados que contribuem para compensar esta reduo na rea de contato
o reconhecimento do DNA em vrios nveis. mas produzir molculas com afinidade maior
Protenas com domnios desordenados so prote- do que os prprios ligantes fisiolgicos en-
nas que no apresentam estrutura 2ria e 3ria sob con- volvidos do processo de interesse.
dies fisiolgicas e na ausncia de ligantes naturais. Adicionalmente, estas molculas de
Essas protenas possuem alta especificidade e baixa baixa massa molecular tendem a apresentar
afinidade na interao, so capazes de interagir com muitas vantagens teraputicas em relao a
mais de uma protena e alvos de modificaes ps-tra- protenas, dentre as quais se destaca sua
ducionais, possuindo a capacidade de manter sua fun- maior estabilidade metablica e consequente
o mesmo em ambientes extremos. Na interao com maior biodisponibilidade. Podem atuar direta-
o DNA, o domnio desordenado da protena no cruci- mente via inibio da interface protena-
al formao do complexo, mas pode influenciar o re- protena ou indiretamente via ligao a um
conhecimento da sequncia do DNA, conferindo stio alostrico que induz uma mudana con-
seletividade e afinidade de ligao. formacional do alvo da protena ou da mol-
Alm da caracterstica das cavidades na cula associada.
molcula de DNA, da presena de motivos A busca de novos frmacos deve levar
especficos nas protenas ou ainda da ocor- em conta o tipo de complexo proteico alvo. A
rncia de domnios desordenados, outros fa- formao de complexos permanentes pode
tores podem influenciar a interao do ser considerada uma continuao do enove-
DNA-protena, tais como a flexibilidade e a lamento da protena, sendo o dobramento fi-
6. Biologia de Sistemas

nal das subunidades parte deste processo. meiro, um estabilizador pode ligar-se a uma
Assim, esse tipo de complexo menos pro- nica protena, na qual aumenta a afinidade de
penso modulao farmacolgica, sendo ligao mtua das protenas do complexo de
mais interessante explorar o processo de do- um modo alostrico. Segundo, a molcula es-
bramento em si como alvo de pequenos tabilizadora liga-se superfcie do complexo
compostos. J as interfaces das protenas de proteico, fazendo contato com ambas as pro-
complexos temporrios so alvos efetivos ao tenas ligantes e aumentando a afinidade de
planejamento de novos moduladores tera- ligao mtua entre elas. Assim, a inibio
puticos. estabilizadora pode ser denominada alostri-
Para que pequenas molculas modulem ca (ligada a uma protena) ou direta (ligada ao
a interao proteica, estratgias tm sido es- menos a duas protenas).
tabelecidas e dois principais mecanismos do A ativao por pequenos compostos , normal-
controle regulatrio tm sido utilizados: a ini- mente, um processo mais intrincado pois, alm da liga-
bio e a estabilizao (Figura 29-6). Das es- o, necessrio o correto desencadeamento da
tratgias mais exploradas, destaca-se a cascata de ativao. Compostos que induzem a intera-
inibio da interao protena-protena. o proteica so chamados de dimerizadores. Inme-
ras vias de sinalizao celular iniciam a partir da
dimerizao protena-protena. A principal ideia do uso
de dimerizadores a induo de interao entre duas
protenas por pequenas molculas que levam ativa-
o da via de sinalizao celular. Na literatura cientfica
foi observado que dimerizadores podem induzir proli-
ferao celular, transcrio e apoptose.

Perturbao dos conectores


Perturbaes podem ocorrer em todos
Figura 29-6: Dois principais mecanismos de os sistemas, e em sistemas biolgicos no
modulao da interao protena-protena diferente. Nos interatomas, essas perturba-
utilizando pequenos compostos. Diferentes es podem variar desde a remoo de um ou
protenas so apresentadas em preto e mais ns at a remoo de conectores. Desta
amarelo. Pequenos compostos so forma, as consequncias na estrutura e na
apresentados em vermelho. funo do sistema iro diferir drasticamente
dependendo do tipo de perturbao ao qual a
O modo de ao da maioria dos inibido- rede foi exposta. Como exemplo, podemos
res de interao proteica baseado na ligao imaginar uma rede de protenas que confere
direta de uma pequena molcula superfcie um fentipo especfico (Figura 30-6).
de interao da protena ligante, interferindo A remoo do n no somente incapa-
diretamente nos hot spots crticos da interfa- cita a funo deste, mas tambm a de outros
ce e competindo com a protena original. Esse ns, causando a ruptura nas vias de todos os
tipo de inibio conhecido como ortostrica. ns vizinhos. Uma perturbao no conector,
Na inibio alostrica, pequenos compostos que remove uma ou poucas interaes mas
ligam-se a stios diferentes, causando mu- deixa o restante da rede intacta e funcionan-
dana conformacional suficiente para interfe- do, pode ter efeitos mais sutis no sistema,
rir na ligao da protena ligante (Figura no necessariamente alterando o fentipo.
29-6). Contudo, a consequncia do desarranjo da re-
Pequenas molculas estabilizadoras da de aps a remoo de ns ou de conectores
interao protena-protena tambm de- depende da importncia do n e do conector
monstram dois modos gerais de ao. Pri- rede. Essas informaes de conectores e ns
6. Biologia de Sistemas

Figura 30-6: Rede hipottica de protenas relacionada a um fentipo especfico representando


diferentes tipos de perturbao e suas consequncias. Neste exemplo o n 5 e o conector entre
os ns 5 e 1 so essenciais manuteno do fentipo selvagem.

mais informativos de uma rede podem ser mnios da protena que grosseiramente desestabiliza-
obtidas, por exemplo, pela anlise da resilin- ram a estrutura da protena, como remoo de n,
cia e percolao da rede, vista anteriormente. mutaes com alterao em quadro de leitura que
A distino entre modelos de remoo afetaram stios de ligao especficos e mutaes
de n e perturbao de conectores - altera- truncadas que preservaram certos domnios da prote-
o interao-especfica e conector-especfica na como perturbao edgetic. Alelos truncados foram
(edge-specific ou edgetic), respectivamente menos propensos a expressar protenas estveis em
- pode providenciar novas pistas nos meca- comparao a alelos que alteraram o quadro de leitura,
nismos bsicos de doenas humanas, tais co- podendo diferir doenas hereditrias mendelianas en-
mo diferentes classes de mutaes que volvendo remoo de n versus perturbao edgetic.
levariam a modos dominantes ou recessivos Um alelo edgetic pode ser identificado pela falta de
de herana gentica. um subconjunto de interaes, quando possuem defei-
Em uma rede proteica, a remoo de tos nas interaes provavelmente devido a mudanas
um n pode representar a remoo de uma especficas dentro ou prximo a stios de ligao da
protena, causado por uma mutao crtica no protena ou quando fentipos in vivo diferem daqueles
gene que desestabiliza a estrutura da prote- causados por perturbaes nulas (gentipos nulos).
na. J a remoo de um conector pode repre- Dependendo da rede, o fenmeno de
sentar uma mudana especfica em distintas perturbao de um nico conector pode ser
interaes bioqumicas e biofsicas, preser- mais provvel do que da remoo de um n.
vando certos domnios da protena. Dependendo do conector rompido, o impacto
Em relao a genes envolvidos em ml- rede pode ser maior, pois diferentes conec-
tiplas doenas, foi demonstrado que alelos tores (interaes) tm diferentes nveis de
edgetic responsveis por diferentes doenas importncia (vulnerabilidade). Conectores
consistem em distintas perturbaes edgetic com alto valor de edgebetweenness podem
que, por sua vez, tendem a estar localizados causar fragmentao da rede em componen-
em diferentes domnios de interao proteica, tes desconectados, caso sejam rompidos, co-
conferindo fentipos diferenciados. mo por exemplo no caso de conectores entre
Pesquisadores analisaram cerca de 50.000 alelos clusters. Esse tipo de conector assim cha-
mendelianos associados a doenas genticas heredit- mado de cut-edge. J conectores com baixo
rias e observaram que aproximadamente a metade foi valor de edgebetweenness, quando elimina-
potencialmente edgetic. Nesta anlise foram conside- dos da rede, podem ser substitudos por vias
radas delees e mutaes truncadas dentro dos do- alternativas, como por exemplo no caso de
6. Biologia de Sistemas

conectores dentro de clusters. Assim, conec- menos um.


tores interclusters tendem a ser mais vulne-
rveis quando comparados aos conectores Conector Cut-edge: conector que quando rom-
intraclusters em uma determinada rede. pido causa fragmentao da rede.

6.7. Conceitos-chave Date hubs: so hubs que se ligam a diferentes


protenas em diferentes mdulos (inter-
Assortatividade: tendncia de ns interagirem mdulo), ou seja, diferente tempo e/ou
com ns similares a eles mesmos. espao, consequentemente, apresentado
um papel global na rede.
Betweenness: parmetro que estima a relao
entre dois ns, ou seja, leva em conside- Desassortatividade: tendncia de ns interagi-
rao a quantidade de caminhos mais rem com ns diferentes deles mesmos.
curtos que passam entre eles.
Dimetro: indica a distncia entre os dois ns
Biologia de sistemas: rea da bioinformtica que mais afastados entre si de uma rede.
estuda sistemas moleculares complexos e Sendo assim, definimos que uma rede
como as molculas interagem entre si. possui um alto dimetro quando a distn-
cia geral entre os ns muito ampla.
Caminho: sequncia consecutiva de ns em um Quando a distncia entre os ns peque-
grafo sem repeties, estando cada n na, ento o dimetro baixo.
adjacente interligado por um conector.
Dimerizao: corresponde unio de dois mo-
Caminho geodsico: definido pela via mais curta nmeros, formando um dmero. Ou seja,
dentro de uma rede entre dois ns quais- a formao de uma molcula a partir de
quer. duas molculas menores.

Circuito: sequncia de ns sem repetio com Dimerizadores: compostos que induzem a di-
um conector entre cada par de ns adja- merizao, neste caso a interao protei-
centes na sequncia, onde o n inicial co- ca.
incide com o n final.
Distribuio de Poisson: distribuio aplicada a
Clique: definido como um grafo com alta co- probabilidade de ocorrncia de um evento
nectividade entre seus elementos inte- em determinado intervalo de tempo.
grantes. Sendo assim, clique tambm
considerado um sinnimo de cluster. Edgebetweenness: parmetro que indica o n-
mero de caminhos mais curtos entre pares
Closeness: valor que indica os caminhos mais de ns que percorrem um determinado
curtos entre um n n e todos os outros ns conector.
da rede, uma tendncia de aproximao
ou isolamento de um n. Edgetic: perturbao causada em um conector
especfico, portanto em uma interao es-
Complexo proteico: grupo de protenas formado pecfica na rede.
pela associao de duas ou mais cadeias
polipeptdicas. Foras intermoleculares: foras que mantm as
molculas unidas durante a interao.
Comprimento do caminho: definido pelo nmero
de conectores que definem o caminho, ou Gargalo (bottleneck): protena que apresenta
ento, pelo nmero de ns da sequncia alto grau de betweenness.
6. Biologia de Sistemas

Grau de n (node degree): parmetro referente funo, em uma rede de interao prote-
quantidade de ns adjacentes (direta- na-protena, agrupar protenas que faam
mente conectados) a outro determinado parte de um mesmo processo biolgico.
n.
Party hubs: protenas altamente ligadas dentro
Hipergrafo: rede caracterizada pela presena de do seu prprio mdulo (intra-mdulo), ou
hipervrtices. seja, ligao no mesmo tempo e/ou espa-
o.
Hipervrtices: Conectores que interligam ns
que apresentam propriedades distintas Pleiotrpico, efeito: protenas pleiotrpicas so
nos hipergrafos. aquelas que apresentam mltiplos efeitos
em um sistemas biolgico.
Hot spot proteico: locais essenciais da interface
com alta afinidade de ligao. Rede: representao grfica da interao entre
ns por meio de vrtices.
Inibio alostrica de uma protena: na inibio
alostrica, pequenos compostos ligam-se Rede bipartida: existe uma partio da rede, por
a stios diferentes, causando mudana exemplo, partio A e partio B, sendo os
conformacional suficiente para interferir na ns presentes na partio A adjacentes
ligao da protena ligante. apenas a ns da partio B, e vice-versa.

Inibio ortostrica de uma protena: inibio Rede direcionada: apresentam conectores que
causada pela ligao direta de uma pe- orientam o fluxo da informao em uma
quena molcula superfcie de interao direo.
da protena ligante, interferindo direta-
mente nos hot spots crticos da interface e Rede no direcionada: os conectores desta rede
competindo com a protena original. no apresentam uma direo orientada.

Interface proteica: rea atravs da qual as ma- Rede ponderada: so redes que se caracterizam
cromolculas se comunicam e exercem pela presena de atributos associados a
sua funcionalidade. conectores e ns.

Modularidade (clusterizao): padres de co- Resilincia: capacidade de uma rede a tolerar a


nectividade, onde seus elementos consti- deleo de seus ns por falha ou ataque.
tuintes esto agrupados em subconjuntos
altamente conectados. Taxa evolutiva: medida das mudanas ocorridas
numa entidade (gene, protena, organis-
Multiconector, interaes: quando h dois ou mo, populao) evolutiva ao longo do
mais conectores ligando os mesmos ns tempo.
na rede em redes direcionadas.
Teoria da Percolao: tem por objetivo investigar
Multidgrafo: rede direcionada com a presena o comportamento das propriedades de
de multiconectores. conectividade de uma rede.

Mundo pequeno, efeito: define que existe um Topologia de redes: estrutura e disposio de
caminho mnimo entre um n de origem e conexes entre os ns.
um n de destino.
Vulnerabilidade do conector: grau de importn-
Ontologia gnica: tipo de anlise que tem como cia do conector.
6. Biologia de Sistemas

6.8. Leitura recomendada


BARABSI, Albert-Lszl; OLTVAI, Zoltn N.
Network biology: understanding the cell's
functional organization. Nat. Rev.
Genetics. 5, 101-113, 2004.

GURSOY, Attila; KESKIN, Ozlem; NUSSINOV,


Ruth. Topological Properties of Protein
Interaction Networks from a Structural
Perspective. Biochem. Soc. Trans. 36,
1398-1403, 2008.

LEVY, Emmanuel D.; PEREIRA-LEAL, Jose B.


Evolution and Dynamics of Protein
Interactions and Networks. Cur. Op.
Struct. Biol. 18, 19, 2008.

MASON, Oliver; VERWOERD, Mark. Graph theory


and networks in Biology. IET Systems
Biol. 1, 89-119, 2007.

NEWMAN, Mark E. J. The structure and function


of complex networks. SIAM Rev. 45, 167-
256, 2003.

YU, Haiyuan; et al. The Importance of


Bottlenecks in Protein Networks:
Correlation with Gene Essentiality and
Expression Dynamics. PLoS Comp. Biol.
3, e59, 2007.

WAGNER, Gnter P.; PAVLICEV, Mihaela;


CHEVERUD, James M. The road to
modularity. Nat. Rev. Genetics. 12, 921-
931, 2007.
7. Modelos Tridimensionais

Priscila V. S. Z. Capriles
Raphael Trevizani
Gregrio K. Rocha
Laurent E. Dardenne
Fabio Lima Custdio

Gerao de mltiplos modelos para a estrutura de culas e sistemas biolgicos, possam ser
uma determinada sequncia de aminocidos. abordadas com cada vez mais sucesso. Den-
tre estas reas, a predio de estruturas tri-
7.1. Introduo dimensionais de protenas destaca-se pela
sua importncia, o que tem atrado um gran-
7.2. Estrutura 3D de protenas de nmero de pesquisadores ao redor do
mundo. Um exemplo deste interesse est na
7.3. Enovelamento de protenas criao de um encontro bianual de carter
mundial, intitulado CASP - Critical
7.4. Predio da estrutura Assessment of Protein Structure Prediction,
com o objetivo de avaliar o estado da arte da
7.5. Modelagem comparativa capacidade de predio de diferentes meto-
dologias desenvolvidas.
7.6. Predio de enovelamento A predio de estruturas tridimensionais
de protenas se caracteriza por possuir apli-
7.7. Mtodos de novo caes prticas de grande impacto teraputi-
co e biotecnolgico. Est diretamente
7.8. Primeiros princpios relacionada a mltiplas reas da bioinform-
tica e modelagem molecular, tais como o
7.9. Escolhendo o modelo atracamento protena-ligante (ver captulo 9),
aplicado ao desenho racional de frmacos
7.10. Anlise da qualidade baseado em estruturas, o desenho de novas
protenas com funes especficas (nanotec-
7.11. Refinamento do modelo nologia e engenharia de protenas) e a prpria
elucidao de estruturas a partir de dados
7.12. Aplicaes de modelos experimentais, por exemplo, de ressonncia
magntica nuclear (RMN). Avanos tericos e
7.13. Conceitos-chave metodolgicos implicariam em impactos di-
retos na sade e no bem estar da sociedade.
No entanto, apesar dos avanos realizados
nos ltimos anos, o desenvolvimento de me-
7.1. Introduo todologias capazes de alcanar um elevado
grau de previsibilidade e acurcia continua
O rpido avano na computao cientfi- sendo um importante desafio.
ca verificado na ltima dcada, principalmen-
te quanto ao aumento da capacidade de 7.2. Estrutura 3D de protenas
processamento dos computadores a custos
relativamente baixos, tem permitido que clas- Protenas
ses importantes de problemas cientficos na
rea da bioinformtica, no estudo de biomol- A funo de uma protena est intima-
7. Modelos Tridimensionais

mente associada sua estrutura tridimensio- cristalografia por difrao de raios-X com-
nal. Essa a afirmativa fundamental que ins- posto basicamente pela produo e purifica-
pira todas as buscas por um mtodo que seja o da protena alvo, cristalizao, coleta e
capaz de prever a estrutura nativa de uma processamento dos dados, resoluo da es-
protena a partir da sua sequncia de amino- trutura (empregando informaes sobre a
cidos. Tal mtodo poderia ajudar na compre- sequncia de aminocidos e diferentes pro-
enso e no melhor aproveitamento do gramas) e refinamento da estrutura.
potencial contido na grande quantidade de in- A tcnica de RMN tambm requer o co-
formao biolgica, na forma de sequncias, nhecimento da sequncia de aminocidos.
que vem sendo gerada graas ao sucesso dos Contudo, no necessrio que a protena es-
projetos genoma. teja em um estado de cristal ordenado. A
As informaes sobre a estrutura de vantagem da RMN que a estrutura a ser de-
uma protena esto armazenadas em uma se- terminada pode estar em soluo, apesar de
quncia codificada nos genes de um organis- requerer que a protena solubilizada esteja em
mo. Assim diz um dos principais paradigmas altas concentraes. Infelizmente, esta tcni-
da biologia, postulado por Anfinsen em 1973. ca ainda est limitada a protenas de tama-
A sequncia traduzida atravs de um com- nhos pequenos a mdios, limitao no
plexo aparato celular em uma estrutura tridi- observada para a cristalografia. Mesmo as-
mensional funcional. Entender todos os sim, a RMN destaca-se ao revelar informa-
mecanismos e foras por traz desse proces- es sobre o comportamento dinmico das
so seria um enorme avano cientfico que in- estruturas, incluindo mudanas conformacio-
fluenciaria praticamente todas as reas das nais e interaes com outras molculas.
cincias da vida. Esse produto funcional da Na RMN, um forte campo magntico alinha os mo-
traduo, chamado de estrutura nativa, mentos magnticos dos ncleos atmicos de istopos
uma macromolcula estvel, em condies que possuem spin nuclear diferente de zero (tais como
fisiolgicas, formada por ligaes peptdicas 1
H, 13C, 15N, 9F e 31P). Uma fonte de radiofrequncia de
entre os aminocidos. energia varivel emitida, podendo ser absorvida pelos
Apesar de estvel, a estrutura nativa ncleos atmicos invertendo o alinhamento do spin
est longe de ser uma molcula esttica. Tra- nuclear em relao ao campo magntico externo apli-
ta-se de uma estrutura flexvel, com movi- cado. Neste momento, parte da energia absorvida e o
mentos especficos, muitos dos quais so espectro de absoro resultante fornece a informao
diretamente responsveis pela funo da pro- sobre a identidade do ncleo e seu ambiente qumico
tena. Por esse motivo, consideramos o esta- na vizinhana. Dados de sucessivos experimentos so
do nativo de uma protena no como uma coletados e um espectro de RMN gerado contendo as
estrutura esttica, mas como um conjunto de informaes sobre todos os deslocamentos qumicos
conformaes (tambm chamadas de confi- de todos os istopos analisados na protena.
guraes) de baixa energia livre e biologica-
mente relevantes que a cadeia assume 7.3. Enovelamento de protenas
regularmente no meio no qual exerce suas
funes. O enovelamento de protenas objeto
de grande interesse de diversas reas do co-
Determinao experimental nhecimento, como mencionado acima. Dada a
presena marcante das protenas em inme-
As principais tcnicas para a determina- ros processos biolgicos, surpreendente
o experimental da estrutura tridimensional que ainda hoje se saiba to pouco de como o
de macromolculas biolgicas sero apre- enovelamento ocorre, permitindo que as pro-
sentadas nos captulos 12 e 13. Brevemente, o tenas adotem sua estrutura nativa. Estudos
processo para a obteno da estrutura tridi- sobre o enovelamento de protenas tratam do
mensional de uma protena via tcnica de processo pelo qual a cadeia peptdica sinteti-
7. Modelos Tridimensionais

zada adota a sua estrutura tridimensional na- da. Isso confirmou a observao de que para
tiva. Eles diferem dos estudos de predio de que uma protena exera a sua funo, ela
estrutura de protenas (PSP Protein deve estar em sua conformao nativa.
Structure Prediction) por estarem mais inte- Anfinsen fez ento a observao crtica
ressados no "como" e no no produto final do de que a ribonuclease desnaturada, uma vez
processo de enovelamento. Mas justamente livre da ureia e do -mercaptoetanol, por di-
este como" que nos permite conhecer mais lise, recuperava lentamente a atividade enzi-
detalhes sobre o enovelamento e, a partir mtica. Ele imediatamente percebeu o
destas informaes, desenvolver novos m- significado deste achado: os resduos de cis-
todos de predio de estruturas. De fato, a tena da cadeia eram oxidados pelo ar e a en-
maioria dos mtodos de predio inspirada zima espontaneamente se enovelava para a
em um ou mais aspectos das teorias de eno- forma cataliticamente ativa. As experincias
velamento. de Anfinsen e seus colaboradores mostraram
que a informao necessria para especificar
O postulado de Anfinsen e a hip- a complexa estrutura tridimensional da ribo-
tese termodinmica nuclease estava contida em sua sequncia de
aminocidos. Estudos posteriores estabele-
O trabalho laureado de Christian Anfin- ceram a generalidade desse importante prin-
sen sobre a enzima ribonuclease demonstrou cpio da biologia molecular: a sequncia um
a relao entre a sequncia de aminocidos importante determinante da conformao
de uma protena e sua conformao. A ribo- proteica.
nuclease uma protena constituda de 124 Em resumo, o postulado de Anfinsen,
aminocidos cuja atividade cataltica a cliva- tambm conhecido como a hiptese termodi-
gem de molculas de RNA. Ela possui em sua nmica, afirma que, pelo menos para peque-
estrutura nativa quatro pontes dissulfeto. nas protenas globulares, a estrutura nativa
Sendo estas ligaes oriundas da oxidao de determinada unicamente pela sequncia de
resduos de cistena espacialmente prximos, aminocidos. Isso equivale a dizer que, nas
podem ser clivadas reversivelmente por um condies do ambiente (isto , temperatura,
agente redutor. presso e constituio do solvente) em que o
Anfinsen e seus colaboradores, usaram enovelamento ocorre, a estrutura nativa pos-
o reagente denominado -mercaptoetanol sui trs propriedades:
(que forma dissulfetos mistos cistina--mer- i) A estrutura deve ser nica, isto ,
captoetanol). Em grandes quantidades, este uma dada sequncia no deve possuir
reagente provoca a reduo completa de to- outras conformaes com energia livre
dos os resduos de cistena. Contudo, eles no- comparvel com a do estado nativo;
taram que a protena no podia ser ii) A estrutura deve ser estvel, isto ,
prontamente reduzida a menos que estivesse pequenas mudanas no ambiente ao seu
parcialmente desenovelada por agentes tais redor no devem causar mudanas no
como ureia e cloridrato de guanidina. Embora enovelamento. Isso leva imagem de
o mecanismo no seja completamente com- que, pelo menos perto do mnimo glo-
preendido, esses agentes perturbam as inte- bal, o enovelamento de protenas segue
raes no covalentes que estabilizam a um formato de funil, que implicaria na
estrutura da protena, provocando o seu de- estabilidade do estado nativo;
senovelamento. iii) A estrutura deve ser cineticamente
Quando uma soluo da protena ribo- acessvel, isto , o processo pelo qual a
nuclease foi incubada com ureia a 8 M e - forma nativa de uma dada protena seja
mercaptoetanol, observou-se que ela perdia atingida deve ocorrer em um tempo
totalmente a sua atividade cataltica. Em ou- compatvel com fenmenos biolgicos.
tras palavras, a ribonuclease era desnatura- Protenas de um nico domnio se eno-
7. Modelos Tridimensionais

velam em uma escala de tempo da or- em geral, a conformao com o maior nme-
dem de microssegundo at segundos. ro dessas interaes fracas a configurao
Para satisfazer esses critrios, durante de menor energia livre.
o enovelamento, a estrutura no deve Por conseguinte, a estabilidade de uma
sofrer mudanas muito bruscas na sua protena no proveniente da simples soma
conformao, isto , movimentos que das energias de suas interaes no covalen-
implicam em barreiras energticas mui- tes. Em soluo, cada grupo formador de li-
to grandes. gaes de hidrognio na cadeia peptdica
estava interagindo com molculas de gua
Sequncias muito diferentes podem adotar estrutu- antes da estrutura se enovelar. Ento, para
ras muito parecidas. Ainda, o enovelamento frequen- cada nova ligao de hidrognio intramolecu-
temente influenciado ou mesmo totalmente lar formada quando a estrutura se enovela,
dependente de modificaes co- ou ps-traducionais, uma ligao equivalente com o solvente
alm do ambiente molecular de destino e da participa- desfeita. Na prtica, um dos principais fatores
o de chaperonas. Ainda, observou-se que o enovela- que impulsionam o enovelamento de uma
mento de protenas em clulas nem sempre termina protena o chamado efeito hidrofbico. Re-
na forma nativa, o que levou ao surgimento, durante a sumidamente, o efeito hidrofbico pode ser
evoluo, de mecanismos de controle de qualidade do entendido como a tendncia de resduos de
enovelamento proteico. aminocidos hidrofbicos se agruparem no
interior da protena (que se torna portanto
Origem da estabilidade estrutural apolar) e dos resduos hidroflicos se exporem
na superfcie da mesma (que se torna por-
Podemos dizer que as protenas so es- tanto polar).
tabilizadas pela combinao de interaes Em solues aquosas existe uma rede de ligaes
no covalentes oriundas da interao entre de hidrognio entre as molculas de gua. Molculas
diferentes regies da cadeia. Nesse contexto, do soluto tendem a romper ou atrapalhar a formao
estabilidade se refere tendncia em manter dessa rede. Esse efeito mais pronunciado ao redor de
uma conformao nativa. Uma cadeia poli- molculas hidrofbicas, onde formada a camada de
peptdica, em teoria, pode assumir um nme- solvatao (regio onde as molculas de gua esto
ro muito grande de configuraes e, por isso, altamente organizadas em um padro timo de for-
o estado desenovelado (tambm chamado de mao de ligaes de hidrognio). O aumento da orde-
desnaturado) caracterizado por uma alta nao das molculas de gua na camada de
entropia conformacional. Essa entropia, jun- solvatao, ao redor de solutos hidrofbicos (no-po-
tamente com as interaes (por ligaes de lares) resulta em uma diminuio desfavorvel da en-
hidrognio) com o solvente, leva estabiliza- tropia do solvente. Quando molculas (ou partes de
o do estado desenovelado. molculas) no polares so agrupadas, o tamanho da
As interaes que contribuem para neu- camada de solvatao menor, uma vez que nem to-
tralizar esses efeitos e estabilizar o estado das esto expondo toda a sua superfcie molecular ao
nativo so, alm das pontes dissulfeto, inte- solvente (menor superfcie acessvel ao solvente). O
raes como ligaes de hidrognio intramo- resultado disso um aumento favorvel na entropia.
leculares e interaes de van der Waals. Note Consequentemente, aminocidos hidrofbicos tendem
que, para se quebrar uma ligao covalente, a se agrupar no interior de uma protena, mantendo-se
necessrio muito mais energia do que para se afastados da gua.
romper interaes no covalentes (aproxima- A maior parte da variao da energia li-
damente 100 vezes mais). E, embora mais vre que ocorre quando as interaes intra-
fracas, essas interaes so muito mais nu- moleculares so formadas devido ao
merosas do que o principal tipo de ligao co- aumento da entropia na soluo aquosa re-
valente (pontes dissulfeto) que, em algumas sultante da formao do ncleo hidrofbico.
protenas, estabiliza a estrutura 3ria. Assim, Isso supera a grande perda em entropia con-
7. Modelos Tridimensionais

formacional decorrente do processo de eno- Entretanto, o tempo de enovelamento de


velamento da protena em sua estrutura nati- uma protena est na escala de microssegun-
va (Figura 1-7). dos e, portanto, o processo de enovelamento
no pode ocorrer atravs de uma busca alea-
tria por todas as conformaes possveis.
De fato, o que ocorre a reteno de estru-
turas que so energeticamente mais estveis,
isto , a cadeia peptdica percorre um caminho
de enovelamento.
Percebe-se, atravs do paradoxo de
Levinthal, porque determinar a estrutura 3D
nativa a partir da sequncia de aminocidos
permanece como um dos maiores problemas
da cincia moderna, tratando-se de uma
questo profundamente multidisciplinar e
abrangendo diversas reas da cincia como
Figura 1-7: A energia livre do enovelamento engenharias, biologia, fsica, qumica e com-
resultado de um balano delicado de foras. putao cientfica.
As interaes intramoleculares (H) e a Os primeiros mtodos desenvolvidos
entropia do solvente (efeito hidrofbico, TS) para a predio da estrutura de protenas
so favorveis ao enovelamento, enquanto a eram organizados segundo 3 grupos princi-
entropia conformacional (TS) pais: mtodos de modelagem comparativa, de
desfavorvel. predio de enovelamento (ou threading) e
predio por primeiros princpios (ou ab
7.4. Predio da estrutura initio). Essas categorias diferem quanto ao
uso das informaes disponveis nos bancos
A determinao experimental ainda de dados de estruturas tridimensionais de
considerada o melhor processo para se obter protenas resolvidas experimentalmente. A
a estrutura tridimensional de uma protena. modelagem comparativa a metodologia
Entretanto estas tcnicas, alm de serem fi- mais dependente dessas informaes, sendo
nanceiramente custosas, podem levar anos e, a ab initio totalmente independente (Figura 2-
em alguns casos, a estrutura final pode no 7).
chegar a ser obtida. Portanto, o desenvolvi-
mento de mtodos computacionais tanto
uma alternativa mais barata quanto, em al-
guns casos, a nica possibilidade de obteno
de modelos estruturais para algumas prote-
nas.
A complexidade do estudo das confor-
maes adotadas por uma protena durante o
seu enovelamento at a conformao nativa Figura 2-7: Relao entre mtodos de
pode ser ilustrada no chamado de paradoxo predio de estrutura tridimensional de
de Levinthal. Esse paradoxo diz que o nmero protenas e o uso de estruturas resolvidas
de possveis conformaes para uma dada experimentalmente. Cada tcnica aplicvel
sequncia de aminocidos astronmico exi- a partir de um certo grau de similaridade, o
gindo, mesmo considerando os computado- qual medido pela taxa de identidade entre
res mais poderosos disponveis, um tempo os aminocidos da sequncia alvo e
comparvel idade do universo para o clcu- sequncias de estruturas conhecidas (a
lo da energia de todas estas conformaes. serem usadas como moldes).
7. Modelos Tridimensionais

Com os recentes avanos na rea, con- dade introduzida, que torna o problema muito difcil de
tudo, pode-se notar que a separao entre ser tratado com a capacidade computacional dispon-
entes mtodos cada vez mais tnue. Alm vel atualmente. Por razes prticas, a maioria dos m-
disso, uma rpida consulta aos ltimos CASP todos de predio faz uso de representaes
mostra que muitos dos mtodos podem ser simplificadas da protena, assim limitando o nmero de
includos em mais de uma categoria. Por conformaes a serem avaliadas (o chamado espao
exemplo, a separao entre predio do eno- conformacional), e adotam funes de energia empri-
velamento e modelagem comparativa cada cas (ou semi-empricas) ou baseadas em conhecimento
vez mais difcil, e o uso de algum tipo de in- (knowledge-based) que capturam as foras mais im-
formao estrutural/experimental ampla- portantes que impulsionam e estabilizam o enovela-
mente observado, mesmo em metodologias mento.
ditas de primeiros princpios. Assim, hoje se As conformaes que esto associadas
usa uma classificao mais ampla que til ao mnimo global da funo de energia so
quando se deseja avaliar e comparar os m- consideradas as provveis conformaes na-
todos objetivamente: tivas que a protena adota em condies fisi-
i) Mtodos independentes de estruturas olgicas. Dessa forma, os mtodos de
molde (tambm chamados de mtodos predio de estrutura de protenas apresen-
template free). Incluem a predio ab tam, nas suas metodologias, as seguintes ca-
initio e a predio de novo; ractersticas em comum:
ii) Mtodos baseados em estruturas i) Uma representao da estrutura da
molde (tambm chamados de template protena e um conjunto de graus de li-
based). Incluem threading e modelagem berdade que define o espao de confor-
comparativa. maes;
ii) Funes de energia compatveis com
Com esta nova classificao, os mto- a representao;
dos ditos de novo so aqueles que utilizam al- iii) Algoritmos para realizar a busca no
gum tipo de informao estrutural, tais como espao de conformaes.
fragmentos de protenas, predio de estru-
tura 2ria e potenciais estatsticos, oriundas de Representao da estrutura e do
protenas no homlogas sequncia alvo. espao de conformaes
O que vai ditar a escolha do mtodo a
ser aplicado a presena ou no de estrutu- A representao tridimensional de uma
ras resolvidas experimentalmente, e deposi- molcula pode ser dada pela posio geom-
tadas em bancos de estruturas como o PDB trica de seus tomos em um sistema de co-
(Protein Data Bank), que possam ser usadas ordenadas cartesianas (x, y, z) ou pelas
como molde (ou template) para a modelagem chamadas coordenadas internas (Figura 4-7).
da sequncia alvo. A escolha do mtodo est Nesta ltima, para cada tomo so fornecidas
intrinsecamente relacionada com a taxa de informaes relativas ao comprimento de li-
identidade obtida a partir do alinhamento en- gao, ngulo de ligao e ngulo de toro
tre a sequncia alvo e possveis candidatos a (ou ngulo diedral).
molde (Figura 3-7). A representao computacional de uma
O enovelamento da protena pode ser visto, em lti- protena pode ser feita baseada em todos os
ma instncia, como resultado das foras fsicas atuan- seus tomos (modelos all-atom), em to-
do sobre os tomos da protena. Sendo assim, a mos unidos (alguns tomos de hidrognio
formulao mais acurada para se estudar o enovela- so considerados implicitamente), e em
mento ou predizer a estrutura de protena baseada agrupamentos de tomos (ou coarse-grained)
em representaes com todos os tomos explcitos (ver captulo 8). Independentemente da es-
(tambm chamados de all-atom, ver captulo 8). O tratgia, as formas de definio so equiva-
problema de tal representao o nvel de complexi- lentes.
7. Modelos Tridimensionais

Figura 3-7: Fluxograma para a predio da estrutura tridimensional de uma protena. O valor de
25% apenas uma referncia e depende de outros fatores, tais como a cobertura com a
sequncia alvo.
7. Modelos Tridimensionais

Figura 4-7: Exemplo de representaes de uma molcula de etano. Em ambos os sistemas, cada
linha representa um tomo. Em A, temos ainda a definio do nmero de tomos (NATM), do
tipo do tomo (ATM), do nome do resduo (RES), do rtulo da cadeia (CAD), do nmero do
resduo (NRES) e das coordenadas em si (COORDX, COORDY, COORDZ). Para definio das
propriedades descritas em OCUP e BETA, ver captulo 13. Em B, temos definido o elemento
qumico (ATM), o comprimento da ligao (BOND), o nmero do tomo com o qual h a ligao
(REF1, por exemplo, o tomo 7 est ligado ao tomo 1, distando deste 1,0 ), o valor do ngulo
de ligao (ANG), o nmero do tomo com o qual h a formao do ngulo (REF2, por exemplo,
o tomo 8 est ligado ao 2 e faz um ngulo de 109,5o com o tomo 1), o valor do ngulo de
diedro (TORC) e, por fim, o nmero do tomo com o qual est definida a toro.

Outro aspecto a ser definido nessa eta- para construir uma estrutura muito prxima
pa so os graus de liberdade que iro definir o estrutura nativa de protenas, de forma muito
espao de conformaes, isto , de que for- mais simples do que lidar com o sistema de
ma ser definida a flexibilidade estrutural que coordenadas cartesianas.
ir permitir construir diversas estruturas pa-
ra as sequncias alvo. Tipicamente, os mto-
dos de PSP adotam geometrias de ligao
rgidas, isto , o comprimento das ligaes
fixo em um valor de referncia, assim como
os ngulos entre as ligaes.
Usando uma representao em coorde-
nadas internas, os graus de liberdade para
modificao da estrutura so os ngulos de
toro, mais especificamente os ngulos die-
drais do esqueleto peptdico: , e (Figura
5-7, ver tambm captulo 2) alm dos ngulos Figura 5-7: ngulos de toro (diedrais) da
diedrais das cadeias laterais: 1 at 4 (Figura cadeia principal da protena.
6-7). A definio desses ngulos suficiente
7. Modelos Tridimensionais

energtico, consideramos a estrutura nativa


de uma protena como sendo a estrutura de
menor energia total. Idealmente, a funo
aplicada deve ser capaz de separar estruturas
nativas de no nativas e, alm disso, de avali-
ar o quanto uma estrutura est mais prxima
da nativa em relao outra atravs da com-
parao das energias. Tendo em vista esse
quadro ideal, a definio da funo de energia
um dos aspectos mais difceis em PSP.
Frequentemente, deve-se decidir entre aumentar a
complexidade da funo de energia (o que nem sempre
garante aumento de preciso) ou usar um modelo mais
simplificado para manter um custo computacional que
torne o clculo exequvel dentro da infraestrutura
computacional disponvel. O uso de funes com po-
Figura 6-7: ngulos de toro (diedrais) da tenciais estatsticos parametrizados por estruturas co-
cadeia lateral do aminocido lisina. At nhecidas uma tentativa de sanar essas dificuldades.
quatro ngulos de toro definem a No entanto, isso acaba introduzindo outros problemas,
conformao da cadeia lateral de qualquer como a alta dependncia da parametrizao e at
aminocido. mesmo a perda de generalidade na aplicao, ou seja,
um potencial parametrizado para uma classe de pro-
Funes de energia tenas ir apresentar resultados imprecisos quando
aplicado a outra classe.
As conformaes geradas pelo algorit-
mo de predio de estrutura 3D de protenas Algoritmos de busca
devem ser avaliadas seguindo um critrio de
qualidade. Geralmente, esse critrio dado O algoritmo de busca o componente
pela energia total da estrutura. Essa energia responsvel por gerar a conformao inicial,
pode ser calculada considerando diversos as- avaliar sua qualidade usando a funo de
pectos fsico-qumicos e diferentes nveis de energia, gerar novas conformaes e avali-
simplificaes. Os parmetros desta funo las em um processo iterativo at que algum
so usualmente retirados de campos de fora critrio de parada esteja satisfeito. O proble-
clssicos (ver captulo 8) e, de maneira geral, ma de predio de estrutura de protenas ,
uma funo dependente da posio dos geralmente, definido como um problema de
tomos (ou grupos de tomos) em relao minimizao. Assim, a busca feita pela con-
aos seus vizinhos. Nestas funes, a energia formao que minimize a funo de energia, a
total determinada pela posio dos tomos, qual se espera que seja a conformao nativa.
e dada pela combinao das energias O problema de otimizao possui algumas carac-
fornecidas pelos potenciais diedral prprio, tersticas que o tornam extremamente complexo. Por
Lennard-Jones e Coulomb (ver captulo 8). exemplo, a funo de energia apresenta uma multimo-
Algumas abordagens usam funes de energia po- dalidade massiva (ou seja, possuem um nmero muito
tencial ad hoc, que refletem caractersticas gerais das grande de mnimos locais), degenerescncia de mni-
protenas, e potenciais estatsticos parametrizados a mos e grandes regies de conformaes invlidas.
partir de bancos de dados de estruturas conhecidas. Alm disso, o problema est associado a um nmero
Alguns mtodos lanam uso de funes efetivas de muito grande de graus de liberdade com grande inter-
solvatao que modelam as interaes entre a protena dependncia.
e o solvente (implcito). As abordagens empregadas na resoluo desse
De maneira geral, do ponto de vista problema frequentemente fazem uso de mtodos de-
7. Modelos Tridimensionais

nominados metaheuristicos (Figura 7-7). Estes mto- tena similar tem de possuir estrutura 3D re-
dos constituem-se em tcnicas iterativas de otimizao solvida experimentalmente, e as coordenadas
nas quais uma soluo candidata vai sendo melhorada cartesianas de seus tomos devem estar de-
seguindo uma medida de qualidade. Esses mtodos positadas em banco de dados de estruturas
no fazem uso de informaes sobre a funo de ava- como o PDB.
liao ou mesmo sobre o problema, no entanto no h A modelagem comparativa o mtodo
garantias de se encontrar a soluo tima. Os mtodos empregado mais frequentemente, e seu limite
metaheursticos mais comuns incluem aqueles deno- de predio est intrinsecamente relacionado
minados Monte Carlo e Algoritmos Genticos. No en- com o grau de similaridade entre as estrutu-
tanto, alguns mtodos usam metaheursticas ras alvo e molde. Geralmente, consideram-se
combinadas a mtodos determinsticos baseados no como limites mnimos de aplicabilidade do
gradiente da funo, tais como o mtodo do mximo mtodo valores de 25 a 30% de identidade,
declive (steepest descent). Esses ltimos so geral- obtidos atravs do alinhamento entre a es-
mente aplicados em etapas de refinamento e apenas trutura 1ria da protena alvo e de uma ou mais
com funes de energia derivveis. protenas molde. A modelagem comparativa
pode ser dividida em cinco etapas descritas a
seguir e resumidas na Figura 8-7.

Identificao de referncias
Tem por objetivo identificar sequncias
de aminocidos de protenas resolvidas expe-
rimentalmente que possuam similaridade
com a sequncia da protena de interesse (se-
quncia alvo), cujas estruturas sero empre-
gadas posteriormente como moldes. Essa
identificao pode ser feita atravs de algo-
ritmos de alinhamento, sendo selecionadas
como referncias as protenas que possurem
os maiores ndices de similaridade e identida-
Figura 7-7: Esquema de uma busca usando de (suficientes para se inferir homologia entre
metaheurstica para predio de estrutura de as sequncias), menores ndices de gaps e a
protena. A estrutura inicial modificada a maior cobertura da sequncia (relao entre a
cada passo e vai sendo avaliada segundo um quantidade de aminocidos alinhados entre as
critrio energtico at que se obtenha uma duas sequncias e o tamanho total da se-
estrutura de mnimo. Idealmente, deseja-se quncia alvo).
uma estrutura de mnimo global (rea em
verde) e no uma de mnimo local (rea em Seleo dos moldes
vermelho).
Dentre as referncias, necessrio es-
7.5. Modelagem comparativa colher uma ou mais estruturas que serviro
de molde para a construo do modelo 3D fi-
No mtodo de modelagem comparativa, nal. Nesta etapa, imprescindvel a anlise do
tambm chamada de modelagem por homo- papel biolgico da protena de interesse. Os
logia, a protena de interesse (alvo) ter sua critrios de seleo podem incluir:
estrutura 3D predita usando como referncia i) a protena de interesse e o possvel
a estrutura 3D de outra protena similar molde pertencem a uma mesma famlia
(tambm chamada de molde, e na maioria das de protenas;
vezes evolutivamente relacionada). Essa pro- ii) ambas desempenham preferencial-
7. Modelos Tridimensionais

Figura 8-7: Etapas de predio de estrutura tridimensional de protenas usando o mtodo de


Modelagem Comparativa.
7. Modelos Tridimensionais

mente a mesma funo ou tenham fun- estruturas molde;


es correlacionadas; iv) o tipo de estrutura 2ria predita in silico por mais
iii) as estruturas resolvidas experimen- de uma ferramenta (tais como PSIPRED, PHYRE, JUFO e
talmente possuam alta qualidade (por PORTER), usando as regies de consenso entre elas
exemplo, resoluo 2 , fator R < como informao de restrio de tipo de estrutura 2ria
20%); durante a etapa de construo do modelo.
iv) em tratando-se de uma enzima, re-
comendado o uso de um molde cuja es- Alternativamente, mtodos hbridos po-
trutura j tenha sido resolvida dem ser aplicados para a predio de pores
experimentalmente com seu substrato, sem alinhamento. Para essas regies, apli-
ligante ou modulador. cam-se os mtodos de predio de enovela-
mento ou primeiros princpios e usa-se a
Na escolha de mais de uma estrutura melhor estrutura predita como mais um mol-
molde, importante realizar o alinhamento de para o mtodo de modelagem comparati-
estrutural entre estas de forma a identificar va.
regies conservadas, stios de ligao, guas
estruturais e ligaes dissulfeto conservadas. Construo do modelo
Alinhamento entre as sequncias A partir do alinhamento global entre as
sequncias alvo e molde, algoritmos especfi-
Uma vez escolhida(s) a(s) estrutura(s) cos para PSP via modelagem comparativa
molde, necessrio realizar alinhamento en- iro transferir as informaes extradas da
tre as sequncias alvo e molde de forma a estrutura 3D da protena molde para o mode-
garantir que toda a protena de interesse seja lo. As tcnicas mais aplicadas so as de
modelada (agora empregando programas construo usando corpos rgidos e por sa-
como Clustal, T-Coffee e Muscle). Um alinha- tisfao de restries espaciais.
mento com mais de 40% de identidade o A tcnica de construo usando corpos rgidos
suficiente para gerar um modelo confivel. constri um modelo por partes, baseando-se na con-
Entretanto, importante lembrar que o mo- servao de estruturas entre protenas homlogas ou
delo final ser uma representao desse ali- com grau significativo de identidade. As regies estru-
nhamento gerado. Portanto, regies sem turalmente conservadas da protena de interesse so
alinhamento significativo com o molde so definidas atravs de predio de estruturas 2rias. Es-
preditas tridimensionalmente (quando predi- sas regies so alinhadas com o molde, considerando-
tas) sem grande confiabilidade, usando geral- se a mdia das posies dos C das sequncias de ami-
mente dados estatsticos gerais sobre nocidos das regies estruturalmente conservadas.
estruturas de protenas. As regies que no satisfazem as exigncias so
Para as regies sem alinhamento, deve-se conside- chamadas de regies variveis. Essas compreendem,
rar: geralmente, pores de alas que conectam as regies
i) a posio dessa regio na sequncia de ami- conservadas. A cadeia principal dessas regies pode
nocidos, verificando-se possveis stios de cliva- ser obtida em bancos de dados especficos de estrutu-
gem (principalmente em pores N- e ras, que apresentam conjuntos de alas classificados
C-terminal); pelo nmero de aminocidos e pelo tipo de estruturas
ii) o tamanho dessa poro, considerando-se a 2rias que conectam.
possibilidade de formao de um novo domnio Aps a insero das regies de alas, um modelo
at ento no identificado nessa famlia; inicial do esqueleto peptdico estar pronto, restando
iii) se so pores transmembranares, sejam apenas a insero das cadeias laterais dos aminocidos
preditas in silico (por exemplo, atravs das fer- atravs de busca em bibliotecas de rotmeros. Como
ramentas TMHMM, HMMTOP, TMPred) ou j des- exemplo de programa baseado nesta tcnica, pode-se
critas em literatura porm ausentes nas mencionar o portal Swiss-Model.
7. Modelos Tridimensionais

A segunda tcnica mais comum, a construo por modelo adequado.


satisfao de restries espaciais, inicia-se pelo alinha-
mento entre as sequncias alvo e molde, extraindo-se Nesses casos, como citado anterior-
desse molde suas restries espaciais (distncias e n- mente, o uso adicional de informaes, como
gulos) e transferindo-as para o modelo. Por exemplo, o a identificao de regies transmembranares,
tamanho das ligaes e seus ngulos preferenciais so a predio de regies de peptdeo sinal, a
obtidos de campos de fora. Dessa forma, possvel predio de tipo de estrutura 2ria, a predio
limitar o nmero de possveis conformaes que o do tipo de enovelamento e a verificao da
modelo pode assumir. existncia de dados tericos e experimentais
A principal caracterstica dessa tcnica a obten- quanto existncia, quantidade e localizao
o emprica das restries espaciais, expressas por de pores transmembranares, ligantes e
funes de probabilidade, a partir de bancos de dados nmero e tipo de cadeias podem contribuir
contendo informaes sobre alinhamentos entre es- tanto na construo de modelos tridimensio-
truturas proteicas de alta resoluo. As restries es- nais como na anotao funcional de sequn-
paciais e os termos de energia so combinados em cias.
uma funo objetivo, sendo submetida a mtodos de No caso de anlises em larga escala de conjuntos
otimizao por gradiente conjugado e recozimento si- de protenas, e at mesmo de genomas inteiros, todo
mulado, visando a minimizao das violaes das res- esse processo deve ser realizado para cada protena de
tries espaciais. Como exemplo de emprego desta interesse. Considerando o tempo gasto em cada uma
tcnica, pode-se citar o programa Modeller. dessas etapas, interessante o uso de mtodos auto-
matizados que podem ser empregados como um filtro
Validao do modelo inicial para a deteco de quais protenas podem ser
modeladas por modelagem comparativa e para a ob-
Aps a construo do modelo, neces- teno de um modelo inicial para cada uma dessas
srio identificar possveis erros relacionados protenas, a ser otimizado individualmente. Como
aos mtodos empregados, escolha das re- exemplo de programa usado para a anlise em larga
ferncias e ao alinhamento entre as sequn- escala de sequncias de protenas, citamos o progra-
cias alvo e molde. Caso o modelo seja ma MHOLline.
caracterizado como de m qualidade, todo o
protocolo anterior deve ser revisto no intuito 7.6. Predio do enovelamento
de se melhorar o alinhamento, escolher ou-
tros moldes ou at mesmo decidir-se pelo O mtodo de predio do enovelamento
uso de outros mtodos. Os principais mto- ou threading parte da ideia de observaes de
dos de validao de um modelo sero descri- que a estrutura 3D mais conservada que a
tos adiante (item 7.10). sequncia, de forma que mesmo sequncias
Por ser dependente de uma estrutura com pouca similaridade podem possuir es-
3D resolvida experimentalmente, a tcnica de truturas muito semelhantes, o que limita o
modelagem comparativa possui certas limi- nmero de enovelamentos que protenas po-
taes, tais como: dem assumir. Atualmente, mais de 1.000 ti-
i) nem sempre se consegue uma estru- pos de enovelamento j foram registrados, e
tura molde para a protena de interesse; acredita-se que esse valor no ultrapasse a
ii) o grau de similaridade conseguido previso mxima de 7.000 tipos.
entre as sequncias alvo e molde pode Nesse mtodo, tambm so usadas
ser pequeno (<30% de identidade), protenas com estruturas 3D conhecidas e
mesmo em regies do stio ativo, invia- depositadas no PDB, de onde as informaes
bilizando o emprego desta tcnica; sobre os tipos de enovelamento so extradas
iii) por vezes, as sequncias que podem e armazenadas em bancos de dados de tipos
servir como moldes possuem qualidade de enovelamentos. Como exemplo, citamos o
insuficiente para a construo de um CATH (Class, Architecture, Topology,
7. Modelos Tridimensionais

Homology) e o SCOP (Structural Classification deller. Alguns programas empregam, para as


of Proteins). regies sem molde, mtodos por primeiros prin-
O mtodo de predio do enovelamento cpios. Como exemplo de programas para PSP
assim menos dependente da proximidade via predio do enovelamento pode-se citar os
evolutiva entre a sequncia de aminocidos da programas HH-Pred e I-TASSER.
protena de interesse e seus possveis moldes,
ou seja, as sequncias podem apresentar bai- As limitaes dos mtodos de predio
xa identidade. O mtodo portanto aplicvel do enovelamento vm de dois pontos princi-
quando o alinhamento entre a estrutura 1ria pais. O primeiro similar ao observado para a
da protena de interesse e de uma ou mais modelagem comparativa, isto , se a identi-
protenas de referncia (moldes) apresentam dade entre a sequncia alvo e as protenas
uma identidade entre 20% e 30%. utilizadas na construo do banco de enove-
No problema de PSP via predio do enovelamento lamentos for muito baixa, possvel que o
tenta-se ajustar a estrutura 1ria da protena de interes- enovelamento daquela sequncia simples-
se aos tipos de enovelamentos de protenas conheci- mente no esteja representado no banco. As-
dos, analisando principalmente as conservaes de sim, o mtodo pode construir um modelo
estruturas 2rias. Esse mtodo pode ser dividido nas completamente errado. A outra limitao
seguintes etapas: que os modelos apresentam uma resoluo
i) Reconhecimento do tipo de enovelamento pela relativamente baixa, dificultando seu uso em
anlise das principais propriedades da protena estudos que exigem posicionamento preciso
de interesse (tais como estrutura 2ria, polarida- dos tomos como no caso do atracamento
de de cadeias laterais e hidrofobicidade); (ver captulo 9).
ii) Construo do melhor alinhamento possvel
entre a sequncia de aminocidos da protena de 7.7. Mtodos de novo
interesse e estruturas depositadas em bancos de
dados. Alguns mtodos baseiam-se na constru- Embora a modelagem comparativa e a
o de modelos simplificados (como modelos predio do enovelamento permitam a ob-
baseados em C) da protena de interesse a par- teno de modelos satisfatrios, tais tcnicas
tir da estrutura 3D de possveis moldes, e avali- so invlidas se protenas de referncia, com
am a qualidade do modelo atravs da otimizao estruturas determinadas experimentalmente,
de funes objetivo (geralmente no-lineares). no se encontrarem disponveis. De forma a
Essas funes podem considerar, por exemplo, manter a independncia de moldes de prote-
resultados de alinhamentos mltiplos de se- nas homlogas, foram desenvolvidos mto-
quncias e de estruturas 2rias, matrizes de dos que usam informaes provenientes de
substituio para cada aminocido dentro de bancos de estruturas de protenas determi-
uma famlia especfica de protenas e penalizao nadas empiricamente, sem a necessidade de
de gaps; haver identidade com a sequncia alvo, resul-
iii) Escolha do(s) melhor(es) molde(s) para a tando na predio chamada de novo. Dentre
construo da estrutura 3D da protena de inte- as principais tcnicas usadas pela predio de
resse, geralmente baseada em funes de pre- novo destacam-se o uso da predio de es-
dio de erro/qualidade entre os possveis truturas 2rias, uso de fragmentos de prote-
modelos simplificados e seu(s) molde(s) (por nas, e modificao da funo de energia.
exemplo, a funo TM-score). A escolha dos
melhores moldes por vezes baseada em bibli- Predio de estruturas 2rias
otecas de fragmentos;
iv) Construo do modelo 3D atravs de tcnicas A predio de estruturas 2rias envolve o
similares s empregadas na modelagem com- conjunto de tcnicas que visam reconhecer as
parativa, por vezes valendo-se de ferramentas categorias de estruturas 2as (tipicamente h-
acopladas aos programas Swiss-Model ou Mo- lices e folhas) associadas a cada regio de
7. Modelos Tridimensionais

uma protena a partir apenas de sua sequn-


cia. Por 30 anos, o cenrio de tcnicas de
predio de estruturas 2rias foi composto por
mtodos que se baseavam na propenso de
um resduo pertencer a uma determinada es-
trutura 2ria. Na dcada de 1990, uma nova
gerao de mtodos que considerava os efei-
tos trazidos pelos resduos adjacentes surgiu,
contemplando os efeitos de interaes locais
na predio, o que alou a preciso das predi-
es a um patamar acima de 60%.
O crescimento de bancos de dados de
protenas em combinao a algoritmos mais
sofisticados permitiu a incluso de informa- Figura 9-7: Retinol Binding Protein com o
es relacionadas ao enovelamento da pro- retinol no stio ativo, cdigo PDB: 1RBP.
tena nestas predies, principalmente
aquelas relacionadas aos efeitos de intera- delo da RBP a partir de fragmentos de outras
es de longo alcance. Esses novos mtodos protenas, sem qualquer grau de similaridade
baseiam-se em alinhamentos mltiplos e sua global, e previu-se que se tratava de uma
consequente informao evolutiva. Em sua protena organizada em uma srie de oito fi-
maioria, esses mtodos valem-se do PSI- tas antiparalelas, constituindo um barril-
BLAST (ver captulo 3). Os atuais mtodos de que encapsula a molcula de retinol. A facili-
predio de estruturas 2rias possuem de- dade com que uma estrutura, ento conside-
sempenho em torno de 80% de preciso, rada incomum, foi prevista usando-se
dentre os quais destacam-se PSIPRED, DSC, estruturas parciais de muitas protenas dife-
GOR IV, Predator, Prof, PROFphd e SSpro. rentes levou os autores a questionarem se
haveria alguma estrutura de protena que pu-
Fragmentos de protenas desse de fato ser considerada nica, e a pro-
posta desta tcnica de modelagem por meio
A determinao da estrutura da RBP de fragmentos proteicos cujas estruturas ti-
(Retinol Binding Protein) em 1986, em parti- vessem sido determinadas experimental-
cular de seu stio ativo, se mostrou desafia- mente (ou seja, empiricamente).
dora por sua estrutura no se parecer com A preservao de certo grau de simila-
nenhuma at ento conhecida (Figura 9-7). ridade estrutural entre trechos curtos de se-
Diante das dificuldades de se concluir tal tra- quncias semelhantes a chave para a
balho de determinao, os pesquisadores re- predio na ausncia de moldes (template-
solveram buscar informaes em todo o free) de estruturas de protenas. Quando no
banco do PDB (na poca contava com apenas h qualquer protena homloga disponvel pa-
213 entradas), procurando por quaisquer es- ra ser usada como molde, possvel usar um
truturas (ou regies/segmentos destas) se- conjunto de pequenos fragmentos que se
melhantes que pudesse substituir o stio em correlacione localmente com a estrutura da
estudo. Nessa busca, os autores perceberam protena alvo (Figura 10-7).
que a segmentao das protenas em peque- Entretanto, deve-se perceber que por
nos fragmentos resultava em uma surpreen- maior que seja a similaridade entre duas se-
dente redundncia estrutural, ou seja, quncias de fragmentos, a similaridade es-
pequenos fragmentos com estruturas simila- trutural apenas parcial. Como cada
res apresentavam similaridade de sequncia fragmento, sendo proveniente de uma prote-
(localmente). na diferente, encontra-se imerso em um am-
Isso permitiu a construo de um mo- biente fsico-qumico prprio, o conjunto de
7. Modelos Tridimensionais

interaes que agem sobre esses fragmentos O primeiro desafio para a predio de
podem conferir-lhes estruturas diferentes estruturas usando fragmentos montar uma
(Figura 11-7). biblioteca de fragmentos que rena as me-
lhores estruturas candidatas a reproduzir a
regio da sequncia alvo, a partir de um banco
de protenas determinadas empiricamente.
Como discutido anteriormente, pode-se usar a
similaridade entre as sequncias dos frag-
mentos retirados das protenas do banco e a
regio de interesse da protena alvo. Os pro-
gramas Rosetta e QUARK usam o PSI-BLAST
para reconhecer o quo similares so as se-
Figura 10-7: Fragmentos estruturalmente quncias de um fragmento e da respectiva
semelhantes, mas que possuem sequncias regio da protena.
de resduos diferentes. Como exemplo da gerao de uma bibli-
oteca de fragmentos podemos citar o pro-
Duas caractersticas devem ser levadas grama Protein Fragment Generator -
em considerao para se trabalhar com frag- Profrager. Nele, os fragmentos so extrados
mentos de protenas na predio de estrutu- de uma verso do PDB filtrada para eliminar
ras: a primeira que uma mesma sequncia as diversas redundncias existentes entre as
pode levar a estruturas diferentes, e a segun- estruturas. Cada fragmento iniciado em um
da que duas sequncias diferentes podem resduo da protena e se estende pelo compri-
levar mesma estrutura. Dessa forma, se faz mento desejado. Uma biblioteca de fragmen-
necessrio a construo de uma lista de frag- tos, por exemplo de 6 resduos, compreende
mentos candidatos a reproduzir uma dada re- os resduos das posies 1 a 6, 2 a 7, 3 a 8 e
gio da protena alvo. assim sucessivamente. De posse dos frag-

Figura 11-7: Fragmentos de protenas com a mesma sequncia de resduos que possuem
estruturas diferentes. Acima, as protenas de cdigo PDB 1F8E (fragmento destacado entre os
resduos 243 e 247) e 1BGP (resduos 63 a 67); abaixo, 1LM5 (2800 a 2804) e 1XS5 (121 a 125).
7. Modelos Tridimensionais

mentos extrados do banco, o problema tor- fragmentos conter os fragmentos que pos-
na-se ento escolher os melhores para re- suem as maiores pontuaes, logo, os frag-
produzir cada regio. mentos mais provveis para a reproduo da
Na Figura 12-7 est representada uma estrutura local.
biblioteca com fragmentos de 6 resduos para Se o uso de um fragmento de uma protena conhe-
uma dada protena. O primeiro fragmento do cida elimina a necessidade de se modelar a regio lo-
banco alinhado primeira posio da pro- calmente, o problema torna-se escolher a melhor
tena. Os resduos do fragmento so compa- estrutura para cada regio. De posse de uma biblioteca
rados com as entradas da matriz BLOSUM62. de fragmentos, o trabalho torna-se um problema de
Nesse exemplo, o valor da substituio de otimizao, abordado por um algoritmo de busca, onde
uma valina por uma asparagina -3, e a se procura reconstruir a protena usando as informa-
substituio de um glutamato por uma lisina es trazidas pelos fragmentos, validando-se a estru-
+1. Somando os valores da comparao entre tura gerada usando uma determinada funo de
todos os resduos do fragmento com os da energia.
respectiva regio da sequncia alvo, temos importante notar que, embora sejam
uma pontuao total de -8 para esse frag- dependentes de bancos de estruturas, os
mento. O segundo fragmento do banco to- fragmentos no precisam ser provenientes de
mado, e o processo de comparao protenas com grau elevado de identidade, o
resduo-resduo entre o fragmento e a se- que permite a modelagem de estruturas in-
quncia alvo repetido. Nesse exemplo, tem- ditas. Modelos obtidos com o uso de frag-
se uma pontuao total de +11 para o segundo mentos demonstram utilidade para
fragmento. O processo ilustrado para a atri- inspiraes biolgicas e tm obtido sucesso
buio da pontuao repetido para todos os nas demais reas da modelagem de prote-
fragmentos do banco, sempre para uma ja- nas, tais como predio de stios ativos e
nela de leitura de 6 resduos. Ou seja, desloca- identificao de padres de enovelamento,
se um resduo para a direita e reinicia-se o atracamento protena-protena, modelagem
processo, formando uma nova lista de frag- de voltas e at mesmo desenho de novas
mentos para esta nova posio. protenas.
Uma lista de candidatos a reproduzir a As limitaes dos mtodos de novo so
sequncia alvo montada de acordo com praticamente as mesmas dos mtodos por
uma pontuao. Parte dessa pontuao o primeiros princpios. Sua aplicao , em ge-
grau de similaridade entre a sequncia do ral, limitada a sequncias mais curtas (<150
fragmento e da regio correspondente da se- resduos), e alguns dos mtodos podem estar
quncia alvo. A outra parte da pontuao a sujeitos a artefatos se a parametrizao das
concordncia da estrutura 2ria do fragmento funes estatsticas no for feita com cuida-
com a estrutura 2ria predita pelo PSIPRED do.
para a sequncia alvo. Ao final, a biblioteca de

Figura 12-7: Gerao de um fragmento de seis resduos.


7. Modelos Tridimensionais

Campos de fora estatsticos ao tratamento dessas ligaes. J se verificou


que os termos usados em campos de fora
Campos de fora clssicos (ver captulo clssicos no so capazes de representar to-
8) so comumente empregados para a re- das as ligaes de hidrognio em suas orien-
presentao de interaes intramoleculares taes corretas. Assim, um termo estatstico
da estrutura de protenas, como ngulos e exclusivo para ligaes de hidrognio se
comprimentos de ligao, ngulos diedrais, mostra fundamental para a predio de novo.
foras de van der Waals e eletrostticas. En-
tretanto, os mtodos de maior sucesso nos
ltimos anos para predio da estrutura de
protenas empregam termos estatsticos de-
rivados de protenas cujas estruturas j so
conhecidas, seja de forma exclusiva ou com-
binados com termos de campos de fora
clssicos. Isso culmina nos chamados campos
de foras estatsticos, cujo desenvolvimento
se tornou amplamente disseminado.
Uma das formas de representar o uni-
verso de conformaes que uma determinada
sequncia polipeptdica pode adotar atravs
de uma superfcie, onde cada ponto repre- Figura 13-7: Efeito de suavizao da superfcie
senta uma dada conformao. Nesta superf- de energia.
cie, a altura de cada ponto representa a
energia da conformao, de forma que con- Este termo contribui na avaliao da propenso de
formaes de menor energia estaro no fun- formao de estruturas 2rias (ver captulo 2), usando o
do da superfcie, e conformaes de maior valor da probabilidade de um par de resduos P(aiaj)
energia em seu topo. possuir uma ligao de hidrognio. A probabilidade po-
Assim, os termos de campos de fora de ser calculada de acordo com a equao abaixo:
estatsticos so derivados usando-se um
conjunto de protenas teste com a inteno de P(aiaj) = -log[F0(aiaj)/Fe(aiaj)]
suavizar a superfcie de energia, garantindo
que a conformao de menor energia (ou m- onde aiaj o par de resduos, F0(aiaj) a frequncia ob-
nimo global) corresponda conformao na- servada para as ligaes de hidrognio entre os res-
tiva, e os mnimos locais sejam pouco duos avaliados e Fe(aiaj) a frequncia estimada a
frequentes e com valores de energia distantes partir de um conjunto de estruturas enoveladas incor-
do mnimo global. A configurao ideal de retamente.
uma funo de energia faz com que as bar- Um exemplo de aplicao destes termos estatsti-
reiras entre os mnimos sejam menores, per- cos o programa QUARK, um dos mtodos de maior
mitindo ao algoritmo de busca a passagem de sucesso no CASP. relatado que sua capacidade de re-
um mnimo local a outro, facilitando a busca finar estruturas devida parametrizao de seu
pelo mnimo global (Figura 13-7). campo de fora, puramente estatstico. A correlao
Tomemos como exemplo um dos ter- entre a energia e a similaridade estrutural com a con-
mos mais comuns nas funes de energia, as formao nativa segundo o QUARK de 0,7 (sendo 0,0
ligaes de hidrognio. Alguns autores des- a pior correlao possvel e 1,0 uma correlao perfei-
creveram que possvel gerar todas as es- ta).
truturas contidas no PDB a partir de um
conjunto de representaes de ligaes de hi- 7.8. Primeiros princpios
drognio, o que torna interessante um termo
do campo de fora exclusivamente dedicado A predio por primeiros princpios ou
7. Modelos Tridimensionais

ab initio se destaca como sendo a tentativa Apesar do alto grau de complexidade, a


mais ambiciosa para a resoluo do problema formulao mais realista para se estudar o
de predio de estrutura de protenas. Essa enovelamento ou prever a estrutura de pro-
abordagem difere-se das demais por no usar tenas seria baseada em representaes com
informaes de estruturas conhecidas, rela- todos os tomos explcitos (ver captulo 8).
cionadas com a sequncia alvo, e por usar Contudo, a predio por primeiros princpios
funes de energia contendo somente termos implica em altssimo custo computacional, e o
de significado fsico. Tal estratgia baseada nmero de conformaes possveis para uma
em dois pressupostos: todas as informaes sequncia de aminocidos muito grande pa-
necessrias sobre a estrutura de uma prote- ra ser exaustivamente amostrado. Por isso,
na esto contidas em sua sequncia de ami- parte destes mtodos faz uso de modelos de
nocidos, e acredita-se que as protenas energia e representaes simplificadas, tais
enovelam-se para um estado nativo, ou um como modelos coarse-grained (ver captulo
conjunto de estados nativos, que se encontra 8), acelerando a busca conformacional.
no (ou prximo ao) mnimo global de energia Os algoritmos de busca mais usados so aqueles
livre. que envolvem abordagens heursticas, com destaque
Alm de prever a estrutura tridimensio- para os algoritmos genticos. H, tambm, estudos de
nal, os mtodos por primeiros princpios po- predio por primeiros princpios envolvendo o uso de
dem contribuir na compreenso dos princpios simulaes por dinmica molecular (ver captulo 8)
fsicos do processo de enovelamento. Adicio- com campos de fora clssicos, apesar de essa tcnica
nalmente, podem ser aplicados na correo ser mais aplicada a estudos do enovelamento proteico.
ou refinamento de estruturas modeladas por O primeiro marco na tentativa da predio por pri-
outras metodologias ou mesmo na predio meiros princpios atravs de simulaes por dinmica
de protenas desordenadas. O sucesso dos molecular foi, provavelmente, nos trabalhos de Duan e
mtodos destas predies depende, princi- Kollman, em 1998, com a simulao da protena villin
palmente, de uma funo de energia acurada, headpiece (36 resduos) em solvente explcito, a qual
na qual o estado nativo da protena corres- envolveu seis meses de computao paralela em larga
ponda ao estado termodinamicamente mais escala (projeto Folding@home).
estvel, e de um algoritmo eficiente capaz de A predio por primeiros princpios ainda
varrer a superfcie de energia (ou seja, gerar um problema no resolvido na biologia
diversas novas conformaes). computacional. Ela representa a abordagem
O enovelamento de uma protena pode mais complexa e difcil dentre os mtodos de
ser visto, em ltima instncia, como resultado predio e ainda est defasada, em termos de
das foras fsicas atuando sobre os tomos velocidade e acurcia, quando comparada
da protena. O campo de fora deve capturar, com os demais mtodos. Atualmente, seu
ao menos, informaes qualitativas essenciais sucesso limitado a protenas pequenas, com
das caractersticas fsicas e qumicas que im- menos de 100 resduos de aminocidos (Figu-
pulsionam e estabilizam o enovelamento, ra 14-7).
descrevendo as interaes intramoleculares Uma grande variedade de mtodos vem
da protena e desta com as molculas de sol- sendo proposta com dois focos importantes:
vente. Normalmente, usam-se campos de rapidez e acurcia. A maioria busca o equil-
fora empricos, muitas vezes complementa- brio entre esses dois fatores. As diferenas
dos por um termo de solvatao implcita entre esses mtodos (Tabela 1-7) se encon-
(ver captulo 8). Tais funes de energia inva- tram no tipo de representao (ou seja, todos
riavelmente sofrem aproximaes que resul- os tomos ou modelos coarse-grained), no
tam em artefatos nos modelos, tais como o mtodo de busca e na funo de energia.
favorecimento excessivo de estruturas 2rias
em hlices em relao a outros tipos de es-
truturas.
7. Modelos Tridimensionais

7.9. Escolhendo o modelo


Tanto os mtodos de novo (baseados ou
no em moldes) quanto os por primeiros
princpios tm em comum a grande quantida-
de de modelos gerados. Devido natureza
estocstica dos algoritmos de busca (e tam-
bm s imprecises das funes de energia),
os procotolos mais usados em PSP consistem
em executar o algoritmo um grande nmero
de vezes com diferentes sementes para o ge-
rador de nmeros aleatrios. Para efeitos de
ilustrao, um protocolo tpico considerado
prprio para publicao do mtodo Rosetta
consiste em, no mnimo, 10.000 execues
independentes. Dessa forma, cada execuo
ir percorrer uma trajetria diferente no es-
Figura 14-7: Resultados obtidos com o pao de conformaes e poder terminar em
protocolo ab initio do programa GAPF. (A) uma conformao diferente.
Trp-cage (PDB1L2Y) com 29 aminocidos. O As estruturas resultantes dessa grande
modelo na esquerda apresenta um RMSD (do amostragem so chamadas de decoys, e um
esqueleto peptdico) de 3,04 em relao problema em aberto na PSP a filtragem de
estrutura experimental na direita. (B) Villin decoys. Atualmente, os protocolos seguem
headpiece (PDB1VII) com 36 aminocidos. O alguns passos para a escolha do modelo a ser
modelo na esquerda apresenta um RMSD de selecionado dentre as milhares de conforma-
3,38 (do esqueleto peptdico) em relao es geradas. Os dois principais passos so:
estrutura experimental na direita. i) Filtragem dos decoys: feita sobre o
valor de energia total retornado pela
Tabela 1-7: Exemplo de mtodos de predio funo usada pelo mtodo.
ab initio de estrutura de protenas. A maioria dessas funes j carrega de forma im-
Mtodo Algoritmo de Funo de plcita (ou explcita) medidas sobre a qualidade estere-
busca energia oqumica da estrutura. Dessa forma, um primeiro filtro
razovel investigar apenas os decoys com energia
GAPF Algoritmo GROMOS96 e semelhante (at certo valor limite) em relao ao
gentico GAPF-CG decoy de menor energia (o melhor segundo o critrio
Profet Algoritmo OPLSAA, energtico).
evolucionrio AMBER94, ii) Agrupamento (clustering) dos
AMBER96, decoys: a comparao entre as estru-
ECEPP e FLEX turas resultantes do passo anterior e o
seu agrupamento de acordo com um
ProtPred Algoritmo CHARMM (v.27)
critrio de similaridade, por exemplo,
evolucionrio
estruturas com at 3 de RMSD so
Nicosia Algoritmo CHARMM (v.27) colocadas em um mesmo grupo. Assim,
evolucionrio o pesquisador pode investigar apenas a
multiobjetivo estrutura mais representativa de cada
MEAMT Algoritmo CHARMM (v.27) grupo.
evolucionrio Esse passo tem o potencial de reduzir considera-
multiobjetivo velmente o nmero de modelos a ser investigado, em-
multitabelas bora em alguns casos o nmero de conformaes a
7. Modelos Tridimensionais

ser analisado possa ainda ser grande demais. Nesses os aspectos tridimensionais de uma
casos, faz-se uso da noo de que, sendo o estado na- molcula, a fim de se verificar a estabi-
tivo cineticamente acessvel, espera-se que esse seja lidade conformacional da mesma. Nesta
atingido com mais frequncia, salvo em trajetrias que anlise, so detectadas regies de ten-
terminem em mnimos locais muito profundos. Sendo so angular e torcional, impedimentos
assim, realizando um nmero grande de trajetrias, estricos e quiralidades. Alm destes,
aquele grupo que contm a estrutura nativa , prova- com a anlise do grfico de Ramachan-
velmente, o maior grupo (ou seja, aquele que contm o dran possvel identificar, atravs da
maior nmero de conformaes aps o agrupamento). correlao entre os ngulos e , quais
importante ressaltar que esta hiptese s estaria te- resduos encontram-se fora das regies
oricamente bem fundamentada caso usasse uma fun- energeticamente favorveis, possibili-
o de energia realstica e representativa da energtica tando uma melhora no modelo final.
do processo de enovelamento. Exemplos de programas que realizam
estas anlises incluem os programas
Os pacotes de PSP disponibilizam suas Procheck e Molprobity.
prprias ferramentas de agrupamento. Pode- ii) Energia: so mtodos baseados em
se, ainda, usar outros programas externos minimizao de funes de energia. A
com resultados semelhantes, como o anlise dos valores normalizados da
maxcluster e o programa de agrupamento funo (como o DOPE normalizado do
contido no pacote GROMACS (g_cluster). Modeller) ajuda a avaliar (ao menos es-
Um terceiro passo a inspeo manual tatisticamente) quo prximo o modelo
por um operador humano de cada modelo gerado est de protenas que possuem
resultante do segundo passo. Com a anlise um mesmo perfil molecular ou at o
de especialistas treinados, possvel detectar mesmo tipo de enovelamento. Esses
possveis erros no enovelamento e at mes- mtodos podem considerar a relao
mo sugerir modificaes em regies especfi- entre a estrutura 1D-3D, ponderar a
cas dos modelos. Essa etapa opcional ainda propenso de cada aminocido estar em
no automatizvel sendo, de certa forma, a um tipo de estrutura 2ria, a probabilida-
mais custosa. de de dois resduos estarem em contato
e at mesmo o tipo de funo que a
7.10. Anlise de qualidade protena desempenha. Alguns progra-
mas bastante usados para estas anli-
A qualidade de um modelo determina- ses incluem Verify3D, ProSa, QMEAN e
da por um conjunto de fatores, tais como PROVE.
comprimentos de ligao, planaridade das li- iii) Funcional: envolve a comparao do
gaes peptdicas, planaridade dos anis e modelo obtido com aspectos funcionais
ngulos de toro nas cadeias principal (ou ou mesmo estruturais (sem resoluo
seja, esqueleto peptdico) e laterais, quirali- atomstica) determinados por mtodos
dade, impedimento estrico, energia e funcio- experimentais. Por exemplo, diversas
nal. Adicionalmente, nos mtodos baseados famlias de protenas possuem resduos
no uso de estruturas moldes resolvidas ex- especficos associados funo (como a
perimentalmente, para um modelo ser consi- trade cataltica em serino proteases ou
derado de boa qualidade recomendado que resduos ligadores de metais em meta-
o valor de RMSD obtido pela sobreposio da loprotenas). Assim, o modelo gerado
cadeia peptdica de regies conservadas do deve apresentar tais resduos nas suas
modelo gerado e da estrutura molde esteja localizaes especficas para explicar
entre 1 e 2 . Dentre as anlises a serem dados experimentais prvios. Ainda,
feitas, recomenda-se as seguintes: mtodos como dicroismo circular (cap-
i) Estereoqumica: consiste em analisar tulo 10), infravermelho (captulo 11) e
7. Modelos Tridimensionais

RMN (captulo 12) podem oferecer in- ridade de sequncia com o(s) molde(s)
formaes importantes sobre o estado usado(s), ou no obedecem ao tipo cor-
conformacional da protena em meio bi- reto de estrutura 2ria predita. Para cor-
olgico, validando o modelo obtido. rigir isso, necessrio refazer o modelo
Mesmo que as estratgias de anlise 3D impondo ao algoritmo de construo
anteriores indiquem um modelo de ele- o uso de restries de tipo de estrutura
vada qualidade, se o mesmo no for ca- 2ria para essas regies.
paz de apresentar ou explicar iii) Dinmica molecular: Os mtodos de
caractersticas conhecidas previamente, simulao por dinmica molecular (ver
no poder ser considerado totalmente captulo 8) tm sido empregados na
vlido. melhora de modelos gerados tanto por
tcnicas baseadas em modelagem
Durante o CASP a anlise de qualidade dos modelos comparativa quanto por primeiros prin-
assume um carter diferente, uma vez que os avalia- cpios. Simulaes em solvente explcito
dores conhecem a estrutura nativa. Nesse caso, a m- ajudam a acomodar a estrutura 3D do
trica empregada para comparar a estrutura nativa com modelo melhorando, principalmente, os
os modelos gerados pelos diferentes mtodos o Glo- ngulos e de resduos em regies
bal Distance Test GDT. Trata-se de uma medida po- desfavorveis no grfico de Ramachan-
tencialmente mais acurada, uma vez que menos dran. O tempo de simulao varivel
sensvel a discrepncias muito grandes, oriundas de de acordo com a complexidade do sis-
regies de voltas que so naturalmente flexveis. tema e com o grau de refinamento que
se deseja obter. importante destacar
7.11. Refinamento do modelo que simulaes por dinmica molecular
para estruturas transmembranares,
Aps a anlise do modelo, caso a quali- apesar de bastante recomendado, ne-
dade no tenha sido satisfatria, algumas es- cessitam especial ateno, pois se deve
tratgias de refinamento no melhor modelo considerar o modelo de membrana a
obtido podem ser suficientes para a obteno ser empregado, a forma de insero do
de um modelo final de boa qualidade. Dentre modelo 3D da protena na membrana e
os principais tipos de refinamento podemos o tempo de equilibrao do sistema
citar: costuma ser maior que em protenas si-
i) Local: atravs da anlise estereoqu- muladas apenas em solvente.
mica pode-se identificar qual resduo
est violando seus valores limites den- 7.12. Aplicaes de modelos
tro de sua vizinhana, o que geralmente
resolvido com o reposicionamento de A aplicabilidade de um modelo 3D est
sua cadeia lateral. Em alguns casos, diretamente relacionada com a acurcia com
necessrio realizar etapas de otimizao que este foi gerado. Esta acurcia pode ser
somente de regies de alas, principal- avaliada pelo grau de similaridade entre as
mente de regies ricas em glicina. estruturas 3D da protena predita e da prote-
sempre importante observar violaes na molde, atravs do clculo do desvio mdio
causadas por prolinas nas extremidades quadrtico (RMSD), que mede as distncias
de regies de estruturas em hlice ou interatmicas. De acordo com sua acurcia,
folha. os modelos 3D gerados por mtodos tericos
ii) Imposio de restries: aps a anli- podem ser aplicados em:
se de resultados de mtodos de predi- i) Estudos de predio funcional e busca
o de estrutura 2ria, pode-se verificar por novos alvos moleculares em orga-
no modelo gerado quais regies no nismos patognicos;
possuem ou possuem uma baixa simila- ii) Planejamento racional de frmacos
7. Modelos Tridimensionais

baseado na estrutura do receptor biol- Estrutura nativa: a estrutura tridimensional


gico; adotada por uma protena em seu ambi-
iii) Estudos de variao conformacional ente fisiolgico de ao. a conformao
por dinmica molecular; que desempenha o papel biolgico da
iv) Planejamento de experimentos de protena.
mutagnese stio-dirigida, fornecendo
informaes sobre possveis mutaes Funo de energia: Funo pela qual se avalia o
para testar hipteses funcionais; estado conformacional de uma protena. A
v) Simulaes de interaes entre pro- avaliao feita baseada no valor de
tenas; energia total do sistema em estudo, que
vi) Auxiliar no refinamento de estruturas pode ser composta de termos de energia
resolvidas por cristalografia de raios-X e potencial e cintica. O funcional espec-
por experimentos de RMN. fico para cada programa e seus termos
so baseados em Campos de Fora.
7.13. Conceitos-chave
Metaheuristica: um processo iterativo que oti-
Bibliotecas de fragmentos: As bibliotecas de miza uma soluo candidata segundo um
fragmentos so construdas a partir de critrio de avaliao, geralmente baseada
estruturas tridimensionais determinadas na minimizao da Funo de Energia.
experimentalmente, e so especficas para comum o uso de mtodos de otimizao
cada sequncia alvo. Possuem tamanhos no determinsticos, como por exemplo,
variados uma vez que os fragmentos de- algoritmos genticos e simulated
vem apresentar alta similaridade local com annealing.
a sequncia alvo.
Modelagem comparativa: uma classe de m-
Campos de fora: Referem-se forma e aos todos de predio de estrutura tridimensi-
parmetros (ajustveis) de funes mate- onal de protenas. A estrutura da
mticas usadas para descrever a energia sequncia alvo construda a partir de
potencial de um sistema de partculas outras estruturas resolvidas experimen-
(molculas e tomos). As funes e seus talmente (estruturas molde) e que possu-
parmetros so derivados de estudos ex- em mais de 25% de identidade (ou ditas
perimentais e de clculos advindos da homlogas) em relao sequncia de
mecnica quntica, e que tentam descre- aminocidos da protena alvo.
ver fenmenos atmicos como conforma-
o (e.g. diedros) e interaes de curto e Molde ou template: a estrutura tridimensional
longo alcance de diferentes classes de de uma protena determinada experimen-
molculas. talmente e que usada como base para
fornecer informaes estruturais aos al-
Decoy: So modelos gerados pelos diversos goritmos de predio de estrutura de pro-
mtodos de predio de estrutura tridi- tenas. Seu uso dependente do nvel de
mensional de protenas. Uma vez que os identidade/similaridade entre sua sequn-
mtodos empregados so no determins- cia de aminocidos e a da sequncia alvo
ticos, cada execuo pode resultar em um (sequncia que se deseja modelar).
modelo diferente. Dentre os decoys, en-
contra-se o modelo que melhor representa Predio ab initio: uma classe de mtodos
o que se supe ser a estrutura nativa da usada para prever a estrutura tridimensi-
sequncia alvo, porm, para sua identifi- onal de uma protena alvo sem o uso de
cao faz-se necessrio realizar uma fil- informaes estruturais de quaisquer ou-
tragem. tras protenas resolvidas experimental-
7. Modelos Tridimensionais

mente. mentos para a predio de estruturas


de protenas. Tese de Mestrado, Labora-
Predio de estruturas de protenas: a arte de trio Nacional de Computao Cientfica:
prever para uma sequncia de aminoci- Rio de Janeiro, 2008.
dos, atravs de mtodos computacionais,
sua estrutura tridimensional mais prxima LEACH, Andrew R. Molecular Modelling
do que se supe ser sua estrutura nativa. Principles and Applications. 2.ed.
Essex: Pearson Education Limited, 2001.
Predio de novo: uma classe de mtodos
usada para prever a estrutura tridimensi- WEBSTER, Davird M. Protein Structure
onal de uma protena alvo, a partir de in- Prediction: Methods and Protocols.
formaes estruturais de protenas Totowa: Humana Press Inc., 2000.
resolvidas experimentalmente (estruturas
molde) e sem qualquer parentesco com a RANGWALA, Huzefa; KARYPIS, George.
protena alvo. Usam, por exemplo, biblio- Introduction to Protein Structure
tecas de fragmentos. Prediction: Methods and Algorithms.
Hoboken: John Wiley & Sons, 2011
Rotmeros: So as conformaes preferenciais
da cadeia lateral de um resduo de ami-
nocido. Podem ser combinados em bibli-
otecas para cada tipo de aminocido.

Threading: uma classe de mtodos usada na


predio de estrutura tridimensional de
protenas e que busca descobrir qual o
tipo de enovelamento mais provvel que
uma sequncia alvo dever adotar. Esse
processo baseado em estruturas resol-
vidas experimentalmente (estruturas mol-
de) que no so necessariamente
homlogos protena alvo.

7.14. Leitura recomendada


CUSTDIO, Fbio Lima. Algoritmos Genticos
para Predio Ab Initio de Estrutura
de Protenas. Tese de Doutorado, Labo-
ratrio Nacional de Computao Cientfica:
Rio de Janeiro, 2008.

CAPRILES, Priscila Vanessa da Silva Zabala. De-


senvolvimento e Implementao de
um Modelo Coarse-Grained para Pre-
dio de Estruturas de Protenas. Tese
de Doutorado, Laboratrio Nacional de
Computao Cientfica: Rio de Janeiro,
2011.

TREVIZANI, Raphael. Bibliotecas de frag-


8. Dinmica Molecular

Hugo Verli

Flexibilidade da enzima trombina evidenciada atravs


de simulao por dinmica molecular.

8.1. Introduo
8.2. Campos de fora
8.3. Minimizao de energia
8.4. Simulaes por DM
8.5. Estratgias de anlise
8.6. Limitaes atuais da DM
8.7. E outras biomolculas?
Figura 1-8: Variao do contedo de estrutura
8.8. Conceitos-chave secundria da melitina, peptdeo da abelha
Apis mellifera, como funo do tempo. A for-
ma inicial encontrada no ambiente cristali-
no, enquanto a final observada em
8.1. Introduo condies prximas s plasmticas.

Segundo a IUPAC (International Union of rentes molculas (enzima e substrato, prote-


Pure and Applied Chemistry), a dinmica mo- na e protena, protena e DNA ou frmaco e
lecular um procedimento de simulao que receptor). Por outro lado, a ideia de que estas
consiste na computao do movimento dos propriedades variam como funo do tempo
tomos em uma molcula ou de tomos indi- indica que as mesmas no so estticas, mas
viduais ou molculas em slidos, lquidos e se modificam em solues biolgicas. Isto
gases, de acordo com as leis de movimento aproxima em muito a DM de mtodos experi-
de Newton. Em outras palavras, a dinmica mentais como a Ressonncia Magntica Nu-
molecular (DM) descreve a variao do com- clear (RMN, Captulo 12), que geram medidas
portamento molecular como funo do tem- representando, de fato, mdias temporais,
po (Figura 1-8). colhidas durante a realizao do experimento.
Quando mencionamos comportamento Assim, ao final de uma simulao de DM,
molecular, nos referimos a quaisquer propri- buscamos estas propriedades mdias,
edades de uma molcula em estudo, tais co- representativas de comportamentos bio-
mo seu contedo de estrutura 2ria, lgicos medidos experimentalmente.
orientao de cadeias laterais, conformao A descrio conformacional oferecida
de alas e a energia de interao entre dife- pela DM, para uma determinada molcula ou
8. Dinmica Molecular

conjunto de molculas, baseia-- 8.2. Campos de fora


se na soluo da 2a Lei de New-
ton, onde Fxi a fora aplicada Como visto no item ante-
ao tomo i na posio x, t o rior, para descrever a variao
tempo, v a velocidade e ai a da posio x de um tomo i
acelerao do tomo i. Por ser como funo do tempo pre-
baseada na fsica desenvolvida cisamos conhecer o valor da
por Sir. Isaac Newton, a DM faz massa de cada tomo, mi (essa
parte dos mtodos denominados fcil, vem da tabela peridica)
Clssicos (tambm chamados de e a fora (Fxi) sobre cada tomo
mtodos de mecnica molecu- i em uma determinada posio
lar), em oposio aos mtodos x. A temperatura fornece ener-
baseados na fsica quntica (que Sir Isaac Newton gia para que os tomos sofram
deram origem aos denominados uma acelerao, mudando suas
mtodos de mecnica quntica). posies no espao. Contudo,

Tabela 1-8: Alguns dos principais programas


disponveis para simulaes por DM.

Programa Distribuio
Assim, a DM nos possibilita obter
Abalone Gratuito
modelos de molculas muito mais prximos
da realidade biolgica, pois inclui diretamente ADUN Gratuito
caractersticas como a flexibilidade molecular
AMBER Pago
(atravs da variao temporal de
propriedades) e a temperatura (atravs da Ascalaph Designer Gratuito
acelerao dos tomos). A maioria dos CHARMM Pago
fenmenos biolgicos esto associados
flexibilidade de biomolculas, como a catlise Discovery Studio Pago
e a modulao de canais inicos e de re- GROMACS Gratuito
ceptores acoplados protena G. De fato,
muitos destes processos vm sendo GROMOS Pago
descritos com sucesso por simulaes de DM GULP Gratuito
ao longo dos anos.
Outros tipos de simulao esto LAMMPS Gratuito
disponveis, tais como o Mtodo de Monte MDynaMix Gratuito
Carlo, a Dinmica Estocstica e a Dinmica
Browniana. Iremos, contudo, nos ater DM MOE Pago
em decorrncia de seu maior uso, nos ltimos MOIL Gratuito
anos, no estudo de biomolculas.
MOLDY Gratuito
Muitos programas (Tabela 1-8) esto
disponveis para a realizao de simulaes NAMD Gratuito
por DM diferindo, por exemplo, quanto a seu
RedMD Gratuito
acesso (gratuito ou pago), custo
computacional (isto , tempo necessrio para TeraQuem Pago
a execuo de um mesmo clculo) e tipos de TINKER Gratuito
campos de fora disponveis (ver adiante).
YASARA Pago
8. Dinmica Molecular

como os tomos no esto isolados, mas li- tambm limitaes. Por exemplo, enquanto
gados a outros tomos formando molculas um tipo de campo de fora pode descrever
que, por sua vez, interagem com outras mo- com elevada fidelidade protenas, ele pode ser
lculas, eles esto sujeitos a foras inter- bastante limitado na reproduo da ge-
atmicas e inter-moleculares. O clculo ometria de carboidratos ou cidos nucleicos.
destas foras realizado por uma outra Desta forma, ao iniciarmos um estudo por
funo matemtica, denominada campo de DM, devemos ter em mente qual o tipo de
fora. molcula com o qual pretendemos trabalhar
O campo de fora, seguindo a definio e qual o melhor campo de fora para descre-
da IUPAC, pode ser descrito brevemente v-la.
como um conjunto de funes e A escolha de um campo de fora no , contudo,
parametrizao usadas em clculos de baseada somente no tipo de molcula com o qual
mecnica molecular. Cada campo de fora queremos lidar. Diversos outros aspectos podem
estabelece um conjunto de equaes influenciar esta escolha. Existem, por exemplo,
matemticas dedicadas a reproduzir aspectos diferentes nveis de simplificao na descrio dos
do comportamento molecular, como o tomos (Figura 3-8). O campo de fora pode descrever
estiramento de ligaes qumicas, a todos os tomos do sistema (em ingls so
deformao de um ngulo de ligao ou a denominados campos de fora all atom), mas isto
toro de um diedro, como podemos implica em um maior custo computacional, o que pode
observar em um espectro de infravermelho. se tornar proibitivo no estudo de grandes sistemas
Estas equaes, por sua vez, so calibradas moleculares se no temos acesso a grandes
(ou seja, parametrizadas) para reproduzir o estruturas de processamento em paralelo (os
comportamento dos compostos de interesse chamados clusters).
(Figura 2-8). Como o elemento encontrado em maior quantidade
Equaes e parametrizaes diferentes o tomo de hidrognio, uma primeira simplificao
podem ser empregadas, dando origem a denominada de tomo unido (em ingls so
campos de fora diferentes, com vantagens e denominados campos de fora united atom). Neste

Figura 2-8: Representao de alguns termos que compem o campo de fora GROMOS96. Ter-
mos semelhantes so tambm encontrados em diversos outros campos de fora.
8. Dinmica Molecular

Figura 3-8: Representao dos 20 aminocidos, codificados no genoma para sntese proteica,
em um campo de fora descrevendo todos os tomos, em um campo de fora de tomo unido e
coarse-grained.

caso, os tomos de hidrognio apolares, ou seja, capacidade de descrever elementos de estrutura 2ria,
aqueles ligados a tomos de carbono, so unidos a mantendo-se somente a forma global da molcula em
este elemento, dando origem a um pseudotomo estudo. Assim, em estudos onde so esperadas
representando as propriedades de grupos CH, CH2 ou mudanas no contedo de estrutura 2ria o mtodo de
CH3. Exceo se d para o grupo CH de anis CG no indicado. Mas, por ser muito rpido, pode
aromticos, que tem os tomos de hidrognio descrever movimentos entre diferentes domnios de
descritos explicitamente nos campos de fora de uma dada protena, o que difcil de ser observado,
tomo unido mais modernos, como o GROMOS96. usualmente, nos demais campos de fora. Por outro
H, por fim, um terceiro nvel de simplificao, lado, o caso dos modelos de tomo unido traz
denominado coarse-grained (CG). Neste campo de limitaes como a dificuldade em se utilizar estes
fora, vrios tomos podem ser agregados em uma campos de fora na obteno e refinamento de
nica partcula, anloga ao pseudotomo do modelo de modelos 3D de macromolculas a partir de dados de
tomo unido. Por exemplo, todo um aminocido pode RMN (Captulo 12).
ser considerado como uma nica partcula, como o Outra diferena entre os campos de
caso da alanina e da glicina no campo de fora fora diz respeito descrio das molculas
MARTINI. Em outros resduos, este campo de fora de gua, o principal solvente de biomolculas
considera o esqueleto peptdico como uma partcula e (Tabela 2-8). De fato, uma das grandes
a cadeia lateral de uma (como na cistena, treonina e vantagens do mtodo de DM a capacidade
serina) a trs (histidina e fenilalanina) ou quatro de incluir a presena de molculas de gua
(triptofano) partculas. nos modelos gerados, descrevendo as suas
Quanto maior a simplificao, menor custo interaes, como funo do tempo, com os
computacional do clculo. Em outras palavras, compostos em estudo. Da mesma forma que
podemos simular sistemas com maior nmero de visto para os campos de fora, existem
tomos por mais tempo em computadores mais diversos modelos para descrio de
baratos. Infelizmente, estas simplificaes trazem molculas de gua, por vezes com mais de
consigo algumas limitaes. No caso do CG, perde-se a uma opo para um mesmo campo de fora.
8. Dinmica Molecular

Estes organizam-se em dois grandes grupos: seguir), cada um foi construdo a partir de
os modelos explcitos e os implcitos. decises metodolgicas distintas apre-
sentando, portanto, particularidades im-
Tabela 2-8: Alguns dos modelos de gua mais portantes. Como consequncia, normalmente
comumente empregados em simulaes por os parmetros de um campo de fora no
DMa. so transferveis para outro campo de fora.
A importncia de conhecermos estas
Modelo Campos de fora Tipo
caractersticas, reconhecendo cada campo de
onde so emprega-
fora como entidade nica, reside no fato de
dos
que um grande nmero de compostos de
SPC interesse biolgico no descrito nos
AMBER, GROMOS,
SPC/E OPLS parmetros atuais, o que pode limitar o seu
estudo computacional. Dentre estes
TIP3P compostos com carncias de parmetros
podemos citar aminocidos modificados
(alm dos 20 codificados no genoma),
TIP4P neurotransmissores, hormnios, fos-
AMBER, CHARMM,
folipdeos, carboidratos, produtos naturais e,
OPLS por fim, frmacos. Como simulaes por DM
podem ser clculos extremamente de-
TIP5P morados, deixar para descobrir no meio do
trabalho que seu modulador de interesse no
tem parmetros no campo de fora escolhido
pode lhe custar alguns meses de trabalho.
MARTINI Martini Em linhas gerais, tanto a distncia entre 2 tomos
ligados quanto o ngulo entre 3 tomos consecutivos
descrita a partir de Vligao/ngulo = Kn [n no]2, onde V a
a
Uma reviso mais completa pode ser encontrada no energia, n a distncia ou ngulo em um dado
site: www1.lsbu.ac.uk/water/models.html momento, no a distncia ou ngulo de referncia e Kn
a constante de fora da mola que mantm esses
Enquanto os modelos explcitos incluem os tomos valores ao redor dos valores de referncia (Figura 2-
da molcula de gua, fisicamente, na simulao, os 8).
modelos implcitos (tambm chamados de modelos Para diedros, a funo mais usualmente empregada
contnuos ou continuum models) no incluem estas baseada em Vdiedro = K [1 + cos(n - )], sendo V a
molculas diretamente, mas indiretamente, atravs da energia, o valor do diedro e K a altura da barreira de
representao das propriedades dieltricas do energia entre diferentes estados conformacionais.
solvente. Os tomos que compem a gua no Estes estados surgem porque um diedro pode rodar
participam das simulaes, tornando o clculo 360o e, ao longo desta rotao, apresentar mltiplos
extremamente rpido (usualmente, a grande maioria mnimos de energia. Assim no h, necessariamente,
dos tomos em um sistema a ser simulado por DM se uma nica geometria de referncia. O perfil rotacional
refere ao solvente). Infelizmente, enquanto estes dos diedros tem a adio do parmetro n, que
modelos implcitos so bastante eficientes no estudo descreve a multiplicidade do diedro (ou seja, o nmero
de protenas e cidos nucleicos, o mesmo no vem se de mnimos de energia) e , que diz respeito mudana
mostrando para carboidratos, compostos altamente de fase e localizao do mximo de energia ao longo
polares que interagem intensamente com o solvente. do perfil da rotao do diedro.
Embora os principais campos de fora Apesar da semelhana nesses termos, existem
empregados atualmente (AMBER, CHARMM, diferenas importantes que devem ser consideradas. O
OPLS e GROMOS) sejam compostos por CHARMM, por exemplo, emprega uma equao
equaes bastante semelhantes (ver a adicional na descrio dos ngulos de ligao, chamada
8. Dinmica Molecular

Urey-Bradley, que busca preservar a distncia entre o de raios-X (ver captulo 13) ou de RMN (ver
primeiro e o terceiro tomos de um ngulo. Outra captulo 12). Independente de sua origem
diferena se refere aos termos que descrevem a estas estruturas, ao serem solvatadas, criam
planaridade ou quiralidade em um conjunto de quatro interaes soluto-solvente at ento
tomos, o que usualmente chamado de diedro inexistentes (seja pelo dado ser terico obtido
imprprio (Figura 2-8). Enquanto AMBER e OPLS os no vcuo, em ambiente cristalino ou como
descrevem da mesma forma que os demais diedros uma mdia de diferentes conformaes). Mas
(tambm chamados de diedros prprios), CHARMM e o solvente precisa se adaptar ao redor de seu
GROMOS aplicam uma equao diferente, que se soluto, e isto precisa ser corrigido antes que a
assemelha quela empregada para distncias e simulao por DM se inicie. Por exemplo,
ngulos. quando o programa insere uma molcula de
Abordar com profundidade a gua, esta pode ter seu hidrognio apontando
construo de parmetros para campos de para um tomo de hidrognio da cadeia
fora est alm do objetivo deste livro. Mas lateral de uma arginina, promovendo uma
em muitos casos h uma soluo um pouco repulso eletrosttica pela proximidade de
mais simples para o problema. Uma duas cargas de sinais iguais. Se isto no for
caracterstica importante de campos de fora corrigido antes do incio da DM, a liberao
a chamada transferabilidade. Isto significa desta energia na simulao pode gerar uma
que grupos qumicos semelhantes possuem exploso da simulao (Figura 4-8) ou, de
propriedades semelhantes que podem, assim, forma mais sutil (mas nem por isso menos
serem transferidas de uma molcula para perigosa para o estudo), promover mudanas
outra. Por exemplo, o grupo hidroxila de um conformacionais na protena, ou mesmo
resduo de Ser equivalente ao grupo desnaturaes. Em outros casos, como na
hidroxila de um resduo de Thr. Assim, h uma obteno de modelos tericos para a
reduo enorme na necessidade de estrutura 3D de protenas, a construo de
construo de parmetros para novos cadeias laterais de aminocidos pode
compostos, se respeitarmos a semelhana aproxim-las artificialmente (e exces-
qumica entre eles. sivamente) de outros resduos.
Assim, uma das principais formas de
8.3. Minimizao de energia tentar eliminar estes problemas reside no
clculo de minimizao de energia (Figura 5-
Quando iniciamos um estudo baseado 8). Durante este clculo, a energia global do
em simulaes por DM, podemos empregar sistema reduzida, alcanando por fim uma
estruturas de partida de diferentes origens, conformao mais estvel para o sistema em
como modelos tericos (ver captulo 7) ou estudo (ou seja, um estado de mnimo de
ainda dados experimentais de cristalografia energia).

Figura 4-8: Exploso em uma simulao por DM.


8. Dinmica Molecular

includas em uma simulao, maior ser o


tempo necessrio para realizar o clculo. Por
isso, buscamos sempre incluir o menor
nmero de molculas possvel capaz de
descrever as condies experimentais ou
fisiolgicas de referncia. No caso da
protena, estamos na maioria das vezes ainda
limitados a simulao de uma nica molcula
(salvo no caso de oligmeros). Contudo, a
protena no costuma ser a parte mais cara
computacionalmente do clculo, mas sim a
incluso do solvente (explcito). Uma
otimizao no nmero de molculas de gua
pode representar uma grande otimizao no
tempo de mquina para concluso da
simulao (o que permite aumentar o
tamanho da amostragem do estudo, ver
adiante).
Uma forma de controlar o nmero de
molculas de gua controlando o tipo de
"caixa" onde o sistema ser simulado. Por
caixa entendemos o espao tridimensional
Figura 5-8: Exemplo da evoluo de proprie- onde soluto (biomolcula) e solvente
dades moleculares no decorrer de uma mini- (normalmente gua) so colocados. O
mizao de energia. A cada passo, a energia tamanho e a forma desta caixa, usualmente
do sistema diminui, com a reduo de conta- centralizada no soluto, definir a quantidade
tos desfavorveis e a formao de interaes de solvente a ser inserida.
intra- e inter-moleculares como ligaes de Atualmente, no comum definir a forma da caixa
hidrognio. como uma esfera, por motivos que explicaremos a
seguir. As formas mais comuns so cbica, octadrica
8.4. Simulaes por DM e dodecadrica. A forma de um octaedro apresenta
77% do volume de um cubo, enquanto que o
Alm da escolha do campo de fora e dodecaedro 71%, representando a forma mais prxima
do modelo de gua, o preparo e a anlise de de uma esfera. Contudo, como a forma de protenas e
uma simulao por DM deve considerar al- outras biomolculas varia muito, devemos avaliar qual
guns aspectos metodolgicos importantes, caixa se adequa melhor ao sistema em estudo. Por
dentre os quais destacaremos as condies exemplo, a simulao de membranas normalmente
peridicas de contorno, a equilibrao, a realizada em um cubo ou uma forma retangular, que
amostragem, o tempo de integrao e o cl- pode ser uma boa alternativa tambm para protenas
culo de interaes no ligadas. Uma escolha em forma de basto.
inadequada destas propriedades pode signifi- O uso de uma caixa em forma de esfera ao redor da
car desde um maior custo computacional (is- protena de interesse nos levaria a um aproveitamento
to , uma simulao demorando mais do que do espao tridimensional melhor do que o dodecaedro,
precisaria) a resultados que no representam economizando mais molculas de gua e, assim,
situaes reais. liberando custo computacional. Contudo, as molculas
em uma simulao por DM podem se difundir ao longo
Condies peridicas de contorno da caixa. Como alm da caixa de simulao temos
condies de vcuo, o solvente iria progressivamente
Quanto maior o nmero de molculas evaporar, a partir da face da esfera. A forma de
8. Dinmica Molecular

impedir isso criar uma fora que impea as economizar custo computacional ao reduzir a
molculas do sistema de ultrapassarem os limites quantidade de solvente excessivamente. Se a caixa for
desta esfera, o que representa a incluso de foras pequena demais, a protena pode interagir com suas
artificiais, no observveis em condies biolgicas. imagens, geradas pelas condies peridicas de
As formas geomtricas empregadas contorno, criando uma situao artificial que
mais frequentemente em em simulaes por provavelmente ir deturpar os resultados obtidos.
DM esto relacionadas a uma estratgia importante, assim, avaliar se o corte das interaes
denominada condies peridicas de contorno no ligadas (ver adiante) menor que a distncia da
(Figura 6-8). Estas formas permitem que protena s suas imagens.
uma caixa de simulao seja replicada em
todas as suas dimenses, de forma peridica. Equilibrao
Estas rplicas so idnticas caixa
construda, de forma que um movimento A ideia de equilibrao de uma
molecular em uma ser idntico ao simulao por DM se refere estabilizao de
movimento da mesma molcula na outra. suas propriedades, ou seja, que estas alcan-
Mas, agora, a face da caixa no est em con- cem um estado de equilbrio. Considera-se
tato com o vcuo, mas com solvente. E, caso que, antes de estarem equilibradas, as
uma molcula saia da caixa central, uma de propriedades em estudo apresentam
suas imagens entrar pela face oposta, variaes ou comportamentos no
mantendo o nmero de molculas constante. representativos das situaes de interesse.
Isto representa uma continuidade da soluo, Assim, necessrio que o tempo de
nos aproximando de condies experimentais. simulao seja suficientemente longo (tama-
nho da amostragem, ver adiante) para que as
propriedades em estudo estejam ade-
quadamente equilibradas. Na Figura 1-8, por
exemplo, a simulao de um monmero de
melitina demora em torno de 4 ns para se
equilibrar.
Um dos motivos mais comuns para a necessidade
de equilibrao devido ao uso de estruturas 3D
derivadas de ambientes cristalinos, isto , aquelas
obtidas por cristalografia de raios-X. Este ambiente
apresenta concentrao de protenas muito maior do
que aquela observada, usualmente, nas condies bio-
lgicas de interesse, por vezes em estados
oligomricos no observados em condies bio-
lgicas. Assim, a remoo destes contatos e sua
substituio por molculas de gua, acarretar em
uma instabilidade inicial na simulao, envolvendo: 1) a
perda de contatos cristalogrficos, e 2) a formao de
Figura 6-8: Representao das condies pe- interaes com molculas de gua.
ridicas de contorno em uma simulao por Infelizmente, a busca por tempos de simulao
DM. Somente a caixa central simulada, en- "suficientemente longos" para equilibrao das
quanto que as rplicas garantem a continui- propriedades de interesse pode ser desafiadora, pois
dade do sistema, isto , ausncia de contato nem todas as propriedades moleculares equilibram a
das molculas com o vcuo. uma mesma velocidade. Por exemplo, a interao de
uma protena com o solvente equilibra usualmente
Devemos, contudo, tomar cuidado para no definir mais rapidamente do que a perda ou a formao de
uma caixa excessivamente pequena, buscando estrutura 2ria. Estas, por sua vez, equilibram mais
8. Dinmica Molecular

rapidamente que o movimento de domnios em uma


dada protena.

Amostragem
A amostragem de uma simulao por
DM se refere a quo bem ela capaz de des-
crever o comportamento do sistema molecu-
lar em estudo. Idealmente, a amostragem de
uma simulao deve ser longa o bastante pa-
ra descrever os fenmenos de interesse.
Contudo, a simulao de sistemas complexos
como aqueles envolvendo biomolculas fre-
quentemente esbarra em amostragens ainda
inalcanveis em decorrncia de seu elevado
custo computacional.
A maneira mais simples de se entender a amostra-
gem considerando o tamanho da simulao em uma
escala de tempo. Um maior tempo de simulao impli-
ca em uma maior amostragem. Contudo, diversos as-
pectos podem interferir neste entendimento. O
aumento do nmero de molculas e tomos no siste-
ma aumenta o nmero de possveis conformaes a
serem adotadas. Por outro lado, o uso de campos de
fora do tipo tomo unido ou ainda coarse-grained,
ao reduzir o nmero de tomos, reduz o nmero de
possveis estados conformacionais a serem adotados
pelo sistema, tornando assim a amostragem maior em
uma mesma escala de tempo.

Tempo de integrao
O clculo de uma simulao por DM no
gera informaes contnuas, mas sim dividi-
da em pequenos passos, usualmente na es- Figura 7-8: Representao do efeito de dife-
cala de femtossegundos (fs). A sucesso rentes tempos de integrao na amostragem
destes passos dar origem ao nosso entendi- de uma simulao por DM. Valores muito pe-
mento de trajetria, isto , evoluo tem- quenos (0,5fs) descrevem fenmenos com
poral do comportamento molecular na maiores detalhes, mas mais lentamente. Va-
simulao realizada. O tamanho destas partes lores muito grandes (4,0fs) apresentam me-
o que chamamos de tempo de integrao nores custos computacionais, mas podem dar
(Figura 7-8). origem a instabilidades.
A definio de um valor apropriado para
o tempo de integrao est diretamente rela- pode ser feita empregando-se diferentes va-
cionada ao tamanho da amostragem da si- lores de tempo de integrao. Quanto maior
mulao e, por conseguinte, ao custo este valor, menos passos de clculo sero
computacional da mesma. Conforme ilustra- necessrios descrio do fenmeno e, por
do na Figura 7-8, a descrio de uma deter- conseguinte, menor ser o custo computaci-
minada propriedade tempo-tempendente onal associado. Quanto menor este valor,
8. Dinmica Molecular

mais passos sero necessrios e, assim, mai- putacional, tendo em vista que nenhuma interao de
or o custo computacional. Infelizmente, o uso Coulomb seria avaliada a partir desta distncia. J o uso
de tempos de integrao muito elevados pode do corte b traria um maior custo computacional, in-
gerar instabilidades na trajetria, de forma cluindo as interaes entre o soluto e as molculas na
que valores intermedirios so usualmente faixa cinza da figura. Contudo, ao reduzir o custo com-
empregados, no caso da Figura 7-8, 2fs. putacional, o corte a potencialmente implicar na per-
Os valores de tempo de integrao mais frequente- da de informaes importantes, por ser muito prximo
mente empregados em simulaes baseadas em cam- do soluto. Assim, a distncia b seria prefervel.
pos de fora atomsticos (isto , todos os tomos so
descritos) ou de tomo unido so 1fs, 2fs ou 5fs. O uso
de 1fs realizado quando as molculas e suas ligaes
so tratadas como flexveis durante a simulao, en-
quanto 2fs requerem o tratamento das ligaes qumi-
cas como rgidas. J para o uso de 5fs, toda a molcula
tratada como rgida (ou seja, ngulos e diedros no
podem ser modificados), uma alternativa pouco utili-
zada no estudo de sistemas biolgicos. Em algumas si-
tuaes podem ser empregados tempos de integrao
menores que 1fs, mantida toda a flexiblidade da mol-
cula. Em outros casos, como em simulaes do tipo
coarse-grained, tempos de integrao de at 40fs.

Clculo de interaes no ligadas


Uma das partes mais custosas compu- Figura 8-8: Representao de regies de cor-
tacionalmente em simulaes por DM envolve te, a e b, a partir de um soluto, para clculo
o clculo das interaes no ligadas, isto , de interaes no ligadas.
interaes eletrostticas (calculadas por ter-
mos de Coulomb) e de van der Waals (calcu- A eliminao repentina da avaliao das interaes
ladas pelo potencial de Lennard-Jones). Para no ligadas atravs de um cut-off pode gerar instabili-
se ter uma ideia, enquanto o nmero de ter- dades ou erros na amostragem da simulao. Desta
mos ligados (isto , ligaes, ngulos e die- forma, estas interaes a longas distncias costumam
dros) proporcional ao nmero de tomos, o ser descritas por outros tipos de mtodos, como PME,
nmero de interaes no ligadas aumenta Ewald ou Campo de Reao (Reaction-Field), dentre
como funo do quadrado do nmero de to- outros. Este tratamento usualmente aplicado so-
mos do sistema. Assim, economizar custo mente s interaes de Coulomb, mais sensveis a efei-
computacional no clculo destas interaes tos originados de cortes nas interaes.
representa uma significativa reduo no custo
da simulao como um todo. Como estas in- 8.5. Estratgias de anlise
teraes decrescem rapidamente em intensi-
dade conforme dois tomos se distanciam no Um dos maiores desafios em um estudo
espao, possvel realizar cortes nestas inte- baseado em DM frequentemente reside mais
raes (cut-off). Em outras palavras, a partir na anlise e interpretao dos resultados ob-
da distncia definida por estes cortes, nenhu- tidos do que no preparo do sistema. De fato,
ma interao no ligada ser calculada (Figu- simulaes de protenas em gua podem ge-
ra 8-8). rar facilmente muitas dezenas de gigabytes
Por exemplo, consideremos dois possveis raios de de dados. Como retirar informaes destas
corte na simulao do soluto apresentado na Figura 8- trajetrias, quais informaes retirar e como
8. O uso do raio a representaria um menor custo com- interpretar estas informaes, no contexto do
8. Dinmica Molecular

assunto em estudo, envolvem muitas vezes sistemas biolgicos), o volume (no caso de
mais tempo do que a simulao computacio- simulaes NVT), a densidade e a energia to-
nal em si. tal do sistema. Todas estas propriedades de-
Os tipos de anlises a serem emprega- vem alcanar um patamar estvel, paralelo
das estaro intrinsecamente relacionados ao eixo x (tempo). Pode-se observar alguma
natureza do problema em estudo. Por variao no incio da simulao mas, em se-
exemplo, se estamos estudando uma protena guida, devem atingir este patamar e se man-
tentando mimetizar o ambiente nativo da ter neste nvel ao longo da simulao. Estas
mesma, em princpio, ela no pode se desna- costumam ser propriedades de rpida equili-
turar durante a simulao. Por outro lado, o brao em simulaes por DM.
estudo de membranas elimina esta preocu- Garantidas estas propriedades, pode-
pao mas nos traz a necessidade de avaliar mos passar anlise de aspectos mais com-
as propriedades dos lipdeos enquanto imer- plexos, como do comportamento da estrutura
sos num fluido. Adicionalmente, dados prvi- proteica ao longo da simulao. Neste grupo,
os sobre caractersticas estruturais e/ou as ferramentas mais comumente emprega-
funcionais das molculas em estudo, obtidos das incluem o RMSD, o RMSF, o raio de giro,
tanto por mtodos computacionais quanto distncias entre tomos ou grupamentos e a
por outras ferramentas experimentais so evoluo do contedo de estrutura 2ria como
fundamentais na concepo, preparo, execu- funo do tempo.
o e anlise de estudos por DM. Esta , fun- O RMSD (do ingls root mean square deviation ou
damentalmente, a razo pela qual este livro desvio quadrtico mdio) uma das principais estrat-
traz em si diversos mtodos experimentais. gias de anlise empregadas no estudo por DM de pro-
Neste momento, a adequao da amos- tenas (Figura 9-8A). Indica o quanto a estrutura da
tragem s propriedades em estudo assume protena de interesse se modifica ao longo de uma si-
importncia fundamental. Se buscamos estu- mulao, em relao estrutura de partida, normal-
dar o movimento de domnios de uma prote- mente cristalogrfica. Assim, usual que haja um
na, simulaes de dezenas de nanossegundos aumento progressivo no RMSD de uma protena, par-
no sero suficientes, requerendo potencial- tindo de 0, at um patamar, o que pode indicar a equili-
mente tempos prximos de microssegundos, brao do sistema. Este patamar pode variar em
possivelmente inviabilizando o estudo por DM. funo das caractersticas da protena mas, como um
De forma semelhante, a observao do eno- ponto de partida, podemos considerar um valor em
velamento de protenas por DM impraticvel torno de 3 quando todos os tomos do sistema so
na grande maioria dos casos, salvo em pe- empregados na medida. Valores acima deste podem
quenas protenas ou peptdeos, de qualquer sugerir movimentos maiores de alas, em relao ao
forma, requerendo no mnimo centenas de cristal, ou perda de estrutura 2ria, enquanto valores
nanossegundos. Por outro lado, reorientao menores tendem a indicar sistemas mais semelhantes
ou refinamento de cadeias laderais de resdu- referncia cristalogrfica.
os de aminocidos ou de ligantes em comple- Uma considerao importante quando realizamos
xos frmaco-receptor podem ser observados anlises de RMSD se refere ao fato de que esta anlise
frequentemente em algumas dezenas de na- oferece uma medida mdia de um conjunto de tomos,
nossegundos. selecionados para a anlise. Se todos os tomos de
As anlises de simulaes por DM de- uma protena so considerados, como no exemplo aci-
vem, preferencialmente, ser realizadas ob- ma, os valores observados trazem consido influncias
servando propriedades de complexidade de diferentes regies da protena. Por exemplo, nor-
crescente (o que costuma estar associado ao malmente conjuntos de hlices se modificam menos
tempo requerido equilibrao desta propri- durante uma simulao do que regies de alas. Caso
edade). Assim, as primeiras propriedades a faamos uma anlise de RMSD separada para estas
serem avaliadas so normalmente a presso regies, veremos hlices com valores menores e al-
(no caso de simulaes NPT, mais comuns em as com valores maiores do que aqueles considerando
8. Dinmica Molecular

flexibilidade do sistema (Figura 9-8B). Valores maiores


de RMSF sero, portanto, usualmente observados para
alas, e valores menores para hlices . Por outro lado,
regies de hlices apresentando valores elevados de
RMSF podem estar passando, durante a simulao, por
perda de sua estrutura 2ria.
Enquanto o RMSD apresenta um valor mdio, a cada
passo da simulao, para todos os tomos do sistema,
o RMSF apresenta um valor mdio, para cada tomo ou
resduo (usualmente mais til para protenas), ao longo
de todos os passos da simulao. Assim, valores de
RMSF para toda a trajetria podem diferir, por
exemplo, daqueles observados no incio e/ou no final
da simulao (Figura 9-8B).
Ainda, ao observarmos o quanto uma
protena muda sua forma 3D em relao ao
cristal ou a flexibilidade de cada resduo ao
longo da simulao, no temos informaes
diretas sobre o comportamento dos elemen-
tos de estrutura 2ria da protena. Um valor de
RMSD elevado pode tanto sugerir a desnatu-
rao de uma hlice quanto uma reorientao
da mesma que, contudo, pode se manter
enovelada. Da mesma maneira, um resduo
muito flexvel (conforme observado pelo
RMSF) no necessariamente ser encontrado
somente em alas. Para tal, devemos empre-
gar anlises especficas capazes de indicar
como a estrutura 2ria da protena se com-
porta na simulao por DM.
Figura 9-8: A) Helipticidade (vermelho) e Conforme observado no Captulo 2, a definio da
RMSD, e B) RMSF para a melitina. O RMSD foi estutura 2ria no algo to simples e direto como
calculado para toda a protena (azul) e para o possa parecer. Existe mais de uma forma de definir h-
esqueleto peptdico (verde). J o RMSF foi lices e folhas, e diferentes estratgias podem oferecer
medido como mdia para toda a trajetria resultados distintos. Por exemplo, o programa DSSP
(preto), para os primeiros 3 ns (roxo) e para descreve a estrutura 2ria a partir do padro de liga-
os ltimos 5 ns (laranja). es de hidrognio na sequncia polipeptdica. infor-
mao relacionada a interaes por ligao de
ambas regies juntas. Processo similar ocorre caso hidrognio o programa STRIDE adiciona parmetros
consideremos todos os tomos do sistema (maior torsionais relacionados ao esqueleto peptdico.
RMSD) ou simplesmente o esqueleto peptdico (menor Outro aspecto importante quanto anlise do
RMSD) (Figura 9-8A). comportamento da estrutura 2ria diz respeito escala
Na anlise por RMSD, todo resultado obtido ir de- de tempo na qual hlices e fitas se enovelam. Enquanto
pender da geometria de partida da simulao, usual- hlices usualmente se enovelam numa escala de
mente cristalogrfica. O RMSF (do ingls root mean tempo de centenas de nanossegundos, simulaes de
square fluctuation ou flutuao quadrtica mdia), em poucas dezenas de nanossegundos tero dificuldades
contrapartida, no apresenta esta dependncia, mas em prever estes fenmenos. O caso de fitas ainda
descreve a variao da posio dos tomos (ou resdu- mais complexo, exigindo escalas de tempo uma ordem
os de aminocidos) durante a simulao, indicando a de grandeza superiores.
8. Dinmica Molecular

Uso de estatstica Gibbs associada a eventos moleculares.


Portanto, informaes sobre constantes de
Embora seja prtica corriqueira, mesmo obrigat- equilbrio, constantes catalticas ou afinidades
ria, na grande maioria dos mtodos experimentais em- entre molculas no so usualmente
pregados no estudo de sistemas biolgios, o uso de acessveis, com preciso, atravs destas
mtodos estatsticos no , ainda, comum na anlise de tcnicas. Embora diversas tcnicas gerem
resultados obtidos em simulaes por DM. Isto se deve estimativas de energia livre associadas DM,
ao fato de que, em uma mesma simulao, so nor- como a perturbao da energia livre, o linear
malmente gerados centenas de milhares ou mesmo interaction energy e a metadinmica, cada
milhes de dados para uma mesma varivel (tamanho uma possui suas prprias limitaes, di-
da simulao dividido pelo tempo de integrao). O ficultando seu uso amplo em estudos por DM.
grande n assim obtido tender a tornar estatistica- Por fim, e no menos importante, temos
mente significativa mesmo variaes bem pequenas a dificuldade em obter amostragens
nas propriedades de interesse. compatveis com fenmenos observveis em
Com a reduo no custo dos computadores e au- experimentos ou fisiologicamente. Mesmo
mento em sua velocidade, assim como na melhoria dos nos maiores centros de supercomputao do
programas disponveis, uma nova abordagem vem se mundo, ainda no chegamos, na grande
apresentando, aproximando a anlise de simulaes maioria dos casos, em escalas de tempo
por DM de estudos experimentais convencionais. Tra- compatveis com o comportamento de
ta-se da realizao de mltiplas simulaes para um protenas em solues biolgicas. Por isso,
mesmo sistema. Assim, a informao a ser empregada devemos ter em mente que os resultados
nas anlises a mdia da informao gerada nas di- obtidos, por mais confiveis e corretos que
versas simulaes. sejam, no necessariamente representam,
estatisticamente, fenmenos medidos em
8.6. Limitaes atuais da DM soluo.

Como toda tcnica experimental, 8.7. E outras biomolculas?


simulaes por DM possuem limitaes
importantes que devem ser conhecidas pelos A maior parte da literatura, seja em li-
seus usurios de forma a reduzir a chance de vros seja em artigos, se refere ao estudo de
interpretaes equivocadas dos resultados protenas. cidos nucleicos, membranas e
obtidos. carboidratos vm sendo estudados com me-
Uma consequncia direta da realizao nos frequncia, comparativamente, ao longo
de clculos baseados na mecnica molecular, dos anos. Embora possa se justificar esta di-
ou seja, empregando campos de fora, a ferena em decorrncia do fato de que as
ausncia de eltrons. Este tipo de clculo no protenas so as molculas efetoras da infor-
considera os eltrons e, por conseguinte, os mao gentica, esta no a nica justificati-
resultados obtidos apresentam limitaes em va, tampouco protenas so os nicos
lidar com fenmenos envolvendo eltrons compostos biolgicos importantes para a
diretamente. Assim, simulaes por DM no manuteno da vida.
so capazes, por exemplo, de descrever O estudo de molculas de DNA, por
reaes qumicas, como as observadas na exemplo, vem ganhando importncia com o
ao de enzimas ou em processos de desenvolvimento de compostos capazes de
oxidao e reduo. Uma alternativa recente interagir, seletivamente, com regies espec-
para esta limitao envolve mtodos ficas do DNA, como o caso dos agentes an-
denominados hbridos entre a mecnica tineoplsicos. Enquanto molculas de DNA
molecular e a mecnica quntica. apresentam estruturas mais ou menos bem
Simulaes por DM apresentam grande definidas, molculas de RNA so extrema-
dificuldade em descrever a energia livre de mente versteis e complexas conformacio-
8. Dinmica Molecular

nalmente, a cada momento se mostrando co- Para cidos nucleicos, os campos de fora mais
mo capazes de atuarem em mais fenmenos amplamente utilizados so o AMBER e o CHARMM,
biolgicos. Valorizao semelhante vem sen- tanto para DNA quanto para RNA.
do observada para membranas e carboidra- A parametrizao de carboidratos, por sua vez,
tos que, progressivamente, deixam de ter est imersa em desafios devido sua elevada
papis passivos, simplesmente estruturais, complexidade estrutural e conformacional, de forma
passando a desempenhar papis ativos, sina- que uma sucesso de novos parmetros vm sendo
lizando diretamente mltiplas respostas em desenvolvida.
organismos. Por fim, o grupo de compostos mais
Assim, a construo de modelos computacionais desafiadores com relao disponibilidade
para o estudo de biomolculas deve incluir o mximo prvia de parmetros envolve os frmacos ou
de propriedades importantes ao desenvolvimento nor- moduladores da funo proteica que no es-
mal de suas funes, em condies nativas. Uma pro- to sob uso teraputico (genericamente cha-
tena inserida em membrana ir exigir a incluso da mados de ligantes). Em decorrncia de sua
membrana nas simulaes, da mesma maneira que variedade e originalidade qumica, extrema-
uma glicoprotena ir demandar a incluso da parte sa- mente difcil ter, de antemo, parmetros
cardica em seu estudo. prprios sua descrio. Assim, frequente a
Do ponto de vista da disponibilidade de necessidade de parametrizao dos ligantes
parmetros de campos de fora, diferentes em estudo, seguindo as caractersticas do
classes de biomolculas apresentam diferen- campo de fora em uso.
tes disponibilidades de parmetros. Por isso, Embora os quatro campos de fora citados
importante considerar todos os componen- possuam parmetros para um amplo espectro de
tes do sistema molecular quando da escolha grupamentos funcionais, para casos especficos
do campo de fora a ser empregado. Se a ferramentas como o servidor PRODRG (para o
nossa molcula em estudo uma glicoprote- GROMOS) e o GAFF (para o AMBER) so capazes de
na, no adianta empregar um campo de fora gerar parmetros, com graus variados de preciso, que
excelente para carboidratos se o mesmo no podem ser empregados no estudo de compostos
possui parmetros para o estudo de prote- orgnicos em geral.
nas.
Atualmente, os principais campos de fora so 8.8. Conceitos-chave
capazes de descrever a grande maioria das classes de
biomolculas. Originalmente, no entanto, o campo de Amostragem: refere-se descrio do compor-
fora AMBER foi desenvolvido para o estudo de cidos tamento conformacional de uma dada
nucleicos e protenas, o CHARMM para protenas, o molcula em uma simulao.
GROMOS para lipdeos e o OPLS para lquidos e
solventes. Com o passar do tempo, cada um desses Campo de fora: conjunto de equaes que
parmetros foi sendo aprimorado focando em descreve o comportamento molecular em
diferentes biomolculas, de forma que, hoje, alguns clculos de mecnica molecular. ajusta-
so empregados com maior freqncia para do para cada tipo de molcula a ser estu-
determinados sistemas por melhor descreverem suas dado.
propriedades (estruturais, conformacionais ou fsico-
qumicas). Campo de fora all atom (todos os tomos):
No caso especfico de protenas, os campos de considera todos os tomos do sistema ex-
fora citados acima descrevem de forma semelhante plicitamente.
sua estrutura, conformao e dinmica. No caso de
lipdeos, a maior parte dos estudos envolve os campos Campo de fora united atom (tomo unido):
de fora CHARMM e GROMOS, embora o ltimo oferea transforma grupos CH, CH2 e CH3 em uma
um ganho de velocidade de at nove vezes devido a sua nica partcula ou pseudotomo, reduzin-
natureza de tomo unido. do o nmero de tomos a ser descrito.
8. Dinmica Molecular

Grupos CH de anis aromticos so des- comportamento molecular descrito a


critos explicitamente. partir das equaes da mecnica quntica.

Campo de fora coarse-grained: transforma Minimizao de energia: tipo de clculo em que


grupos de tomos em partculas, reduzin- a energia do sistema reduzida atravs
do o custo computacional ainda mais do da otimizao das posies atmicas.
que campos de tomo unido.
Modelo de gua explcito: modelo no qual as
Condies peridicas de contorno: condio molculas de gua so descritas pela pre-
empregada em simulaes por DM que sena fsica de seus tomos.
impede o contato das molculas do siste-
ma com o vcuo, representando o sistema Modelo de gua implcito: modelo no qual as
de forma peridica. molculas de gua so descritas sem a
presena fsica de seus tomos.
Cut-off: representa um corte no clculo de inte-
raes no ligadas, reduzindo o custo NPT: condio de simulao na qual o nmero
computacional do clculo. A partir da dis- de partculas, a presso e a temperatura
tncia definida, estas interaes no so permanecem constantes.
mais calculadas.
NVT: condio de simulao na qual o nmero
Diedro prprio: ngulo formado por quatro to- de partculas, o volume e a temperatura
mos ligados em sequncia. Os primeiros permanecem constantes.
trs tomos definem um plano, enquanto
os ltimos trs definem outro plano. O Tempo de integrao: tamanho do passo em-
ngulo formado por estes dois planos o pregado em clculos de DM.
diedro.
Transferabilidade: em um campo de fora, se
Diedro imprprio: ngulo formado por quatro refere manuteno das propriedades de
tomos que no esto ligados em um grupamento funcional em diferentes
sequncia. empregado para garantir, por molculas. Assim, uma hidroxila alcolica
exemplo, a quiralidade de tomos e a pla- de um resduo de serina ter os mesmos
naridade de anis. parmetros que a mesma hidroxila em
uma treonina.
Dinmica molecular: tipo de clculo em que as
coordenadas dos tomos variam como 8.9. Leitura recomendada
funo do tempo.
MORGON, Nelson H.; COUTINHO, K. Mtodos
Equilibrao: perodo em que propriedades de de Qumica Terica e Modelagem Mo-
uma simulao de DM demoram para lecular. So Paulo: Editora Livraria da F-
atingir um patamar estvel. Diferentes sica, 2007.
propriedades podem requerer tempos di-
ferentes para equilibrar. LEACH, Andrew R. Molecular Modelling Prin-
ciples and Applications. 2.ed. Essex:
Mecnica molecular: tipo de clculo em que o Pearson Education Limited, 2001.
comportamento molecular descrito a
partir das equaes da mecnica clssica SANT'ANNA, Carlos Maurcio R. Glossrio de
ou de Newton. termos usados no planejamento de
farmacos (recomendaes da IUPAC para
Mecnica quntica: tipo de clculo em que o 1997). Quim. Nova, 25, 505-512, 2002.
9. Atracamento Molecular

Isabella A. Guedes
Camila S. de Magalhes
Laurent E. Dardenne

Predio do modo de ligao do GTP no stio de liga-


o da protena c-H-ras p21.

9.1. Introduo
9.2. Reconhecimento molecular
9.3. Mtodos de atracamento
9.4. Triagem em larga escala Figura 1-9: Exemplos de complexos
moleculares: (A) chaperona GroEL (PDB ID
9.5. Consideraes finais 1AON), (B) complexo DNA com protena DMT1
(PDB ID 3PT6) e (C) complexo da enzima HIV-1
9.6. Conceitos-chave protease com o inibidor indinavir (PDB ID
1HSG). As verses menores em B e C esto
em escala com A.

9.1. Introduo gantes e protenas alvo, com um papel crucial


em processos fisiopatolgicos, de grande
Para se compreender a maioria dos me- importncia para o planejamento racional de
canismos e processos celulares necessrio frmacos. Neste sentido a tcnica computa-
determinar e compreender o modo de intera- cional denominada atracamento molecular
o entre macromolculas (principalmente (molecular docking, em ingls), dedicada
protenas e cidos nucleicos) ou entre uma previso do modo de ligao e dos detalhes
macromolcula e uma pequena molcula li- do reconhecimento molecular protena-pro-
gante, que pode atuar como agonista/antago- tena e receptor-ligante (Figura 2-9), assume
nista ou substrato/inibidor em determinado cada vez mais papel de destaque em pesquisa
processo fisiolgico. associadas sade e biotecnologia.
Complexos macromoleculares podem
envolver dezenas ou centenas de componen-
tes, tais como na formao dos poros nuclea-
res, formao de ribossomos, formao de
chaperonas como a GroEL e na formao de
capsdeos de vrus (Figura 1-9). Quais prote-
nas interagem e o modo de interao so in-
formaes de fundamental importncia para
a compreenso do funcionamento de proces- Figura 2-9: Emprego do mtodo de
sos biomoleculares. atracamento molecular na predio do modo
Por outro lado, o conhecimento do mo- de ligao do GTP ao seu stio de ligao na
do de interao entre pequenas molculas li- protena c-H-ras p21.
9. Atracamento Molecular

Os mtodos de atracamento molecular ra, e seu stio de ligao ou stio receptor


envolvem desafios terico-computacionais considerado como o buraco da fechadura. A
formidveis, e se dividem em duas classes de possvel chave da fechadura o ligante, e a
mtodos distintos: receptor-ligante e recep- interao entre o ligante e a protena est re-
tor-protena. Embora protenas sejam os lacionada a uma das possveis aes de abrir
receptores mais comuns, outras biomol- ou trancar a porta.
culas tambm podem exercer este papel. O modelo chave-fechadura, contudo, in-
Diversos frmacos, por exemplo, modulam duz a uma interpretao de que a fechadu-
diretamente o DNA que, assim, passa a ser o ra, representada pela molcula receptora,
receptor alvo. Adicionalmente, frmacos rgida. Entretanto, no meio biolgico, tanto o
podem atuar modificando propriedades ligante quanto a protena so flexveis, po-
fsico-qumica da clula, sem necessa- dendo modificar a sua conformao durante
riamente envolver um processo de atraca- o processo de formao do complexo recep-
mento, como na modulao da fluidez de tor-ligante. Uma viso mais adequada deste
membranas plasmticas. Neste captulo, ser processo denominada de encaixe induzido,
dada mais nfase aos mtodos de atraca- onde tanto o ligante quanto a protena se
mento protena-ligante, contextualizados den- adaptam um ao outro durante o processo de
tro da rea de planejamento racional de reconhecimento molecular (Figura 3-9). De
frmacos baseado em estruturas. fato, a flexibilidade de uma protena est di-
retamente associada sua atividade, seja na
9.2. Reconhecimento molecular catlise de reaes enzimticas, na transdu-
o de sinais, no transporte atravs de pro-
As metodologias computacionais de tenas de membrana, ou em mudanas
atracamento protena-ligante esto baseadas conformacionais associadas a formas ativas e
no modelo chave-fechadura, proposto por no ativas de protenas.
Emil Fischer em 1894. Neste modelo, o re- Uma viso mais moderna do atracamento protena-
ceptor proteico associado uma fechadu- ligante descreve uma protena como um conjunto de

Figura 3-9: Graus de flexibilidade do receptor: (A) mobilidade do esqueleto peptdico da enzima
protease do HIV-1, (B) diversas conformaes de ala no stio de ligao do ATP enzima MAP
cinase p38, e (C) mudana conformacional da cadeia lateral de resduo na enzima cinase JNK3,
influenciada por diferentes inibidores.
9. Atracamento Molecular

estados conformacionais, com estruturas similares e trica, ou seja, a protena e o ligante


energeticamente equivalentes. Nesta viso, ao interagir possuem uma alta porcentagem de suas
com determinada protena, um ligante seleciona uma superfcies de contato moleculares, de-
determinada conformao entre as preexistentes (com finidas pelos raios de van der Waals
a qual possui maior afinidade) e desloca o equilbrio atmicos, em contato prximo;
qumico de tal forma que esta conformao tenha a ii) alta complementaridade de proprie-
sua proporo aumentada na populao total de esta- dades associadas s superfcies de con-
dos. importante ressaltar que estudos experimentais tato moleculares (esta complemen-
sugerem que estes dois mecanismos, encaixe induzido taridade pode ser tanto eletrosttica,
e seleo conformacional, podem coexistir em um onde grupos polares/carregados do li-
mesmo sistema ligante-receptor. Estas vises so gante ficam perto de grupos da protena
muito importantes para direcionar as metodologias de com polaridade/carga complementar,
atracamento protena-ligante no sentido de fornecer quanto relacionada complementarida-
um tratamento adequado do problema da flexibilidade de de regies hidrofbicas);
intrnseca do receptor proteico. iii) o ligante geralmente se liga em uma
A introduo da flexibilidade do receptor proteico conformao energeticamente favor-
um dos maiores desafios das metodologias de atraca- vel, e
mento protena-ligante. Em parte, isto se deve ao fato iv) interaes repulsivas entre ligante e
de que determinadas mudanas conformacionais im- protenas so minimizadas.
portantes para a funo de protenas so difceis de
serem caracterizadas experimentalmente e/ou com- Interaes protena-ligante
putacionalmente por envolverem milhares de graus de
liberdade. Tal complexidade leva estes processos a Os principais tipos de interaes inter-
ocorrerem em escalas de tempo desde microssegun- moleculares envolvidas no reconhecimento
dos a vrios minutos, envolvendo amplitudes de deslo- molecular protena-ligante incluem:
camento de at dezenas de angstroms (1 = 10-10 m). i) ligaes de hidrognio;
O reconhecimento molecular protena- ii) interaes de van der Waals;
ligante est baseado na complementaridade iii) interaes inicas;
de caractersticas fsico-qumicas e estrutu- iv) interaes hidrofbicas;
rais das molculas interagentes. As caracte- v) interaes do tipo ction-;
rsticas fsico-qumicas definem o grau de vi) interaes envolvendo anis arom-
afinidade e de especificidade do ligante pela ticos do tipo - e empilhamento-T, e
protena, e esto relacionadas com as intera- vii) coordenao com ons metlicos.
es intermoleculares existentes no comple-
xo. Estas interaes incluem as ligaes de O efeito hidrofbico origina-se do fato
hidrognio, as interaes provenientes do de que partes apolares do ligante e do stio
efeito hidrofbico, as interaes de van der ativo interagem com o solvente, sendo que
Waals, as interaes eletrostticas e as liga- estas se encontram solvatadas por camadas
es covalentes que possam ser formadas de molculas de gua mais organizadas. A
durante o processo de interao receptor-li- aproximao destas partes apolares, durante
gante. As caractersticas estruturais, por sua a interao protena-ligante, liberam e desor-
vez, esto associadas aos arranjos espaciais ganizam as molculas de gua, aumentando a
moleculares, dados por variaes na orienta- entropia do sistema e consequentemente fa-
o, posicionamento espacial e rotaes de li- vorecem a formao do complexo protena-
gaes qumicas das molculas interagentes. ligante. O aumento na entropia do solvente
Ligantes e protenas que possuem uma associado ao ocultamento das superfcies
alta afinidade um pelo outro exibem as se- apolares chamado de efeito hidrofbico.
guintes caractersticas: Este efeito destaca o papel fundamental
i) alto nvel de complementaridade es- do solvente aquoso no processo de reconhe-
9. Atracamento Molecular

cimento molecular protena-ligante. Em algu- receptor, do ligante e do complexo receptor-


mas situaes, as molculas de gua assu- ligante respectivamente.
mem tal importncia que sua presena A determinao destas constantes de-
considerada estrutural, sendo por isso deno- pende fortemente da temperatura, presso,
minadas molculas de gua estruturais. pH e fora inica da soluo. Para comparar a
Estas molculas esto ligadas forte- afinidade de molculas distintas por um mes-
mente ao stio ativo, e geralmente so con- mo receptor obtidas por grupos de pesquisa
servadas em stios de ligao de protenas distintos necessrio que os experimentos
homlogas. A presena destas molculas nos tenham sido realizados sob as mesmas con-
stios receptores de protenas podem interfe- dies.
rir no acesso do ligante ao stio ativo e modifi- Tanto as contribuies entlpicas quanto entrpicas
car o perfil de formao de ligaes de so importantes para a interao receptor-ligante.
hidrognio, contribuindo portanto diretamente Muitas vezes, h uma compensao entre estas duas
no sucesso das metodologias de atracamento contribuies, podendo a ligao ser determinada prin-
protena-ligante. cipalmente pela contribuio entlpica (compensando
Durante a formao do complexo ocorre a perda de uma perda entrpica) ou pela contribuio entrpica
entropia rotacional e translacional do ligante, alm de (compensando uma variao de entalpia positiva).
variaes na sua entropia vibracional e conformacional A energia livre de ligao de Gibbs pode
devido s restries de comprimento de ligao, defor- ser obtida atravs de mtodos tericos, em-
mao angular e ngulos diedrais. Estas tambm so bora a obteno de estimativas mais precisas
contribuies entrpicas importantes que ocorrem du- envolva um custo computacional muitas ve-
rante o processo de reconhecimento molecular. zes proibitivo para estudos de atracamento
O processo de reconhecimento molecu- molecular em larga escala envolvendo deze-
lar protena-ligante dirigido por uma combi- nas, centenas ou milhares de ligantes. Alguns
nao de efeitos entlpicos e entrpicos. dos mtodos mais comumente utilizados para
Estes efeitos podem ser estimados atravs clculo da energia livre incluem o mtodo de
da energia livre de ligao de Gibbs que, por perturbao da energia livre (PEL) e o mtodo
sua vez, est diretamente relacionada cons- de integrao termodinmica (IT), que procu-
tante de equilbrio de ligao Keq, a qual pode ram calcular diferenas entre as energias li-
ser medida experimentalmente. vres de ligao entre ligantes similares.
Embora esses mtodos sejam precisos, com erros
Glig = H - TS = -RT ln Keq de aproximadamente 1 kcal/mol, o alto custo compu-
tacional envolvido limita a sua utilizao. Esses mto-
onde H a variao de entalpia, T a tem- dos necessitam do conhecimento prvio da estrutura
peratura absoluta, S a variao de entropia de um complexo onde a protena est associada com
e R a constante universal dos gases. um ligante com estrutura similar ao que se quer estu-
A constante de equilbrio de ligao Keq dar. Alm disso, tendem a ter um pior desempenho
determinada experimentalmente com rela- quando os compostos envolvidos diferem de muitos
o a um estado de referncia (usualmente, tomos e/ou promovem mudanas conformacionais
para sistemas biolgicos, utilizando uma con- significativas no receptor. Mtodos ainda mais podero-
centrao de 1 M e 25 C). Esta constante de sos (conhecidos na literatura como Absolute Binding
equilbrio pode ser representada pela cons- Free Energies Methods), e com custos computacionais
tante de dissociao (Kd) ou de associao mais elevados, procuram calcular os valores das ener-
(Ka), as quais dependem da representao da gias livres de ligao sem a necessidade de se ter pre-
reao qumica sendo uma o inverso da outra. viamente como referncia o conhecimento da energia
livre de ligao de um ligante similar.
Kd = ([R][L])/[RL] Ka = [RL]/([R][L]) Uma metodologia mais simples e bas-
tante utilizada para a obteno de energias li-
onde [R], [L] e [RL] so as concentraes de vres de ligao a chamada Energia de
9. Atracamento Molecular

Interao Linear (LIE, do ingls Linear Interac- cas conformacionais das molculas intera-
tion Energy), a qual trata de estimar as ener- gentes so alguns dos maiores desafios para
gias livres a partir de simulaes de dinmica o desenvolvimento das metodologias de
molecular utilizando um campo de fora mo- atracamento molecular.
lecular clssico. Os clculos de energia livre
com esta metodologia envolvem simulaes 9.3. Mtodos de atracamento
somente nos estados inicial (ligante em solu-
o) e final (complexo receptor/ligante), po- O problema de atracamento molecular
dendo reduzir desta maneira os problemas de pode ser dividido em duas partes principais:
convergncia e custo computacionais associ- i) investigao e predio da confor-
ados s tcnicas PEL e IT. A ideia principal mao e orientao de uma molcula
considerar as contribuies polares e no po- ligante no seu stio de complexao;
lares separadamente. A parte polar ou ele- ii) predio da afinidade em um com-
trosttica pode ser tratada usando a plexo receptor-ligante, isto , a energia
aproximao de resposta linear, enquanto que livre de ligao (normalmente chamado
a no polar calculada usando uma frmula na literatura de funo scoring).
emprica calibrada sobre um conjunto de da-
dos experimentais: Atualmente existem diversos progra-
mas de atracamento molecular disponveis
Glig= VLJ lig - VLJ livre + Vel lig - Vel livre (Tabela 1-9), distinguindo-se principalmente
pelo mtodo de busca e pela funo de avali-
onde o fator emprico que surge das inte- ao de afinidade empregada. Podem ainda
raes no polares e o correspondente s diferir quanto possibilidade de serem utili-
interaes eletrostticas. V representa os va- zados atravs de portais ou localmente, de
lores mdios da energia de interao entre o utilizao gratuita ou paga, na necessidade de
ligante e o meio circundante, tanto para o ter- registro e na integrao com bancos de ligan-
mo eletrosttico (el) como para o de Lennard- tes e protenas.
Jones (LJ). O mtodo de Energia de Interao
Linear tem sido aplicado com sucesso em sis- Tabela 1-9: Portais de acesso para alguns
temas complexos, o que o torna um mtodo programas de atracamento molecular.
eficiente e mais rpido para a determinao
de energias livres de ligao, mas com um Portal Programa de
custo computacional suficientemente grande atracamento
para torn-lo praticamente invivel para estu- SwissDock EADock DSS
dos envolvendo vrias dezenas ou centenas
DockingServer AutoDock
de ligantes.
Outro mtodo utilizado para se obter melhores DockThor Portal DockThor
predies para as energias livres de ligao o MM- 1-Click Docking AutoDock Vina
PBSA (Molecular Mechanics Poisson-Boltzmann DOCK Blaster DOCK
Surface Area) e MM-GBSA (Molecular Mechanics
Docking At UTMB AutoDock Vina
Generalized-Born Surface Area). Estes mtodos utili-
zam simulaes de dinmica molecular do ligante/pro- ParDOCK Mtodo de Monte Carlo
tena livres e do complexo como base para os clculos PATCHDOCK PatchDock
da energia potencial mdia e de solvatao.
MEDock MEDock
A obteno de uma descrio suficien-
temente acurada e vivel computacionalmen- Preparao do sistema
te do papel das molculas de gua no
processo de reconhecimento molecular e a Uma etapa muito importante para um
quantificao correta das variaes entrpi- estudo de reconhecimento molecular prote-
9. Atracamento Molecular

na-ligante a preparao do sistema. O pri-


meiro passo nesta etapa a obteno das co-
ordenadas das estruturas tridimensionais das
molculas interagentes. Com relao pro-
tena, o Protein Data Bank atualmente a
maior fonte pblica de estruturas de prote-
nas e cidos nucleicos resolvidos experimen-
talmente atravs, principalmente, das
tcnicas de difrao de raios-X e RMN. Na au-
sncia de dados experimentais, estruturas tri-
dimensionais de protenas podem ser obtidas
utilizando-se tcnicas de predio de estrutu-
ras baseadas em modelagem comparativa ou
outros mtodos, tais como tcnicas baseadas
em fragmentos e tcnicas baseadas em pri-
meiros princpios.
As estruturas de ligantes podem ser Figura 4-9: Principais etapas de preparao
obtidas de vrios bancos de dados contendo do ligante.
milhares a milhes de ligantes no formato 1D
(smi, simplified-molecular input-entry des (tais como FINDSITE, SURFNET e LIGSITE),
system, tambm chamado de formato em energias de interao (Q-SITEFINDER e
SMILES) ou 2D (sdf, structure-data file GRID) e no uso de propriedades de stios de li-
format, tambm suporta formato 3D). A ge- gao conhecidos para efetuar uma busca
rao de uma estrutura 3D de um ligante a por padres (webPDBinder).
partir de uma representao 1D ou 2D (Figura Mesmo quando se tem uma estrutura
4-9) pode ser feita atravs de vrios progra- tridimensional determinada experimental-
mas tais como, CORINA, CONCORD, OMEGA, mente, importante que se faa uma investi-
Balloon e Multiconf-DOCK. gao minuciosa da estrutura na regio do
Uma vez que as estruturas 3D das mo- stio ativo procura de erros (programas co-
lculas tenham sido obtidas, vrios cuidados mo WHAT_IF, MOLPROBITY e PROCHECK po-
devem ser tomados durante a preparao dem ser utilizados para checar a qualidade da
dos arquivos de entrada para a realizao de estrutura e corrigir alguns tipos de erros).
clculos de atracamento molecular. Com re- Alguns dos possveis problemas que podem
lao ao stio de ligao em uma protena al- ser encontrados so:
vo, necessrio primeiramente que se tenha i) ausncia de tomos e/ou resduos;
a informao da localizao do mesmo. Em ii) mal posicionamento de cadeias la-
um segundo momento, muito importante terais, particularmente importante para
realizar um estudo das caractersticas fsico- os resduos de asparagina, glutamina e
qumicas e estruturais deste stio. No caso de histidina, onde as cadeias laterais po-
enzimas, um estudo (incluindo uma pesquisa dem apresentar inverses, tais como a
bibliogrfica) para obter o mximo de infor- inverso entre os tomos OG e ND na
maes sobre a reao enzimtica envolvida asparagina;
tambm deve ser realizado. iii) presena de duas ou mais confor-
Como a localizao do stio receptor de maes para um resduo ou conjunto de
uma protena nem sempre conhecida, mto- resduos representando configuraes
dos computacionais podem ser utilizados pa- alternativas para a mesma protena;
ra prever os possveis stios de ligao. Estes iv) conformaes no nativas, seja de
mtodos podem se basear em anlises geo- uma cadeia lateral ou de uma estrutura
mtricas e de volume para identificar cavida- 2ria, devido a efeitos de empacotamen-
9. Atracamento Molecular

to das protenas no cristal.

Um segundo aspecto de grande rele-


vncia na preparao do stio receptor es-
tabelecer o estado de protonao correto dos
resduos que participam da interao com o
ligante (Figura 5-9). muito comum que res-
duos como cistena, glutamato, aspartato e
histidina tenham estados de protonao no
usuais, influenciados e estabilizados pelo am-
biente eletrosttico do stio ativo. Este pro-
blema pode ser tratado utilizando estratgias
complementares, tais como:
i) anlise de diferentes complexos (mui-
tas vezes de protenas homlogas) com
distintos ligantes;
ii) estudo da literatura a respeito do
mecanismo de reao enzimtica;
iii) uso de programas para prever o Figura 5-9: Diferentes estados de protonao
pKa de cada resduo do stio ativo/re- dos aspartatos catalticos na estrutura da
ceptor (por exemplo, atravs do pro- HIV-1 Protease complexada com o inibidor
grama PROPKA). KNI-272. Estrutura determinada por difrao
de neutrons.
Com relao ao ligante, a etapa de pre-
parao envolve diversos cuidados, tais como formacionais relevantes no processo de re-
a determinao do seu estado de protonao, conhecimento molecular. Para estes casos, a
estado tautomrico, forma enantiomrica gerao de um conjunto de estruturas repre-
ativa biologicamente (Figura 4-9), a identifi- sentativas das mudanas conformacionais e a
cao das suas ligaes qumicas flexveis utilizao destas em mltiplos estudos de
(Figura 6-9) e, a partir destas, a gerao de atracamento a soluo indicada. LIGPREP
mltiplas conformaes. um exemplo de programa que gera tautme-
A determinao do estado de protona- ros, diferentes conformaes de estruturas
o do ligante uma tarefa no trivial, pois cclicas, diferentes estados de protonao de
envolve no s o pH mas tambm a interao acordo com o pH e diferentes estereoisme-
com o stio de ligao. Para tentar minimizar ros para um determinado ligante.
este problema, muitas vezes o atracamento importante ressaltar que dificilmente
feito levando-se em conta os vrios estados metodologia de busca ou funo avaliao
de protonao do ligante. capaz de corrigir ou superar os problemas
A gerao de vrias conformaes para causados por uma m caracterizao do es-
o ligante importante no caso de metodolo- tado de protonao de um ligante ou de res-
gias de atracamento que no levam em conta duos de aminocidos importantes presentes
a flexibilidade do mesmo e fazem o atraca- no stio de ligao. A correta preparao das
mento do ligante rgido para cada conforma- estruturas 3D do ligante e da protena, junta-
o representativa. Um caso especfico est mente com a correta determinao das mo-
relacionado a estruturas cclicas, cuja flexibi- lculas de gua estruturais, so etapas
lidade geralmente no levada em conside- cruciais para obter sucesso na utilizao das
rao durante o processo de atracamento. metodologias de atracamento receptor-li-
Ligantes contendo estruturas cclicas gante.
no aromticas podem exibir mudanas con- Algumas metodologias de atracamento
9. Atracamento Molecular

graus de liberdade conformacionais do indi-


navir, inibidor da protease do HIV-1.
A flexibilidade das molculas interagen-
tes considerada de maneira variada pelos
diversos mtodos de atracamento molecular.
Trs principais estratgias so utilizadas:
i) a protena considerada rgida, e
apenas os graus de liberdade translaci-
onais e rotacionais do ligante so consi-
derados, ou seja, o ligante fixado em
Figura 6-9: Graus de liberdade conforma- uma conformao rgida;
cionais do indinavir, representados por setas. ii) a protena considerada rgida, mas
todos os graus de liberdade do ligante
(translacionais, rotacionais e conforma-
mais sofisticadas procuram avaliar os dife- cionais) so levados em conta;
rentes estados de protonao do ligante e iii) a protena considerada totalmente
das cadeias laterais dos resduos durante a ou parcialmente flexvel, e todos os
execuo do algoritmo. eHiTS um exemplo graus de liberdade do ligante tambm
de programa que utiliza este tipo de estrat- so considerados.
gia.
Nas metodologias que utilizam a estra-
Mtodos de busca tgia i possvel considerar a flexibilidade do
ligante atravs da construo prvia de um
A explorao das diferentes orientaes conjunto de conformaes representativas e
e conformaes possveis para um ligante no a subsequente realizao de vrios clculos
stio de ligao do receptor alvo pelo progra- de atracamento molecular do tipo receptor-
ma de atracamento deve ser feita de tal for- rgido. De modo anlogo, com relao se-
ma a se encontrar a soluo tima, ou seja, o gunda estratgia, possvel considerar a fle-
mnimo global de energia. Se os efeitos entr- xibilidade da protena em atracamentos do
picos e entlpicos associados termodinmi- tipo receptor-rgido atravs da gerao de um
ca do sistema (ou seja, a energia livre do conjunto de conformaes representativo da
sistema) forem corretamente modelados pe- flexibilidade do receptor proteico.
la funo de energia, ento o mnimo global Os mtodos de busca dos programas de
de energia da superfcie investigada vai estar atracamento ligante-receptor podem ser
associado ao modo de ligao receptor-ligan- classificados basicamente em trs categorias:
te encontrado experimentalmente. Infeliz- mtodos de busca sistemtica, mtodos de
mente, devido s aproximaes introduzidas busca determinstica e mtodos de busca es-
no modelo de interao molecular, nem sem- tocstica. Alguns programas utilizam em
pre o mnimo global satisfaz este importante conjunto algumas destas diferentes aborda-
requisito. gens.
Um ligante pode variar sua orientao Nos mtodos de busca sistemtica, um
dentro do stio de ligao atravs de movi- conjunto de valores estabelecido para cada
mentos de translao e rotao (os chama- grau de liberdade. O objetivo explorar de
dos graus de liberdade translacionais e forma combinatria todos os graus de liber-
rotacionais). Alm destas modificaes, a dade da molcula durante a busca.
presena de ngulos diedrais rotacionveis Um dos principais exemplos de mtodos de busca
(isto , ligaes qumicas simples) do ligante sistemtica so os algoritmos de construo incre-
correspondem aos graus de liberdade confor- mental, um tipo de abordagem baseada em fragmen-
macionais. Na Figura 6-9 so mostrados os tos. Nestes algoritmos, o ligante dividido em
9. Atracamento Molecular

pequenos fragmentos rgidos. Em um primeiro mo- bilidade de que configuraes j visitadas venham a ser
mento, um fragmento-base ancorado no stio recep- amostradas novamente.
tor e, posteriormente, todos os outros fragmentos so Os mtodos baseados em DM podem ser utilizados
adicionados de forma incremental, at a reconstruo em uma estratgia conjunta com outros tipos de m-
total do ligante. Cada fragmento adicionado possui uma todos de busca. Nesta estratgia, mtodos sistemti-
ligao qumica rotacionvel com o fragmento base. A cos/incrementais/estocsticos so utilizados para
juno dos fragmentos feita com base em uma busca gerar um conjunto de configuraes protena-ligante
conformacional, a partir de um banco de valores de provveis. Nesta etapa, muito mais rpida, so intro-
ngulos diedrais, de maneira a investigar sistematica- duzidas restries associadas flexibilidade do ligante
mente a flexibilidade associada a este ngulo especfi- e da protena, e quanto descrio do efeito solvente
co. Exemplos de programas de atracamento que (uso da aproximao de solvente implcito). Na etapa
utilizam construo incremental so DOCK, FlexX, Gli- seguinte, muito mais custosa, simulaes de DM com
de, EUDOC e Surflex. solvente explcito e considerando flexibilidade total do
Nos mtodos de busca determinstica, receptor e do ligante so realizadas tomando-se como
dado um mesmo estado inicial de entrada, ponto de partida as melhores configuraes geradas
obtido sempre o mesmo resultado de sada. na etapa anterior.
Mtodos de simulao por dinmica molecu- Nos mtodos de busca estocstica o
lar e mtodos clssicos de minimizao de processo de otimizao envolve movimentos
energia so exemplos de mtodos de busca aleatrios associados aos graus de liberdade.
determinstica utilizados por programas de Este fato implica na possibilidade de se obter
atracamento molecular. diferentes resultados como sada para um
Uma das grandes vantagens dos mtodos de atra- mesmo estado inicial de entrada. A maioria
camento baseados em dinmica molecular que tanto dos mtodos desta classe no possui garantia
a influncia do solvente explcito quanto de todos os de convergncia. Portanto, em estudos de
graus de liberdade do complexo protena-ligante so atracamento molecular, vrias execues in-
explorados de forma mais natural. Entretanto, estes dependentes do algoritmo so necessrias
mtodos possuem um custo computacional elevado e, para se realizar uma boa investigao do sis-
dependendo da altura das barreiras de energia encon- tema. Monte Carlo, Recozimento Simulado
tradas, podem ficar presos em configuraes associa- (Simulated Annealing) e Algoritmos Evolucio-
das a mnimos locais do sistema. nistas so exemplos de mtodos de busca
Para tentar superar esta limitao, possvel utili- estocstica mais comumente utilizados por
zar algumas estratgias como, por exemplo, aumentar programas de atracamento receptor-ligante.
a temperatura de simulao, suavizar a superfcie de Glide, ICM, Prodock, AutoDock e LigandFit so
energia potencial e simular diferentes partes do siste- exemplos de programas que utilizam os m-
ma protena-ligante com diferentes temperaturas, todos estocsticos de Monte Carlo e Simula-
alm de iniciar os clculos de dinmica molecular com ted Annealing.
o ligante em distintas conformaes. O programa No mtodo de Monte Carlo padro (MC) gerada
CDOCKER um exemplo de programa que utiliza DM aleatoriamente uma conformao inicial do ligante e,
em conjunto com a gerao de vrias configuraes do em seguida, tomando esta configurao como refe-
ligante para serem utilizadas como pontos de partida rncia, gerada uma nova configurao. Se a configu-
em simulaes com altas temperaturas e potenciais rao gerada possuir energia menor que a
suavizados. configurao de referncia (V<0), a nova configurao
Ainda, uma tcnica que tem sido utilizada com bas- imediatamente aceita e tomada como referncia para
tante sucesso no estudo de interaes ligante-receptor a prxima iterao. Caso contrrio (V0), o critrio de
a metadinmica. Nesta tcnica, uma fora adicional Metroplis utilizado para decidir se a nova configura-
calculada durante a simulao de DM. Esta fora de- o ser aceita ou no. Esse processo repetido at
pende do prprio histrico da simulao, e tem a fun- que o nmero desejado de configuraes seja obtido.
o de facilitar a amostragem do espao O critrio de Metroplis consiste em se gerar um
configuracional do sistema, tentando diminuir a proba- nmero aleatrio entre 0 e 1 e compar-lo com o fator
9. Atracamento Molecular

de Boltzmann, exp(-V/kBT), considerando uma deter- de parada predeterminado seja encontrado.


minada temperatura absoluta T. Se o fator de O primeiro programa de atracamento utilizando AG
Boltzman for maior que o nmero aleatrio gerado a foi implementado por Judson e colaboradores em
nova conformao aceita. O mtodo de Simulated 1994, seguido por uma implementao no programa
Annealing (SA) pode ser considerado uma variao do DOCK. O programa de atracamento molecular GOLD
mtodo de Monte Carlo, onde o primeiro ciclo da simu- utiliza um AG para evoluir mltiplas subpopulaes de
lao realizado em uma alta temperatura, sendo que ligantes, onde a migrao entre as populaes per-
esta decai para temperaturas menores durante os ci- mitida. O programa AutoDock tambm possui imple-
clos seguintes. Diferentes variantes de SA utilizam dis- mentado um AG convencional e um AG Lamarckiano
tintas estratgias para o decaimento da temperatura. (AGL). O AGL um AG hbrido com um mtodo de bus-
O programa MCDOCK utiliza o mtodo SA, o qual ca local (BL). A cada gerao, uma porcentagem
tambm foi utilizado nas primeiras verses do progra- predefinida da populao aleatoriamente escolhida
ma Autodock. Prodock e ICM so exemplos de progra- para aplicao da BL. O indivduo resultante da BL
mas de atracamento que utilizam o mtodo de MC com substitui o indivduo original, em uma aluso teoria de
minimizao. Neste caso, aps um movimento aleat- Lamarck, sobre a hereditariedade de caractersticas
rio, a conformao otimizada por um mtodo basea- adquiridas durante o tempo de vida de um indivduo.
do em otimizao de energia antes que o critrio de No h garantia de que os algoritmos
Metrpolis seja aplicado. evolucionistas encontrem o mnimo global da
Uma das classes de algoritmos esto- superfcie de energia e, frequentemente, as
csticos mais utilizadas por programas de melhores solues encontradas ficam presas
atracamento molecular protena-ligante a em mnimos locais. Mltiplas execues do
de Algoritmos Evolucionistas (AE). Estes al- algoritmo so uma sada bvia para se tentar
goritmos so inspirados no processo biolgico uma explorao mais satisfatria do espao
de evoluo de populaes. Esses algoritmos de configuraes associado aos modos de
pertencem rea de Computao Evolucio- atracamento ligante-receptor. Porm, estes
nista (CE), que abrange vrios tipos de algo- problemas tendem a se tornar ainda mais im-
ritmos, tais como Algoritmos Genticos (AG), portantes e difceis de enfrentar quando se li-
Estratgias de Evoluo (EE), Evoluo Dife- da com ligantes altamente flexveis (com
rencial (ED), Otimizao por Colnia de For- mais de 10 ligaes qumicas rotacionveis)
migas (OCF), Busca Tabu (BT) e Enxame de e/ou se considera a flexibilidade da protena
Partculas (EP). Dentre esses, diversas vari- em algum nvel.
antes de Algorimos Genticos tm sido im- O programa DockThor (disponvel atravs de portal
plementadas para o atracamento de ligantes web www.dockthor.lncc.br) tenta minimizar este pro-
flexveis. blema atravs do uso de um AG que procura preservar
AGs so baseados no princpio de so- e obter em uma nica execuo do algoritmo uma
brevivncia do mais adaptado, proposto pela multiplicidade de modos de ligao protena-ligante.
teoria da evoluo de Darwin. Ao contrrio Devido alta complexidade e modalidade (presena de
dos mtodos MC e de outros mtodos esto- muitos mnimos locais na superfcie de energia) desta
csticos que requerem uma nica configura- busca, principalmente para ligantes altamente flex-
o inicial, AGs trabalham com uma veis, uma questo crtica a preservao de diversida-
populao de indivduos, onde cada indivduo de til na populao. O objetivo permitir a
representa uma possvel soluo para o pro- investigao de mltiplas regies de alta aptido (ni-
blema a ser resolvido. A cada gerao, novos chos) em paralelo, de tal forma a se reduzir as chances
indivduos so gerados atravs da troca de de convergncia para timos locais de baixa qualidade.
genes entre dois indivduos pais (recombi- Para a preservao de mltiplas solues na popula-
nao) e de mudanas aleatrias nos valores o foi proposto o mtodo MRTS (Modified Restricted
dos genes (mutao). Este processo re- Tournament Selection), baseado no mtodo de seleo
petido de maneira que a populao evolua por torneio restrito (RTS). O mtodo MRTS possui a
para melhores solues, at que um critrio vantagem de priorizar a preservao de diversidade
9. Atracamento Molecular

til na populao, ou seja, incentiva a preservao de funes de avaliao, que variam principal-
mltiplas solues de alta aptido na populao ao mente no nmero e tipo de termos, na sua
mesmo tempo em que aumenta a probabilidade de se complexidade matemtica e na forma de pa-
encontrar o mnimo global. rametrizao. Para reduzir o custo computa-
Os programas MolDock, PRO_LEADS, SODOCK, cional, uma funo mais simples costuma ser
PSO@Autodock, FIPSDOCK e Autodock Vina so utilizada durante a avaliao das conforma-
exemplos de programas de atracamento que utilizam es geradas pelo mtodo de busca. J nas
estratgias de otimizao estocstica. O MolDock utili- etapas finais do atracamento molecular, uma
za um algoritmo de evoluo diferencial. Os programas funo de avaliao mais complexa e sofisti-
SODOCK, PSO@Autodock e FIPSDock utilizam variantes cada empregada de forma a obter uma
do algoritmo de otimizao por enxame de partculas maior acurcia na predio do correto modo
(particle swarm). O PRO_LEADS utiliza um algoritmo de ligao e na predio da afinidade do li-
de busca Tabu. O programa AutoDock Vina implementa gante pelo receptor. As funes de avaliao
um algoritmo similar ao utilizado pelo programa de mais utilizadas no atracamento molecular re-
atracamento ICM. Neste algoritmo, uma sucesso de ceptor-ligante podem ser classificadas em
passos consistindo de mutao e busca local so efe- trs tipos: baseadas em campo de fora, em-
tuados, onde o resultado de cada passo aceito ou no pricas e baseadas em conhecimento.
de acordo com o critrio de Metrpolis. Funes de avaliao baseadas em
campos de fora constituem-se em uma so-
Funes de avaliao ma de termos advindos de algum campo de
fora molecular clssico, cuja parametrizao
Os mtodos de busca geram uma gran- pode ser feita utilizando dados experimentais
de quantidade de conformaes do ligante ou provenientes de clculos qunticos (po-
durante o atracamento molecular. As funes dendo tambm ser a combinao de ambos).
de avaliao so combinadas aos mtodos de Os termos de energia so divididos em ter-
busca para avaliar a qualidade destas confor- mos no-ligados (associados a interaes de
maes de forma a orden-las de acordo com van der Waals, eletrostticas e ligaes de hi-
a sua afinidade pelo receptor. Uma funo de drognio) e termos ligados (representando
avaliao deve ser capaz de distinguir o modo normalmente a energia associada toro de
de ligao experimental dos outros encontra- ligaes qumicas). Outros termos so nor-
dos pelo mtodo de busca (ou seja, previso malmente utilizados para tentar incorporar
do modo de ligao). Tambm deve ser capaz efeitos adicionais, tais como energia de sol-
de ordenar corretamente uma lista de ligan- vatao e interaes hidrofbicas. Exemplos
tes com relao s suas afinidades pela ma- de campos de fora moleculares clssicos
cromolcula receptora (triagem virtual) e so GROMOS, AMBER, CHARMM e MMFF94.
prever as respectivas energias livres de liga- As funes empricas so aquelas de-
o (predio de afinidade). Sendo assim, o senvolvidas utilizando complexos receptor-li-
desempenho de uma funo de avaliao est gante com estruturas tridimensionais e
diretamente relacionado sua capacidade de afinidades conhecidas. A partir destes dados,
predio do correto modo de interao do li- seus termos so automaticamente ajustados
gante e da sua afinidade pelo receptor alvo. de forma a reproduzir os dados experimentais
Estas funes so modelos matemti- de afinidade de ligao com a maior acurcia
cos, geralmente lineares, formados por dife- possvel. Neste sentido, estas funes se ba-
rentes termos relacionados s propriedades seiam na ideia de que a energia livre de liga-
fsico-qumicas envolvidas na interao de o pode ser relacionada atravs do
uma pequena molcula ligante com seu stio somatrio de variveis no correlacionadas.
de ligao a um receptor. De acordo com o Cada varivel possui um fator relativo de es-
objetivo e a etapa do estudo de atracamento calonamento, parametrizado de forma a ma-
molecular, podem ser utilizadas diferentes ximizar a correlao com os dados
9. Atracamento Molecular

experimentais. A representao geral de uma construo de uma funo baseada em co-


funo emprica nhecimento podem estar mal representadas
no conjunto de treinamento utilizado ou ainda
G = Wi . Gi mal parametrizadas, tornando o uso destas
funes restrito. Uma vantagem deste tipo de
em que Wi o coeficiente de cada termo Gi funo que, devido relativa simplicidade de
referente determinada propriedade qumica seus termos, elas conseguem ser to rpidas
considerada. A parametrizao de uma fun- quanto as funes empricas. Alguns
o emprica tem como objetivo encontrar os exemplos de funes baseadas em conheci-
valores de Wi que maximizam a correlao da mento so DrugScore, RF-Score e PMF.
energia de ligao total (G) com os dados importante notar que no existe uma
experimentais de afinidade de um conjunto de funo de avaliao universal, assim como
complexos receptor-ligante que treinam o uma classe de funo no necessariamente
modelo (chamado conjunto de treinamento). melhor que outra ou geral o suficiente para
Cada funo emprica se diferencia no nmero ser utilizada com sucesso em qualquer estu-
e nos tipos de termos utilizados, bem como do de atracamento. Para obter maior eficin-
na forma e no conjunto de treinamento utili- cia e confiabilidade, o ideal utilizar a funo
zado para a sua parametrizao. So de avaliao que mais se adequa ao problema
exemplos de funes empricas ChemScore, a ser pesquisado. Por exemplo, necessrio
X-Score e GlideScore. saber se todos os tipos de tomos do recep-
Outro grupo de funes de avaliao tor e do ligante em estudo so definidos na
so as baseadas em conhecimento. A inspira- funo de avaliao escolhida. Ainda, se a
o para este tipo de funo provm da me- funo de avaliao foi parametrizada e tes-
cnica estatstica em sistemas de fluidos tada para a classe do receptor e do ligante
simples, que empregam potenciais de fora estudado. Assim, para estudo de carboidra-
mdia (potentials of mean force, PMF), sendo tos, o ideal utilizar uma funo que tenha
posteriormente modificadas para serem em- includo ligantes desta classe no conjunto de
pregadas em estudos de predio de estrutu- treinamento utilizado na parametrizao. Re-
ras de protenas e estimao de constante de alizar estudos tentando reproduzir complexos
afinidade receptor-ligante. determinados experimentalmente (o chama-
Estas funes so construdas a partir do redocking) tambm auxilia a diagnosticar
de anlises estatsticas entre os pares de se a funo de avaliao escolhida capaz de
tomos dos complexos receptor-ligante re- reproduzir os dados experimentais do com-
solvidos experimentalmente. Seus termos plexo receptor-ligante (mais frequentemente
so derivados a partir das frequncias obser- protena-ligante).
vadas de interaes especficas pr-definidas Estimar a constante de afinidade, como
entre os pares de tomos de cada complexo. dito anteriormente, ainda um desafio im-
Com isto, as funes baseadas em conheci- portante na rea da modelagem molecular.
mento tendem a capturar efeitos de intera- Em estudos de triagem virtual, por exemplo,
es mais especficas e de modelagem mais interessante utilizar mais de uma funo de
complexa. Da mesma forma que as funes avaliao e comparar os resultados obtidos
empricas, estas funes se diferenciam pelo para chegar a um consenso. Entretanto, a
tamanho do conjunto de treinamento e no tipo anlise qualitativa dos modos de ligao en-
de interaes receptor-ligante consideradas contrados, tais como a presena de intera-
durante a parametrizao. Uma desvantagem es intermoleculares consideradas es-
das funes baseadas em conhecimentos senciais para o alvo estudado, de grande
que dependem de um conjunto de treinamen- importncia na deteco de falso-positivos.
to bastante amplo para a parametrizao.
Alm disso, as interaes necessrias para
9. Atracamento Molecular

Flexibilidade da Protena ormente:


i) mtodos associados ao mecanismo
A introduo da flexibilidade da protena de encaixe induzido, onde so conside-
pelos algoritmos de atracamento molecular rados os movimentos locais da protena;
atualmente um dos principais desafios desta ii) mtodos associados ao mecanismo
rea de pesquisa. Isto se deve ao grande n- de conjunto de conformaes (ensemble
mero de graus de liberdade a serem conside- docking em ingls), em que so consi-
rados, principalmente relacionados aos graus derados movimentos de grande e larga
de liberdade dos movimentos do esqueleto escala; e
peptdico e das cadeias laterais dos resduos iii) mtodos hbridos, que levam os dois
de aminocidos da protena. tipos de mecanismos e procuram consi-
Nos ltimos anos, vrias metodologias derar um amplo espectro de movimen-
que procuram incorporar este efeito tm sido tos da protena.
propostas e descritas na literatura, impulsio-
nadas por dois importantes fatores. O pri- Uma das estratgias mais simples de introduzir a
meiro que o tratamento da flexibilidade da flexibilidade local da protena a de suavizar o potenci-
protena cada vez mais reconhecido como al repulsivo entre tomos do ligante e da protena, isto
um aspecto de extrema relevncia em estu- , suavizar o termo de r-12 do potencial de Lennard-Jo-
dos de planejamento racional de frmacos nes, tcnica esta conhecida na literatura como Recep-
baseado na estrutura do seu receptor biol- tor Soft-Docking. Na prtica, isto permite que os
gico. So crescentes as evidncias de que al- ligantes possam se acomodar mais facilmente nas re-
vos moleculares de grande interesse para a gies de interao, levando em conta a flexibilidade
indstria farmacutica passam por importan- inerente da protena. Do ponto de vista da superfcie de
tes mudanas conformacionais quando inte- energia isto corresponde a alargar as regies de mni-
ragindo com ligantes. O segundo fator foi o mo, evitando assim que um eventual posicionamento
grande crescimento do poder de processa- incorreto de um tomo da protena (dentro da aproxi-
mento dos computadores ocorrido nos lti- mao de atracamento com a protena rgida) possa
mos anos, o que tornou possvel o fazer explodir a energia de interao protena-ligante,
desenvolvimento de novas metodologias, al- mesmo que esta esteja muito prxima da observada
goritmos e abordagens, que seriam inviveis experimentalmente.
em estudos de planejamento de frmacos h Esta tcnica tambm utilizada para acelerar a
poucos anos. convergncia da busca conformacional. Normalmente,
A flexibilidade da protena pode estar a intensidade da suavizao utilizada de forma de-
associada a diferentes tipos de movimentos, crescente, permitindo que no incio do processo de
tais como movimentos locais (como o movi- busca possa haver certa sobreposio entre os tomos
mento de cadeias laterais de resduos de do ligante e da protena. Muitos programas de atraca-
aminocidos localizados no stio de ligao), mento utilizam esta suavizao embutida na sua fun-
movimentos de mdia escala (como o rear- o de avaliao. Uma das desvantagens deste mtodo
ranjo de alas ou reposicionamento de hli- que ele no capaz de levar em considerao mu-
ces) e movimentos de grande escala, danas conformacionais mais significativas do recep-
associados a movimentos de domnios da tor. Outra desvantagem a possibilidade de se
protena (Figura 3-9). Dependendo dos tipos introduzir erros na avaliao da energia de interao li-
de movimentos que se quer incorporar, dife- gante-protena e de levar muitas vezes obteno de
rentes tipos de metodologias so passveis de falsos positivos e/ou a um conjunto de solues poss-
serem utilizadas para um tratamento ade- veis cujas energias encontram-se muito prximas, no
quado. De maneira geral, as metodologias sendo possvel discrimin-las energeticamente.
existentes podem ser divididas em trs cate- Os mtodos de atracamento mais so-
gorias, associadas aos trs mecanismos de fisticados que procuram incorporar a flexibi-
encaixe ligante-protena mencionados anteri- lidade local da protena simulando um
9. Atracamento Molecular

processo de encaixe induzido fazem isso ge- grama ICM/IFREDA utiliza o mtodo de Monte
rando diversas conformaes da protena Carlo seguido de minimizao de energia para
concomitantemente com o processo de busca otimizar cadeias laterais e/ou partes flexveis
conformacional do ligante dentro do stio de do esqueleto peptdico. Os programas
ligao. Essa abordagem implica em selecio- AutoDock4 e GOLD utilizam algoritmos gen-
nar graus de liberdade adicionais que sejam ticos para introduzir flexibilidade nas cadeias
representativos da flexibilidade da protena laterais de resduos. O programa
durante o processo de encaixe-induzido. Nor- ROSETTALIGAND utiliza um mtodo de Monte
malmente, so selecionados graus de liber- Carlo para explorar simultaneamente os
dade associados a cadeias laterais de graus de liberdade associados ao ligante, s
resduos importantes no stio receptor e, em cadeias laterais dos resduos e ao esqueleto
alguns casos, a regies especficas do esque- peptdico da protena.
leto peptdico da protena, tais como alas Os mtodos que se baseiam no meca-
flexveis que estejam prximas do stio e que nismo de conjunto-de-conformaes fazem
possam interagir diretamente com os ligan- uso de um nmero discreto de conformaes
tes. representativas da flexibilidade da protena ao
O problema com esta abordagem que invs de considerar a flexibilidade da protena
a complexidade do processo de busca cresce explicitamente durante o processo de atraca-
a cada grau de liberdade adicionado, aumen- mento molecular (Figura 7-9). Estas confor-
tando o custo computacional e diminuindo a maes podem ser obtidas de distintos
probabilidade do algoritmo encontrar o mni- experimentos, utilizando as tcnicas de difra-
mo global da superfcie de energia. neces- o de raios-X e/ou RMN. Tambm podem ser
srio que o modelador faa uma escolha obtidas a partir de modelos gerados por tc-
criteriosa de quais cadeias laterais deve con- nicas de predio de estruturas de protenas,
siderar flexveis. No caso de cadeias laterais a partir de simulaes de dinmica molecular
de resduos de aminocidos, a busca confor- ou utilizando a tcnica de modos normais. H
macional pode ser feita pela investigao evidncias significativas na literatura de que o
exaustiva dos ngulos torcionveis da cadeia uso de mltiplas conformaes aumenta sig-
ou atravs de uma busca discreta entre con- nificativamente a probabilidade de obter su-
formaes preferenciais atravs da utilizao cesso em estudos de atracamento molecular.
do uso de bibliotecas de rotmeros. impor- Trs questes importantes que se colo-
tante ressaltar que mesmo com a utilizao cam a respeito destas abordagens e que dife-
destas bibliotecas, a incluso da flexibilidade renciam os diversos mtodos descritos na
de vrias cadeias laterais pode facilmente le- literatura: i) como utilizar as diversas confor-
var a uma exploso combinatorial que preju- maes da protena; ii) como gerar e selecio-
dica o desempenho dos algoritmos de nar as conformaes da protena; e iii) como
atracamento. ordenar os compostos considerando os atra-
Outra estratgia comumente utilizada camentos dos ligantes nas diversas confor-
para introduzir certa acomodao protena-li- maes da protena.
gante no processo de atracamento envolve o Com relao ao modo de utilizao das
emprego de um algoritmo de otimizao lo- conformaes, a forma mais simples e usual
cal, tais como aqueles baseados na minimiza- considerar cada conformao da protena
o do gradiente ou em Monte Carlo, para como rgida e realizar um estudo de atraca-
reinvestigar as configuraes ligante-protena mento molecular para cada conformao se-
geradas durante o processo de busca. O pro- lecionada, embora o custo computacional
grama Prodock um exemplo que utiliza a cresa proporcionalmente ao nmero de
minimizao por gradiente durante o proces- conformaes da protena selecionadas. Uma
so de busca para incorporar a flexibilidade em metodologia de pr-seleo das conforma-
regies da cadeia principal da protena. O pro- es que reduza significativamente o seu n-
9. Atracamento Molecular

mero, sem grande perda da informao sobre melhor soluo encontrada nos experimentos de atra-
a flexibilidade do receptor (por exemplo, camento onde cada ligante atracado em cada uma
atravs de agrupamento por semelhana ou das conformaes representativas da flexibilidade da
construo de clusters), algo extremamen- protena.
te desejvel. A metodologia de grade uma estratgia utilizada
Outra forma possvel o uso de grades de energia para aproximar o clculo das energias eletrostticas e
(Figura 8-9) combinadas. Os mtodos de grade de de van der Waals (outros termos da funo energia
energia combinada consistem na combinao ou juno tambm podem ser utilizados), reduzindo drastica-
de diversas estruturas/conformaes rgidas de uma mente o custo computacional do clculo da energia de
mesma protena, em uma nica grade de energia. A interao intermolecular protena-ligante. Uma grade
combinao das grades de energia pode ser realizada de energia pode ser representada como uma malha de
de vrias maneiras. Geralmente, a mdia ou a mdia pontos tridimensional, em que cada ponto armazena o
ponderada entre estas grades calculada, gerando potencial total eletrosttico e de van der Waals. Os va-
uma nica grade. O programa DOCK foi o primeiro a lores da energia so obtidos atravs da interpolao
implementar conjuntos de grades de energia para a in- dos valores armazenados nos oito pontos que definem
cluso da flexibilidade da molcula receptora. uma clula cbica da grade. O espaamento entre os
Osterberg e colaboradores compararam vrios pontos da grade (discretizao, ) determina o nvel da
mtodos de grade combinada no programa AutoDock. aproximao: quanto maior a discretizao, menor a
Um deles utilizava a mdia entre as grades, outro o va- preciso no clculo da energia de interao intermole-
lor mnimo e os outros dois utilizavam mdias ponde- cular. O tamanho e formato da grade de energia dado
radas. Os resultados obtidos demonstram que a em funo das suas trs dimenses ( , e ). O
utilizao de mdias ponderadas melhor do que a uti- centro da grade de energia pode ser definido de diver-
lizao da mdia e do mnimo. O programa FlexE apre- sas formas, como por exemplo centralizar no tomo
senta um mtodo semelhante, onde a principal de um resduo de aminocido especfico do stio ativo
diferena reside na forma de tratamento das regies ou de um ligante de referncia. Exemplos de programa
dissimilares das estruturas do receptor. Os resultados que utilizam grade de energia so GOLD, Glide,
obtidos pelo programa FlexE so de qualidade similar AutoDock Vina e DockThor.

Figura 7-9: Atracamento molecular utilizando conjunto de conformaes (adaptado de Guedes e


colaboradores, 2013).
9. Atracamento Molecular

Figura 8-9: Representao de uma grade de energia cbica centrada no stio de ligao do
inibidor indinavir da protease do HIV-1, com as dimenses de cada eixo ( , e ). Em
destaque est representada a indexao dos oito pontos de uma clula e a discretizao da
grade (r). As energias de interao so obtidas da interpolao dos valores, de cada termo da
energia, pr-armazenados nos oitos pontos da clula cbica que contm um determinado
tomo do ligante.

Com relao gerao das conforma- um ligante) ou na sua forma holo (complexada a um li-
es, as tcnicas de simulao de dinmica gante). Resultados descritos na literatura indicam que
molecular e modos normais so as mais utili- simulaes na forma holo produzem resultados me-
zadas. Associada ao uso destas tcnicas, est lhores, dando uma descrio mais adequada do stio de
a importante questo de qual a amplitude de ligao. Na realidade, para no se obter um vis para
movimentos do receptor proteico necess- um determinado modo de ligao de um ligante espe-
ria considerar. Ou seja, se estamos tratando cfico, a estratgia recomendada a de se realizar vri-
da flexibilidade local de um receptor (como o as simulaes com ligantes distintos. Estes modos de
movimento de uma ala) ou de movimentos ligao podem ser obtidos de resultados experimentais
de mais larga escala (como movimentos de ou a partir de resultados obtidos de simulaes de
domnios da protena). Esta importante ques- atracamento molecular considerando vrios ligantes e
to est diretamente relacionada com a ca- o receptor rgido.
pacidade de amostragem do espao de A questo do nmero de conformaes
configuraes do receptor por parte da tcni- e de como selecionar aquelas representativas
ca de simulao utilizada. do processo em estudo ainda uma questo
Um exemplo de metodologia que usa a tcnica de em aberto e possivelmente dependente do ti-
dinmica molecular o Relaxed Complex Scheme, que po de sistema avaliado. Uma das metodologi-
utiliza simulaes longas de dinmica molecular consi- as mais populares busca capturar a
derando todos os tomos do sistema ligante-protena- diversidade estrutural presente na simulao
solvente. A escala de tempo das simulaes variam de utilizando o agrupamento de configuraes a
2 ns a 0,5 s. Uma questo importante a respeito des- partir do valor de RMSD (Root-Mean-Square
ta tcnica se as simulaes devem ser realizadas Deviation). importante ressaltar que, neste
com a protena na sua forma apo (no complexada a processo, ao invs de se utilizar a estrutura
9. Atracamento Molecular

de toda a protena, so normalmente utiliza- os quais se espera estarem associados aos movimen-
das as informaes relativas a alguns resdu- tos funcionais de larga escala da protena. A partir da
os chave no stio de ligao da protena. diagonalizao da matriz Hessiana, obtida das deriva-
Normalmente, por questes associadas ao das segundas da funo energia potencial associada a
custo computacional, procura-se selecionar um campo de fora clssico, obtm-se as direes de
um conjunto entre 5-10 conformaes. movimento dos tomos (associadas aos autovetores
A questo de como ordenar os com- da matriz) e as frequncias de vibrao (associadas aos
postos levando-se em conta os atracamentos respectivos autovalores). Verses mais simplificadas
do ligante nas diversas conformaes da da tcnica de modos normais tm sido desenvolvidas
protena tambm no uma questo fcil de nos sentido de permitir o uso da tcnica em sistemas
ser respondida. Uma soluo simplesmente muito grandes. O mtodo conhecido como Elastic
utilizar a mdia das energias dos ligantes com Normal Mode simplifica o sistema molecular de tal
relao s mltiplas conformaes da prote- modo que apenas os carbonos alfa da protena, conec-
na. Outra possibilidade considerar a me- tados por potenciais harmnicos, sejam considerados.
lhor/menor energia obtida por um ligante ao J a tcnica PCA utiliza as configuraes geradas
interagir com determinada conformao. por uma DM para identificar os graus de liberdade co-
Existem estudos na literatura que mostram a letivos da protena. Esta tcnica tambm implica na di-
importncia de se considerar ligantes que se agonalizao de uma matriz, nesta caso, a matriz de
ligam fortemente a um conjunto especfico (e correlao dos movimentos dos tomos da protena,
muitas vezes de baixa probabilidade de ocor- sendo que os autovetores associados aos maiores au-
rncia) de configuraes da protena. So jus- tovalores se referem aos movimentos de mais larga
tamente estes casos os mais interessantes, escala.
pois abrem oportunidades de desenvolvimen- Dependendo do sistema em estudo
to de novos frmacos associados a modos de desejvel que seja feita uma combinao das
ligao no usuais. tcnicas anteriormente descritas. Neste sen-
Outra abordagem utilizada a reavalia- tido, conformaes geradas utilizando a tc-
o da energia de ligao utilizando metodo- nica de Modos Normais para refletir
logias mais sofisticadas. Um dos grandes movimentos amplos da protena podem servir
problemas com esta tcnica o custo com- de base para estudos de DM relativamente
putacional das simulaes de dinmica mole- curtas. Estas iro refletir o arranjo local das
cular. Este problema se torna ainda mais cadeias laterais associado quela regio do
importante quando esto envolvidos movi- espao de configuraes.
mentos de larga escala da protena. Nestes Estas configuraes utilizadas no con-
casos possvel que tcnicas como DM ace- texto da tcnica de conjunto de conformaes
lerada, tais como Replica Exchange, metadi- podem ser investigadas com mtodos de
nmica e DM utilizando a aproximao para atracamento baseados no mecanismo de en-
solvente implcito possam ser utilizadas para caixe induzido ou em uma abordagem utili-
se obter uma melhor amostragem do espao zando grades de energia combinada.
das configuraes.
O uso das tcnicas de Anlise de Modos 9.4. Triagem em larga escala
Normais e Anlise de Componentes Principais
(PCA, Principal Component Analysis) para in- Cada vez mais as indstrias farmacuti-
vestigar movimentos de larga escala de pro- cas e os grupos de pesquisa que trabalham na
tenas talvez sejam as melhores opes para busca de molculas candidatas a novos fr-
obter uma boa amostragem de conformaes macos necessitam de metodologias mais r-
em estudos de atracamento envolvendo a pidas, eficazes e de baixo custo. Neste
tcnica de conjunto de conformaes. cenrio, a triagem virtual (virtual screening,
A tcnica de Anlise de Modos Normais procura ca- em ingls) tem se destacado como uma im-
racterizar os modos de vibrao de baixa frequncia, portante ferramenta na busca de compostos
9. Atracamento Molecular

promissores. A triagem virtual consiste em conjunto de conformaes da molcula re-


analisar computacionalmente uma grande ceptora (ensemble docking). Entretanto, o
quantidade de ligantes com o objetivo de se- custo computacional aumenta significativa-
lecionar, de acordo com algum critrio pre- mente ao se incluir a flexibilidade do receptor
definido, compostos provavelmente mais ati- em estudos de triagem virtual.
vos frente a determinado alvo farmacolgico Quando no possvel obter a estrutura
(ou seja, um receptor). Esta abordagem pode tridimensional do receptor, ainda que por tc-
ser empregada para complementar os resul- nicas sofisticadas de predio de estruturas
tados obtidos pela triagem experimental de macromolculas, ento o mtodo baseado
(high-throughput screening, em ingls). na estrutura do ligante empregado. Esta
A busca dos ligantes para o estudo de abordagem consiste na anlise de similarida-
triagem virtual pode ser feita em bancos de de de propriedades estruturais e fsico-qumi-
estruturas de compostos disponveis atravs cas de compostos ativos e inativos. Duas
de portais online, tais como ZINC, BindingDB, abordagens importantes incluem o estudo da
PubChem, SuperNatural e ChEMBL. Nestes relao estrutura-atividade (SAR,
bancos, a busca pode ser feita utilizando pro- structureactivity relationship ou QSAR,
priedades fsico-qumicas definidas pelo quantitative structureactivity relationship) e
usurio, como nmero de ligaes rotacion- a modelagem farmacofrica.
veis e logP ou, em alguns deles, desenhar o Apesar de a triagem virtual baseada em
fragmento desejvel na estrutura dos ligan- estrutura ser uma tcnica amplamente utili-
tes. Estes filtros so comumente utilizados zada, o protocolo escolhido pelo pesquisador
com o objetivo de reduzir o nmero de com- necessita ser validado para aumentar a confi-
postos a serem analisados pela triagem vir- abilidade dos resultados. Primeiramente,
tual, especificando o perfil desejado para preciso avaliar se o mtodo de busca e a fun-
estes ligantes. Aps selecionar a lista de li- o de avaliao escolhidos so capazes de
gantes para serem extrados, geralmente o reproduzir o modo de ligao experimental de
banco fornece uma tabela com as principais compostos originalmente complexados com o
propriedades qumicas dos compostos. Caso receptor alvo.
seja necessrio, como no caso da construo Outra anlise que deve ser feita a ca-
de uma biblioteca de ligantes prpria do pacidade de o protocolo diferenciar as mol-
usurio, possvel usar programas que fil- culas ativas das inativas, conhecidas como
tram e quantificam tais propriedades, como o casos falso-positivos. Esta validao de
FAF-Drugs. grande importncia na triagem virtual, uma
A triagem virtual pode ser feita utilizan- vez que auxilia a reduzir o nmero de mol-
do diversas metodologias que, de forma ge- culas inativas, limitando assim o nmero de
ral, agrupam-se naquelas baseadas na falsos-positivos.
estrutura do receptor (structure-based) e na- O clculo da proporo de molculas ativas frente
quelas baseadas na estrutura do ligante ao nmero de inativas presentes em um conjunto de li-
(ligand-based). O mtodo baseado na estru- gantes com dados de atividade experimental previa-
tura mais utilizado quando a estrutura tridi- mente conhecidos pode ser feito pelo fator de
mensional da molcula receptora est enriquecimento (Enrichment Factor, EF). As molculas
disponvel com boa qualidade. Nesta metodo- presumidamente inativas (decoys) possuem proprie-
logia, realizado um estudo de atracamento dades fsicas similares (tais como massa molecular,
molecular de todos os ligantes previamente nmero de ligaes rotacionveis, logP, nmero de
selecionados, ao invs de apenas uma mol- aceptores/doadores de ligaes de hidrognio) s ati-
cula. possvel, assim como no estudo de vas, entretanto distintas topologicamente (ou seja, exi-
atracamento molecular tradicional, conside- bem diferentes estruturas qumicas). Para validar a
rar a flexibilidade do receptor diretamente funo de avaliao, utiliza-se um conjunto de ligantes
pelo programa de atracamento ou utilizar um formado por essas molculas inativas e por um nme-
9. Atracamento Molecular

ro geralmente pequeno de compostos ativos conheci- Alguns destes aspectos so a considerao


dos. O estudo de atracamento molecular realizado, e da rugosidade e forma da superfcie de ener-
ento o EF usado para medir a capacidade da funo gia associada ao complexo receptor-ligante, a
ordenar, nas primeiras posies, determinada frao estimativa das entropias associadas ao pro-
de compostos ativos frente aos inativos. cesso de ligao, a considerao no s de
O desempenho dos diferentes protocolos de atra- mltiplas conformaes (flexibilidade) do re-
camento molecular varia significativamente entre os ceptor mas tambm de mltiplos modos de
estudos de validao realizados, sendo influenciado di- ligao do ligante, a considerao das mu-
retamente pela metodologia empregada bem como danas na estruturao das molculas de
pela composio do conjunto de de dados utilizado gua no stio receptor e da solvatao/de-
(classe dos receptores e perfil dos ligantes includos). solvatao do ligante e a considerao de
Quando o nmero de compostos ativos e inativos si- efeitos de mudana de estados de protonao
milar, o mtodo AUC (area under the receiver operating de resduos do stio receptor durante o pro-
characteristic) mais apropriado para avaliar o de- cesso atracamento ligante-receptor.
sempenho do protocolo de triagem virtual.
Os compostos selecionados, conhecidos 9.6. Conceitos-chave
como hits, so encaminhados para as etapas
de sntese qumica (no caso de compostos Algoritmo: conjunto ordenado de instrues
apenas planejados ou no disponveis para para resolver determinado problema.
compra) e estudos de atividade farmacolgica
(testes in vitro e in vivo). Atracamento: mtodo para prever o modo de li-
gao e a afinidade de ligao de uma
9.5. Consideraes finais macromolcula receptora com outra mo-
lcula ligante (seja uma outra macromo-
A descoberta e planejamento de novos lcula ou uma molcula ligante pequena).
frmacos um processo muito caro e muito
demorado. Para levar um novo frmaco ao Desenho racional de frmacos baseado em es-
mercado so necessrios de 10 a 20 anos e o trutura: rea de pesquisa que abrange os
custo estimado de cerca de 800 milhes de mtodos computacionais que utilizam in-
dlares. Abordagens in silico que possam re- formaes da estrutura tridimensional da
duzir estes custos e acelerar o processo de molcula receptora para descoberta e/ou
descoberta e planejamento de novos frma- desenvolvimento de novos frmacos.
cos so extremamente bem vindas e neces-
srias. importante ressaltar que j existem Encaixe induzido: modelo que sugere a existn-
diversos exemplos de molculas que foram cia de mudanas conformacionais na mo-
descobertas/otimizadas utilizando tcnicas lcula receptora e no ligante devido
computacionais e que esto na fase de ensai- formao do complexo receptor-ligante.
os clnicos ou que j foram aprovadas para
uso teraputico. Funo de avaliao: funo de pontuao que
possvel prever que, no futuro, meto- tem por objetivo quantificar a qualidade
dologias computacionais mais sofisticadas das solues obtidas no atracamento mo-
tero um papel cada vez mais destacado em lecular.
estratgias de planejamento racional de fr-
macos. Neste sentido, alguns aspectos asso- Ligante: molcula que interage no stio de liga-
ciados s metodologias de atracamento o de uma macromolcula para formar
molecular discutidas neste captulo necessi- um complexo, podendo induzir ou bloque-
tam de avanos terico/metodolgicos para ar determinada resposta biolgica.
que se consiga obter uma melhor previso
das constantes de afinidade receptor-ligante. Mtodo de busca: algoritmo utilizado pelo atra-
9. Atracamento Molecular

camento molecular para encontrar os mo- 369393, 2006.


dos de ligao do ligante no stio receptor.
Explora os graus de liberdade translacio- TAYLOR, R. D.; JEWSBURY, P. J.; ESSEX, J. W. A
nais, rotacionais e conformacionais. review of protein-small molecule docking
methods. J. Comput. Aided Mol. Des.
pKa: logaritmo negativo da constante de acidez 16, 151166, 2002.
ou constante de dissociao cida (pKa =
-logKa). Mede a fora de um cido em so- TALELE, T. T.; KHEDKAR, S. A.; RIGBY, A. C.
luo. Successful applications of computer aided
drug discovery: moving drugs from
Receptor: macromolcula que possui um stio de concept to the clinic. Curr. Top. Med.
ligao de interesse. Chem. 10, 127141, 2010.

Reconhecimento molecular: mecanismo pelo


qual uma molcula se liga a outra com
perfil complementar, formando um com-
plexo.

Triagem virtual: metodologia de atracamento


molecular em larga escala, atravs da qual
dezenas, centenas ou milhares de ligantes
so avaliados no stio de ligao de um
receptor.

9.7. Leitura recomendada


KITCHEN, Douglas B.; et al. Docking and scoring
in virtual screening for drug discovery:
methods and applications. Nat. Rev.
Drug Discov., 3, 935949, 2004.

MOBLEY, David L.; DILL, Ken A. Binding of


Small-Molecule Ligands to Proteins: What
You See Is Not Always What You Get.
Structure, 17, 489498, 2009.

GUEDES, Isabela A.; MAGALHES, Camila S.;


DARDENNE, Laurent E. Receptorligand
molecular docking. Biophys. Rev., 2013.

BROOIJMANS, Natasja; KUNTZ, Irwin D. Mole-


cular recognition and docking algorithms.
Annu. Rev. Biophys. Biomol. Struct.,
32, 335373, 2003.

SPERANDIO, Olivier; et al. Receptor-based


computational screening of compound
databases: the main docking-scoring
engines. Curr. Protein Pept. Sci., 7,
10. Dicroismo Circular

Marcelo A. Lima
Edwin A. Yates
Ivarne L. S. Tersariol
Helena B. Nader

Representao das curvas de CD associadas a hlices cristalografia de raios-X. Isto ocorre porque o
e folhas . CD, ao contrrio destes mtodos, no possui
resoluo atomstica, ou seja, no capaz de
10.1. Introduo identificar tomos especficos das molculas
em estudo.
10.2. Luz polarizada No entanto, enquanto estruturas desor-
denadas (ou seja, desenoveladas, forma ado-
10.3. Quiralidade tada por aproximadamente a metade das
protenas de mamferos) tornam-se em
10.4. Instrumentao grande medida imprprias para estudos de
RMN e cristalografia de raios-X, o CD ainda
10.5. Aplicaes a biomolculas capaz de lidar com suas estruturas. Alm
disso, estudos de CD podem ser realizados
10.6. Situaes prticas em soluo, em condies bem prximas das
fisiolgicas, fazendo deste mtodo uma fer-
10.7. Conceitos-chave ramenta ideal para investigar as interaes
entre molculas envolvidas nos mais diversos
processos biolgicos.
Por definio, espectroscopia nada mais
10.1. Introduo do que o levantamento de dados fsico-qu-
micos de um determinado sistema atravs da
O dicroismo circular (CD) uma tcnica transmisso, absoro ou reflexo da energia
espectroscpica utilizada para estudar uma radiante incidente. No caso do CD, a energia
grande variedade de molculas quirais, tais incidente a ultravioleta comumente na faixa
como frmacos, polmeros e biopolmeros, do UV prximo, 380 a 200 nm. Assim, o es-
em soluo. Particularmente no caso das pectro de CD gerado pela diferena na ca-
protenas o CD, juntamente cristalografia de pacidade de absoro dos componentes
raios-X (captulo 13), o RMN (captulo 12), o in- esquerdo e direito da luz circularmente pola-
fravermelho (captulo 11) e mtodos como a rizada (mais detalhes adiante) por molculas
modelagem comparativa (captulo 7) e a din- quirais que possuem tomos de carbono as-
mica molecular (captulo 8), exerce importan- simtricos e, consequentemente, diferentes
te papel na busca pelo conhecimento da atividades pticas.
estrutura e funo nucleicas. Tais informa- Esta capacidade de absoro de mol-
es, por sua vez, so essenciais na busca culas quirais est diretamente ligada s dife-
por novos compostos com potencial terapu- renas nos seus coeficientes de absorbncia.
tico. Assim, diferentes molculas ou partes delas
Para sistemas enovelados e estrutura- possuem CD em regies especficas do es-
dos tridimensionalmente, como enzimas e pectro.
protenas globulares, o CD uma tcnica de Em instrumentos de laboratrio, espec-
baixa resoluo quando comparado RMN e tros de CD so normalmente registados no

210
10. Dicroismo Circular

ultravioleta (UV), tipicamente em comprimen- ligantes, como alguns carboidratos, possuem


tos de onda variando de 180 a 260 nm. Alm um sinal de CD muito menor quando compa-
desta regio, vrias fontes de radiao sn- rado aos provenientes de uma protena. As-
crotron esto disponveis e possibilitam a ob- sim, o VCD pode ser utilizado para
teno de espectros de CD com intervalos de monitorizar a interao de protenas com
comprimento de onda consideravelmente acares diretamente e sem a necessidade de
maiores. Luz sncrotron a radiao eletro- manipulao matemtica dos espectros.
magntica produzida por eltrons de alta
energia atravs d