Você está na página 1de 23

Princpios de Bioinformtica

Bancos de dados de seqncias de genes, protenas, estruturas e genomas


Generalidades
Foco no GenBank (NCBI)
Encontrando uma seqncia de um gene de interesse
Arquivando os resultados
Famlia Blast
conceitos
procurando seqncias similares: blastn, blastp e blastx
apresentaes diversas dos resultados
criando a analisando um dendrograma (com uma filogenia hipottica)

Bancos de dados de seqncias de genes, protenas, estruturas e genomas

Generalidades

A possibilidade criada pela Internet de se submeter dados on-line a um banco remoto e, de forma
oposta, consultar on-line bancos de dados, incentivou a comunidade cientfica a centralizar em um
servio de acesso pblico os dados referentes a seqncias de DNA e protenas e,
progressivamente, boa parte da informao gerada pelo conhecimento destas seqncias.

A lista abaixo sumariza as informaes que podem estar contidas nos bancos de dados pblicos
(ou privados) e a organizao dos vrios bancos montados para armazenar estas informaes e
disponibiliz-las ao pblico.

1. Bancos de dados de nucleotdeos


1.1. Colaborao Internacional dos bancos de Dados de Seqncias de Nucleotdeos
1.2. Seqncias de DNA: genes, motivos e stios regulatrios
1.2.1. DNA codificante e no-codificante
1.2.2. Estrutura gnica, introns, exons, stios de splicing
1.2.3. Stios reguladores transcricionais e fatores de transcrio

2. Bancos de dados de RNA

3. Bancos de dados de protenas


3.1. Bancos de seqncias gerais
3.2. Propriedades de protenas
3.3. Localizao de protenas e direcionamento intracelular (targeting)
3.4. Motivos de seqncias proticas e stios ativos
3.5. Bancos de dados de domnios; classificao de protenas
3.6. Bancos de dados de famlias especficas de protenas

4. Bancos de dados de estruturas (tridimensionais)


4.1. Pequenas molculas
4.2. Carboidratos
4.3. Estrutura de cidos nucleicos
4.4. Estrutura de protenas

5. Bancos de dados genmicos (exceto para H. sapiens)


5.1. Nomenclatura, ontologia e termos empregados na anotao de genomas
5.1.1. Taxonomia e identificao
5.2. Bancos de dados genmicos gerais
5.3. Bancos de dados especficos de determinados organismos
5.3.1. Vrus
5.3.2. Procariotos
5.3.2.1. Escherichia coli
5.3.2.2. Bacillus subtilis
5.3.2.3. Outras bactrias
5.3.3. Eucariotos unicelulares
5.3.4. Fungos
5.3.4.1. Leveduras
5.3.4.2. Outros fungos
5.3.5. Invertebrados
5.3.5.1. Caenorhabditis elegans
5.3.5.2. Drosophila melanogaster
5.3.5.3. Outros invertebrados
6. Vias e enzimas metablicas; vias de sinalizao celular
6.1. Enzimas e nomenclatura das enzimas
6.2. Vias metablicas
6.3. Interaes inter-moleculares e vias de sinalizao
7. Genoma humano e de outros vertebrados
7.1. Organismos modelo, genmica comparativa
7.2. Bancos de dados do genoma humano, mapas e visualizadores
7.3. Protenas humanas
8. Genes humanos e doenas
8.1. Bancos de dados gerais
8.2. Bancos de dados de mutaes em genes humanos
8.2.1. Bancos de dados de polimorfismos gerais
8.2.2. Cncer
8.2.3. Bancos de dados especficos de genes, doenas ou systemas
9. Bancos de dados de microarray ou outras formas de mensurar expresso gnica

10. Recursos protemicos

11. Outros bancos de biologia molecular


11.1. Drogas e desenho de drogas
11.2. Sondas
11.3. Bancos de dados no classificados
12. Bancos de dados de organelas
12.1. Genes e protenas mitocondriais
13. Bancos de dados de plantas
13.1. Bancos de dados gerais
13.2. Arabidopsis thaliana
13.3. Arroz
13.4. Outras plantas
14. Bancos de dados imunolgicos

Foco no GenBank (NCBI)

A possibilidade criada pela Internet de se submeter dados on-line a um banco remoto e,


de forma oposta, consultar on-line bancos de dados, incentivou a comunidade cientfica a
centralizar em um servio de acesso pblico os dados referentes a seqncias de DNA e protenas
e, progressivamente, boa parte da informao gerada pelo conhecimento destas seqncias. O
National Center for Biotechnology Information uma das principais fontes de informao sobre
genes e protenas da atualidade. H outras fontes importantes, como o Kegg
(http://www.genome.ad.jp/kegg/) e o SwissProt (http://www.expasy.ch/sprot/), alm das
pginas especficas de cada um dos programas genoma espalhados pelo mundo. Nesta pequena
introduo ao garimpo (ou minerao) de genes vamos mostrar com exemplos simples como ter
acesso ao banco de dados do NCBI, encontrar genes e compar-los com outros do banco. Para tal
a aula est dividida em vrios temas:

.........................................................................................................................
Entrando na pgina do NCBI

Inicialmente, empregando um navegador qualquer (Internet Explorer, Netscape, Opera,


etc.), vamos acessar a pgina principal do NCBI (http://www.ncbi.nlm.nih.gov). A tela ir mostrar
a figura abaixo:

Parte inicial da pgina principal do NCBI, acessada pelo endereo www.ncbi.nlm.nih.gov

Observe que, esquerda ao alto, h um cone do NCBI. Em todas as pginas que forem abertas
no NCBI este cone estar presente e, clicando sobre ele, voltamos a esta pgina de abertura.
Logo abaixo do nome do NCBI h uma caixa de dilogo horizontal com uma janela de opes de
escolha indicada por uma pequena flecha (a chamada lista drop-down). Se clicarmos sobre a
flecha, vrias opes de escolhe aparecem, alm de All Databases: Pubmed (para artigos
cientficos), Protein (para seqncias de aminocidos depositadas no banco) e muitas outras
fontes de dados.

Neste exerccio deixaremos esta opo em Nucleotide, pois queremos procurar no NCBI
que seqncias de DNA foram arquivadas para um determinado gene e para um certo organismo.
A caixa de dilogo de texto (branca, logo aps a palavra for) permite que digitemos palavras para
uma busca, unidas entre si com os conectores que usamos nas buscas em outras pginas, Estes
conectores devem ser escritos em maisculas e esto em ingls: AND, OR e NOT. Podemos
tambm usar parnteses para agrupar palavras antes e depois dos conectores. O exemplo que
daremos em seguida vai esclarecer um pouco esta forma de busca, para aqueles que no esto
habituados a fazer buscas na internet com os navegadores convencionais.

Por fim, observe que direita h uma coluna com vrios hiperlinks, chamada Hot Spots.
Esta coluna permite o acesso de um grande nmero de ferramentas e pginas especficas do
NCBI, muito usadas por todos os que mineram genes. Nesta coluna, mais em baixo (no aparece
na primeira pgina, mas na pgina abaixo) est a ferramenta ORF Finder, que encontra as ORFS
de uma seqncia de DNA qualquer que queiramos submeter. Mais tarde, neste exerccio, vamos
us-la.
Parte da pgina principal do NCBI, aps deslizar a barra de rolagem da direita para mostrar outras opes da
coluna Hot Spots. inclusive a entrada para a ferramenta Orf Finder.

Encontrando uma seqncia de um gene de interesse (Fazendo uma busca )

Nosso prximo passo neste exerccio ser averiguar quantas seqncias de DNA existem
para um determinado organismo ou gnero de organismos no banco de dados do NCBI.
Poderamos fazer a busca com qualquer nome de espcie ou com apenas o nome do gnero, ou
ainda com o nome da famlia, Por exemplo, podamos procurar a espcie Trypanosoma cruzi, ou
apenas o gnero Trypanosoma (o que incluiria outras espcies do mesmo gnero) ou ainda o
nome da famlia Trypanosomatidae (o que incluiria todas as espcies de todos os 9 gneros da
famlia, incluindo Trypanosoma e Leishmania) . Vamos optar por investigar quantas seqncias de
nucleotdeos existem no banco que esto associadas com a palavra Leishmania. Para tal basta
digitarmos a palavra leishmania (no importa se usarmos maisculas aqui) na caixa de dilogo
em branco e clicarmos sobre go. Isto ativa a busca (search) do banco de nucleotdeos (nossa
opo na lista drop down). A figura abaixo mostra o procedimento.

Parte da pgina principal do NCBI, aps digitarmos a palavra Leishmania (que pode tambm estar em
minsculas) na caixa de texto. Se clicarmos sobre o boto Go ativaremos a busca sobre o banco de dados de
nucleotdeos do NCBI.

A figura abaixo mostra o resultado da busca. Cada busca feita on line no computador
central do NCBI ou em algum espelho do Instituto espalhado pelo mundo. A conexo com a
Internet importante para no atrasar os resultados e conexes lentas ou horrios muito
freqentados dificultam muito o trabalho de garimpo de dados.

Parte da pgina principal do NCBI, aps digitarmos a palavra Leishmania (que pode tambm estar em
minsculas) na caixa de texto. Se clicarmos sobre o boto Go ativaremos a busca sobre o banco de dados de
nucleotdeos do NCBI.
A figura acima tem uma novidade no cabealho: uma chamada indicando que se est
trabalhando com nucleotdeos. A coluna da esquerda tambm modificou e oferece ferramentas de
busca e outras informaes sobre o banco de nucleotdeos. H trs caixas de listas drop down
logo abaixo da barra de busca. Na primeira, Display, podemos escolher muitos formatos de sada
de nossa busca, isto , a forma como os resultados da busca vo ser apresentados. O padro
(default) o Summary, e este que est mostrado na figura, mas podemos optar por vrios
outros tipos de sada. Mais tarde empregaremos uma delas, a opo de apresentao Fasta, que
mostra uma linha de informao sobre a seqncia e em seguida a seqncia de bases daquele
gene ou registro no NCBI. Podemos escolher tambm quantas seqncias encontradas queremos
que sejam mostradas por vez, selecionando um nmero na caixa de dilogo Show, com o sistema
drop down. Na caixa Send to podemos escolher outra apresentao da sada (como texto simples)
ou ainda salvar, imprimir ou mandar para o clipboard.
Aparecem agora 4 abas de pastas.
A primeira aba, denominada All, contm todos os resultados da busca. Neste caso, foram
48.895 seqncias. Eles esto agrupados em 2.445 pginas iguais primeira, com 20
seqncias cada. , evidentemente, um nmero muito grande de seqncias submetidas ao NCBI.
A razo deste grande nmero de seqncias que h um programa de sequenciamento da
Leishmania major, o parasita que causa uma forma de leishmaniose cutnea no Oriente Mdio, e
que j sequenciou boa parte dos cromossomas do parasita, gerando um enorme nmero de
sequncias.
A segunda aba tem o nome bactria e contm as seqncias encontradas na busca, mas
que pertencem a bactrias (a Leishmania um protozorio...). So relativamente poucas, e
devem ser aquelas que tm na anotao do gene alguma referncia palavra Leishmania.
A terceira aba contm 14598 seqncias e se refere s seqncias de mRNAs
depositadas. So muitas, e a razo disso que 10.000 delas foram fruto do projeto de
sequenciamento do transcriptoma da Leishmania chagasi, feita no Nordeste do Brasil.
A quarta aba contm 1495 seqncias, todas eles descritas em algum trabalho publicado
em revista de circulao internacional. interessante visitar o link da aba e ver que a primeira
referncia com o nome Leishmania a de nmero 145 (e muitas das seguintes tambm). Todas
as anteriores so de outros organismos, e muitas de Homo sapiens, provavelmente de genes que
tm na anotao sobre suas caractersticas alguma meno palavra leishmania. A figura abaixo
mostra o primeiro registro referenciado de Leishmania.

Parte da aba Refseq, resultado da busca do banco Nucleotide com a palavra chave Leishmania. Observe que a
maior parte das sequncias (todas as da figura e muitas das que seguem na aba) proveniente do projeto de
sequenciamento do genoma de Leishmania major (linhagem Friedlin).
Vamos analisar com mais ateno cada um dos itens encontrados.
a) O primeiro registro no de Leishmania, mas de Homo sapiens, e se refere a "Homo sapiens
centrosomal protein 164kDa (CEP164), mRNA". Como que este registro foi pescado na busca?
Se clicarmos sobre o nmero identificador do registro (ou do gene, neste caso), e que
NM_014956, veremos que h um artigo cientfico que fala de um gene de Leishmania major.
provvel que o gene humano em questo tenha uma sequncia semelhante ao descrito na
Leishmania, mas deixamos esta investigao ao leitor curioso.
b) o segundo registro de ...camundongo! "Mus musculus lysosomal membrane glycoprotein 1
(Lamp1), mRNA" . Mais uma vez, se visitarmos a pgina do gene, atravs do link do identificador
da sequncia, veremos que h uma 4a. referncia citada na pgina do gene, e mostrada abaixo:

REFERENCE 4 (bases 1 to 2265)


AUTHORS Korner,U., Fuss,V., Steigerwald,J. and Moll,H.
TITLE Biogenesis of Leishmania major-harboring vacuoles in murine dendritic cells
JOURNAL Infect. Immun. 74 (2), 1305-1312 (2006)
PUBMED 16428780
que fala de Leishmania. Podemos at visitar o artigo, pelo link Pubmed, e ver de que forma o
gene de camundongo em questo se relaciona com a Leishmania, mas deixamos isto tambm
curiosidade do leitor.
c) Por fim aparece finalmente um gene de Leishmania, o terceiro registro:
DQ449830 Reports Links
Leishmania tropica strain MHOM/SD/1974/K27 fumarate hydratase (fh) gene, complete cds
gi|94469896|gb|DQ449830.1|[94469896]
a seqncia de toda a regio codificante (coding sequence, ou cds, em ingls) do gene
para a fumarato hidratase da Leishmania tropica, linhagem MHOM/SD/1974/K27. Deste registro
em diante a maior parte dos registros vai mostrar seqncias de Leishmania, sejam elas obtidas
diretamente do genoma, ou de cDNA ou por outra tcnica qualquer.
Se quisermos evitar que se tenha as palavras Homo e Mus na nossa busca, podemos usar
o conector NOT, como mostrado na figura abaixo.

Parte da pgina do NCBI, resultado de uma busca aps digitarmos a palavra leishmania (que pode tambm
estar em minsculas) seguida de NOT (sempre em maisculas) e depois Homo e repetindo o mesmo para Mus,
na caixa de texto. Na figura aparecem 4 genes para a mesma enzima, de espcies ou linhagens distintas de
Leishmania.

Observe que tivemos uma pequena reduo dos itens encontrados: de 48.895 itens para
48.506. O grande nmero de itens encontrados se deve essencialmente ao programa genoma da
Leishmania major e ao programa transcriptoma de L. chagasi.

Afunilando num gene


Suponhamos agora que voc queira saber que seqncias de nucleotdeos esto
disponveis para um certo gene, suponhamos, o gene da amilase. Podemos procurar na caixa de
busca a palavra amylase e ver o que sai. A figura abaixo mostra o resultado.
Parte da pgina do NCBI, resultado de uma busca aps digitarmos a palavra amylase (que pode tambm estar
em minsculas). Os primeiros genes so todos de Tritrichomonas vaginalis, um parasita recm-sequenciado.

Voc poderia se perguntar: e os demais organismos que tm projeto genoma, por que
no aparecem tambm? Em parte porque procuramos um gene que mais comum em
organismos inferiores, fungos e, em parte, plantas, mas outra razo que certos genomas
mantm uma pgina prpria e nem todos os genes daquele organismo esto disponveis no banco
no redundante do NCBI (que o banco que consultamos quando estamos fazendo buscas por
este sistema mostrado aqui). o caso do genoma humano, por exemplo, que mantm uma
pgina, cujo acesso feito tambm pela pgina principal do NCBI.
Encontramos agora 16772 itens, um nmero muito grande de citaes de amilase. Mais
uma vez, se formos olhar atentamente para os itens, verificaremos que nem todos so descries
do gene da amilase, mas algumas vezes podem ser inibidores de amilase, co-fatores e muitos
outros genes, at mesmo no relacionados bioquimicamente, mas que, ao receberem a anotao,
levaram a palavra chave amilase por alguma razo indireta.
Vamos agora empregar um conector AND para afunilar mais nossa busca, procurando o
gene da amilase de uma certa espcie, no caso a Lutzomyia, vetor das leishmanioses nas
Amricas. A figura abaixo mostra o resultado da busca.

Parte da pgina do NCBI, resultado de uma busca aps digitarmos a palavra amylase (que pode tambm estar
em minsculas), o conector AND (sempre com maisculas) e a palavra Lutzomyia (o vetor das leishmanioses
nas Amricas). S um item foi encontrado.
Encontramos agora apenas um item!!! Vamos analisar com detalhe o que nos diz o texto
associado ao item.
a) o identificador nico do gene AF132512, que um hiperlink. Ele nos leva pgina com
detalhes sobre o item.
b) o que encontramos foi uma cds (ou coding sequence - seqncia codificante, que para o NCBI
costuma ser um pouco mais do que uma ORF, como discutimos acima). Esta cds est completa,
ou seja, contm o cdon de iniciao da sntese protica (ATG ou um dos dois outros alternativos
raros) e o cdon de terminao (um dos trs que a Natureza usa).
c) vemos tambm que esta cds se originou de um mRNA. Portanto, foi um pedao de DNA obtido
pelo processo descrito na aula de clonagem, parte II, em que a transcriptase reversa faz uma fita
simples de DNA a partir do mRNA e uma DNA polimerase faz a segunda fita de DNA.
Provavelmente este cDNA foi encontrado na triagem de uma biblioteca de cDNA de Lutzomyia
longipalpis (o vetor do calazar) com anticorpos contra amilase de um outro organismo. Para
tirarmos nossa dvida poderemos consultar a referncia bibliogrfica que vir citada mais adiante
na pgina de detalhamento do item.
d) est dito tambm que esta uma alfa-amilase putativa, isto , cuja funo deduzimos
indiretamente, mas no provamos. De fato, o que se faz comparar a seqncia da cds com o
banco de dados (faremos isto mais adiante) e descobrir que funo previamente descrita aquela
seqncia tem, provavelmente em outro organismo.
Quando clicamos sobre o hiperlink do identificador, abrimos a pgina de detalhamento do
item encontrado. Esta pgina muito rica em detalhes. Olhemos, portanto, com calma e ateno,
a figura abaixo, que mostra parte desta pgina.

Parte da pgina do NCBI, detalhando um item encontrado. A pgina continua na figura seguinte e muito rica
em informaes sobre a seqncia em estudo, com vrios hiperlinks associados.

Iniciemos nossa anlise pelo alto da pgina. Uma barra horizontal de botes nos explica
que podemos alterar a forma com que os dados nos so mostrados (em Display, mas vamos usar
aqui a forma convencional do NCBI, ou default). Podemos gravar nossa informao em Save e
ainda fazer outras coisas que veremos numa segunda aula.
Logo abaixo aparece de novo o indicador nico, no caso AF132512, e o nome do gene
(ou item) que encontramos. Em seguida temos Locus, que repete o indicador, e nos diz que a
seqncia encontrada tem 1699 pares de base (1699 bp), proveniente de um mRNA, um DNA
linear e foi enviada (submetida) ao NCBI em 25 de agosto de 2000. Em Definition temos de novo
o que o item: a cds completa de um mRNA do gene presumido da alfa amilase de L. longipalpis.
Accession , de novo, nosso indicador, e Version permite ver as verses preliminares da
seqncia enviadas pelos autores. Keywords deveria conter palavras-chave para ajudar na busca
por palavras do gene em questo. Os autores nem sempre preenchem este campo da folha, por
pura preguia ou relaxamento. Source mostra de que bicho, planta, fungo, protozorio ou
bactria veio o gene em questo, no caso, veio do inseto Lutzomyia longipalpis, cuja classificao
taxonmica est detalhada logo a seguir, em Organism.
Os autores, muitas vezes, publicam os resultados do experimento que conduziu
seqncia em estudo num ou mais artigos cientficos. Isto est esclarecido em Reference, que
pode ter vrios artigos listados. Para nosso caso h duas publicaes, as duas fazendo meno
seqncia completa (da base 1 base 1699), e se por ter os detalhes da publicao e um
hiperlink para o artigo em Medline e em Pubmed (que o mais usado),
A parte seguinte da folha de detalhamento do nosso item est mostrada abaixo.

Segunda parte da pgina do NCBI, detalhando um item encontrado. esta parte mostra a seqncia de
aminocidos deduzida a partir da seqncia de nucleotdeos que est abaixo, correspondente cds.

Nesta segunda parte da folha de detalhamento do nosso item, a primeira coisa que nos
chama ateno a palavra Features, que significa, neste contexto, Propriedades ou
Caractersticas do meu gene de interesse. Em source (fonte) est dito o tamanho da seqncia e
o organismo de onde veio a seqncia (L. longipalpis), a linhagem (strain) do organismo (no
caso, Jacobina, que foi a localidade na Bahia de onde vieram os flebtomos que deram origem
colnia de flebotomneos que os autores usaram para o estudo). H ainda outras informaes que
no so muito importantes agora. Em gene (que um hiperlink) est dito de novo o tamanho da
sequ6encia e o nome do gene, no caso amy. interessante notar que, neste caso, os autores
consideraram como sendo o gene o tamanho completo da seqncia, que inclui partes 5' e 3' no
traduzidas.

Em seguida vem um item muito importante, onde os autores detalham a cds (ou ORF). Ela
vai da base 36 base 1529 e corresponde protena AAD32192.1, que a alfa amilase da L.
longipalpis. Logo em seguida em translation est a seqncia de aminocidos presumida a partir
da seqncia de bases que os autores encontraram. O sistema usa o cdigo de uma letra s para
cada aminocido. Repare que as bases 36, 37 e 38 formam o cdon ATG de iniciao. J o cdon
de terminao, na posio 1529, TAA. A seqncia completa de nucleotdeos est mostrada na
figura abaixo, assim como a quantidade de cada uma das bases A,T,G e C (no campo base
count). No fim da tabela est a data da ltima reviso dos autores sobre os dados da pgina.

Final da pgina do NCBI, detalhando um item encontrado. Esta parte mostra a contagem de bases e a
seqncia completa de nucleotdeos do item, fechando com a data da ltima reviso dos dados pelos autores.

Das informaes acima podemos deduzir que, da base 1 base 35 temos parte da regio 5'
no traduzida (no necessariamente a regio completa). Da mesma forma, da base 1530 em
diante temos a regio 3' no traduzida completa. Sabemos que a 3' UTR est completa porque
termina numa seqncia de As, que representa a cauda poli-A adicionada depois da transcrio do
precursor de mRNA no ncleo da clula. Rigorosamente, a 3' UTR termina na base 1671, que
onde comea a cauda poliA. A figura abaixo mostra esquematicamente como se distribuem estas
bases no mRNA da alfa-amilase.
Representao esquemtica do mRNA da alfa-amilase de Lutzomyia longipalpis, com a presena de uma 5'
UTR talvez parcial, a 3' UTR completa o a ORF ou cds, alm da cauda poliA.

Famlia Blast

Conceitos
A comparao entre seqncias biolgicas (cidos nuclicos e protenas) uma das tarefas
computacionais mais freqentes entre pesquisadores da rea biolgica. Mas qual a razo pela
qual desejaramos comparar sequncias de nucleotdeos ou de aminocidos? Este tipo de anlise
permite que relaes evolutivas, estruturais e funcionais existentes entre as seqncias
comparadas sejam reveladas, fornecendo evidncias decisivas para a caracterizao das
propriedades biolgicas de novas seqncias com base no conhecimento acumulado sobre outras
j estudadas. Se as seqncias comparadas so suficientemente similares entre si, infere-se que
estas seqncias sejam homlogas. E sendo assim, presume-se que elas tenham a mesma
estrutura e funo biolgica.

Os problemas
Qual o grau de similaridade mnimo entre duas seqncias para que possam ser consideradas
homlogas? Esta uma questo no resolvida. Que parmetros deveremos usar? A identidade
entre as seqncias, isto , a porcentagem de nucleotdeos ou de aminocidos idnticos nas
mesmas posies da seqncia, um bom indicador? Ou deveramos usar um valor probabilstico
de que o alinhamento entre as duas seqncias tenha sido feito ao acaso? Num caso ou no outro,
quais os valores mnimos aceitveis?

Alm disso, similaridade ao nvel da seqncia primria por si s suficiente para determinar se
duas seqncias so homlogas ou no? E mais: o que fazer quando a seqncia de funo
desconhecida bastante similar a vrias seqncias de um outro organismo, mas que exercem
funes diferentes no mesmo? Qual delas o verdadeiro homlogo? O mais similar? J foi
demonstrado que muitas vezes no ... E agora Jos? ... em princpio, similaridade no implica
necessariamente em homologia. Mas nem tudo est perdido... ser? Atualmente, os algoritmos
(algoritmo = conjunto de instrues ordenadas para execuo de uma ao qualquer.) de
comparao de seqncias so acompanhados por estimativas estatsticas que fornecem uma
medida do grau de significncia das similaridades observadas, auxiliando a deduo de homologia.
Mesmo assim, significado estatstico no implica necessariamente em significado biolgico...

Mtodos
Durante a evoluo, as seqncias mudam atravs de inseres, delees e mutaes. Estes
eventos podem ser traados com uso de algoritmos de alinhamento.

Dica
Seqncias que codifiquem protenas ou que potencialmente
codifiquem protenas devem ser alinhadas na forma de
aminocidos e no de nucleotdeos.
Motivos: Maior preciso (por causa da degenerao do cdigo
gentico) e maior sensibilidade (leva em conta caractersticas
fsico-qumicas dos aminocidos)
O alinhamento entre duas seqncias pode ser global ou parcial. Entende-se por alinhamento
global aquele entre pares de seqncias nucleotdicas ou proticas ao longo de toda a extenso
das mesmas. o alinhamento apropriado nos casos em que se espera que as seqncias
estudadas sejam similares ao longo de toda a seqncia ou na maior parte dela.
No alinhamento local, uma ou mais partes de duas seqncias nucleotdicas ou proticas so
alinhadas entre si. O restante da seqncia pode ser completamente distinto da outra. o
alinhamento apropriado nos casos em que se espera que apenas algumas regies especficas das
seqncias estudadas (e.g domnios) sejam similares entre si. Neste caso, o alinhamento global
das seqncias poderia no ser apropriado (as similaridades locais poderiam ser mascaradas,
isto , interpretantes com seqncias muito comuns entre muitas protenas distintas, e passarem
a ser desconsideradas pelo programa)

Os mtodos (/programas)
Ao longo dos ltimos 35 anos, e particularmente na ltima dcada, uma srie de algoritmos foram
transformados em programas, muitos deles disponveis gratuitamente ou rodando on-line nos
diversos sites da Internet que lidam com a bioinformtica e com a gesto de bancos de dados de
sequncias
Rigorous Dynamic Programming
Needleman & Wunsch (1970) (global)
Smith & Waterman (1981) (local) SSEARCH
Heuristics
Lipman & Pearson (1985,1988) (local) FASTA
Altschul et al. (1990,1997) (local) BLAST
Feng & Doolittle (1987) (global)
Thompson et al. (1994) (global) ClustalW

Blast
Provavelmente a ferramenta computacional mais utilizada em biologia molecular e
bioinformtica
Busca seqncias armazenadas nos bancos de dados pela similaridade entre a estrutura
primria da seqncia query e as seqncias armazenadas no banco
um mtodo heurstico para alinhamentos locais
Projetado especialmente para buscas em bancos de dados
Idia bsica: bons alinhamentos iro conter pequenos trechos de combinaes iguais
Propriedades biolgicas descritas para seqncias armazenadas podem ser transferidas
para a seqncia query desde que suas estruturas primrias sejam semelhantes
O maior problema definir um cut-off, um limite abaixo do qual as similaridades
encontradas entre a query e os hits no sejam mais significativos

Blastando uma seqncia e interpretando o resultado


Quando, na barra de ferramentas do NCBI ( http://www.ncbi.nlm.nih.gov ) , clicamos sobre
BLAST, abre-se a folha inicial da famlia Blast. H um grande nmero de opes de servio, mas
vamos nos concentrar apenas na anlise de comparaes entre um gene conhecido (e sua
protena codificada) e as seqncias similares nos bancos de dados do NCBI.
A pgina de abertura do BLAST est mostrada abaixo. Ela muda com certa freqncia, pela
introduo de melhorias feitas pelo pessoal que administra o site do NCBI, mas a lgica das
buscas permanece.

Pgina de abertura do BLAST, com as vrias opes de ferramentas e bancos de dados

Podemos comear diretamente na parte dos Blasts bsicos (Basic Blast), escolhendo que tipo de
ferramenta vamos usar. Se temos uma seqncia de nucleotdeos de um gene, por exemplo,
podemos compar-la com as seqncias de nucleotdeos depositadas no GenBank, empregando
para isto a ferramenta nucleotide blast (ou blastn). Tambm podemos traduzir automaticamente a
seqncia de nucleotdeo em protena (em todos os 3 quadros de leitura da fita dada, e mais nos
trs da fita complementar, de forma que muitas seqncias hipotticas de protena so geradas) e
comparar os resultados com o banco de protenas do GenBank. Esta ferramenta o blastx. Por
fim, se temos uma protena (uma seqncia de aminocidos), podemos procurar por protenas
similares empregando a ferramenta protein blast (ou blastp). H ainda outras opes, mas
deixaremos por enquanto de lado.
Para nosso exerccio vamos escolher um gene de uma enzima de primata e ver se ele
conservado e se a protena codificada tambm . Se houver um nmero razovel de genes para
esta enzima depositados no NCBI, poderemos at obter uma rvore filtica (um dendrograma)
que mostra uma relao evolutiva entre os animais que tm o gene em estudo.
Vamos comear com o cDNA correspondente sub-unidade VIII da forma heptica da citocromo c
oxidase de Papio anubis (o macaco babuno da ndia) (AY254817), que dever corresponder, ao
final, protena AAP32248, no banco de protenas do NCBI.
Se clicarmos sobre o link AY254817, teremos esta informao abaixo, que chamada pgina do
gene:
Links
1: AY254817. Reports Papio anubis cyto...[gi:30409779]
Features
Sequence
LOCUS AY254817 425 bp mRNA linear PRI 14-MAY-2003
DEFINITION Papio anubis cytochrome c oxidase subunit VIII liver form (COX8L)
mRNA, complete cds; nuclear gene for mitochondrial product.
ACCESSION AY254817
VERSION AY254817.1 GI:30409779
KEYWORDS .
SOURCE Papio anubis (olive baboon)
ORGANISM Papio anubis
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
Catarrhini; Cercopithecidae; Cercopithecinae; Papio.
REFERENCE 1 (bases 1 to 425)
AUTHORS Goldberg,A., Wildman,D.E., Schmidt,T.R., Huttemann,M., Goodman,M.,
Weiss,M.L. and Grossman,L.I.
TITLE Adaptive evolution of cytochrome c oxidase subunit VIII in
anthropoid primates
JOURNAL Proc. Natl. Acad. Sci. U.S.A. 100 (10), 5873-5878 (2003)
PUBMED 12716970
REFERENCE 2 (bases 1 to 425)
AUTHORS Goldberg,A., Wildman,D.E., Schmidt,T.R., Huttemann,M., Goodman,M.,
Weiss,M.L. and Grossman,L.I.
TITLE Direct Submission
JOURNAL Submitted (25-FEB-2003) Center for Molecular Medicine and Genetics,
Wayne State University, 540 East Canfield Ave., Detroit, MI 48201,
USA
FEATURES Location/Qualifiers
source 1..425
/organism="Papio anubis"
/mol_type="mRNA"
/db_xref="taxon:9555"
gene 1..425
/gene="COX8L"
exon 1..155
/gene="COX8L"
/number=1
5'UTR 1..41
/gene="COX8L"
CDS 42..251
/gene="COX8L"
/codon_start=1
/product="cytochrome c oxidase subunit VIII liver form"
/protein_id="AAP32248.1"
/db_xref="GI:30409780"
/translation="MSVLTSLLLRGLTGSARRLPVPRAKVHSMPPEEELGTLEKAIAL
TSCFVSLFLPAGWILSHLEDYKRPE"
exon 156..425
/gene="COX8L"
/number=2
3'UTR 252..425
/gene="COX8L"
ORIGIN
1 ggctacggct gacagctttt tgtggtgtac tccgtgtcat catgtccgtc ctgacgtccc
61 tgctgctgcg gggcttgaca ggctcggccc ggcggctccc agtgccgcgc gccaaggtcc
121 attcgatgcc gccggaggag gagcttggga ctctggaaaa ggccattgcg cttacctcct
181 gctttgtaag cctcttcctg ccagcgggct ggatcctgtc acacctggag gactacaaga
241 ggccggagtg aagggggcca ttctgctcct cacactgtga cctgaccagc cccaccggcc
301 tatcctggtc atgttactgc atttctggcc ggcctcccct ggatcatatc gttcaattcc
361 agtcacctct tctgcaatca tgacctcttg atgtctccat ggtgacctcc tggggggtca
421 ttgac
//

Dela podemos obter uma srie de informaes importantes sobre o gene e mesmo sobre o
organismo. Em LOCUS ficamos sabendo que o gene foi deduzido a partir de seu mRNA, que tem
425 bases; em DEFINITION aprendemos que esta a forma heptica da sub-unidade leve da
citocromo oxidase deste macaco; em ORGANISM podemos ver toda a classificao do Papio
anubis, desde sub-reino at espcie: h at mesmo um link que nos joga para uma outra pgina
do NCBI chamada TaxBrowser, e que um vasto banco de taxonomia; Nos itens REFERENCE
podemos encontrar os artigos nos quais se basearam esta submisso de sequncia de DNA (e de
aminocidos) ao NCBI: h incluisve um link direto para a publicao no banco de referncias
bibliogrficas Pubmed (tambm do NCBI). No item FEATURES (caractersticas, em portugus)
posso saber que da base 1 at a 41 a regio no traduzida 5 (5-UTR), que vem antes da rea
codificante para a protena (chamada cds ou ORF). A ORF vai da base 42 251 e o resto a parte
no traduzida 3 (3-UTR) do mRNA do gene da citocromo oxidase (sub-unidade VIII). A
seqncia de aminocidos correspondente ao gene aparece em "/translation" e, tendo uma
metionina na primeira posio, sugere que a protena est completa (e a ORF apresentada acima
tambm); Por fim aparece a seqncia completa dos nucleotdeos correspondentes ao mRNA de
424 nucleotdeos.

Se desejarmos comparar a seqncia do gene cox8l com outras do banco de dados, basta copiar
com o mouse a seqncia (os nmeros esquerda podem vir juntos, sem problema) para a
memria do computador (por segurana, cole numa pgina do Word, tambm). Agora, vamos
clicar sobre a opo nucleotide blast na pgina principal do Blast. Vai abrir uma caixa de dilogo
como a seguir.

Pgina de abertura da ferramenta nucleotide blast. A seta vermelha, adicionado por ns, indica que se pode (e
deve)selecionar o banco que queremos investigar. O que normalmente empregamos o nucleotide collection
(nt/nr), que se seleciona clicando sobre a seta e abrindo a lista drop down.

Aps selecionar que banco de dados queremos investigar, na caixa de dilogo da rea Choose
Search Set (geralmente usamos o nucleotide collection (nt/nr), que o mais amplo dos bancos),
podemos colar a seqncia que est na memria na primeira janela do setor Enter Query
Sequence. Vai ficar como mostrado abaixo:
Sequncia de nucleotdeos colada na caixa de dilogo e banco escolhido, estamos prontos para clicar sobre o
boto BLAST (em baixo, esquerda).

Veremos inicialmente uma pgina intermediria, antes do resultado, mas que depois de alguns
segundos (ou minutos, dependendo do trfego e da demanda ao NCBI), mostrar graficamente,
em tabela e em comparao duas a duas, as seqncias mais semelhantes que submetemos. A
figura abaixo mostra a primeira parte do resultado.
Trs rolagens iniciais da pgina de resposta do blastn.

Na parte de cima, esquerda, h uma curta meno (um tributo) aos desenvolvedores do Blast.
Em seguida vem uma figura que mostra graficamente as seqncias de nucleotdeos
(possivelmente genes) que o blastn encontrou semelhantes nossa. Linhas vermelhas indicam
elevada similaridade, linhas violeta indicam similaridade um pouco pior e assim por diante, na
escala de cores mostrada no alto do quadro grfico comparativo. Observe que, no balo
vermelho, h uma chamada para distance tree of results. Esta ferramenta vai nos fazer uma
rvore filtica das espcies que aparecem na tabela, e logo faremos uma rvore assim, mas com
seqncias de aminocidos.
Mais abaixo aparece uma tabela complexa: na primeira coluna um cdigo que nos remete
pgina do gene. Em seguida uma descrio do gene. A coluna 3 mostra o SCORE, que quantifica a
similaridade entre a seqncia dada com as encontradas. A quarta coluna (query coverage) vai
mostrar que porcentagem de nossa seqncia se alinha com a encontrada. A quinta coluna
mostra os valores de e-value, que medem a probabilidade de que o alinhamento tenha sido obtido
ao acaso. Observe que os primeiros alinhamentos tm e-value 0.0 (zero), o que significa dizer
que no so ao acaso de forma alguma. Os demais tm uma chance muito pequena (dez elevado
a menos 167, por exemplo) de serem ao acaso. Estes so timos alinhamentos. A sexta coluna
mostra a identidade mxima entre nossa seqncia e a encontrada. A ltima coluna tem links que
por hora no nos interessam.
Ainda mais abaixo da tabela aparecem as comparaes duas a duas entre a seqncia que
enviamos e as seqncias encontradas. Abaixo est um destes pares ( de uma seqncia com
menos similaridade que as inicias, e a escolha foi proposital, para mostra as diferenas).

Comparao pareada entre nossa seqncia de citocromo de Papio anubis e uma outra, entre as encontradas,
neste caso de rim de camundongo (Mus musculus).

A figura acima mostra a comparao pareada entre nossa seqncia de citocromo de Papio anubis
e uma outra, entre as encontradas, neste caso de rim de camundongo (Mus musculus). A
seqncia encontrada da mesma sub-unidade VIII, mas a enzima encontrada no rim, e no no
fgado, como no macaco. Cada vez que uma base na seqncia dada idntica da seqncia
encontrada, o programa mostra um trao vertical. Quando h diferenas, o trao falta. Podemos
ver tambm que a seqncia do gene do camundongo ligeiramente maior que a do macaco (406
contra 429 nucleotdeos). Neste caso a identidade foi de 80% e o e-value de e -68, o que ainda
um excelente valor. Este encontro, certamente, no foi ao acaso, e o gene encontrado deve ser
mesmo similar ao do Papio anubis.
Nossa anlise mostra que o gene desta enzima muito conservado, ao menos entre mamferos.
Vamos agora refazer o mesmo exerccio com a seqncia de aminocidos da protena codificada
pelo gene, cujo nmero de acesso agora AAP32248. A pgina da protena parecida com a de
seu gene e est resumida abaixo:

LOCUS AAP32248 69 aa linear PRI 14-MAY-2003


DEFINITION cytochrome c oxidase subunit VIII liver form [Papio anubis].
ACCESSION AAP32248
VERSION AAP32248.1 GI:30409780
DBSOURCE accession AY254817.1
KEYWORDS .
SOURCE Papio anubis (olive baboon)
ORGANISM Papio anubis
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
Catarrhini; Cercopithecidae; Cercopithecinae; Papio.
REFERENCE 1 (residues 1 to 69)
AUTHORS Goldberg,A., Wildman,D.E., Schmidt,T.R., Huttemann,M., Goodman,M.,
Weiss,M.L. and Grossman,L.I.
TITLE Adaptive evolution of cytochrome c oxidase subunit VIII in
anthropoid primates
JOURNAL Proc. Natl. Acad. Sci. U.S.A. 100 (10), 5873-5878 (2003)
PUBMED 12716970
REFERENCE 2 (residues 1 to 69)
AUTHORS Goldberg,A., Wildman,D.E., Schmidt,T.R., Huttemann,M., Goodman,M.,
Weiss,M.L. and Grossman,L.I.
TITLE Direct Submission
JOURNAL Submitted (25-FEB-2003) Center for Molecular Medicine and Genetics,
Wayne State University, 540 East Canfield Ave., Detroit, MI 48201,
USA
COMMENT Method: conceptual translation.
FEATURES Location/Qualifiers
source 1..69
/organism="Papio anubis"
/db_xref="taxon:9555"
Protein 1..69
/product="cytochrome c oxidase subunit VIII liver form"
Region 26..68
/region_name="Cyt_c_Oxidase_VIII"
/note="Cytochrome oxidase c subunit VIII; cd00930"
/db_xref="CDD:58654"
Site order(26..29,31..33,35,40,47..48,51,66)
/site_type="other"
/note="Subunit VIIIb/I interface"
/db_xref="CDD:58654"
Site order(29,48)
/site_type="other"
/note="Subunit VIIIb/IV interface"
/db_xref="CDD:58654"
Site order(33..35,39,50..51,55,57..58,65)
/site_type="other"
/note="Subunit VIIIb/VIIc interface"
/db_xref="CDD:58654"
CDS 1..69
/gene="COX8L"
/coded_by="AY254817.1:42..251"
ORIGIN
1 msvltslllr gltgsarrlp vprakvhsmp peeelgtlek aialtscfvs lflpagwils
61 hledykrpe

Pgina da protena citocromo oxidase sub-unidade VIII.

Muitas das informaes que vimos na pgina do gene tambm esto aqui. Mas h algumas
adicionais, em FEATURES, que tm relao com caractersticas especficas da protena, como as
seqncias que fazem a interface entre esta sub-unidade e outras do complexo citocromo oxidase.
Podemos agora copiar a seqncia de aminocidos desta protena e voltar pgina do Blast.
Escolhemos agora o blastp (protein blast) e repetimos essencialmente os passos que fizemos para
o blastn. O resultado, por sua vez, vai ser tambm semelhante, mas a pgina intermediria traz
consigo uma informao importante, mostrada na figura abaixo:
Observe que h um bloco de 21 seqncias marcadas em rosa. Se inspecionarmos a tabela vamos
ver que para elas 0s e-values so todos inferiores a e -10, o que est razovel para uma protena
pequena. As seqncias representadas em verde j no so relevantes na comparao porque os
valores de alinhamento so ruins e porque s parte delas alinha com nossa sequncia. O mesmo
se aplica para as seqncias representadas em azul ou preto. Todas as seqncias em rosa so de
primatas, exceto uma que de boi. Em seguida h vrias seqncias de outros mamferos
placentrios e logo a seguir a de marsupiais. Isso, naturalmente, era esperado.
Estamos prontos para a parte final do mini-curso. Nossa inteno criar um dendrograma com as
seqncias de aminocidos desta enzima semelhantes de Papio anubis. Uma vez criado o
dendrograma, vamos verificar se as espcies de onde as seqncias se originaram agrupam-se
como esperado, ou no. Marcamos anteriormente com uma elipse vermelha uma nova opo do
NCBI, que permite a construo de dendrogramas: distance tree of results. Clicando sobre esta
opo, logo abaixo do nosso quadro grfico de alinhamentos que acabamos de discutir, aparecer
uma rvore filtica. O resultado do dendrograma est mostrado abaixo:
Nesta rvore acima no d para ler, de imediato, quem so as espcies envolvidas (a nossa
aparece em amarelo). Para facilitar a anlise podemos mudar o "sequence label" na caixa drop-
down acima da figura, optando por "taxonomic names". A nova imagem mais fcil de interpretar
e est abaixo. Observe o cdigo de cores, que o mesmo da figura acima (foi retirado na figura
abaixo para aumentar a imagem da rvore)
A nova rvore acima mostra agora os nomes das espcies (a nossa aparece como unknown, em
amarelo). Como podemos interpretar, ao menos preliminarmente, estes resultados? H um grupo
grande de "verdes" em baixo do dendrograma, Nele observamos que os macacos do velho mundo
(e o homem) esto todos agrupados e os dois do Novo Mundo (Saimiri e Ateles) formam um
grupo pequeno parte, mas ligado ao grupo dos demais primatas. Tambm observamos que Mus
e Rattus esto juntos, o que faz sentido. Mas aparecem uns primatas separados em dois outros
grupos. Exceto para o Ateles, que aparece no grupo de cima. e, portanto, longe do Saimiri, os
demais primatas no so macacos de verdade, mas lmures ou aparentados. Entretanto, porque
no grupam juntos, e ficam divididos e algumas vezes mesmo repetidos em dois grupos? H
vrias explicaes, que deixamos ao encargo do leitor que as testem.

Esperamos que esta brevssima introduo ao uso de ferramentas de bioinformtica


permita que voc possa realizar a tarefa proposta para a prxima aula.

Você também pode gostar