Escolar Documentos
Profissional Documentos
Cultura Documentos
Introdução A Bioinformátca PDF
Introdução A Bioinformátca PDF
INTRODUÇÃO À
BIOINFORMÁTICA
2007
ÍNDICE
Pág.
CAPÍTULO 1 UMA VISÃO GLOBAL DA BIOINFORMÁTICA 3
1.1. O que é a bioinformática? 3
1.2. O surgimento da bioinformática 3
1.3. O que preciso saber para ser um bom bioinformata? 5
1.4. Cursos de pós-graduação em bioinformática no Brasil 6
1.5. Conversando sobre bioinformática – BIOCHAT 6
1.6. Referências Bibliográficas e textos complementares 12
1.7. bRAINsTORM 12
CAPÍTULO 2 GENOMA, BIOLOGIA MOLECULAR E COMPUTAÇÃO 13
2.1. Introdução 13
2.2. Sequenciamento do DNA 13
2.3. Genômica 14
2.4. As ômicas: integrando a bioinformação 15
2.5. O PERL e outras linguagens de programação 15
2.6. Referências Bibliográficas e textos complementares 17
2.7. bRAINsTORM 17
CAPÍTULO 3 ALINHAMENTO DE SEQÜÊNCIAS 18
3.1. Introdução 18
3.2. Alinhamento Global 18
3.3. Alinhamento Local 19
3.4. Alinhamentos ótimos e heurísticos 20
3.5. Alinhamentos simples e múltiplos 21
3.6. Matrizes de comparação 22
3.7. Exemplos reais de alinhamentos 23
3.8. Referências Bibliográficas 28
3.9. bRAINsTORM 28
CAPÍTULO 4 MONTANDO UM GENOMA 29
4.1. Sobre genomas eucarióticos e procarióticos 29
4.2. Base-calling 30
4.3. Cross-match 31
4.4. Agrupamento de seqüências 32
4.5. Sobre a cobertura dos genomas 34
4.6. Referências Bibliográficas 35
4.7. bRAINsTORM 35
CAPÍTULO 5 ANÁLISE DE TRANSCRIPTOMAS 36
5.1. As ESTs 36
5.2. Histórico das ESTs 37
5.3. Agrupamento de ESTs 38
5.4. O genoma e o transcriptoma 39
5.5. SAGE – Serial Analysis of Gene Expression 40
5.6. Microarrays 40
5.7. Referências Bibliográficas 41
5.8. bRAINsTORM 41
CAPÍTULO 6 BANCOS DE DADOS EM BIOLOGIA MOLECULAR 42
6.1. Histórico 42
6.2. Bancos primários e secundários 43
6.3. GenBank e GenPept 43
6.4. RefSeq – O banco de dados de seqüências de referência 44
6.5. SWISSPROT – O maior banco de dados secundário de seqüências de proteínas 45
6.6. Gene Ontology – Sistema de classificação de genes de acordo com suas características 46
6.7. Referências Bibliográficas 46
6.8. bRAINsTORM 47
CAPÍTULO 7 ANOTAÇÃO DE GENOMAS 49
7.1. Introdução 49
7.2. Anotação de Nucleotídeos 49
7.3. Anotação de Proteínas 50
7.4. Anotação de Processos 50
7.5. A realização da Anotação Genômica (Sociologia da Anotação) 51
7.6. Referências Bibliográficas 52
7.7. bRAINsTORM 53
CAPÍTULO 8 BIOINFORMÁTICA EVOLUTIVA E GENOMAS COMPLETOS 54
8.1. Homologia, Ortologia e Paralogia 54
8.2. COG 56
8.3. Trabalhando com genomas completos 56
8.4. Referências Bibliográficas 57
8.5. bRAINsTORM 58
CAPÍTULO 9 BIOINFORMÁTICA ESTRUTURAL 59
9.1. Sobre a estrutura das proteínas 59
9.2. Protein Data Bank: o banco de dados de estruturas de proteínas 60
9.3. Modelagem molecular por homologia 61
9.4. Alguns programas de modelagem molecular 63
9.5. Threading 63
9.6. CASP – Critical Assessment of Structure Prediction 63
9.7. Estrutura de um arquivo no formato PDB 64
9.8. Referências Bibliográficas 67
9.9. bRAINsTORM 68
CAPÍTULO 10 CONCLUSÕES E PENSAMENTOS FILOSÓFICOS SOBRE A BIOINFORMÁTICA 69
10.1. Sobre bioinformática, genoma e ciência 69
10.2. Introdução 69
10.3. Genoma e o método científico 70
10.4. Um conceito de bioinformática 71
10.5. Princípios paradigmáticos em bioinformática 72
10.6. Conclusão 74
10.7. bRAINsTORM 74
PREFÁCIO
Hoje, passados quase 4 anos que ministrei este curso pela Internet, vejo este
documento arquivado entre meus arquivos do período jurássico e tenho pena de deixar
este conhecimento perdido nos meandros digitais do meu disco rígido. Assim, contatei
recentemente a editora da revista que lendo o contrato que fizemos à época e dizendo
serem meus os direitos autorais desta apostila ou “esboço de livro”, informou-me que
tenho o direito de publicar o presente documento na Internet para que se torne
acessível a qualquer indivíduo interessado em aprender a arte e a ciência da
bioinformática. Recomendou-me ainda que eu atualizasse as informações aqui
presentes e publicasse um livro de verdade, a ser vendido nas livrarias. Tenho sim
planos de fazê-lo, mas sei que precisaria reestruturar boa parte do que está aqui
contido e, por falta de tempo para tanto, decido publicar esta versão gratuitamente
pela Internet. Assim, caso haja interesse de leitores, estudantes ou editores, estarei
disposto a atualizar estas informações e produzir uma segunda edição mais completa e
atualizada sobre presentes assuntos.
Chico Prosdocimi
http://biotec.icb.ufmg.br/chicopros
http://chicopros.blogspot.com
Aos meus pais
3
CAPÍTULO 1
Uma visão global da bioinformática
O que importa é que, desde 1998, quando o ABI Prism foi lançado, outras
empresas desenvolveram também seus seqüenciadores capilares de larga escala e o
custo dessas máquinas – que antes chegava a trezentos mil dólares – foi aos poucos
caindo e permitindo que mais e mais laboratórios pudessem ter seus próprios
seqüenciadores. Cada vez mais dessas máquinas são vendidas ainda hoje e o número
de seqüências de DNA produzidas vem aumentando exponencialmente até o presente
momento.
Leitura complementar:
http://nextisnowbr.blogspot.com/2009/12/next-generation-sequencing-estado-da.html
programação para a internet, como o CGI ou o PHP, sendo que esse último ainda
apresenta a vantagem de permitir fácil conexão com bancos de dados.
É claro que a gama de conhecimento necessária para exercer bem uma
profissão qualquer tende a ser infinita, mas é indispensável ao menos que o
bioinformata seja proficiente em uma linguagem de programação e tenha bons
conhecimentos de biologia molecular, dos bancos de dados e das ferramentas a serem
utilizadas em cada caso. Aqui, iremos passar apenas de leve em programação e
biologia molecular na próxima aula e depois passaremos direto para a parte que
explica e mostra quais são as principais ferramentas utilizadas em análises genômicas
e os principais bancos de dados que devem ser consultados em diferentes aplicações.
Boa noite a todos! Está aberto nosso biochat sobre bioinformática. Por
Dr. Francisco
favor, enviem suas dúvidas para que possamos discutir e trocar idéias
Prosdocimi
a respeito do assunto.
Grande Francisco... Afinal, qual o conceito mais aceito para
Vanderson:
Bioinformática?
Olá Vanderson. Fico agradecido pela sua presença. Na verdade existem
vários conceitos para bioinformática e muita confusão é feita sobre o
Dr. Francisco
tema. Na minha opinião a bioinformática surgiu com o boom dos
Prosdocimi
sequenciadores automáticos de DNA e ainda hoje está ligada a análises
de seqüências de biomoléculas.
Biologia computadorizada? Ouvi este termo e queria saber qual é a
Adonis:
diferença disso para Bioinformática?
Pois é, meu prezado Adonis. A biologia computacional diz respeito a
qualquer aplicação da computação na área biológica, enquanto a
Dr. Francisco
bioinformática está freqüentemente associada a analise de seqüências
Prosdocimi
de genoma, transcriptoma e proteoma. Esses conceitos entretanto são
bastante maleáveis e modificam-se todos os anos.
Boa noite Dr. Francisco. Sou estudante do curso Bacharelado em
Pedro: Bioquímica, na Universidade Federal de Viçosa e tenho direcionado a
minha formação acadêmica para me tornar...
Com relação aos cursos específicos para bioinformática, eles existem
no Brasil apenas em nível de pós-graduação. Sendo que um deles é o
curso de especialização lato sensu do LNCC, no qual acontece a
Dr. Francisco
formação de especialistas em bioinformática. Na USP e na UFMG
Prosdocimi
existem cursos de doutorado em bioinformática, onde tais profissionais
são formados. Eu, a propósito, fui aluno do LNCC e fui também o
primeiro aluno a defender o doutorado em bioinformática na UFMG.
Gostaria que vc respondesse o Pedro Marcus pq eu tenho a mesma
Francisco:
dúvida...
Com relação a cursos de graduação, meu prezado xará, ainda não
Dr. Francisco
existem na área e recomendo que vc faça um curso de biologia ou de
Prosdocimi
computação, se pretende seguir carreira em bioinfo.
Adonis: então bioinfo está dentro da biologia computacional?
Concordo, Adonis. Na minha opinião a bioinformática é, sim, uma parte
da biologia computacional, sendo essa última uma área bastante ampla
Dr. Francisco
e não necessariamente relacionada com biologia molecular. Embora,
Prosdocimi
repito, esses conceitos são maleáveis e modificam-se com o
desenvolver das ciências.
Qual a sua experiência com a Bioinformática? O senhor trabalha mais
Pedro: no meio acadêmico ou se relaciona diretamente com o mercado de
trabalho?
Trabalho com bioinformática desde 2000, tendo tido anteriormente
uma formação como biólogo molecular em bancada. Fiz minha
monografia de bacharelado, minha dissertação de mestrado (em
genética) com análises de transcriptomas do verme Schistosoma
Dr. Francisco mansoni e fui o primeiro aluno a defender o doutorado em
Prosdocimi bioinformática na UFMG trabalhando com análises de qualidade de
seqüências de DNA e genômica comparativa. Sempre trabalhei mais
voltado para o meio acadêmico, mas já fiz também alguns trabalhos
em parceria com uma empresa de Belo Horizonte na área de
bioinformática. A empresa se chama vetta technologies.
1.7 Brainstorm
CAPÍTULO 2
Genoma, biologia molecular e computação
2.1. Introdução
Como já foi dito, o presente curso não tem como função explicar genômica,
biologia molecular ou computação. Ainda assim, alguns conceitos se tornam
importantes para que possamos seguir o curso e neste capítulo estaremos nos
dedicando a eles.
2.3. Genômica
Binneck, Eliseu. As ômicas: integrando a bioinformação. Biotec Ci & Des 32: 28-
37. http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf
Pequeno script PERL para obter uma fita de RNA a partir de uma fita de DNA.
#!/usr/bin/perl
2.7. Brainstorm
1. Você viu a animação sobre como é feito o sequenciamento do DNA, descreva agora
as etapas através das quais é realizada esta técnica.
2. Descreva como são feitos projetos genoma e transcriptoma.
3. Perguntas sobre o texto escrito por Binneck.
a. Apesar de apresentarem um número de genes bastante similar a outros
organismos, diz-se que os seres humanos apresentam uma diversidade de
proteínas muito maior do que eles. A que se deve tal diversidade?
b. Qual a porcentagem do genoma humano que é responsável pela produção
de genes/proteínas? E o resto, qual seria o motivo – se é que há algum – para
haver tanto DNA não codificante no genoma?
c. Você acredita que genes que alteram seus padrões de expressão em
conjunto possam ter funções parecidas? Por quê?
d. Escolha duas das ciências “ômicas” e descreva-as
e. Discorra sobre o papel da bioinformática na agregação de dados em biologia
4. Com relação a linguagens de programação, por que o PERL é conhecido como a
linguagem dos bioinformatas? Os dados em bioinformática podem ser tratados com
outras linguagens de programação? Cite outra linguagem possível.
CAPÍTULO 3
Alinhamento de Seqüências
3.1. Introdução
algoritmo guloso. Quando essa região é encontrada são dados pontos para
similaridades (match), diferenças (mismatches), abertura de falhas (gap opening) e
extensão de falhas (gap extension) que possam ser encontradas no seu alinhamento.
A somatória dos pontos desse alinhamento é chamado de escore do alinhamento e, no
exemplo mostrado, o escore do alinhamento é 3. Tais escores são contabilizados tanto
nos alinhamentos globais quanto locais.
Algo que deve ser levado em consideração sempre que se deseja fazer
alinhamentos de seqüências é o fato de que o alinhamento desejado seja o melhor
possível de ser obtido através de ferramentas computacionais ou se desejamos apenas
uma aproximação válida desse melhor resultado. É evidente que, em condições
normais, desejaríamos sempre obter o melhor resultado de alinhamento possível e,
portanto, utilizaríamos os algoritmos que produzem resultados ótimos. Entretanto,
algumas vezes precisamos obter uma maior rapidez de busca e, portanto, aceitamos
que o resultado obtido não seja “o melhor possível” e, assim, utilizamos algoritmos
que apresentam algum tipo de heurística. E essa heurística, no caso, normalmente
consiste em uma forma qualquer que o programador utiliza para acelerar a produção
dos resultados, em detrimento da obtenção do melhor resultado possível. Assim
obtém-se um resultado aproximado, mas rápido. A tabela 3.2 apresenta os principais
algoritmos utilizados em bioinformática para o alinhamento de seqüências.
As ferramentas de alinhamento ótimo são aquelas que nos dão como resultado
o melhor alinhamento possível de acordo com a metodologia algorítmica de
comparação de seqüências. Via de regra, a execução desses algoritmos é mais lenta
do que a daqueles algoritmos que não geram o resultado perfeito e, como vimos na
tabela 4.2., existem ferramentas de alinhamento ótimo locais e globais. O maior
problema em utilizar os programas de alinhamento ótimo consiste nos casos onde são
alinhadas múltiplas seqüências entre si. Nesses casos, o alinhamento ótimo pode se
tornar simplesmente impossível de ser feito, pois gastaria uma quantidade de tempo
quase infinita para alinhar otimamente uma quantidade seqüências não muito grande.
Nos outros casos, entretanto, deve-se preferir a utilização de algoritmos que produzam
o alinhamento ótimo em detrimento dos algoritmos de pesquisa heurística.
Algoritmos heurísticos são aqueles que não realizam o alinhamento ótimo entre
seqüências. Esses algoritmos freqüentemente utilizam alguma técnica alternativa para
acelerar o resultado da busca por seqüências similares, no caso. O BLAST, por
exemplo, como vimos no item anterior, parte a seqüência em pedaços para acelerar a
busca e outros algoritmos realizam diferentes maneiras de gerar um resultado que
seja o mais próximo possível do resultado ótimo. Como já comentado, são
principalmente utilizados em alinhamentos múltiplos, onde os algoritmos ótimos
demoram um tempo muito grande para gerar os resultados. São freqüentemente
utilizados também quando da comparação de seqüências contra grandes bancos de
dados, exatamente como faz o BLAST, que procura a similaridade de uma seqüência
de entrada contra milhões de outras presentes em seu banco de dados.
Muitas vezes, os resultados obtidos com programas heurísticos devem ser
confirmados por programas de alinhamento ótimo antes de serem publicados em
revistas especializadas. Entretanto algumas vezes tal procedimento não é necessário e
tudo vai depender do tipo de trabalho que está sendo realizado.
Como também já foi comentado na seção anterior, existem dois tipos principais
de alinhamentos de seqüências no que concerne ao número de seqüências que são
comparadas durante o alinhamento. Quando apenas duas seqüências são comparadas
entre si, diz-se que o alinhamento é simples. E, nesses casos, normalmente prefere-se
utilizar alinhamentos ótimos para gerarem os resultados, exceto nos casos onde
milhares de alinhamentos simples devem ser realizados.
De forma contrária, considera-se um alinhamento múltiplo quando três ou mais
seqüências devem ser alinhadas entre si. No fundo, o alinhamento múltiplo é montado
a partir do alinhamento par a par de cada uma das seqüências com todas as outras,
seguido por um outro procedimento que irá gerar o resultado final do alinhamento de
todas contra todas. Assim, se 10 seqüências são comparadas entre si, serão
necessárias 10! (fatorial de 10) comparações de seqüências, o que representam
Bases A C G T Y R N
A 2 -2 0 -2 -2 1 0
C -2 2 -2 0 1 -2 0
G 0 -2 2 -2 -2 1 0
T -2 0 -2 2 1 -2 0
Y -2 1 -2 1 1 -2 0
R 1 -2 1 -2 -2 1 0
N 0 0 0 0 0 0 0
Tabela 3.3: Matriz de substituição de nucleotídeos mat50. O valor dado para cada
troca pode ser visto nas interseções. O Y representa pirimidinas, o R representa
purinas e o N representa qualquer nucleotídeo.
Bases A C G T Y R N
A 2 -2 -1 -2 -2 0 0
C -2 2 -2 -1 0 -2 0
G -1 -2 2 -2 -2 0 0
T -2 -1 -2 2 0 -2 0
Y -2 0 -2 0 0 -2 0
R 0 -2 0 -2 -2 0 0
N 0 0 0 0 0 0 0
Tabela 3.4: Matriz de substituição de nucleotídeos mat70. O valor dado para cada
troca pode ser visto nas interseções. O Y representa pirimidinas, o R representa
purinas e o N representa qualquer nucleotídeo.
Seq1 1 0
Seq2 1 GCACGAGGACTGTGAACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGC 50
Seq1 1 0
Seq1 1 CTTTCAAGATGAACG 15
|||||||||||||||
Seq2 101 TAAAAAGCTGAGCAAATATACCTGGAGCGTTCAGACTTTCAAGATGAACG 150
Seq1 16 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA 65
||||||||||||||||||||||||||||||||||||||||||||||||||
#---------------------------------------
#---------------------------------------
Query= Seq1
(464 letters)
Database: seq2
1 sequences; 736 total letters
Searching.done
Score E
Sequences producing significant alignments: (bits) Value
>Seq2
Length = 736
Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195
Database: seq2
Posted date: Nov 19, 2004 3:58 PM
Number of letters in database: 736
Number of sequences in database: 1
Lambda K H
1.37 0.711 1.31
Gapped
Lambda K H
1.37 0.711 1.31
Seq1 ------------------------------------------------------------
Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq1 ------------------------------------------------------------
Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA
Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
***************************************
Seq1 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
Seq4 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
Seq2 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
Seq3 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
************************************************************
Seq1 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
Seq4 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
Seq2 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
Seq3 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
************************************************************
Seq1 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
Seq4 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
Seq2 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
Seq3 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
************************************************************
Seq1 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
Seq4 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
Seq2 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
Seq3 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
************************************************************
Seq1 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT----------
Seq4 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGTCAGATTCTGT
Seq2 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT----------
Seq3 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT----------
**************************************************
Seq1 ------------------------------------------------------------
Seq4 TAATGTAAACAGTTTTTGTATATACAGCGTTCCTATCTTTGTTTTTCTTCAATACTTACC
Seq2 ------------------------------------------------------------
Seq3 ------------------------------------------------------------
Seq1 -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA
Seq4 TGTTAGGGTTTTTGGTCATTATTTTAGGTGTAAAACCGTTTGAATGCACTTATTGTTATA
Seq2 -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA
Seq3 -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA
*******************************
Seq1 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA
Seq4 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA
Seq2 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA
Seq3 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACANAGGTCTCA
*************************************************** ********
Seq1 AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAA---------------
Seq4 AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTTAAACGA
Seq2 AGCCTTTCCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTAAAACGA
Seq3 AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTANAACGA
******** ************************************
Seq1 ------------------------------------------------------------
Seq4 CACATAGAAAGCATTCACGAAAG-------------------------------------
Seq2 CACATAGAAGCAATTCACGAAGATCCTCGGCATCGCTGAAGAGAAACCAGATTGTATAAT
Seq3 CACATAGAAAGCATTCACGAAGATCCTCGGCATCGCTGAAGAGAAACCAGAT-GTATAAT
Seq1 -------------------------------------------------------
Seq4 -------------------------------------------------------
Seq2 CCTCTCCAATTTTCATATGATTTCATGTTCAAAAATATACATTTATTATTCTTTC
Seq3 CCTCTCCAATTT-CATATGATTNCATGNTCANAA-TATACATTTATTATTCTTTC
3.9. Brainstorm
CAPÍTULO 4
Montando um genoma
“Seqüenciar o DNA é agora uma das tarefas mais fáceis de realizar, além de servir
hambúrgueres.” Karry Mullis, prêmio Nobel
4.2. Base-calling
Assim, com os dados brutos do seqüenciador, o PHRED atribui a cada base uma
chance desta estar incorreta e, utilizando a fórmula acima, associa um valor de
qualidade à cada uma delas. Um valor de qualidade de PHRED (ou simplesmente valor
de PHRED, valor de qualidade ou qualidade da base) igual a 10, representa que aquela
base tem uma chance em dez de estar incorreta (10%). Como o valor está em escala
logarítmica, um valor de PHRED 20, significa que aquela base tem uma chance em cem
de estar incorreta (1%) e um valor de 30 representa uma chance em mil (0,1%).
Freqüentemente, aceita-se que um valor de PHRED igual a 20 é suficiente para
aceitar uma base como real ou utiliza-se para aceitar uma região de boa qualidade.
Entretanto, trabalhos recentes têm mostrado que podemos confiar em valores
relativamente mais baixos (Prosdocimi et al., 2004).
a)
> Seq1
ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTC
TAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAATTCC
b)
> Qual1
10 12 15 15 15 18 20 22 25 18 13 8 5 5 8 10 7 12 18
25 30 30 22 13 12 12 12 11 9 9 10 15 20 20 22 6 6 5
4.3. Cross-match
Como foi dito no primeiro item desta aula, as seqüências de DNA geradas em
projetos genoma são primeiramente clonadas em moléculas de DNA plasmidial. Dessa
forma, algumas vezes pedaços de seqüências dessa molécula bacteriana acabam
sendo produzidas em conjunto com as moléculas do DNA que se deseja produzir.
Como as moléculas dos vetores de clonagem não representam o genoma que se
> Seq1.screen
XXXXXXXXXXXXXXXXXXXXXXXXXXAATATCAGCACCATCTCGAATCTC
TAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAATTCC
ele troca-as por letras X. Então, depois do cross-match, teremos vários conjuntos de
aproximadamente seiscentas palavras que sabemos ser de nosso livro genômico.
Agora é preciso montá-lo. Para isso teremos que ir lendo todas os conjuntos de frases
e observando onde as frases se sobrepõem para podermos juntá-las e gerar, por
exemplo, um capítulo do livro (que poderia ser uma analogia à montagem de um BAC
ou de um cromossomo inteiro). Veja o exemplo:
A seguir temos uma Fábula Fabulosa do escritor Millôr Fernandes que foi, assim como
um genoma, dividida em partes. Monte as partes e produza a seqüência completa da
fábula.
> Frase 1
sabedoria e calor que fazem os seres humanos - "mas eu não". MORAL DA HISTÓRIA:
NÃO MORRE A PASSARADA QUANDO MORRE UM PÁSSARO.
> Frase 2
ela não pôde resistir e exclamou: "Mas, como, seu marido não morreu há cinco anos?"
"Sim, é verdade" - respondeu então a outra, cheia daquela compreensão, sabedoria e
> Frase 3
Quando a amiga lhe apresentou o garotinho lindo dizendo que era seu filho mais novo,
ela não pôde resistir e exclamou: "Mas, como, seu marido não morreu há cinco anos?"
> Frase 4
não morreu há cinco anos?" "Sim, é verdade" - respondeu então a outra, cheia daquela
compreensão, sabedoria e calor que fazem os seres humanos - "mas eu não".
O genoma é montado da mesma maneira que você realizou para montar essa
fábula do Millôr chamada “A viúva”. (Para ler mais fábulas do escritor, acesse
http://www.millor.com.br.) Várias seqüências representando pedaços de genoma são
gerados e observa-se a posição onde elas se sobrepõem. Realizando a sobreposição de
vários trechos de seqüência é possível montar todo o genoma. Entretanto, como já foi
dito, um genoma apresenta milhões ou bilhões de seqüências de nucleotídeos e,
portanto, não é possível realizar esta montagem à mão. Para isso existem algoritmos
de montagem de genoma, como o PHRAP, o CAP e o TIGR Assembler. O PHRAP é o
algoritmo mais utilizado e funciona mais ou menos da forma mostrada na figura 5.2.
4.7. Brainstorm
CAPÍTULO 5
Análise de Transcriptomas
5.1. As ESTs
No final da seção 5.2, vimos que editor da revista Nature, Sir Maddox, dizia que
existia “o perigo de que a abordagem de cDNA seja apresentada como uma alternativa
mais barata para completar o sequenciamento [do genoma], o que ela não é”. Vale a
pena, portanto, neste momento, discutirmos as diferenças entre as análises de
genomas e de transcriptomas. Vale notar primeiramente que nenhuma das duas
análises exclui a outra e são estudos que, apesar de relacionados, provém respostas
para perguntas diferentes. A molécula de DNA é estática e está presente, com a
mesma constituição, em todas as células do organismo. A decifração desse conteúdo
estático de DNA é a tarefa da genômica. Já o conteúdo de RNA de uma determinada
célula depende do tempo e das condições à qual ela está sendo submetida. O
transcriptoma mede a parte do genoma que está sendo utilizada num determinado
momento. E essa parte do genoma expresso é diferente para cada tipo celular.
Existem genes que são expressos apenas na pele, outros no cérebro e alguns nos
testículos. Alguns genes são ainda mais expressos quando a célula está submetida a
um choque térmico, à restrição calórica ou à falta de oxigênio. Enquanto o genoma é
apenas um, existem vários transcriptomas possíveis para uma mesma espécie.
Algumas perguntas, entretanto, só podem ser obtidas quando se observa o
genoma expresso, enquanto outras, apenas quando se observa o genoma estático. Por
exemplo, por mais que se obtenha seqüências de ESTs de vários diferentes tecidos de
um organismo, nunca é possível dizer que ele não apresenta um determinado gene
através de análises transcriptômicas. De forma contrária, quando se obtém toda a
seqüência de genoma do organismo é possível saber todo o repertório de genes que
ele possui para realizar alguma tarefa metabólica. Ao mesmo tempo, através da
análise genômica é impossível saber, por exemplo, qual o repertório gênico que é
5.6. Microarrays
5.8. Brainstorm
CAPÍTULO 6
Bancos de dados em Biologia Molecular
Neste capítulo vamos tratar das bases de dados em biologia molecular. As bases de
dados em biologia molecular são importantes principalmente para proporcionar à
comunidade científica uma forma de tornar os dados (produzidos em todo o mundo)
acessíveis de forma fácil, rápida e inteligente
(http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html).
6.1. Histórico
NZ Genoma (WGS)
ZP Proteína gerada por entrada NZ
* Computed from genome annotation pipeline
** Whole Genome Shotgun
O Gene Ontology em si, não é bem um banco de dados e, por isso, talvez
devesse estar em um capítulo à parte. Entretanto, são disponibilizados bancos de
dados de ontologias organizadas para determinados organismos e parece interessante
abordar esse tópico no presente momento.
O Gene Ontology (popularmente conhecido como GO) é um esforço colaborativo
em reunir descrições consistentes de produtos gênicos em diferentes bancos de dados.
Os participantes do projeto GO desenvolveram três estruturas de vocabulário
controlado, chamadas de ontologias, que descrevem os produtos gênicos em termos
de sua associação com processos biológicos, componentes celulares e função
molecular de maneira não relacionada com qualquer organismo em especial.
Basicamente essas três ontologias estão relacionadas às principais perguntas que os
pesquisadores têm sobre um determinado gene: (1) em quais processos biológicos o
gene está envolvido; (2) qual a sua localização dentro da célula e; (3) como,
molecularmente, o gene realiza sua função. Um determinado gene, por exemplo, pode
realizar a transdução de sinais em uma célula (processo biológico), estar preso à
membrana celular (localização celular) e ter uma função de fosforilar uma outra
proteína (função molecular), sendo classificado no GO de acordo com essas três
características.
Além disso, a utilização de termos precisos de vocabulário do GO ajuda muito
na chamada genômica comparativa, pois dessa forma podemos saber se um
determinado organismo, por exemplo, apresenta um maior número percentual de
genes relacionados a um determinado processo biológico ou não. O mesmo vale pras
outras duas ontologias e podemos testar hipóteses, interessantes, como: será que um
organismo que vive a altas temperaturas possui mais proteínas de choque térmico?,
será que este organismo possui mais proteínas chaperonas, que ajudam no
enovelamento de outras?, será que ele apresenta mais proteínas responsáveis pela
duplicação de seu DNA?
Da mesma forma, a utilização destas ontologias permite que um pesquisador
saiba quais são todas as proteínas quinases de um determinado organismo, ou quais
são todas as proteínas envolvidas com metabolismo de DNA ou, ainda, quais são todas
as proteínas que ficam associadas ao retículo.
Outro ponto importante na análise das ontologias é que elas, assim como a
realidade biológica, não apresentam uma ordem hierárquica bem definida. E ainda que
isso dificulte um pouco a análise, o resultado da ordem e da relação entre as
ontologias fica mais fiel ao conhecimento que se tem sobre a biologia dos organismos.
Ainda assim, as ontologias obedecem a uma certa hierarquia, não muito rígida, de
forma que, por exemplo, a ontologia das “tirosina quinases” é filha da ontologia das
“quinases” e o pesquisador pode escolher observar ou obter todas as quinases de um
organismo de GO anotado ou apenas as “tirosina quinases”, que são um subgrupo das
quinases.
1. Weller DL et al., 2002. Database resources of the National Center for Biotechnology
information: 2002 update. Nucleics Acid Reserch 30(1): 13-16.
2. Benson DA et al., 2002. GenBank. Nucleics Acid Reserch 30(1): 17-20.
3. Stoesser G et al., 2002. The EMBL nucleotide sequence database. Nucleics Acid
Reserch 30(1): 21-26.
4. Tateno Y et al., 2002. The DNA Data Bank of Japan (DDBJ) for genome scale
research in life sciences. Nucleics Acid Reserch 30(1): 27-30.
5. Westbrook J et al., 2002. The Protein Data Bank: unifying the archive. Nucleics Acid
Reserch 30(1): 245-248.
6. Bairoch A & Apweiler R, 2000. The SWISS-PROT protein sequence database and its
supplement TrEMBL in 2000. Nucleics Acid Reserch 28(1): 45-48.
7. Baxevanis AD and Ouellette BFF, 2001. Bioinformatics: A practical guide to the
analysis of genes and proteins. Ed. Wiley-interscience. 2nd ed.
8. Pruitt K., Tatusova T. and Ostell J. The NCBI handbook (Internet): Chapter 17, The
Reference Sequence (RefSeq) Project. Bethesda (MD): National Library of Medicine
(US), National Center for Biotechnology Information; 2002.
Sites:
NCBI Genbank - http://www.ncbi.nih.gov/Genbank/
EMBL Nucleotide Sequence Database - http://www.ebi.ac.uk/embl/
DDJP - DNA Data Bank of Japan - http://www.ddbj.nig.ac.jp/
NCBI Reference Sequences web site - http://www.ncbi.nlm.nih.gov/RefSeq/
The Gene Ontology – http://www.geneontology.org
Swissprot – http://us.expasy.org/sprot/
6.8. Brainstorm
aceso da hemoglobina AF117710 na aba Search só que, desta vez, clique no nome nr,
na opção Choose database. O nr representa o GenPept e é o banco de dados contra
o qual o BLAST realiza a busca. Selecione, ao invés de nr, a opção swissprot e então
clique no botão “BLAST!”. Espere a próxima página aparecer e clique em Format!
Quando a tela de resultados aparecer, compare esses resultados com aqueles obtidos
contra o banco nr. Responda: O que você pode observar de diferente? Repare como a
nomenclatura utilizada pelo Swissprot é importante e facilita a identificação da
proteína. (Se tiver interesse, volte novamente e execute outras buscas BLAST contra
diferentes bancos de dados e observe os resultados.)
CAPÍTULO 7
Anotação de Genomas
7.1. Introdução
Stein (2001) propõe alguns modelos bastante pertinentes para explicar como é
realizada, passo a passo, a anotação genômica. Segundo ele, esses processos de
identificação gênica normalmente seguem algum dos seguintes modelos
organizacionais: a fábrica, o museu e a festa. Cada modelo é adequado para alguma
das fases do trabalho de anotação (Stein 2001).
Durante a primeira fase, quando o principal trabalho é encontrar genes e
mapear variações e marcadores, o modelo da fábrica é o mais adequado. Nesse
modelo uma rede de computadores trabalha seguindo uma série de programas de
anotação. A seqüência de entrada é jogada numa série de programas para predição de
genes, procura de similaridades entre seqüências de nucleotídeos e proteínas e
procura de domínios funcionais. Isso permite a geração de grandes quantidades de
dados sobre o genoma.
Então se inicia a fase de museu, quando a ênfase passa da localização dos
dados para a sua interpretação. Nesse modelo um conjunto de curadores deve
classificar e catalogar o genoma de forma sistemática, encontrando e corrigindo erros
gerados pelos programas na primeira etapa. A maior parte dessa etapa é feita à mão e
deve basear-se também na literatura obtida sobre o organismo em questão para uma
melhor integração com os dados genômicos.
1. Stein, L., 2001. Genome annotation: from sequence to biology. Nature Reviews 2:
493-505
2. Rouzé P.; Pavy, N. and Rombauts, S. (1999). Genome annotation: which tools do
we have for it? Curr Opin Struct Biol 2: 90-95.
3. Lewis, S.; Ashburner, M. and Reese, M. G. (2000). Annotating eukaryote genomes.
Curr Opin Struct Biol 10: 349–354.
4. PHRAP -- http://www.phrap.org
5. CAP3 - http://genome.cs.mtu.edu/cap/cap3.html
6. Prosdocimi F; Cerqueira GC; Binneck E; Silva AF; Reis AN; Junqueira ACM; Santos
ACF; Nhani-Júnior A; Wust CI; Camargo-Filho F; Kessedjian JL; Petretski JH; Camargo
LP; Ferreira RGM; Lima RP; Pereira RM; Jardim S; Sampaio VS and Folgueras-
Flatschart AV. Bioinformática: manual do usuário. Biotec. Ci. Des. 29: 18-31, 2002.
7. Aubourg, S. and Rouzé P. (2001). Genome annotation. Plant Physiol Biochem 39:
181-193.
8. Altschul, S. F.; Madden, T. L.; Schaffer, A. A.; Zhang, J.; Zhang, Z.; Miller, W. and
Lipman, D. J. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein
database search programs. Nucleic Acids Res 25: 3389-3402.
9. Bairoch, A. and Apweiler, R. (2000). The SWISS-PROT protein sequence database
and its supplement TrEMBL in 2000. Nucleic Acids Res 28: 45-48.
10. Jensen, R. A. (2001). Orthologs and paralogs – we need to get it right. Genome
Biol 2: 1002.1-1002.3.
11. Apweiler, R. (2001). Functional information in SWISS-PROT: The basis for large-
scale characterisation of protein sequences. Brief Bioinform 2: 9-18.
12. Apweiler, R.; Attwood, T. K.; Bairoch, A.; Bateman, A.; Birney, E.; Biswas, M.;
Bucher, P.; Cerutti, L.; Corpet, F.; Croning, M. D.; Durbin, R.; Falquet, L.;
Fleischmann, W.; Gouzy, J.; Hermjakob, H.; Hulo, N.; Jonassen, I.; Kahn, D.; Kanapin,
A.; Karavidopoulou, Y.; Lopez, R.; Marx, B.; Mulder, N. J.; Oinn, T. M.; Pagni, M.;
Servant, F.; Sigrist, C. J. and Zdobnov, E. M. (2001). The InterPro Database; an
integrated documentation resource for protein families; domains and functional sites.
Nucleics Acid Res 29: 37-40.
13. Lang, F. (1997). TREMBL. Trends Genet 13: 417.
14. The Gene Ontology Consortium (2000). Gene Ontology: tool for the unification of
biology. Nat Genet. 25: 25-29.
15. The RIKEN Genome Exploration Research Group Phase II Team and the FANTOM
Consortium (2001). Functional annotation of a full-length mouse cDNA collection.
Nature 409: 685-690.
16. Adams, M. D.; Kelley, J. M.; Gocayne, J. D.; Dubnick, M.; Polymeropoulos, M. H.;
Xiao, H.; Merril, C. R.; Wu, A.; Olde, B.; Moreno, R. F.; Kerlavage, A. R.; McCombie,
7.7. Brainstorm
CAPÍTULO 8
Bioinformática Evolutiva e Genomas Completos
Fitch, que primeiramente utilizou esses termos, eles não apresentam esse significado
funcional e sim um significado evolutivo.
Segundo sua definição, a determinação de ortologia ou paralogia está
relacionada a eventos de evolução gênica. Genes que tenham sido duplicados dentro
de uma mesma linhagem (linhas horizontais) são parálogos, não importando se
possuem a mesma função ou não. Já os genes que foram alterados dentro de
linhagens específicas, após especiação (aqueles nos quais, se voltarmos à sua origem,
chegamos a uma bifurcação ou Y invertido) são os chamados ortólogos.
Isso significa dizer que, na figura acima, A1 tem três ortólogos na espécie C,
mas somente C1 é ortólogo de B1. Já B2 tem dois ortólogos na espécie C (C2 e C3),
onde C2 e C3 são parálogos. Portanto, toda relação de homologia entre genes pode ser
classificada como ortologia ou paralogia e deve-se perceber que um dado gene em
uma espécie pode ter mais do que um ortólogo em outra. Além disso, podemos
detectar também genes parálogos em espécies diferentes. É bom lembrar que existe
também uma terceira relação entre genes conhecida como xenologia, que consiste na
relação entre genes quando, na sua história evolutiva, pelo um deles surgiu por
transferência horizontal, ou seja, o gene em algum momento foi absorvido do meio
para dentro do genoma do organismo (através de vírus, por exemplo).
Portanto essa definição de nada tem a ver com a função e sim com a história
evolutiva dos genes e é assim que essa nomenclatura foi definida primeiramente.
Entretanto, devemos notar que, para definirmos corretamente a relação entre os
genes, temos que conhecer detalhes sobre sua rota evolutiva. O problema é que, na
grande maioria das vezes, não temos informações suficientes para montar essa rota de
forma correta.
É interessante notar que, para os pesquisadores da ciência genômica, é
importante saber, principalmente, se dois genes homólogos possuem uma mesma
característica funcional. Esse conhecimento permite entender melhor tanto as origens
estruturais das funções biológicas como as bases moleculares para a divergência
dessas funções, permitindo aos pesquisadores comparar relações sobre a seqüência,
estrutura e função de grupos de homólogos.
Assim, considerando que os termos ortologia e paralogia mostram-se
inadequados para uso, Gerlt e Babbit sugerem novos termos a serem utilizados na
8.2. COG
Complete Genomes
Organism
published
Vírus 2024
Arqueobactérias 21
Bactérias 196
Outros Eucariotos 18
Assim, temos disponível para nosso uso tanto a seqüência do genoma completo
do organismo quanto as seqüências de cada um dos seus genes e proteínas. Com
essas informações torna-se possível que realizemos vários tipos de estudos de nosso
próprio interesse e utilizemos as seqüências dos genomas da forma como nos
interessar.
2. Jensen, RA. Orthologs and paralogs – we need to get it right. Genome Biology 2001
2 (8): 1002.1-1002.3
3. Sonnhammer EL, Koonin EV (2002). Orthology, paralogy and proposed
classification for paralog subtypes. Trends Genet. Dec;18(12):619-20.
4. Tatusov RL, Fedorova ND, Jackson JD, Jacobs AR, Kiryutin B, Koonin EV, Krylov
DM, Mazumder R, Mekhedov SL, Nikolskaya AN, Rao BS, Smirnov S, Sverdlov AV,
Vasudevan S, Wolf YI, Yin JJ, Natale DA (2003). The COG database: an updated
version includes eukaryotes. BMC Bioinformatics. Sep 11;4(1):41.
5. Tatusov RL, Natale DA, Garkavtsev IV, Tatusova TA, Shankavaram UT, Rao BS,
Kiryutin B, Galperin MY, Fedorova ND, Koonin EV (2001). The COG database: new
developments in phylogenetic classification of proteins from complete genomes.
Nucleic Acids Res. Jan 1;29(1):22-8.
6. Tatusov RL, Koonin EV, Lipman DJ (1997). A genomic perspective on protein
families. Science. Oct 24;278(5338):631-7.
8.5. Brainstorm
1. Qual o conceito de homologia e por que não se diz que dois genes são mais
homólogos entre si do que um terceiro?
2. O que são genes parálogos e ortólogos?
3. Como o COG classifica os genes em ortólogos? Discuta sobre a classificação do
COG e o conceito de ortologia da resposta anterior.
4. Por que você acredita que os genomas virais são os mais seqüenciados de todos?
5. Que tipo de informação é disponibilizada sobre um organismo quando um genoma
está completo?
CAPÍTULO 9
Bioinformática estrutural
Iniciando nossa Interação
Como já dissemos a bioinformática consiste principal no estudo de seqüências de
biomoléculas. Até agora já conseguimos entender a relevância da bioinformatica com
relação a seqüências de DNA (genoma) e RNA (transcriptoma). Portanto é hora de nos
voltarmos para as seqüências de proteínas. As proteínas são muitas vezes
consideradas as principais moléculas de uma células, já que são elas que realizam as
funções celulares, sendo que o DNA e RNA têm principalmente a característica de
armazenamento e processamento de informações. Sabe-se bem que as proteínas
exercem sua função de acordo com sua estrutura espacial, ou seja, a função da
proteína está intrinsecamente ligada a sua conformação tridimensional, à sua
estrutura. E é justamente a busca por esta conformação espacial uma das principais
áreas da bioinformática, que será discutida no presente capítulo.
utilizar laboriosos testes experimentais para tal, sendo que os principais métodos
utilizados hoje em dia são a difração de raios-X e a ressonância nuclear magnética.
Na difração de raios-X, a primeira dificuldade consiste na produção de um
cristal da proteína desejada. E essa dificuldade deve-se ao fato de que a cristalização
consiste num processo um tanto quanto caótico e imprevisível, sendo que
determinadas proteínas podem ser cristalizadas em poucos dias enquanto outras
demoram anos para que possam ser cristalizadas. Esse cristal deve então ser
submetido a uma fonte de raios-X e o padrão de difração obtido pela incidência do
raio-X no cristal da proteína deve ser então analisado computacionalmente para que
seja produzida a estrutura precisa da proteína em questão. Com os dados obtidos no
experimento de difração é montado um mapa de densidades eletrônicas onde os
aminoácidos são “encaixados” e o quebra cabeça que representa a estrutura da
proteína é gerado. Dependendo da resolução obtida pode-se chegar até a descobrir
exatamente qual a seqüência de aminoácidos da proteína. Quase 100% das vezes,
entretanto, a seqüência primária já é conhecida de antemão.
Ao contrário da técnica de difração de raios-X, a ressonância nuclear magnética
ou NMR, da sigla em inglês, permite que a estrutura da proteína seja conhecida sem
que haja necessidade da cristalização da mesma (as proteínas são utilizadas em
solução) e, portanto, proteínas que não são possíveis de se cristalizar têm sua
estrutura 3D resolvida por este método. No fundo esse é um método de minimização
de energia que produz um resultado menos preciso e de menor resolução do que os
resultados de difração. Freqüentemente os resultados de NMR produzem mais de um
resultado que apresente uma energia mínima e, assim, os arquivos de estruturas de
proteínas resolvidas por NMR são, na verdade, um conjunto contendo todas as
estruturas da proteína que apresentaram menor energia e várias estruturas parecidas
são observadas nestes arquivos.
Outra informação importante sobre o PDB é que ele consiste, assim como o
GenBank, em um banco de dados primário de estruturas de proteínas, onde as
mesmas não são classificadas ou analisadas de nenhuma forma específica, estando
publicadas da mesma forma que o pesquisador que as produziu depositou no banco.
9.5. Threading
REMARK 18 1HDB 96
REMARK 18 DATE OF DATA COLLECTION : 07-04-94 1HDB 97
REMARK 18 MONOCHROMATIC (Y/N) : Y 1HDB 98
REMARK 18 INTENSITY-INTEGRATION SOFTWARE : XENGEN 1HDB 99
REMARK 18 DATA REDUNDANCY : 2.75 1HDB 100
DBREF 1HDB A 1 141 SWS P01922 HBA_HUMAN 1 141 1HDB 101
DBREF 1HDB B 1 146 SWS P02023 HBB_HUMAN 1 146 1HDB 102
DBREF 1HDB C 1 141 SWS P01922 HBA_HUMAN 1 141 1HDB 103
DBREF 1HDB D 1 146 SWS P02023 HBB_HUMAN 1 146 1HDB 104
SEQADV 1HDB THR B 67 SWS P02023 VAL 67 ENGINEERED 1HDB 105
SEQADV 1HDB THR D 67 SWS P02023 VAL 67 ENGINEERED 1HDB 106
SEQRES 1 A 141 VAL LEU SER PRO ALA ASP LYS THR ASN VAL LYS ALA ALA 1HDB 107
SEQRES 2 A 141 TRP GLY LYS VAL GLY ALA HIS ALA GLY GLU TYR GLY ALA 1HDB 108
SEQRES 3 A 141 GLU ALA LEU GLU ARG MET PHE LEU SER PHE PRO THR THR 1HDB 109
SEQRES 4 A 141 LYS THR TYR PHE PRO HIS PHE ASP LEU SER HIS GLY SER 1HDB 110
SEQRES 5 A 141 ALA GLN VAL LYS GLY HIS GLY LYS LYS VAL ALA ASP ALA 1HDB 111
SEQRES 6 A 141 LEU THR ASN ALA VAL ALA HIS VAL ASP ASP MET PRO ASN 1HDB 112
SEQRES 7 A 141 ALA LEU SER ALA LEU SER ASP LEU HIS ALA HIS LYS LEU 1HDB 113
SEQRES 8 A 141 ARG VAL ASP PRO VAL ASN PHE LYS LEU LEU SER HIS CYS 1HDB 114
SEQRES 9 A 141 LEU LEU VAL THR LEU ALA ALA HIS LEU PRO ALA GLU PHE 1HDB 115
SEQRES 10 A 141 THR PRO ALA VAL HIS ALA SER LEU ASP LYS PHE LEU ALA 1HDB 116
SEQRES 11 A 141 SER VAL SER THR VAL LEU THR SER LYS TYR ARG 1HDB 117
SEQRES 1 B 146 VAL HIS LEU THR PRO GLU GLU LYS SER ALA VAL THR ALA 1HDB 118
SEQRES 2 B 146 LEU TRP GLY LYS VAL ASN VAL ASP GLU VAL GLY GLY GLU 1HDB 119
SEQRES 3 B 146 ALA LEU GLY ARG LEU LEU VAL VAL TYR PRO TRP THR GLN 1HDB 120
SEQRES 4 B 146 ARG PHE PHE GLU SER PHE GLY ASP LEU SER THR PRO ASP 1HDB 121
SEQRES 5 B 146 ALA VAL MET GLY ASN PRO LYS VAL LYS ALA HIS GLY LYS 1HDB 122
SEQRES 6 B 146 LYS THR LEU GLY ALA PHE SER ASP GLY LEU ALA HIS LEU 1HDB 123
SEQRES 7 B 146 ASP ASN LEU LYS GLY THR PHE ALA THR LEU SER GLU LEU 1HDB 124
SEQRES 8 B 146 HIS CYS ASP LYS LEU HIS VAL ASP PRO GLU ASN PHE ARG 1HDB 125
SEQRES 9 B 146 LEU LEU GLY ASN VAL LEU VAL CYS VAL LEU ALA HIS HIS 1HDB 126
SEQRES 10 B 146 PHE GLY LYS GLU PHE THR PRO PRO VAL GLN ALA ALA TYR 1HDB 127
SEQRES 11 B 146 GLN LYS VAL VAL ALA GLY VAL ALA ASN ALA LEU ALA HIS 1HDB 128
SEQRES 12 B 146 LYS TYR HIS 1HDB 129
SEQRES 1 C 141 VAL LEU SER PRO ALA ASP LYS THR ASN VAL LYS ALA ALA 1HDB 130
SEQRES 2 C 141 TRP GLY LYS VAL GLY ALA HIS ALA GLY GLU TYR GLY ALA 1HDB 131
SEQRES 3 C 141 GLU ALA LEU GLU ARG MET PHE LEU SER PHE PRO THR THR 1HDB 132
SEQRES 4 C 141 LYS THR TYR PHE PRO HIS PHE ASP LEU SER HIS GLY SER 1HDB 133
SEQRES 5 C 141 ALA GLN VAL LYS GLY HIS GLY LYS LYS VAL ALA ASP ALA 1HDB 134
SEQRES 6 C 141 LEU THR ASN ALA VAL ALA HIS VAL ASP ASP MET PRO ASN 1HDB 135
SEQRES 7 C 141 ALA LEU SER ALA LEU SER ASP LEU HIS ALA HIS LYS LEU 1HDB 136
SEQRES 8 C 141 ARG VAL ASP PRO VAL ASN PHE LYS LEU LEU SER HIS CYS 1HDB 137
SEQRES 9 C 141 LEU LEU VAL THR LEU ALA ALA HIS LEU PRO ALA GLU PHE 1HDB 138
SEQRES 10 C 141 THR PRO ALA VAL HIS ALA SER LEU ASP LYS PHE LEU ALA 1HDB 139
SEQRES 11 C 141 SER VAL SER THR VAL LEU THR SER LYS TYR ARG 1HDB 140
SEQRES 1 D 146 VAL HIS LEU THR PRO GLU GLU LYS SER ALA VAL THR ALA 1HDB 141
SEQRES 2 D 146 LEU TRP GLY LYS VAL ASN VAL ASP GLU VAL GLY GLY GLU 1HDB 142
SEQRES 3 D 146 ALA LEU GLY ARG LEU LEU VAL VAL TYR PRO TRP THR GLN 1HDB 143
SEQRES 4 D 146 ARG PHE PHE GLU SER PHE GLY ASP LEU SER THR PRO ASP 1HDB 144
SEQRES 5 D 146 ALA VAL MET GLY ASN PRO LYS VAL LYS ALA HIS GLY LYS 1HDB 145
SEQRES 6 D 146 LYS THR LEU GLY ALA PHE SER ASP GLY LEU ALA HIS LEU 1HDB 146
SEQRES 7 D 146 ASP ASN LEU LYS GLY THR PHE ALA THR LEU SER GLU LEU 1HDB 147
SEQRES 8 D 146 HIS CYS ASP LYS LEU HIS VAL ASP PRO GLU ASN PHE ARG 1HDB 148
SEQRES 9 D 146 LEU LEU GLY ASN VAL LEU VAL CYS VAL LEU ALA HIS HIS 1HDB 149
SEQRES 10 D 146 PHE GLY LYS GLU PHE THR PRO PRO VAL GLN ALA ALA TYR 1HDB 150
SEQRES 11 D 146 GLN LYS VAL VAL ALA GLY VAL ALA ASN ALA LEU ALA HIS 1HDB 151
SEQRES 12 D 146 LYS TYR HIS 1HDB 152
HET HEM A 142 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 153
HET HEM B 147 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 154
HET HEM C 142 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 155
HET HEM D 147 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 156
HET SO4 1 5 SULFATE ION 1HDB 157
HET SO4 2 5 SULFATE ION 1HDB 158
9.9. Brainstorm
CAPÍTULO 10
Conclusões e pensamentos filosóficos sobre a bioinformática
Abaixo você vai ver o rascunho do artigo que publiquei na Revista Ciência Hoje,
de Outubro de 2004, em colaboração com meu orientador de doutorado, o Prof.
Fabrício Rodrigues dos Santos. O artigo pretende apresentar a bioinformática, coisa
que você já deve estar ciente neste momento, e discutir a relevância da pesquisa de
genoma num contexto científico. Além disso, o artigo apresenta alguns paradigmas
interessantes da pesquisa em bioinformática.
10.2. Introdução
A bioinformática consiste principalmente na análise computacional de
seqüências de DNA, RNA e proteínas. Essa nova ciência surgiu na última década devido
a uma necessidade urgente pela utilização de ferramentas sofisticadas para a análise
de um crescente número de dados que veio a ser produzido em biologia molecular. O
GenBank foi um dos primeiros e ainda é o mais popular banco de dados para o
depósito de seqüências de DNA. Criado dentro do NCBI -- o centro americano para
informação biotecnológica --, é lá onde pesquisadores de todo o mundo depositam as
seqüências de A, C, G e Ts que obtêm em seus laboratórios através do
sequenciamento do DNA dos mais diversos organismos. No final da década de 90
observou-se um crescimento exponencial do número de seqüências de biomoléculas
depositadas no GenBank e a figura 1 já é clássica no âmbito da biologia
computacional. Esse assustador crescimento começou a ocorrer após a comercialização
dos seqüenciadores de DNA a laser, em 1990. Os seqüenciadores atuais são
totalmente automatizados e foram especialmente desenvolvidos para o
seqüenciamento de moléculas DNA em larga-escala. Freqüentemente apresentam 96
capilares (tubos minúsculos por onde passam fragmentos de DNA a serem analisados)
e conseguem gerar, em média, seqüências de DNA de 600 letras A, C, G e T por
capilar em cada análise (o genoma humano é constituído por cerca de 3 bilhões de
letras de DNA). Seqüenciadores ainda mais potentes, apresentando 384 capilares,
podem produzir mais de um milhão de letras do DNA por dia! No Brasil, existem
dezenas de seqüenciadores e grande parte deles foi distribuída entre laboratórios em
todo o país quando da implantação do Projeto Genoma FAPESP para o seqüenciamento
da bactéria Xylella fastidiosa que ataca a laranja (http://aeg.lbi.ic.unicamp.br/xf/) e do
Projeto Genoma Brasileiro (http://www.brgene.lncc.br) durante o qual foram
seqüenciadas as bactérias Chromobacterium violaceum e Mycoplasma synoviae.
século XIX, veremos que, naquela época em que pouco se conhecia -- de forma
sistematicamente documentada -- do mundo biológico em geral, os grandes cientistas
eram considerados os naturalistas; aqueles que exploravam o mundo em busca de
informação taxonômica, encontrando e classificando novos animais e plantas antes
desconhecidos. A descrição e a documentação de novas espécies era especialmente
necessária naquela época, uma vez que pouco ou nada se conhecia sobre a grande
diversidade da vida em nosso planeta. Assim, poucos questionamentos eram feitos a
respeito de nossa biodiversidade. Desta forma, como nos estudos dos naturalistas,
houve a época onde os anatomistas começaram a surgir, escrevendo seus tratados e
mostrando os primeiros detalhes bem documentados sobre a anatomia humana e de
diversas outras espécies. Descreviam da melhor maneira possível à época, a
localização dos órgãos e tecidos humanos que se tinha conhecimento. Igualmente, se a
genômica não pode ser vista classicamente como uma ciência, a taxonomia e a
anatomia também não o podem. E isso vem do fato de que tais empreendimentos
científicos são principalmente descritivos ao invés de investigativos. Mas, mais uma
vez, isso não lhes tira o mérito, muito pelo contrário. Quanto conhecimento científico
já não foi construído baseado nas informações geradas pelos naturalistas e
anatomistas? Toda uma ciência biomédica foi montada com bases nos conhecimentos
descritivos gerados pelos anatomistas e a teoria mais importante e unificadora de toda
a biologia -- a Evolução -- surgiu diretamente das observações, documentações e
estudos descritivos dos naturalistas Charles Darwin e Alfred Wallace.
Bem, e a genômica? O genoma pode ser descrito como a anatomia molecular
de uma espécie. E é só agora, neste início de século XXI, que estamos conseguindo
desvendar e descrever como as espécies são constituídas em seu nível mais básico; o
da informação molecular. A genômica é a “ciência descritiva” dos nossos tempos. E
assim como as ciências biomédicas surgiram para trazer o método científico ao estudo
da anatomia, a bioinformática surge agora para trazer a cientificidade aos dados
genômicos, para casar a genômica ao método científico e para gerar informações
relevantes e indispensáveis na incessante busca do conhecimento em que consiste o
empreendimento científico.
10.6. Conclusão
10.7. Brainstorm
SOBRE O AUTOR
Francisco tem ainda interesse por divulgação científica, história e filosofia da ciência
(http://tragodefilosofia.blogspot.com). Isso sem falar em suas modestas habilidades
em música e literatura (http://chicopros.blogspot.com) ou seus ideais democráticos,
ambientalistas, humanistas e liberais.