Escolar Documentos
Profissional Documentos
Cultura Documentos
Introdução Bioinformática
Introdução Bioinformática
INTRODUO
BIOINFORMTICA
2007
NDICE
CAPTULO 1
CAPTULO 2
CAPTULO 3
CAPTULO 4
CAPTULO 5
CAPTULO 6
CAPTULO 7
CAPTULO 8
CAPTULO 9
CAPTULO 10
Pg.
3
3
3
5
6
6
12
12
13
13
13
14
15
15
17
17
18
18
18
19
20
21
22
23
28
28
29
29
30
31
32
34
35
35
36
36
37
38
39
40
40
41
41
42
42
43
43
44
45
46
46
47
49
49
49
50
50
51
52
53
54
54
56
56
57
58
59
59
60
61
63
63
63
64
67
68
69
69
69
70
71
72
74
74
PREFCIO
CAPTULO 1
Uma viso global da bioinformtica
Iniciando nossa Interao
Nesta primeiro captulo apresentaremos uma viso geral da bioinformtica,
vamos conversar sobre as necessidades e oportunidades de capacitao para quem
deseja atuar nessa rea.
1.1.
O que a bioinformtica?
1.2.
O surgimento da bioinformtica
1.3.
programao para a internet, como o CGI ou o PHP, sendo que esse ltimo ainda
apresenta a vantagem de permitir fcil conexo com bancos de dados.
claro que a gama de conhecimento necessria para exercer bem uma
profisso qualquer tende a ser infinita, mas indispensvel ao menos que o
bioinformata seja proficiente em uma linguagem de programao e tenha bons
conhecimentos de biologia molecular, dos bancos de dados e das ferramentas a serem
utilizadas em cada caso. Aqui, iremos passar apenas de leve em programao e
biologia molecular na prxima aula e depois passaremos direto para a parte que
explica e mostra quais so as principais ferramentas utilizadas em anlises genmicas
e os principais bancos de dados que devem ser consultados em diferentes aplicaes.
1.4.
1.5.
Dr. Francisco
Prosdocimi
Vanderson:
Dr. Francisco
Prosdocimi
Adonis:
Dr. Francisco
Prosdocimi
Pedro:
Dr. Francisco
Prosdocimi
Francisco:
Dr. Francisco
Prosdocimi
Adonis:
Dr. Francisco
Prosdocimi
Pedro:
Dr. Francisco
Prosdocimi
Boa noite a todos! Est aberto nosso biochat sobre bioinformtica. Por
favor, enviem suas dvidas para que possamos discutir e trocar idias
a respeito do assunto.
Grande Francisco... Afinal, qual o conceito mais aceito para
Bioinformtica?
Ol Vanderson. Fico agradecido pela sua presena. Na verdade existem
vrios conceitos para bioinformtica e muita confuso feita sobre o
tema. Na minha opinio a bioinformtica surgiu com o boom dos
sequenciadores automticos de DNA e ainda hoje est ligada a anlises
de seqncias de biomolculas.
Biologia computadorizada? Ouvi este termo e queria saber qual a
diferena disso para Bioinformtica?
Pois , meu prezado Adonis. A biologia computacional diz respeito a
qualquer aplicao da computao na rea biolgica, enquanto a
bioinformtica est freqentemente associada a analise de seqncias
de genoma, transcriptoma e proteoma. Esses conceitos entretanto so
bastante maleveis e modificam-se todos os anos.
Boa noite Dr. Francisco. Sou estudante do curso Bacharelado em
Bioqumica, na Universidade Federal de Viosa e tenho direcionado a
minha formao acadmica para me tornar...
Com relao aos cursos especficos para bioinformtica, eles existem
no Brasil apenas em nvel de ps-graduao. Sendo que um deles o
curso de especializao lato sensu do LNCC, no qual acontece a
formao de especialistas em bioinformtica. Na USP e na UFMG
existem cursos de doutorado em bioinformtica, onde tais profissionais
so formados. Eu, a propsito, fui aluno do LNCC e fui tambm o
primeiro aluno a defender o doutorado em bioinformtica na UFMG.
Gostaria que vc respondesse o Pedro Marcus pq eu tenho a mesma
dvida...
Com relao a cursos de graduao, meu prezado xar, ainda no
existem na rea e recomendo que vc faa um curso de biologia ou de
computao, se pretende seguir carreira em bioinfo.
ento bioinfo est dentro da biologia computacional?
Concordo, Adonis. Na minha opinio a bioinformtica , sim, uma parte
da biologia computacional, sendo essa ltima uma rea bastante ampla
e no necessariamente relacionada com biologia molecular. Embora,
repito, esses conceitos so maleveis e modificam-se com o
desenvolver das cincias.
Qual a sua experincia com a Bioinformtica? O senhor trabalha mais
no meio acadmico ou se relaciona diretamente com o mercado de
trabalho?
Trabalho com bioinformtica desde 2000, tendo tido anteriormente
uma formao como bilogo molecular em bancada. Fiz minha
monografia de bacharelado, minha dissertao de mestrado (em
gentica) com anlises de transcriptomas do verme Schistosoma
mansoni e fui o primeiro aluno a defender o doutorado em
bioinformtica na UFMG trabalhando com anlises de qualidade de
seqncias de DNA e genmica comparativa. Sempre trabalhei mais
voltado para o meio acadmico, mas j fiz tambm alguns trabalhos
em parceria com uma empresa de Belo Horizonte na rea de
bioinformtica. A empresa se chama vetta technologies.
Vanderson:
Dr. Francisco
Prosdocimi
Adonis:
Dr. Francisco
Prosdocimi
Paulo:
Dr. Francisco
Prosdocimi
Pedro:
Dr. Francisco
Prosdocimi
Marx:
Dr. Francisco
Prosdocimi
Adonis:
Dr. Francisco
Prosdocimi
Pedro:
Dr. Francisco
Prosdocimi
Paulo:
Dr. Francisco
Prosdocimi
Vanderson:
Dr. Francisco
Prosdocimi
Carla:
Dr. Francisco
Prosdocimi
Adonis:
Dr. Francisco
Prosdocimi
10
Carla:
Dr. Francisco
Prosdocimi
Macedo:
Dr. Francisco
Prosdocimi
Pedro:
Dr. Francisco
Prosdocimi
Dani:
Dr. Francisco
Prosdocimi
Pedro:
Dr. Francisco
Prosdocimi
11
Fabio:
Dr. Francisco
Prosdocimi
Pedro:
Dr. Francisco
Prosdocimi
Dani:
Dr. Francisco
Prosdocimi
Dani:
Dr. Francisco
Prosdocimi
Ricardo:
Dr. Francisco
Prosdocimi
12
Pedro:
Dr. Francisco
Prosdocimi
Pedro:
Dr. Francisco
Prosdocimi
Pedro:
Dr. Francisco
Prosdocimi
1.6.
1.7
Brainstorm
13
CAPTULO 2
Genoma, biologia molecular e computao
2.1.
Introduo
Como j foi dito, o presente curso no tem como funo explicar genmica,
biologia molecular ou computao. Ainda assim, alguns conceitos se tornam
importantes para que possamos seguir o curso e neste captulo estaremos nos
dedicando a eles.
2.2.
Sequenciamento do DNA
14
2.3.
Genmica
15
2.4.
2.5.
16
17
1. Dolan
DNA
Learning
Center
Biology
Animation
Library
http://www.dnalc.org/resources/BiologyAnimationLibrary.htm
2. Binneck, Eliseu. As micas: integrando a bioinformao. Biotec Ci & Des 32: 28-37.
http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf
3. Perl, Wikipedia. http://pt.wikipedia.org/wiki/Perl
2.7.
Brainstorm
1. Voc viu a animao sobre como feito o sequenciamento do DNA, descreva agora
as etapas atravs das quais realizada esta tcnica.
2. Descreva como so feitos projetos genoma e transcriptoma.
3. Perguntas sobre o texto escrito por Binneck.
a. Apesar de apresentarem um nmero de genes bastante similar a outros
organismos, diz-se que os seres humanos apresentam uma diversidade de
protenas muito maior do que eles. A que se deve tal diversidade?
b. Qual a porcentagem do genoma humano que responsvel pela produo
de genes/protenas? E o resto, qual seria o motivo se que h algum para
haver tanto DNA no codificante no genoma?
c. Voc acredita que genes que alteram seus padres de expresso em
conjunto possam ter funes parecidas? Por qu?
d. Escolha duas das cincias micas e descreva-as
e. Discorra sobre o papel da bioinformtica na agregao de dados em biologia
4. Com relao a linguagens de programao, por que o PERL conhecido como a
linguagem dos bioinformatas? Os dados em bioinformtica podem ser tratados com
outras linguagens de programao? Cite outra linguagem possvel.
18
CAPTULO 3
Alinhamento de Seqncias
3.1. Introduo
O alinhamento de seqncias consiste no processo de comparar duas
seqncias (de nucleotdeos ou protenas) de forma a se observar seu nvel de
identidade. Essa tcnica de comparao de seqncias implementada segundo um
conceito de desenvolvimento de programas conhecido como um algoritmo guloso e
um dos pilares de toda a bioinformtica. Existem centenas de aplicaes do
alinhamento de seqncias, tanto na identificao de genes e protenas desconhecidas,
quanto na comparao da ordem de genes em genomas de organismos proximamente
relacionados (sintenia), no mapeamento de seqncias expressas dentro de um
genoma para identificao de genes, na montagem de genomas e em diversas outras
aplicaes.
Por exemplo, podemos alinhar duas seqncias para descobrirmos o grau de
similaridade entre as seqncias de forma que possamos inferir (ou no) a uma delas,
alguma propriedade j conhecida da outra (Prosdocimi et al., 2003). O alinhamento
entre duas seqncias pode ser feito de forma global ou local (Figura 3.1.).
19
embora
outros
programas,
como
o
MULTALIN
(http://prodes.toulouse.inra.fr/multalin/multalin.html) tambm o faam (Corpet,
1988). Nesse caso so dados valores em uma matriz de comparao para as
similaridades (matches), diferenas (mismatches) e falhas (gaps) encontrados durante
o alinhamento das seqncias. As somas dos valores do alinhamento, de acordo com
essa matriz de comparao, resulta num valor, que um escore de similaridade entre
as seqncias (Figura 3.2.). No MULTALIN no dado escore de similaridade (j que ele
permite o alinhamento de vrias seqncias ao mesmo tempo), e a semelhana entre
as seqncias deve ser medida atravs de inspeo visual.
20
21
Tipo de
Preciso do Nmero de seqncias
Alinhamento Alinhamento
a serem alinhadas
BLAST2Sequences
Local
Heurstico
2
SWAT (Smith-Waterman)
Local
timo
2
ClustalW
Global
Heurstico
N
Multalin
Global
Heurstico
N
Needleman-Wunsch
Global
timo
2
Tabela 3.2:Principais programas de alinhamento de seqncias e suas caractersticas.
Programa
22
A
2
-2
0
-2
-2
1
0
C
-2
2
-2
0
1
-2
0
G
0
-2
2
-2
-2
1
0
T
-2
0
-2
2
1
-2
0
Y
-2
1
-2
1
1
-2
0
R
1
-2
1
-2
-2
1
0
N
0
0
0
0
0
0
0
23
Tabela 3.3: Matriz de substituio de nucleotdeos mat50. O valor dado para cada
troca pode ser visto nas intersees. O Y representa pirimidinas, o R representa
purinas e o N representa qualquer nucleotdeo.
Bases
A
C
G
T
Y
R
N
A
2
-2
-1
-2
-2
0
0
C
-2
2
-2
-1
0
-2
0
G
-1
-2
2
-2
-2
0
0
T
-2
-1
-2
2
0
-2
0
Y
-2
0
-2
0
0
-2
0
R
0
-2
0
-2
-2
0
0
N
0
0
0
0
0
0
0
Tabela 3.4: Matriz de substituio de nucleotdeos mat70. O valor dado para cada
troca pode ser visto nas intersees. O Y representa pirimidinas, o R representa
purinas e o N representa qualquer nucleotdeo.
Seq2
1 GCACGAGGACTGTGAACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGC
Seq1
Seq2
Seq1
Seq2
Seq1
51 TGGAATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGAC
1
CTTTCAAGATGAACG
|||||||||||||||
101 TAAAAAGCTGAGCAAATATACCTGGAGCGTTCAGACTTTCAAGATGAACG
16 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA
||||||||||||||||||||||||||||||||||||||||||||||||||
0
50
0
100
15
150
65
24
Seq2
151 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA
200
Seq1
66 CTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTTTTCAAGTCAGAGTCT
||||||||||||||||||||||||||||||||||||||||||||||||||
201 CTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTTTTCAAGTCAGAGTCT
115
116 TCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGATACTG
||||||||||||||||||||||||||||||||||||||||||||||||||
251 TCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGATACTG
165
166 AACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGT
||||||||||||||||||||||||||||||||||||||||||||||||||
301 AACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGT
215
Seq2
Seq1
Seq2
Seq1
Seq2
Seq1
250
300
350
216 AAAAGTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTT
||||||||||||||||||||||||||||||||||||||||||||||||||
351 AAAAGTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTT
265
266 TTGCAACAAAGTATTTACTAAACACTGTAATTTAAACACACATATCAAAG
||||||||||||||||||||||||||||||||||||||||||||||||||
401 TTGCAACAAAGTATTTACTAAACACTGTAATTTAAACACACATATCAAAG
315
325
Seq2
316 CAGTCCATAA---------------------------------------||||||||||
451 CAGTCCATAAAGGTCAGATTCTGTTAATGTAAACAGTTTTTGTATATACA
Seq1
326 --------------------------------------------------
325
Seq2
501 GCGTTCCTATCTTTGTTTTTCTTCAATACTTACCTGTTAGGGTTTTTGGT
550
Seq1
326 ---------AGGTGTAAAACCGTTTGAATGCACTTATTGTTATAAAGGAT
|||||||||||||||||||||||||||||||||||||||||
551 CATTATTTTAGGTGTAAAACCGTTTGAATGCACTTATTGTTATAAAGGAT
366
367 TCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGT
||||||||||||||||||||||||||||||||||||||||||||||||||
601 TCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGT
416
464
Seq2
417 CTCAAGCCTTTCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAA
||||||||||||||||||||||||||||||||||||||||||||||||
651 CTCAAGCCTTTCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATC
Seq1
465
464
Seq2
701 CAGCCTTAAACGACACATAGAAAGCATTCACGAAAG
736
Seq2
Seq1
Seq2
Seq1
Seq2
Seq1
Seq2
Seq1
400
450
500
600
650
700
#--------------------------------------#---------------------------------------
25
Database: seq2
1 sequences; 736 total letters
Searching.done
Sequences producing significant alignments:
Seq2
Score
E
(bits) Value
652
0.0
>Seq2
Length = 736
Score = 652 bits (329), Expect = 0.0
Identities = 329/329 (100%)
Strand = Plus / Plus
Query: 1
ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195
Query: 61
gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255
26
H
0.711
1.31
H
0.711
1.31
------------------------------------------------------------GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA
GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq1
Seq4
Seq2
Seq3
-----------------------------------------------------------ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA
27
Seq1
Seq4
Seq2
Seq3
---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
***************************************
Seq1
Seq4
Seq2
Seq3
TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
************************************************************
Seq1
Seq4
Seq2
Seq3
TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
************************************************************
Seq1
Seq4
Seq2
Seq3
ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
************************************************************
Seq1
Seq4
Seq2
Seq3
GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
************************************************************
Seq1
Seq4
Seq2
Seq3
TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT---------TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGTCAGATTCTGT
TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT---------TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT---------**************************************************
Seq1
Seq4
Seq2
Seq3
-----------------------------------------------------------TAATGTAAACAGTTTTTGTATATACAGCGTTCCTATCTTTGTTTTTCTTCAATACTTACC
-----------------------------------------------------------------------------------------------------------------------
Seq1
Seq4
Seq2
Seq3
-----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA
TGTTAGGGTTTTTGGTCATTATTTTAGGTGTAAAACCGTTTGAATGCACTTATTGTTATA
-----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA
-----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA
*******************************
Seq1
Seq4
Seq2
Seq3
AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA
AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA
AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA
AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACANAGGTCTCA
*************************************************** ********
Seq1
Seq4
Seq2
Seq3
AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAA--------------AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTTAAACGA
AGCCTTTCCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTAAAACGA
AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTANAACGA
******** ************************************
Seq1
Seq4
Seq2
-----------------------------------------------------------CACATAGAAAGCATTCACGAAAG------------------------------------CACATAGAAGCAATTCACGAAGATCCTCGGCATCGCTGAAGAGAAACCAGATTGTATAAT
28
Seq3
CACATAGAAAGCATTCACGAAGATCCTCGGCATCGCTGAAGAGAAACCAGAT-GTATAAT
Seq1
Seq4
Seq2
Seq3
------------------------------------------------------------------------------------------------------------CCTCTCCAATTTTCATATGATTTCATGTTCAAAAATATACATTTATTATTCTTTC
CCTCTCCAATTT-CATATGATTNCATGNTCANAA-TATACATTTATTATTCTTTC
3.9. Brainstorm
1
2
5
6
29
CAPTULO 4
Montando um genoma
Seqenciar o DNA agora uma das tarefas mais fceis de realizar, alm de servir
hambrgueres. Karry Mullis, prmio Nobel
4.1.
30
4.2.
Base-calling
31
Assim, com os dados brutos do seqenciador, o PHRED atribui a cada base uma
chance desta estar incorreta e, utilizando a frmula acima, associa um valor de
qualidade cada uma delas. Um valor de qualidade de PHRED (ou simplesmente valor
de PHRED, valor de qualidade ou qualidade da base) igual a 10, representa que aquela
base tem uma chance em dez de estar incorreta (10%). Como o valor est em escala
logartmica, um valor de PHRED 20, significa que aquela base tem uma chance em cem
de estar incorreta (1%) e um valor de 30 representa uma chance em mil (0,1%).
Freqentemente, aceita-se que um valor de PHRED igual a 20 suficiente para
aceitar uma base como real ou utiliza-se para aceitar uma regio de boa qualidade.
Entretanto, trabalhos recentes tm mostrado que podemos confiar em valores
relativamente mais baixos (Prosdocimi et al., 2004).
Exemplos de arquivos produzidos pelos programas de base-calling: (a) Arquivo de
seqncia no formato FASTA e (b) arquivo .QUAL apresentando a qualidade das bases.
a)
> Seq1
ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTC
TAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAATTCC
b)
> Qual1
10 12 15 15 15 18 20 22 25 18 13 8 5 5 8 10 7 12 18
25 30 30 22 13 12 12 12 11 9 9 10 15 20 20 22 6 6 5
4.3.
Cross-match
Como foi dito no primeiro item desta aula, as seqncias de DNA geradas em
projetos genoma so primeiramente clonadas em molculas de DNA plasmidial. Dessa
forma, algumas vezes pedaos de seqncias dessa molcula bacteriana acabam
sendo produzidas em conjunto com as molculas do DNA que se deseja produzir.
Como as molculas dos vetores de clonagem no representam o genoma que se
32
4.4.
Agrupamento de seqncias
33
ele troca-as por letras X. Ento, depois do cross-match, teremos vrios conjuntos de
aproximadamente seiscentas palavras que sabemos ser de nosso livro genmico.
Agora preciso mont-lo. Para isso teremos que ir lendo todas os conjuntos de frases
e observando onde as frases se sobrepem para podermos junt-las e gerar, por
exemplo, um captulo do livro (que poderia ser uma analogia montagem de um BAC
ou de um cromossomo inteiro). Veja o exemplo:
A seguir temos uma Fbula Fabulosa do escritor Millr Fernandes que foi, assim como
um genoma, dividida em partes. Monte as partes e produza a seqncia completa da
fbula.
> Frase 1
sabedoria e calor que fazem os seres humanos - "mas eu no". MORAL DA HISTRIA:
NO MORRE A PASSARADA QUANDO MORRE UM PSSARO.
> Frase 2
ela no pde resistir e exclamou: "Mas, como, seu marido no morreu h cinco anos?"
"Sim, verdade" - respondeu ento a outra, cheia daquela compreenso, sabedoria e
> Frase 3
Quando a amiga lhe apresentou o garotinho lindo dizendo que era seu filho mais novo,
ela no pde resistir e exclamou: "Mas, como, seu marido no morreu h cinco anos?"
> Frase 4
no morreu h cinco anos?" "Sim, verdade" - respondeu ento a outra, cheia daquela
compreenso, sabedoria e calor que fazem os seres humanos - "mas eu no".
O genoma montado da mesma maneira que voc realizou para montar essa
fbula do Millr chamada A viva. (Para ler mais fbulas do escritor, acesse
http://www.millor.com.br.) Vrias seqncias representando pedaos de genoma so
gerados e observa-se a posio onde elas se sobrepem. Realizando a sobreposio de
vrios trechos de seqncia possvel montar todo o genoma. Entretanto, como j foi
dito, um genoma apresenta milhes ou bilhes de seqncias de nucleotdeos e,
portanto, no possvel realizar esta montagem mo. Para isso existem algoritmos
de montagem de genoma, como o PHRAP, o CAP e o TIGR Assembler. O PHRAP o
algoritmo mais utilizado e funciona mais ou menos da forma mostrada na figura 5.2.
34
4.5.
35
4.6.
Referncias Bibliogrficas
4.7.
Brainstorm
36
CAPTULO 5
Anlise de Transcriptomas
5.1.
As ESTs
37
38
5.3.
Agrupamento de ESTs
39
5.4.
O genoma e o transcriptoma
No final da seo 5.2, vimos que editor da revista Nature, Sir Maddox, dizia que
existia o perigo de que a abordagem de cDNA seja apresentada como uma alternativa
mais barata para completar o sequenciamento [do genoma], o que ela no . Vale a
pena, portanto, neste momento, discutirmos as diferenas entre as anlises de
genomas e de transcriptomas. Vale notar primeiramente que nenhuma das duas
anlises exclui a outra e so estudos que, apesar de relacionados, provm respostas
para perguntas diferentes. A molcula de DNA esttica e est presente, com a
mesma constituio, em todas as clulas do organismo. A decifrao desse contedo
esttico de DNA a tarefa da genmica. J o contedo de RNA de uma determinada
clula depende do tempo e das condies qual ela est sendo submetida. O
transcriptoma mede a parte do genoma que est sendo utilizada num determinado
momento. E essa parte do genoma expresso diferente para cada tipo celular.
Existem genes que so expressos apenas na pele, outros no crebro e alguns nos
testculos. Alguns genes so ainda mais expressos quando a clula est submetida a
um choque trmico, restrio calrica ou falta de oxignio. Enquanto o genoma
apenas um, existem vrios transcriptomas possveis para uma mesma espcie.
Algumas perguntas, entretanto, s podem ser obtidas quando se observa o
genoma expresso, enquanto outras, apenas quando se observa o genoma esttico. Por
exemplo, por mais que se obtenha seqncias de ESTs de vrios diferentes tecidos de
um organismo, nunca possvel dizer que ele no apresenta um determinado gene
atravs de anlises transcriptmicas. De forma contrria, quando se obtm toda a
seqncia de genoma do organismo possvel saber todo o repertrio de genes que
ele possui para realizar alguma tarefa metablica. Ao mesmo tempo, atravs da
anlise genmica impossvel saber, por exemplo, qual o repertrio gnico que
40
5.5.
5.6. Microarrays
A tcnica de microarray outra das tcnicas de anlise de transcriptomas e
consiste em na hibridao de cidos nuclicos, servindo para medir a expresso
absoluta ou diferencial de genes submetidos a condies diferentes. Primeiramente
deve-se montar a lmina que vai conter os genes que se deseja estudar. Nessa lmina
so ligados fragmentos de cDNA ou so construdas pequenas seqncias de
oligonucleotdeos que ficam ligadas lmina. Posteriormente, duas clulas so
tratadas em diferentes condies onde o caso mais comum baseia-se no estudo de
clulas normais contra clulas tumorais. Assim, os RNAs de cada uma dessas clulas
so marcados com uma determinada fluorescncia e colocados para hibridar contra os
cDNAs ou oligonucleotdeos presentes no chip (ou lmina) de DNA. Atravs da
complementaridade de bases, as molculas de um ou outro tecido vo se ligando s
molculas do chip e, posteriormente, utiliza-se um laser para realizar a leitura das
Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
41
42
CAPTULO 6
Bancos de dados em Biologia Molecular
Neste captulo vamos tratar das bases de dados em biologia molecular. As bases de
dados em biologia molecular so importantes principalmente para proporcionar
comunidade cientfica uma forma de tornar os dados (produzidos em todo o mundo)
acessveis
de
forma
fcil,
rpida
e
inteligente
(http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html).
6.1. Histrico
As bases de dados em biologia molecular so importantes principalmente para
proporcionar comunidade cientfica uma forma de tornar os dados (produzidos em
todo
o
mundo)
acessveis
de
forma
fcil,
rpida
e
inteligente
(http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html). A primeira base de
dados de biologia molecular parece ter surgido por volta de 1960, quando Dayhoff e
colaboradores construram um catlogo contendo todas as seqncias de protenas
conhecidas at a data. Essas seqncias foram publicadas num livro chamado Atlas of
Protein Sequences and Structure, de 1965. interessante notar que o contedo dessa
base de dados no deveria conter mais de 1 megabyte de informao, se transferida
para computadores modernos (Baxevanis & Ouellette 2001).
Com o advento do seqenciamento do DNA e, principalmente, a partir da
dcada de 1990, do seqenciamento em larga escala, foi necessria a construo de
bancos de dados mais robustos para abrigar a exploso no nmero de seqncias
obtidas pelos pesquisadores (como vimos na primeira aula). O NCBI, por exemplo, foi
criado pelo NIH (National Institutes of Health, os Institutos Nacionais de Sade dos
Estados Unidos) em 1988 para abrigar esse tipo de informao (Wheller et al., 2002).
Dessa forma, foi criada uma colaborao internacional para montar um banco de dados
de seqncias de nucleotdeos, a INSDC (International Nucleotide Sequence Database
Colaboration). Essa instituio contm o NCBI, o EMBL (European Molecular Biology
Laboratory ou Laboratrio Europeu de Biologia Molecular) e o DDBJ (DNA Data Bank of
Japan ou Banco de dados de DNA do Japo) (Tateno et al., 2002). Cada um desses
centros possibilita a submisso individual de seqncias de DNA e trocam informaes
entre si diariamente, sendo que todos os trs possuem informaes atualizadas de
todas as seqncias disponveis para os pesquisadores (Stoesser et al., 2002). Apesar
disso, cada centro apresenta os dados de forma particular, apesar de bastante
semelhante.
Ultimamente tm surgido uma grande quantidade de novos bancos de dados
em biologia molecular. E so tantos que uma das principais revistas da rea, a inglesa
Nucleic Acids Research (http://nar.oupjournals.org/), tem reservado dois nmeros
especiais por ano (os primeiros volumes dos meses de janeiro e julho) apresentando
apenas artigos sobre novos bancos de dados ou de atualizaes de bancos j
consagrados pela comunidade. Sempre vale a pena dar uma olhada nessa revista para
descobrirmos se algum novo banco publicado pode ajudar em nossa pesquisa. E, cada
vez mais, torna-se impossvel fazer pesquisa em biologia sem estar por dentro dessas
novas atualizaes.
Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
Crticas, sugestes, comentrios e apreciaes so bem-vindos franc @ icb . ufmg . br
43
44
45
NZ
Genoma (WGS)
ZP
Protena gerada por entrada NZ
* Computed from genome annotation pipeline
** Whole Genome Shotgun
Tabela 6.1. Nmeros de acesso do RefSeq e molculas associadas (Pruitt et al.,
2003).
46
47
4. Tateno Y et al., 2002. The DNA Data Bank of Japan (DDBJ) for genome scale
research in life sciences. Nucleics Acid Reserch 30(1): 27-30.
5. Westbrook J et al., 2002. The Protein Data Bank: unifying the archive. Nucleics Acid
Reserch 30(1): 245-248.
6. Bairoch A & Apweiler R, 2000. The SWISS-PROT protein sequence database and its
supplement TrEMBL in 2000. Nucleics Acid Reserch 28(1): 45-48.
7. Baxevanis AD and Ouellette BFF, 2001. Bioinformatics: A practical guide to the
analysis of genes and proteins. Ed. Wiley-interscience. 2nd ed.
8. Pruitt K., Tatusova T. and Ostell J. The NCBI handbook (Internet): Chapter 17, The
Reference Sequence (RefSeq) Project. Bethesda (MD): National Library of Medicine
(US), National Center for Biotechnology Information; 2002.
Sites:
NCBI Genbank - http://www.ncbi.nih.gov/Genbank/
EMBL Nucleotide Sequence Database - http://www.ebi.ac.uk/embl/
DDJP - DNA Data Bank of Japan - http://www.ddbj.nig.ac.jp/
NCBI Reference Sequences web site - http://www.ncbi.nlm.nih.gov/RefSeq/
The Gene Ontology http://www.geneontology.org
Swissprot http://us.expasy.org/sprot/
6.8.
Brainstorm
48
aceso da hemoglobina AF117710 na aba Search s que, desta vez, clique no nome nr,
na opo Choose database. O nr representa o GenPept e o banco de dados contra
o qual o BLAST realiza a busca. Selecione, ao invs de nr, a opo swissprot e ento
clique no boto BLAST!. Espere a prxima pgina aparecer e clique em Format!
Quando a tela de resultados aparecer, compare esses resultados com aqueles obtidos
contra o banco nr. Responda: O que voc pode observar de diferente? Repare como a
nomenclatura utilizada pelo Swissprot importante e facilita a identificao da
protena. (Se tiver interesse, volte novamente e execute outras buscas BLAST contra
diferentes bancos de dados e observe os resultados.)
7 - Em que consiste o Gene Ontology? Quais as principais ontologias existentes nas
quais um gene pode ser descrito? Entre no site do http://www.geneontology.org e cole
na caixa de texto o seguinte termo de GO:0006259. A qual ontologia esse GO
pertence? Qual o nome desta ontologia? Quais so as ontologias imediatamente
inferiores a esta?
49
CAPTULO 7
Anotao de Genomas
7.1.
Introduo
50
7.3.
Anotao de Protenas
51
7.5.
Stein (2001) prope alguns modelos bastante pertinentes para explicar como
realizada, passo a passo, a anotao genmica. Segundo ele, esses processos de
identificao gnica normalmente seguem algum dos seguintes modelos
organizacionais: a fbrica, o museu e a festa. Cada modelo adequado para alguma
das fases do trabalho de anotao (Stein 2001).
Durante a primeira fase, quando o principal trabalho encontrar genes e
mapear variaes e marcadores, o modelo da fbrica o mais adequado. Nesse
modelo uma rede de computadores trabalha seguindo uma srie de programas de
anotao. A seqncia de entrada jogada numa srie de programas para predio de
genes, procura de similaridades entre seqncias de nucleotdeos e protenas e
procura de domnios funcionais. Isso permite a gerao de grandes quantidades de
dados sobre o genoma.
Ento se inicia a fase de museu, quando a nfase passa da localizao dos
dados para a sua interpretao. Nesse modelo um conjunto de curadores deve
classificar e catalogar o genoma de forma sistemtica, encontrando e corrigindo erros
gerados pelos programas na primeira etapa. A maior parte dessa etapa feita mo e
deve basear-se tambm na literatura obtida sobre o organismo em questo para uma
melhor integrao com os dados genmicos.
52
53
7.7. Brainstorm
1. Em que consiste a anotao de genomas?
2. Quais so as principais etapas durante a anotao dos genomas e qual pergunta
deseja-se responder em cada uma delas?
3. Quais so os objetivos da anotao de nucleotdeos?
4. Quais so os objetivos da anotao de protenas?
5. Quais so os objetivos da anotao de processos?
6. Como realizada a anotao de genomas? Descreva os modelos organizacionais e
qual a atividade realizada em cada uma destas etapas.
54
CAPTULO 8
Bioinformtica Evolutiva e Genomas Completos
55
Fitch, que primeiramente utilizou esses termos, eles no apresentam esse significado
funcional e sim um significado evolutivo.
Segundo sua definio, a determinao de ortologia ou paralogia est
relacionada a eventos de evoluo gnica. Genes que tenham sido duplicados dentro
de uma mesma linhagem (linhas horizontais) so parlogos, no importando se
possuem a mesma funo ou no. J os genes que foram alterados dentro de
linhagens especficas, aps especiao (aqueles nos quais, se voltarmos sua origem,
chegamos a uma bifurcao ou Y invertido) so os chamados ortlogos.
Isso significa dizer que, na figura acima, A1 tem trs ortlogos na espcie C,
mas somente C1 ortlogo de B1. J B2 tem dois ortlogos na espcie C (C2 e C3),
onde C2 e C3 so parlogos. Portanto, toda relao de homologia entre genes pode ser
classificada como ortologia ou paralogia e deve-se perceber que um dado gene em
uma espcie pode ter mais do que um ortlogo em outra. Alm disso, podemos
detectar tambm genes parlogos em espcies diferentes. bom lembrar que existe
tambm uma terceira relao entre genes conhecida como xenologia, que consiste na
relao entre genes quando, na sua histria evolutiva, pelo um deles surgiu por
transferncia horizontal, ou seja, o gene em algum momento foi absorvido do meio
para dentro do genoma do organismo (atravs de vrus, por exemplo).
Portanto essa definio de nada tem a ver com a funo e sim com a histria
evolutiva dos genes e assim que essa nomenclatura foi definida primeiramente.
Entretanto, devemos notar que, para definirmos corretamente a relao entre os
genes, temos que conhecer detalhes sobre sua rota evolutiva. O problema que, na
grande maioria das vezes, no temos informaes suficientes para montar essa rota de
forma correta.
interessante notar que, para os pesquisadores da cincia genmica,
importante saber, principalmente, se dois genes homlogos possuem uma mesma
caracterstica funcional. Esse conhecimento permite entender melhor tanto as origens
estruturais das funes biolgicas como as bases moleculares para a divergncia
dessas funes, permitindo aos pesquisadores comparar relaes sobre a seqncia,
estrutura e funo de grupos de homlogos.
Assim, considerando que os termos ortologia e paralogia mostram-se
inadequados para uso, Gerlt e Babbit sugerem novos termos a serem utilizados na
56
8.2. COG
Portanto, como vimos acima, algo que bastante penoso e questionvel em
estudos evolutivos a definio de critrios que possam identificar determinados
genes como ortlogos para que sejam realizados estudos evolutivos entre eles
(Sonnhammer & Koonin 2002). No existem metodologias consensuais para identificar
ortlogos e cada pesquisador considera-os da forma como acredita ser melhor.
Entretanto, o NCBI apresenta um servio conhecido como COG -- Clusters of
Ortologous Groups (http://www.ncbi.nlm.nih.gov/COG/) -- onde foi realizado um
estudo para a definio dos grupos de protenas ortlogas presentes em organismos de
genomas completos (Tatusov et al., 1997). Assim, o COG disponibiliza grupos de
protenas ortlogas classificadas de acordo com sua funo biolgica em dois servios,
um para organismos procariotos (Tatusov et al., 2001) e outro para eucariotos
(Tatusov et al., 2003).
A forma como o COG define protenas como ortlogas baseia-se no critrio
conhecido como BeTs. Os BeTs, ou best hits bidirecionais so resultantes de
alinhamentos locais entre protenas de um determinado organismo e o genoma de
outro. Para que uma protena 1, em um organismo 1, seja BeT de uma protena 2, no
organismo 2, o melhor resultado (best hit) de uma busca BLAST (Altschul et al., 1997)
entre a protena 1 contra o genoma do organismo 2 deve encontrar a protena 2 como
best hit da busca, assim como o contrrio. Ou seja, ao executarmos o BLAST da
protena 2, contra o genoma do organismo 1, o best hit deve ser a protena 1. Assim,
define-se grupos de protena BeT (Tatusov et al., 1997). Assim, para a definio de um
grupo de protenas ortlogas em um COG necessrio haver BeT entre pelo menos
trs diferentes organismos, sendo que as trs (ou mais) protenas devem ser BeT das
outras protenas encontradas nos outros organismos.
Assim o KOG, que representa o servio do COG para organismos eucariticos,
apresenta 4852 grupos de protenas ortlogas de diversos organismos. Assim, para
cada gene conhecido dos organismos existe um nmero de KOG caracterstico e, se
buscarmos em outro organismos os genes de mesmo identificador KOG, pegaremos os
genes que provavelmente realizam a mesma funo neste organismo. O COG,
portanto, facilita o estudo da evoluo gnica considerando que ele mesmo j separa
para o pesquisador os genes que provavelmente so ortlogos nos diferentes
organismos. O servio COG de procariotos apresenta 66 genomas completos que so
disponibilizados no site http://www.ncbi.nlm.nih.gov/COG, enquanto o servio do KOG
de eucariotos atualmente apresenta sete organismos em seu banco de dados.
57
Complete Genomes
published
2024
21
196
18
genoma completo
e protenas. Com
estudos de nosso
forma como nos
58
2. Jensen, RA. Orthologs and paralogs we need to get it right. Genome Biology 2001
2 (8): 1002.1-1002.3
3. Sonnhammer EL, Koonin EV (2002). Orthology, paralogy and proposed
classification for paralog subtypes. Trends Genet. Dec;18(12):619-20.
4. Tatusov RL, Fedorova ND, Jackson JD, Jacobs AR, Kiryutin B, Koonin EV, Krylov
DM, Mazumder R, Mekhedov SL, Nikolskaya AN, Rao BS, Smirnov S, Sverdlov AV,
Vasudevan S, Wolf YI, Yin JJ, Natale DA (2003). The COG database: an updated
version includes eukaryotes. BMC Bioinformatics. Sep 11;4(1):41.
5. Tatusov RL, Natale DA, Garkavtsev IV, Tatusova TA, Shankavaram UT, Rao BS,
Kiryutin B, Galperin MY, Fedorova ND, Koonin EV (2001). The COG database: new
developments in phylogenetic classification of proteins from complete genomes.
Nucleic Acids Res. Jan 1;29(1):22-8.
6. Tatusov RL, Koonin EV, Lipman DJ (1997). A genomic perspective on protein
families. Science. Oct 24;278(5338):631-7.
8.5. Brainstorm
1. Qual o conceito de homologia e por que no se diz que dois genes so mais
homlogos entre si do que um terceiro?
2. O que so genes parlogos e ortlogos?
3. Como o COG classifica os genes em ortlogos? Discuta sobre a classificao do
COG e o conceito de ortologia da resposta anterior.
4. Por que voc acredita que os genomas virais so os mais seqenciados de todos?
5. Que tipo de informao disponibilizada sobre um organismo quando um genoma
est completo?
59
CAPTULO 9
Bioinformtica estrutural
Iniciando nossa Interao
Como j dissemos a bioinformtica consiste principal no estudo de seqncias de
biomolculas. At agora j conseguimos entender a relevncia da bioinformatica com
relao a seqncias de DNA (genoma) e RNA (transcriptoma). Portanto hora de nos
voltarmos para as seqncias de protenas. As protenas so muitas vezes
consideradas as principais molculas de uma clulas, j que so elas que realizam as
funes celulares, sendo que o DNA e RNA tm principalmente a caracterstica de
armazenamento e processamento de informaes. Sabe-se bem que as protenas
exercem sua funo de acordo com sua estrutura espacial, ou seja, a funo da
protena est intrinsecamente ligada a sua conformao tridimensional, sua
estrutura. E justamente a busca por esta conformao espacial uma das principais
reas da bioinformtica, que ser discutida no presente captulo.
60
utilizar laboriosos testes experimentais para tal, sendo que os principais mtodos
utilizados hoje em dia so a difrao de raios-X e a ressonncia nuclear magntica.
Na difrao de raios-X, a primeira dificuldade consiste na produo de um
cristal da protena desejada. E essa dificuldade deve-se ao fato de que a cristalizao
consiste num processo um tanto quanto catico e imprevisvel, sendo que
determinadas protenas podem ser cristalizadas em poucos dias enquanto outras
demoram anos para que possam ser cristalizadas. Esse cristal deve ento ser
submetido a uma fonte de raios-X e o padro de difrao obtido pela incidncia do
raio-X no cristal da protena deve ser ento analisado computacionalmente para que
seja produzida a estrutura precisa da protena em questo. Com os dados obtidos no
experimento de difrao montado um mapa de densidades eletrnicas onde os
aminocidos so encaixados e o quebra cabea que representa a estrutura da
protena gerado. Dependendo da resoluo obtida pode-se chegar at a descobrir
exatamente qual a seqncia de aminocidos da protena. Quase 100% das vezes,
entretanto, a seqncia primria j conhecida de antemo.
Ao contrrio da tcnica de difrao de raios-X, a ressonncia nuclear magntica
ou NMR, da sigla em ingls, permite que a estrutura da protena seja conhecida sem
que haja necessidade da cristalizao da mesma (as protenas so utilizadas em
soluo) e, portanto, protenas que no so possveis de se cristalizar tm sua
estrutura 3D resolvida por este mtodo. No fundo esse um mtodo de minimizao
de energia que produz um resultado menos preciso e de menor resoluo do que os
resultados de difrao. Freqentemente os resultados de NMR produzem mais de um
resultado que apresente uma energia mnima e, assim, os arquivos de estruturas de
protenas resolvidas por NMR so, na verdade, um conjunto contendo todas as
estruturas da protena que apresentaram menor energia e vrias estruturas parecidas
so observadas nestes arquivos.
61
62
63
9.5. Threading
Vimos, portanto, como normalmente realizada a montagem de modelos
tericos de estruturas proticas baseados em homologia de seqncia entre diferentes
protenas. Entretanto, o que fazer quando o pesquisador deseja modelar teoricamente
uma determinada protena mas no h outras seqncias similares o suficiente no
banco de dados do PDB para realizar essa modelagem? Foi pensando nesse tema e no
fato de que algumas protenas de seqncia bem divergente apresentam estruturas
similares, que os algoritmos de threading foram desenvolvidos. Tais programas, como
o gene threader, tentam modelar protenas que no apresentem seqncias
primrias similares com estrutura conhecida. Um programa de threading funciona de
acordo com a montagem dos chamados modelos descritivos, que so montados para
tentar criar um padro relacionando seqncia e estrutura, mas no de uma forma to
rgida quanto num alinhamento. Esses padres levam em considerao alguns fatores,
como: (1) a distncia entre os resduos de aminocidos; (2) a estrutura secundria de
vrios segmentos das protenas; (3) as caractersticas fsico-qumicas de cada resduo
e sua ordem na cadeia. Dessa forma, esses algoritmos so, por vezes, capazes de
gerar estruturas tercirias de protenas sem que existam outras protenas j
modeladas com seqncia similar.
64
Informaes do arquivo
Identificadores da primeira coluna
Ttulo
TITLE, COMPND, SOURCE, AUTHOR, REMARKS
Estrutura primria
DBREF, SEQADV, SEQRES, MODRES
Heterotomos
HET, HETNAM, HETSYN, FORMUL
Estrutura secundria
HELIX, SHEET, TURN
Ligaes qumicas
SSBOND, HYDBND, SLTBRG, CYSPEP
Dados cristalogrficos
CRIST1, ORIGXn, SCALEn, MTRIXn
Coordenadas atmicas
MODEL, ATOM, TER, HETATM
Tabela 9.1. Informaes presentes num arquivo PDB de estrutura de protena.
Exemplo de um arquivo PDB:
HEADER
COMPND
COMPND
COMPND
COMPND
COMPND
COMPND
COMPND
SOURCE
SOURCE
SOURCE
SOURCE
SOURCE
SOURCE
SOURCE
SOURCE
SOURCE
SOURCE
SOURCE
KEYWDS
EXPDTA
AUTHOR
REVDAT
JRNL
JRNL
JRNL
JRNL
JRNL
JRNL
JRNL
JRNL
OXYGEN TRANSPORT
14-APR-95
1HDB
MOL_ID: 1;
2 MOLECULE: HEMOGLOBIN (DEOXY) BETA-V67T;
3 CHAIN: A, B, C, D;
4 SYNONYM: HBV67T;
5 ENGINEERED: YES;
6 MUTATION: CHAIN B, D, V67T;
7 OTHER_DETAILS: ALPHA-BETA-ALPHA-BETA TETRAMER
MOL_ID: 1;
2 SYNTHETIC: YES;
3 ORGANISM_SCIENTIFIC: HOMO SAPIENS;
4 ORGANISM_COMMON: HUMAN;
5 TISSUE: BLOOD;
6 CELL: ERYTHROCYTE;
7 EXPRESSION_SYSTEM: ESCHERICHIA COLI;
8 EXPRESSION_SYSTEM_STRAIN: AR120;
9 EXPRESSION_SYSTEM_PLASMID: PJK05 (FRONTICELLI ET AL.,1991);
10 EXPRESSION_SYSTEM_GENE: BETA-GLOBIN CDNA FUSED TO A
11 TRUNCATED VIRAL GENE
HUMAN HEMOGLOBIN, DEOXY-BETA-V67T
X-RAY DIFFRACTION
I.PECHIK,X.JI,C.FRONTICELLI,G.L.GILLILAND
1
03-APR-96 1HDB
0
AUTH
I.PECHIK,X.JI,J.DILL,K.FIDELIS,J.MOULT,
AUTH 2 W.S.BRINIGAR,M.KARAVITIS,C.FRONTICELLI,
AUTH 3 G.L.GILLILAND
TITL
ANALYSIS OF THE CRYSTAL STRUCTURE, MOLECULAR
TITL 2 MODELING AND INFRARED SPECTROSCOPY OF THE DISTAL
TITL 3 BETA-HEME POCKET VALINE67(E11)-THREONINE MUTATION
TITL 4 OF HEMOGLOBIN
REF
TO BE PUBLISHED
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
65
JRNL
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REFN
0353
1
1 REFERENCE 1
1 AUTH
C.FRONTICELLI,I.PECHIK,W.S.BRINIGAR,Z.GRYCZYNSKI,
1 AUTH 2 G.L.GILLILAND
1 TITL
OXYGEN AFFINITY MODULATION BY THE N-TERMINI OF THE
1 TITL 2 BETA- CHAINS IN HUMAN AND BOVINE HEMOGLOBIN
1 REF
J.BIOL.CHEM.
V. 269 23965 1994
1 REFN
ASTM JBCHA3 US ISSN 0021-9258
0071
2
2 RESOLUTION. 2.2 ANGSTROMS.
3
3 REFINEMENT.
3
PROGRAM
GPRLSA
3
AUTHORS
FUREY
3
R VALUE
0.149
3
MEAN B VALUE
21.43 ANGSTROMS**2
3
FINAL RMS COORD. SHIFT
0.024 ANGSTROMS
3
3
NUMBER OF REFLECTIONS
21669
3
RESOLUTION RANGE
6.0 - 2.2 ANGSTROMS
3
DATA CUTOFF
2.
SIGMA(F)
3
3 DATA COLLECTION.
3
NUMBER OF UNIQUE REFLECTIONS
27163
3
COMPLETENESS OF DATA
84.
%
3
REJECTION CRITERIA
0.0
SIGMA(I)
3
3 NUMBER OF ATOMS USED IN REFINEMENT.
3
NUMBER OF PROTEIN ATOMS
4384
3
NUMBER OF NUCLEIC ACID ATOMS
0
3
NUMBER OF HETEROGEN ATOMS
172
3
NUMBER OF SOLVENT ATOMS
444
3
3 RMS DEVIATIONS FROM IDEAL VALUES (THE VALUES OF
3
SIGMA, IN PARENTHESES, ARE THE INPUT ESTIMATED
3
STANDARD DEVIATIONS THAT DETERMINE THE RELATIVE
3
WEIGHTS OF THE CORRESPONDING RESTRAINTS).
3
DISTANCE RESTRAINTS (ANGSTROMS).
3
BOND DISTANCE
0.017(0.025)
3
ANGLE DISTANCE
0.038(0.036)
3
PLANAR 1-4 DISTANCE
0.039(0.040)
3
ANGLE RESTRAINTS (DEGREES).
3
PLANE RESTRAINT (ANGSTROMS)
0.023(0.030)
3
CHIRAL-CENTER RESTRAINT (ANGSTROMS**3)
0.181(0.200)
3
NON-BONDED CONTACT RESTRAINTS (ANGSTROMS).
3
SINGLE TORSION CONTACT
0.186(0.300)
3
MULTIPLE TORSION CONTACT
0.187(0.300)
3
POSSIBLE HYDROGEN BOND
0.174(0.300)
3
CONFORMATIONAL TORSION ANGLE RESTRAINT (DEGREES).
3
PLANAR
3.5(5.0)
3
STAGGERED
17.4(15.0)
3
ORTHONORMAL
31.7(15.0)
3
ISOTROPIC THERMAL FACTOR RESTRAINTS (ANGSTROMS**2).
3
MAIN-CHAIN BOND
0.676(1.000)
3
MAIN-CHAIN ANGLE
1.140(1.500)
3
SIDE-CHAIN BOND
1.279(1.500)
3
SIDE-CHAIN ANGLE
2.031(2.000)
3
3
MAIN-CHAIN BOND
0.676(1.000)
3
MAIN-CHAIN ANGLE
1.140(1.500)
3
SIDE-CHAIN BOND
1.279(1.500)
3
SIDE-CHAIN ANGLE
2.031(2.000)
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
66
REMARK
REMARK
REMARK
REMARK
REMARK
DBREF
DBREF
DBREF
DBREF
SEQADV
SEQADV
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
HET
HET
HET
HET
HET
HET
18
18 DATE OF DATA COLLECTION
: 07-04-94
18 MONOCHROMATIC (Y/N)
: Y
18 INTENSITY-INTEGRATION SOFTWARE : XENGEN
18 DATA REDUNDANCY
: 2.75
1HDB A
1
141 SWS
P01922
HBA_HUMAN
1
141
1HDB B
1
146 SWS
P02023
HBB_HUMAN
1
146
1HDB C
1
141 SWS
P01922
HBA_HUMAN
1
141
1HDB D
1
146 SWS
P02023
HBB_HUMAN
1
146
1HDB THR B
67 SWS P02023
VAL
67 ENGINEERED
1HDB THR D
67 SWS P02023
VAL
67 ENGINEERED
1 A 141 VAL LEU SER PRO ALA ASP LYS THR ASN VAL LYS ALA ALA
2 A 141 TRP GLY LYS VAL GLY ALA HIS ALA GLY GLU TYR GLY ALA
3 A 141 GLU ALA LEU GLU ARG MET PHE LEU SER PHE PRO THR THR
4 A 141 LYS THR TYR PHE PRO HIS PHE ASP LEU SER HIS GLY SER
5 A 141 ALA GLN VAL LYS GLY HIS GLY LYS LYS VAL ALA ASP ALA
6 A 141 LEU THR ASN ALA VAL ALA HIS VAL ASP ASP MET PRO ASN
7 A 141 ALA LEU SER ALA LEU SER ASP LEU HIS ALA HIS LYS LEU
8 A 141 ARG VAL ASP PRO VAL ASN PHE LYS LEU LEU SER HIS CYS
9 A 141 LEU LEU VAL THR LEU ALA ALA HIS LEU PRO ALA GLU PHE
10 A 141 THR PRO ALA VAL HIS ALA SER LEU ASP LYS PHE LEU ALA
11 A 141 SER VAL SER THR VAL LEU THR SER LYS TYR ARG
1 B 146 VAL HIS LEU THR PRO GLU GLU LYS SER ALA VAL THR ALA
2 B 146 LEU TRP GLY LYS VAL ASN VAL ASP GLU VAL GLY GLY GLU
3 B 146 ALA LEU GLY ARG LEU LEU VAL VAL TYR PRO TRP THR GLN
4 B 146 ARG PHE PHE GLU SER PHE GLY ASP LEU SER THR PRO ASP
5 B 146 ALA VAL MET GLY ASN PRO LYS VAL LYS ALA HIS GLY LYS
6 B 146 LYS THR LEU GLY ALA PHE SER ASP GLY LEU ALA HIS LEU
7 B 146 ASP ASN LEU LYS GLY THR PHE ALA THR LEU SER GLU LEU
8 B 146 HIS CYS ASP LYS LEU HIS VAL ASP PRO GLU ASN PHE ARG
9 B 146 LEU LEU GLY ASN VAL LEU VAL CYS VAL LEU ALA HIS HIS
10 B 146 PHE GLY LYS GLU PHE THR PRO PRO VAL GLN ALA ALA TYR
11 B 146 GLN LYS VAL VAL ALA GLY VAL ALA ASN ALA LEU ALA HIS
12 B 146 LYS TYR HIS
1 C 141 VAL LEU SER PRO ALA ASP LYS THR ASN VAL LYS ALA ALA
2 C 141 TRP GLY LYS VAL GLY ALA HIS ALA GLY GLU TYR GLY ALA
3 C 141 GLU ALA LEU GLU ARG MET PHE LEU SER PHE PRO THR THR
4 C 141 LYS THR TYR PHE PRO HIS PHE ASP LEU SER HIS GLY SER
5 C 141 ALA GLN VAL LYS GLY HIS GLY LYS LYS VAL ALA ASP ALA
6 C 141 LEU THR ASN ALA VAL ALA HIS VAL ASP ASP MET PRO ASN
7 C 141 ALA LEU SER ALA LEU SER ASP LEU HIS ALA HIS LYS LEU
8 C 141 ARG VAL ASP PRO VAL ASN PHE LYS LEU LEU SER HIS CYS
9 C 141 LEU LEU VAL THR LEU ALA ALA HIS LEU PRO ALA GLU PHE
10 C 141 THR PRO ALA VAL HIS ALA SER LEU ASP LYS PHE LEU ALA
11 C 141 SER VAL SER THR VAL LEU THR SER LYS TYR ARG
1 D 146 VAL HIS LEU THR PRO GLU GLU LYS SER ALA VAL THR ALA
2 D 146 LEU TRP GLY LYS VAL ASN VAL ASP GLU VAL GLY GLY GLU
3 D 146 ALA LEU GLY ARG LEU LEU VAL VAL TYR PRO TRP THR GLN
4 D 146 ARG PHE PHE GLU SER PHE GLY ASP LEU SER THR PRO ASP
5 D 146 ALA VAL MET GLY ASN PRO LYS VAL LYS ALA HIS GLY LYS
6 D 146 LYS THR LEU GLY ALA PHE SER ASP GLY LEU ALA HIS LEU
7 D 146 ASP ASN LEU LYS GLY THR PHE ALA THR LEU SER GLU LEU
8 D 146 HIS CYS ASP LYS LEU HIS VAL ASP PRO GLU ASN PHE ARG
9 D 146 LEU LEU GLY ASN VAL LEU VAL CYS VAL LEU ALA HIS HIS
10 D 146 PHE GLY LYS GLU PHE THR PRO PRO VAL GLN ALA ALA TYR
11 D 146 GLN LYS VAL VAL ALA GLY VAL ALA ASN ALA LEU ALA HIS
12 D 146 LYS TYR HIS
HEM A 142
43
PROTOPORPHYRIN IX CONTAINS FE(II)
HEM B 147
43
PROTOPORPHYRIN IX CONTAINS FE(II)
HEM C 142
43
PROTOPORPHYRIN IX CONTAINS FE(II)
HEM D 147
43
PROTOPORPHYRIN IX CONTAINS FE(II)
SO4
1
5
SULFATE ION
SO4
2
5
SULFATE ION
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
67
FORMUL
FORMUL
FORMUL
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
CRYST1
ORIGX1
ORIGX2
ORIGX3
SCALE1
SCALE2
SCALE3
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
5 HEM
4(C34 H32 N4 O4 FE1 2+)
6 SO4
2(O4 S1 2-)
7 HOH
*434(H2 O1)
1
1 PRO A
4 SER A
35 1
2
2 PRO A
37 TYR A
42 5
3
3 ALA A
53 ALA A
71 1
4
4 MET A
76 ALA A
79 1
5
5 SER A
81 HIS A
89 1
6
6 PRO A
95 HIS A 112 5
7
7 PRO A 119 THR A 137 1
8
8 PRO B
5 LYS B
17 1
9
9 VAL B
20 VAL B
34 1
10 10 PRO B
36 PHE B
45 5
11 11 PRO B
51 GLY B
56 1
12 12 PRO B
58 HIS B
77 1
13 13 LEU B
81 ASP B
94 1
14 14 PRO B 100 GLU B 121 5
15 15 PRO B 124 ALA B 142 1
16 16 PRO C
4 SER C
35 1
17 17 PRO C
37 TYR C
42 5
18 18 ALA C
53 ALA C
71 1
19 19 MET C
76 ALA C
79 1
20 20 SER C
81 HIS C
89 1
21 21 PRO C
95 HIS C 112 5
22 22 PRO C 119 LEU C 136 1
23 23 PRO D
5 LYS D
17 1
24 24 VAL D
20 VAL D
34 1
25 25 PRO D
36 PHE D
45 5
26 26 PRO D
51 GLY D
56 1
27 27 PRO D
58 HIS D
77 1
28 28 LEU D
81 ASP D
94 1
29 29 PRO D 100 GLU D 121 5
30 30 PRO D 124 ALA D 142 1
63.540
83.190
54.020 90.00 99.15
1.000000 0.000000 0.000000
0.000000 1.000000 0.000000
0.000000 0.000000 1.000000
0.015738 0.000000 0.002535
0.000000 0.012021 0.000000
0.000000 0.000000 0.018750
1 N
VAL A
1
19.345 29.258
2 CA VAL A
1
20.198 30.251
3 C
VAL A
1
21.681 29.970
4 O
VAL A
1
22.004 29.466
5 CB VAL A
1
19.720 31.621
6 CG1 VAL A
1
19.955 31.726
7 CG2 VAL A
1
20.335 32.766
8 N
LEU A
2
22.515 30.278
9 CA LEU A
2
23.964 30.010
10 C
LEU A
2
24.657 31.119
90.00 P 21
0.00000
0.00000
0.00000
0.00000
0.00000
0.00000
43.165 1.00
42.493 1.00
42.744 1.00
43.860 1.00
43.026 1.00
44.529 1.00
42.236 1.00
41.750 1.00
41.896 1.00
42.673 1.00
33.80
33.75
33.53
33.92
33.70
33.94
34.02
32.79
32.05
31.36
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
1HDB
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
68
9.9. Brainstorm
1. Por que o conhecimento sobre a estrutura das protenas importante?
2. Descreva brevemente como funcionam as duas principais tcnicas experimentais
para a descoberta da estrutura tercirias das protenas.
3. O que o PDB? Por que h menos estruturas proticas produzidas do que
seqncias gnicas?
4. A modelagem por homologia se baseia em qual premissa?
5. Quais so os casos onde se recomenda realizar a modelagem por homologia?
6. Quais so os passos necessrios para se realizar a modelagem por homologia?
7. Em que se baseia a modelagem por threading? Voc acha que a modelagem por
threading mostra que a premissa da modelagem por homologia esteja incorreta ou
incompleta? Por que?
69
CAPTULO 10
Concluses e pensamentos filosficos sobre a bioinformtica
10.2. Introduo
A bioinformtica consiste principalmente na anlise computacional de
seqncias de DNA, RNA e protenas. Essa nova cincia surgiu na ltima dcada devido
a uma necessidade urgente pela utilizao de ferramentas sofisticadas para a anlise
de um crescente nmero de dados que veio a ser produzido em biologia molecular. O
GenBank foi um dos primeiros e ainda o mais popular banco de dados para o
depsito de seqncias de DNA. Criado dentro do NCBI -- o centro americano para
informao biotecnolgica --, l onde pesquisadores de todo o mundo depositam as
seqncias de A, C, G e Ts que obtm em seus laboratrios atravs do
sequenciamento do DNA dos mais diversos organismos. No final da dcada de 90
observou-se um crescimento exponencial do nmero de seqncias de biomolculas
depositadas no GenBank e a figura 1 j clssica no mbito da biologia
computacional. Esse assustador crescimento comeou a ocorrer aps a comercializao
dos seqenciadores de DNA a laser, em 1990. Os seqenciadores atuais so
totalmente automatizados
e foram
especialmente
desenvolvidos
para o
seqenciamento de molculas DNA em larga-escala. Freqentemente apresentam 96
capilares (tubos minsculos por onde passam fragmentos de DNA a serem analisados)
e conseguem gerar, em mdia, seqncias de DNA de 600 letras A, C, G e T por
capilar em cada anlise (o genoma humano constitudo por cerca de 3 bilhes de
letras de DNA). Seqenciadores ainda mais potentes, apresentando 384 capilares,
podem produzir mais de um milho de letras do DNA por dia! No Brasil, existem
dezenas de seqenciadores e grande parte deles foi distribuda entre laboratrios em
todo o pas quando da implantao do Projeto Genoma FAPESP para o seqenciamento
da bactria Xylella fastidiosa que ataca a laranja (http://aeg.lbi.ic.unicamp.br/xf/) e do
Projeto Genoma Brasileiro (http://www.brgene.lncc.br) durante o qual foram
seqenciadas as bactrias Chromobacterium violaceum e Mycoplasma synoviae.
70
71
sculo XIX, veremos que, naquela poca em que pouco se conhecia -- de forma
sistematicamente documentada -- do mundo biolgico em geral, os grandes cientistas
eram considerados os naturalistas; aqueles que exploravam o mundo em busca de
informao taxonmica, encontrando e classificando novos animais e plantas antes
desconhecidos. A descrio e a documentao de novas espcies era especialmente
necessria naquela poca, uma vez que pouco ou nada se conhecia sobre a grande
diversidade da vida em nosso planeta. Assim, poucos questionamentos eram feitos a
respeito de nossa biodiversidade. Desta forma, como nos estudos dos naturalistas,
houve a poca onde os anatomistas comearam a surgir, escrevendo seus tratados e
mostrando os primeiros detalhes bem documentados sobre a anatomia humana e de
diversas outras espcies. Descreviam da melhor maneira possvel poca, a
localizao dos rgos e tecidos humanos que se tinha conhecimento. Igualmente, se a
genmica no pode ser vista classicamente como uma cincia, a taxonomia e a
anatomia tambm no o podem. E isso vem do fato de que tais empreendimentos
cientficos so principalmente descritivos ao invs de investigativos. Mas, mais uma
vez, isso no lhes tira o mrito, muito pelo contrrio. Quanto conhecimento cientfico
j no foi construdo baseado nas informaes geradas pelos naturalistas e
anatomistas? Toda uma cincia biomdica foi montada com bases nos conhecimentos
descritivos gerados pelos anatomistas e a teoria mais importante e unificadora de toda
a biologia -- a Evoluo -- surgiu diretamente das observaes, documentaes e
estudos descritivos dos naturalistas Charles Darwin e Alfred Wallace.
Bem, e a genmica? O genoma pode ser descrito como a anatomia molecular
de uma espcie. E s agora, neste incio de sculo XXI, que estamos conseguindo
desvendar e descrever como as espcies so constitudas em seu nvel mais bsico; o
da informao molecular. A genmica a cincia descritiva dos nossos tempos. E
assim como as cincias biomdicas surgiram para trazer o mtodo cientfico ao estudo
da anatomia, a bioinformtica surge agora para trazer a cientificidade aos dados
genmicos, para casar a genmica ao mtodo cientfico e para gerar informaes
relevantes e indispensveis na incessante busca do conhecimento em que consiste o
empreendimento cientfico.
72
73
74
10.7. Brainstorm
1. Defina bioinformtica com suas prprias palavras.
2. Sua viso sobre bioinformtica e genoma foi modificada aps a realizao deste
curso? O que voc pensava antes e pensa agora?
3. As pesquisas genmicas so cientficas? O que voc entende por cincia?
4. Como voc definiria a expresso anatomia molecular?
5. Cite exemplos e discorra sobre a bioinformtica tijolo.
6. Cite exemplos e discorra sobre a bioinformtica peneira.
7. Cite exemplos e discorra sobre a bioinformtica lupa e explique por que os
trabalhos de lupa normalmente no so publicados em revistas de bioinformtica.
8. Voc consegue pensar em mais algum paradigma da bioinformtica atual?
9. Qual foi a aula mais interessante, em sua opinio? Por que?
10. Qual foi a aula que voc achou mais complicada? Por que?
11. D sua apreciao geral sobre o curso realizado.
75
SOBRE O AUTOR