Você está na página 1de 41

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/265758501

BIOINFORMÁTICA

Chapter · January 2012

CITATIONS READS

0 627

5 authors, including:

Luciano Kishi Mauricio Cantão


São Paulo State University Brazilian Agricultural Research Corporation (EMBRAPA)
62 PUBLICATIONS   1,382 CITATIONS    103 PUBLICATIONS   500 CITATIONS   

SEE PROFILE SEE PROFILE

Rodrigo Pereira Darío Abel Palmieri


UFGD - Universidade Federal da Grande Dourados São Paulo State University
27 PUBLICATIONS   122 CITATIONS    49 PUBLICATIONS   1,785 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

method of processing dna in metagenomic samples View project

Diversidade e potencial de controle biológico de bactérias endofíticas e rizosféricas associadas ao Sisal (Agave Sisalana Perrine) View project

All content following this page was uploaded by Rodrigo Pereira on 03 October 2017.

The user has requested enhancement of the downloaded file.


Biologia Molecular

BIOINFORMÁTICA

Luciano Takeshi Kishi


Mauricio Egideo Cantao
Rodrigo Matheus Pereira
Luciano Carlos da Maia
Dario Abel Palmieri

273
Biologia Molecular

274
Biologia Molecular

SUMÁRIO

CAPÍTULO 12. BIOINFORMÁTICA

12.1. INTRODUÇÃO...........................................................277
12.2. OBTENÇÃO DOS DADOS GENÔMICOS..................278
12.3. MONTAGEM DO GENOMA........................................280
12.4. MONTAGEM POR REFERÊNCIA...............................286
12.5. BANCO DE DADOS BIOLÓGICOS...........................289
12.6. ALINHAMENTO DE SEQUÊNCIAS.............................291
12.7. ALINHAMENTO LOCAL..............................................294
12.8. ALINHAMENTO GLOBAL............................................297
12.9. SISTEMA OPERACIONAL..........................................298
12.10. LINUX........................................................................299
12.11. NÚCLEO...................................................................300
12.12. PROCESSO..............................................................300
12.13. SISTEMA DE ARQUIVOS E ESTRUTURA DE
DIRETÓRIOS............................................................303
12.14. COMANDOS LINUX..................................................305
12.15. LINGUAGEM PERL..................................................306
12.16. BIOPERL...................................................................307
12.17. MEU PRIMEIRO PROGRAMA..................................307
12.18. A BIOINFORMÁTICA E A INTERNET........................309

275
Biologia Molecular

276
Biologia Molecular

12.1. INTRODUÇÃO

A área conhecida como bioinformática, usa os conhe-


cimentos adquiridos principalmente em biologia, ciência da
computação e matemática para serem aplicados na solução
de problemas biológicos.

Com os avanços das técnicas de sequenciamento de


DNA, um grande volume de dados foi disponibilizado aos
pesquisadores que necessitam agora de ferramentas com-
putacionais que automatizem os sistemas de processamento
de dados e organizem os resultados para a compreensão
humana.

No Brasil, a partir de 2000, o campo da bioinformática


teve o seu papel fundamental e crucial para o sucesso no
sequenciamento da primeira bactéria fitopatogênica, a
Xylella fastidiosa.

A princípio a bioinformática é vista como parte nos servi-


ços de análises de DNA, RNA ou proteínas, mas o coração da
bioinformática envolve não só o entendimento, mas o desen-
volvimento de técnicas computacionais na área de reconhe-
cimento de padrões, mineração de dados, aprendizagem de
máquina, banco de dados, para que pesquisadores possam
aplicar estes recursos em seus mais diferentes projetos, sen-
do eles de análises de sequência, estudos gênicos, proteômi-
ca, genômica, metabolômica, transcriptômica, metagenômica,
entre outras.

A bioinformática é uma área tão ampla que seria neces-


sário mais de um livro só para descrever as diversas técni-
cas e suas aplicações. Porém, para não deixar de falar sobre
bioinformátca, procuramos descrever nesse capítulo um breve
resumo de algumas das áreas mais empregadas.
277
Biologia Molecular

12.2. OBTENÇÃO DOS DADOS GENÔMICOS

O sequenciamento de genoma é o processo que determi-


na a ordem das sequências de nucleotídeos ao longo da molé-

compõem o genoma é importante para aprender mais sobre o


organismo e pode ajudar os cientistas a entender como os ge-
nes e as células funcionam. O sequenciamento pode ser apli-
cado em: diagnósticos de doenças, genética forense, teste de
paternidade, comparação de genomas, estudos moleculares,
entre outros. Existem duas técnicas que os cientistas usam
para realizar o sequenciamento, sendo elas sequenciamento
hierárquico e o sequenciamento completo por fragmentos ale-
atórios ( ).

A estratégia de sequenciamento hierárquico é geralmente


aplicada no sequenciamento de grandes genomas, e uma das
primeiras etapas é a construção do mapa físico do genoma
para auxiliar no momento da montagem. No segundo passo,
grandes fragmentos do DNA genômico são clonados em veto-
-
nes serão fragmentados novamente em pedaços menores de
tamanho variando de 1 a 10 kb, inseridos em vetores conheci-
dos como plasmídeos e submetido ao processo de sequencia-
mento. Entretanto, o sequenciamento pela técnica de shotgun
também chamado de WGS ( ) é muito
mais rápido e dispensa a fase de mapeamento físico, uma
etapa difícil e demorada de ser realizada. Nesta abordagem,
o DNA genômico é fragmentado aleatoriamente em tamanho
que varia de 1 a 10 kb, inseridos em plasmídeos para a cons-
trução de bibliotecas e sequenciados. Além das bibliotecas
de plasmídeos, bibliotecas de cosmídeos e/ou fosmídeos con-
tendo fragmentos maiores, em torno de 40 kb são construí-
dos e sequenciados para auxiliar no processo de montagem
e fechamento do genoma (Teixeira e Araújo, 2006). Com o
278
Biologia Molecular

sequenciamento das extremidades de milhares de clones, por


-
construir com muito esforço e processamento o DNA do geno-
ma completo in silico.

Em ambos os métodos, computadores são usados para


juntar os fragmentos sequenciados e restaurar a sequência
original do genoma. O Projeto Genoma Humano que sequen-
ciou todas as bases no DNA humano, utilizou ambos os mé-

genoma (Venter et al., 2001).

Uma abordagem alternativa ao sequenciamento completo


do DNA genômico é o sequenciamento do produto gênico que
está sendo expresso pela célula, chamado de transcriptoma.
Em projetos de transcriptoma o sequenciamento ocorre nas
sequências dos genes que estão sendo expressos no momen-
to da extração do RNA mensageiro (RNAm). Sendo assim, o

-
lógico, estímulos físicos, químicos, biológicos, doenças ou
condição experimental.

A molécula de RNAm é muito instável fora da célula, e


por esse motivo, primeiro é necessário convertê-los em se-
.
O é muito mais estável e foi produzido a partir de uma
sequência de RNAm no qual os íntrons já foram removidos.

são clonados para serem posteriormente sequenciados. Em


muitos projetos de transcriptoma o sequenciamento ocorre
apenas nas extremidades dos clones, e os produtos gera-
dos são denominados de etiquetas de sequências expressas
(Expressed Sequence Tag - EST). Os ESTs são pequenos pe-
daços de sequência de DNA com tamanho em torno de 200
279
Biologia Molecular

a 500 nucleotídeos gerados pelo sequenciamento de uma ou


ambas as pontas dos genes expressos. Essas sequências são

suas posições ao longo do genoma.

Uma vantagem dos projetos de transcriptoma é o sequen-

tipo de projeto é muito abordado em genomas eucariotos, cuja


sequências intergênicas e íntrons constituem grande parte do
genoma. O sequenciamento apenas dos genes ajuda a re-
duzir os custos do projeto, mas por outro lado, genes pou-

não foram transcritos durante as condições experimentais em

12.3. MONTAGEM DO GENOMA

Todo método de sequenciamento, sendo ele de primeira


ou segunda geração de sequenciadores, produz milhares de
fragmentos de DNA. O tamanho dos fragmentos pode variar
entre 25 a 100 bases, como é o caso dos reads gerados pelos
sequenciadores das plataformas Solexa (Illumina) e Solid (Ap-
plied Biosystems), ou mesmo 300-500 bases pelo sequencia-
dor Roche 454 (454 Life Sciences) ou chegar até 1000 bases
utilizando o método de Sanger em sequenciadores de primei-
ra geração (Shendure e Ji, 2008). Não importa de qual méto-
do ou plataforma que se produziu o fragmento de DNA, cada
sequência contém pouca informação a respeito do organismo
ao qual foi originado.

Para sequenciar completamente um genoma ou regiões do


DNA que é longo demais para o sequenciamento direto, uma
alternativa é usar a abordagem de shotgun. Os fragmentos
sequenciados são chamados de reads e contém informação
de apenas uma pequena região do DNA original. Com frag-
280
Biologia Molecular

mentos curtos, torna-se necessário obter leituras maiores para


poder desenvolver estudos seguros na sequência do genoma.
Uma forma de estender a região do genoma é alinhar os
reads produzidos contra os demais sequenciados. Para isso,
o uso de ferramentas computacionais passa a ser indispensá-
vel para o processo que chamamos de montagem do genoma.

Uma vez obtida as sequências, é importante definir


qual a melhor ferramenta e estratégia para fazer a monta-
gem do genoma. Se o sequenciamento veio pelo método
de Sanger, reads longos serão gerados, mas em contrapar-
tida, um número menor de sequências será produzido por
corrida. Enquanto o sequenciador 454 gera em torno de
um milhão de reads/corrida, um sequenciador de primeira
geração, ABI 3130 chega a produzir algumas centenas de
reads/dia. O método de Sanger tem suas vantagens, como
uma menor taxa de erro por base, leitura mais longa que
auxilia na solução de problemas em regiões repetidas do
genoma durante a montagem, não tem problema de ho-
mopolímeros, que é o sequenciamento de bases idênticas
ao longo do DNA, mas como desvantagem, o método de
Sanger apresenta um maior custo por base sequenciada,
menor número de sequência por corrida, dificuldade em
sequenciar regiões ricas em bases GC, além da necessi-
dade de clonar os fragmentos em vetores para o sequen-
ciamento. Para o processo de montagem, uma ferramenta
muito utilizada nos genomas sequenciados pelo método de
Sanger é o pacote Phred/Phrap/Consed (Nickerson et al.,
1997), desenvolvidos por Phil Green, Brent Ewing e Da-
vid Gordon na Universidade de Washington. Os programas
Phred e Phrap são utilizados no processo de montagem do
genoma, já o programa Consed é um programa de visua-
lização das montagens, sendo todos livres para uso não
comercial. Para obtê-los, entre no endereço web http://
www.phrap.org e segue as instruções contidas no site. O
281
Biologia Molecular

programa Consed não precisa compilar, isto é, você baixa


a versão binária específica para sua plataforma, sendo ele,
Linux, Unix, 32 ou 64 bits. Já os programas Phred e Phrap
serão necessários compilar, para isso, é desejado que o
usuário tenha alguns conhecimentos básicos de Linux/Unix
para deixá-los instalados e configurados corretamente.

Para o método de Sanger, antes de aplicar qualquer pro-


grama de montagem, primeiro é necessário converter os ele-
troferogramas produzidos pelos sequenciadores em arquivos
contendo as bases e as qualidades para cada uma delas. Este
processo de conversão é chamado de base calling e o pro-
grama Phred é um dos mais utilizados para isso. O progra-
ma Phred lê os eletroferogramas gerados pelo sequenciador,

para cada base. O valor de qualidade gerado pelo programa


Phred tornou-se tão popular que é chamado de “qualidade

para cada base lida. O valor 20 atribuído para um nucleotídeo

bases e assim sucessivamente de acordo com a fórmula Q =


-10 log10(P), onde Q é a qualidade e P é a probabilidade de
erro da base (Ewing e Green, 1998).

Para o processo de montagem pelo método de Sanger,


primeiro verifica se as sequências contêm bases de vetores
utilizados no processo de clonagem dos fragmentos e subs-
titui pela letra X, processo conhecido como mascaramento.
Dessa forma, o programa de montagem desconsidera es-
sas bases quando faz o alinhamento contra as sequências
do genoma. Para as plataformas 454, Solid e Solexa não
são necessários mascarar as sequências de vetor, uma vez
que nestes métodos os fragmentos não foram clonados. É
comum também antes de iniciar o processo de montagem,
282
Biologia Molecular

retirar os reads que apresentam baixa qualidade Phred ao


longo de sua sequência. Um exemplo é retirar todos os
reads que não possuam uma região com no mínimo 150
-
ger e 454, enquanto para Solid e Solexa é comum aplicar
programas de correção de erro de sequenciamento, ou se
desejar, também é possível excluir as bases das extremi-
dades dos reads que apresentam baixa qualidade. Adotan-
do este procedimento, aumenta a qualidade da montagem,
diminui o número de sequências para serem analisadas,
consequentemente, diminuindo o tempo de processamento
e o espaço alocado em memória. Um programa muito utili-
zado para mascarar as sequências de vetor e retirar reads
de baixa qualidade é o programa Lucy (Chou e Holmes,
2001). Este programa possui versão para Linux, Windows,
Mac OS X e pode ser baixado gratuitamente no endereço
http://lucy.sourceforge.net.

No processo de montagem de genoma conhecido como


de novo, no qual a montagem dos reads ocorre sem nenhum
auxílio de genomas de referência relacionados, os algoritmos
-
car regiões de similaridade. A idéia é alinhar a extremidade
de um fragmento com outra sequência, e assim, aos poucos,
estender as sequências em fragmentos maiores, chamados
de contigs. Os contigs podem conter dezenas, centenas ou
milhares de reads dentro, dependendo do tamanho e de sua
cobertura. O processo de montagem alinhando as sequências

que possibilita a redundância entre os fragmentos e permite


assim que as sequências sejam alinhadas umas às outras. A
reads estendendo a região

reads montados dentro dele.

283
Biologia Molecular

Figura 34 - O alinhamento dos reads pelas extremidades pos-


sibilita a sobreposição das sequências e sua extensão. Com a
sobreposição dos reads é possível gerar uma sequência con-
senso da região.

Sequência consenso

Figura 35 - contig (sequência


consenso) formado pela sobreposição de diversos reads ao
longo de sua sequência.

Além do programa Phrap para montagem de genomas de


bactérias, eucariotos, outros programas muito utilizados para
a montagem de novo são:

Arachne - Programa desenvolvido no Broad Institute of


MIT, amplamente utilizada em projetos genoma de bactérias e
eucariotos para montagem de sequências geradas por Sanger
(http://www.broad.mit.edu/wga).
284
Biologia Molecular

Celera Assembler - Programa desenvolvido na Celera


usado para a montagem de genoma de bactérias
e eucariotos. Este programa foi utilizado para a montagem do
genoma humano pela Celera Genomics. Celera Assembler
pode ser usado com sequências geradas por Sanger, 454 e
Illumina (http://wgs-assembler.sourceforge.net).

Mira – Um programa de montagem de genoma de bacté-


rias, eucariotos e ESTs. Ele suporta sequências geradas por
Sanger, 454 e Illumina (http://sourceforge.net/projects/mira-
assembler).

Newbler – O programa Newbler é desenvolvido pela pró-


pria Roche® e distribuído junto com o sequenciador 454. Ele é
recomendado para montagem de genomas de bactérias, ESTs
e pequenos genomas de eucarioto sequenciado pela própria
plataforma 454 (http://www.454.com)

CAP3 – Programa muito utilizado em montagem de sequ-


ências de ESTs em projetos de transcriptomas. Ele também
pode ser utilizado na montagem de genomas pelo método de
Sanger (http://seq.cs.iastate.edu).

Velvet – Velvet faz montagem de novo de genomas e foi


projetado para sequências curtas, mas também permite a adi-
ção de sequências de outras plataformas, como Sanger e 454
(http://www.ebi.ac.uk/~zerbino/velvet).

AbySS – Montador de genomas pelo método de novo de-


senvolvido para sequências curtas. Este montador está pre-
parado para executar em várias máquinas ao mesmo tempo
através de processamento distribuído (http://www.bcgsc.ca/
platform/bioinfo/software/abyss).

285
Biologia Molecular

12.4. MONTAGEM POR REFERÊNCIA

Para fazer a montagem de um genoma, duas formas po-


dem ser adotadas, sendo elas, a montagem de novo, ou por
referência. O método de novo é o mais tradicional de montagem
de genomas, e para isso, as sequências são alinhadas uma
contra as outras estendendo em contigs de modo a usar so-
mente reads produzidos pelo projeto sem o auxílio de nenhum
genoma já sequenciado. Outra forma de fazer a montagem é
pelo uso de genoma de referência. Nesta abordagem, os reads
são mapeados contra um genoma já sequenciado que orienta
na montagem. Quando se faz uma montagem usando referên-
cia, o genoma gerado é similar, mas não será necessariamente
igual ao da sequência passada como referência. Em relação
ao processamento, o custo computacional de se fazer este tipo
de montagem é bem menor, uma vez que as sequências não
serão alinhadas contra todos os reads produzidos, mas apenas
com a sequência passada como referência, reduzindo consi-
deravelmente o tempo necessário da montagem. Então por-
que fazer a montagem pelo método de novo se é mais “fácil”
e menos custoso computacionalmente fazer a montagem por
meio de um genoma usando referência? Bom, são poucos os
organismos que possuem um genoma com similaridade alta e
-
cesso. Além disso, as partes do genoma que tem menores si-

faz montagem por referência, nem todos os reads serão mape-


ados. Isso acontece quando regiões do genoma sequenciado
não existem no genoma de referência, ou mesmo regiões de
baixa similaridade impedem o alinhamento. Quando isso acon-
tece, aplica-se a montagem de novo aos reads não alinhados
para tentar montar regiões exclusivas do genoma alvo.

Montagem por referência é comumente usado em rese-


-
286
Biologia Molecular

Polymorphism - ), indels (inserção ou deleção de nu-


cleotídeos) entre indivíduos eucariotos, estirpes de bactérias
próximas, projetos de transcriptomas e são geralmente apli-
cados nos reads produzidos pelas tecnologias Solid e Sole-
xa. Estas tecnologias geram reads de comprimento pequeno
quando comparado com Sanger e 454, e podem variar de 25
a 100 bases. Os reads -
tagem com ferramentas que utilizam a abordagem de novo,
uma vez que a região de sobreposição será menor e repetição
na sequência do genoma será praticamente impossível de ser
resolvido. Com fragmentos curtos, uma boa alternativa é fa-
zer a montagem do genoma baseando-se em uma referência.
Para sequências geradas pelos projetos de transcriptomas, é
comum mapear os reads contra um genoma montado. Esse
processo alinhará as sequências conta às regiões que foram
transcritas e deixará vazias (sem reads mapeados) as regiões
intergênicas e íntrons do genoma.

A seguir, uma lista de programas usados para mapear


reads contra sequências de genoma é apresentada:

GS Reference Mapper – programa desenvolvido pela pró-


pria Roche e usado para fazer montagem de genoma por refe-
rência (http://www.454.com).

CLC Workbench – Ferramenta comercial utilizada para


fazer montagem de novo ou por referência de reads gerados
por Sanger, 454, Solexa, Solid e Helicos. Tem versões para
os sistemas operacionais Windows, Mac OS X e Linux (http://
www.clcbio.com).

NextGENe – Ferramenta comercial desenvolvida para


fazer montagem de novo e por referência de sequências de
Solid, Solexa e 454 (http://softgenetics.com/NextGENe.html).
287
Biologia Molecular

MAQ – Mapeamento e montagem de sequências com


qualidade para sequências curtas geradas pelas plataformas
Solid e Solexa (http://sourceforge.net/projects/maq).

Bowtie – Mapeamento rápido de sequências curtas e com

milhões de reads por hora contra o genoma humano usando


uma estação de trabalho comum com 2 Gb de memória RAM.
Possui versão para Linux, Mac OS X e Windows (http://bowtie-
-bio.sourceforge.net).

BWA – Programa para alinhamento de sequências curtas


e longas contra genomas de referência (http://bio-bwa.source-
forge.net).

GenomeMapper – Ferramenta para mapear reads


curtos contra genomas de referência. Esta ferramenta
foi criada para o projeto “1001 Genomes Project – http://
www.1001genomes.org”, o download do software encon-
tra-se no mesmo site.

GMAP – Programa para mapear e alinhar sequências de


RNAm e EST contra genomas (http://research-pub.gene.com/
gmap).

Muitos são os programas disponíveis para mapear as se-

algoritmos de montagem são lançados ou aperfeiçoados. En-


tão o melhor a fazer é ler os artigos e estudar cada programa,
pois geralmente eles fazem comparações contra outras ferra-
mentas disponíveis. Uma alternativa, caso tenha muito tempo
disponível é testar cada programa em seu conjunto de reads,
analisar a saída de cada um e escolher o programa que me-
lhor gerou a montagem.

288
Biologia Molecular

12.5. BANCO DE DADOS BIOLÓGICOS

Devido ao aumento exponencial no número de dados obti-


dos em projetos genomas em consequência dos avanços nas
tecnologias de geração de dados de sequenciadores de segun-
da e terceira geração, torna-se imprescindível o uso de bancos
de dados para armazenar e organizar os dados produzidos.

Os dados armazenados são controlados e gerenciados por


meio de Sistemas Gerenciadores de Banco de Dados (SGBD)
no qual os mais conhecidos e utilizados em bioinformática são:
Mysql, PostgreeSQL, e Oracle.

Os bancos de dados biológicos contêm dados inter-rela-


cionados de informações e experimentos biológicos que estão

processos de consultas dos dados.

Em projetos genomas, informações como sequências de


DNA, proteínas, estruturas, funções biológicas são armazena-
dos de maneira que grandes quantidades de dados possam
ser utilizadas pelos pesquisadores para auxiliar na compreen-
são e no entendimento de um projeto.

Um dos bancos de dados biológicos mais conhecidos e


acessados é o
Information - http://www.ncbi.nlm.nih.gov), contendo infor-
mações biomédicas e genômicas como sequências de DNA,
RNA, proteínas, estruturas, taxonomia e também diversas fer-
ramentas para análises de dados, sendo uma delas o BLAST
(Basic Local Alignment Search Tool), uma das ferramentas
mais utilizadas e conhecidas do NCBI.

O EMBL-EBI (European Bioinformatics Institute - http://


www.ebi.ac.uk) é um banco europeu de sequências de DNA
289
Biologia Molecular

e proteínas, cuja missão é disponibilizar sequências de pro-


teínas e informações funcionais. O banco Uniprot é com-
posto por 4 componentes: UniProtKB é o ponto central de
acessos para dados curados de proteínas, incluindo fun-
ção, classificação e referências, sendo este banco subdi-
vidido em 2 seções o UniProtKB/Swiss-Prot, banco anota-
do e revisado manualmente, e o UniProtKB/TrEMBL que
é anotado automaticamente, mas não revisado. O UniProt
Reference Clusters (UniRef) é um banco contendo clusters
de sequências do UniProtKB e dados selecionados do ar-
quivo UniProt Archive. O UniProt Archive (UniParc) é um
abrangente repositório de sequências e suas informações.
E por último o
Sequences (UniMES), um repositório de dados metagenô-
micos e ambientais.

Vários outros bancos de dados biológicos estão dis-


poníveis na internet, cada um com sua particularidade,
como:

KEGG (http://www.genome.ad.jp/kegg), EcoCyc (http://


ecocyc.org), um banco de rotas metabólicas, funções de ge-
nes e proteínas.

INTERPRO (http://www.ebi.ac.uk/interpro), um banco de


domínio de proteínas, muito utilizado em processos de anota-
ção gênica.

PDB (http://www.rcsb.org/pdb), banco de estruturas resol-


vidas de proteínas, contendo várias informações de proteínas,
nucleotídeos e anotação, além de ferramentas utilizadas para
análise de estrutura de proteínas.

TIGR Database (http://www.tigr.org/tdb) e JGI (http://www.


jgi.doe.gov/) são bancos de dados contendo vários genomas
290
Biologia Molecular

com informações detalhadas do sequenciamento, como fer-


ramentas para visualizar coordenadas de genes, informações
sobre um gene, bem como o genoma total.

Com o aumento crescente de dados em análises metage-


-
volvimento, repositórios como o JGI e NCBI (http://www.ncbi.
nlm.nih.gov/Traces/home), análises de estrutura da região
16S Ribossomal Database Project (http://rdp.cme.msu.edu) e
18S Silva RNA Database (http://www.arb-silva.de) vem sendo
muito utilizados.

Após o sequenciamento de genomas de procariotos ou

suas funções para assim compreender sua biologia, para tan-


to, nos processos de anotação de genes o –
(http://www.geneontology.org) é um banco muito utilizado
para padronizar a representação dos genes e suas funções.

característica do produto gênico e função.

Dados de expressão de genes também são armazenados


no NCBI, o Gene Expression Omnibus - GEO (http://www.ncbi.
nlm.nih.gov/geo) é um banco público de repositórios de dados
de “microarray” contendo o mínimo de informação de experi-
mentos de ”microarray” – MIAME.

12.6. ALINHAMENTO DE SEQUÊNCIAS

O alinhamento de sequências é um dos processos mais


elementares na bioinformática e oferece recursos para orga-
nizar as sequências primárias de DNA, RNA e Proteínas por
meio de ferramentas computacionais poderosas. Estas ferra-
-
giões similares nas sequências e podem ser utilizadas pelos
291
Biologia Molecular

gênica, estruturas, domínios ao longo das regiões alinhadas.


Através do alinhamento de sequências é possível inferir as
seguintes funções:

-Inferir estrutura e função (anotação);

-Predizer o local e função de proteínas e regiões de regu-


lação de transcrição através do sequenciamento completo de
genomas.

-
pondências de nucleotídeos ou aminoácidos entre duas ou
-
rar o alinhamento podem ser introduzidas lacunas (também
chamadas de gaps em inglês) em uma ou mais sequências.
Também com o objetivo de melhorar o alinhamento deleções
podem ser realizadas.

Um sistema de matriz de pontuação (score) pode ser uti-


lizado para auxiliar os programas na obtenção do melhor ali-
nhamento possível dando pontuações diferentes para cada
tipo de alinhamento. Por exemplo: quando ocorre a substitui-
ção de uma purina por outra purina (ou seja, uma adenina por
uma guanina) ou de uma pirimidina por outra pirimidina (timina
por citosina). Nesse caso haverá uma pequena penalidade im-
posta pela matriz e a substituição é chamada de transição. A
alteração de uma base purina por outra pirimidina é chamada
de transversão e ocorre com uma frequência muito pequena,
pois leva a uma alteração do DNA que poderá causar uma
mutação e/ou problema estrutural na dupla hélice. No caso
de transverções a penalidade é maior, pois a probabilidade de
ocorrência é muito pequena.

292
Biologia Molecular

Um exemplo de matriz de pontuação simples é atribuir va-


lores +1 para correspondência de nucleotídeos, -1 para lacu-
nas (gaps), -2 para transições e -3 para transversões.

Os programas de análise de sequências utilizam a matriz


para tentar obter a maior pontuação (score) e com isso o me-
lhor alinhamento possível. Para aminoácidos as matrizes são
mais complexas, pois diferentes aminoácidos podem perten-
cer a um mesmo grupo químico, logo a substituição de um por
outro pode não afetar a constituição tridimensional da prote-
ína. Nesse caso a pontuação seria a mesma, desde que o
grupo químico permanecesse inalterado.

Há matrizes com diferentes pontuações para diferentes


tipos de sequências, para aminoácidos é possível trabalhar
com a PAM (Point Accepted Mutation) e as BLOSUM (Bocks
Substitution Matrix) que variam entre BLOSUM45, BLOSUM62
e BLOSUM80 (Mcentyre, 2002). A matriz mais comumente
usada é a BLOSUM62.

-
cos. Esta matriz dá a pontuação para o alinhamento a partir
da frequência de substituições em blocos de alinhamentos lo-
cais em proteínas relacionadas. A distância evolucionária é o

exemplo, na BLOSUM 45, o alinhamento de onde os escores


foram derivados foi construída a partir de blocos com no má-
ximo 45% de identidade. Em outras palavras se duas sequên-
cias são mais de 45% idênticas, o alinhamento entre elas não
será empregado no cálculo da matriz. Ou seja, quanto maior o
número da matriz BLOSUM, menos divergentes devem ser as
sequências relacionadas.

cientistas Margaret Dayhoff, o biofísico Robert S. Ledley e o


293
Biologia Molecular

biólogo Richard V. Eck. Eles haviam desenvolvido rotinas para


computadores que possibilitavam criar sobreposições (alinha-
mentos) de qualquer grupo de proteínas, resultando nos pri-
meiros programas de computador destinados a criar alinha-
mentos e na primeira matriz de probabilidades para mudanças
entre todos os aminoácidos (PAM – Point Accept Mutation),
ainda utilizadas como sistemas de escores em alinhamentos.

A matriz PAM 1 foi produzida baseada em um determinado


tempo de evolução (PAM 1 unidade de tempo em que 1% dos
aminoácidos mudam). Outras matrizes (PAM 100, PAM 250)
foram derivadas a partir desta primeira matriz. Quanto maior
a unidade de PAM mais adequada é a matriz para comparar
sequências mais divergentes.

Cada uma delas possui pontuações diferentes, mas o


mesmo objetivo, obter o melhor alinhamento possível.

Há três tipos de alinhamentos comumente utilizados em


bioinformática: local, global e semiglobal.

12.7. ALINHAMENTO LOCAL

O programa mais conhecido que realiza o alinhamento lo-


cal em sequências de DNA e Proteínas é o BLAST (Basic Local
Alignment Search Tool). Quando se trabalha com alinhamen-
to, é importante ressaltar a diferença entre similaridade e ho-
mologia, pois são conceitos diferentes e que comumente são

que existe algum grau de equivalência entre duas sequências


podendo ser inteiras ou não, geralmente são apenas parciais.
Similaridade é o grau de semelhança entre as sequências, ba-
seado na identidade da sequência. O escore é baseado nos
valores das tabelas de matrizes.
294
Biologia Molecular

Já o conceito de homologia é corretamente utilizado quan-


do as sequências em estudo possuem um ancestral comum.

devem ser preferencialmente usadas, pois para compará-las


elas deverão ter a mesma extensão, por isso é realizado um
alinhamento global como será visto mais a frente. Embora se-
-
logenéticas, seus resultados são menos precisos.

O alinhamento local possui esse nome porque ele irá ali-


nhar apenas a região da sequência mais similar, podendo ser
uma sequência inteira ou não. O algoritmo do BLAST (Altschul
et al.,1990) funciona de maneira a buscar a melhor pontuação
possível, o que nem sempre resulta na sequência inteira que
está sendo analisada. Ele começa adicionando um pequeno
fragmento da sequência pesquisada, que é chamado de se-
mente, ou “palavra” geralmente com tamanho de 11 para nu-
cleotídeos ou 3 para aminoácidos. Compara a semente com
as demais sequências, e na medida em que encontra um exa-
to alinhamento, ele vai adicionando os demais pedaços da se-
quência que esta sendo pesquisada, até obter a maior pontu-
ação possível. Quando os valores de pontuação começam a
cair, ele para de adicionar o restante da sequência retornando
o resultado da consulta com as regiões mais similares.

De modo bem resumido o algoritmo do BLAST pode ser

passo compila uma lista de palavras de alta pontuação. No


segundo passo procura essas palavras nos bancos de dados.
No terceiro e último passo faz a extensão de alinhamentos a
partir das palavras encontradas.

Como mencionado anteriormente um dos recursos utiliza-


dos para auxiliar no alinhamento são as matrizes que podem
variar de acordo com a necessidade do pesquisador. Através
295
Biologia Molecular

das matrizes é que são obtidas também as pontuações (score)


que fornecem um parâmetro para analisar o alinhamento.

Além da pontuação, outro parâmetro utilizado para avaliar


o alinhamento local é o “e-value”. Ele é um valor estatístico
que representa qual é a probabilidade de um alinhamento ter
ocorrido ao acaso. Quanto menor for o e-value, menor será a
chance do alinhamento ter ocorrido ao acaso. Outro termo de
uso comum no BLAST é identidade, que é o número de nucle-
otídeos ou aminoácidos idênticos entre as sequências, no ali-
nhamento expresso em porcentagem, a partir da comparação
com este alinhamento.

O programa BLAST permite comparar sequências de cin-


co formas diferentes, sendo que para cada uma delas há uma
versão diferente do BLAST. O Blastn compara a sequência de
entrada de nucleotídeos contra um banco de dados de sequ-
ências de nucleotídeos. O Blastp permite comparar sequên-
cia de aminoácidos contra um banco de dados de sequências
de aminoácidos. O Blastx compara a sequência de nucleo-
tídeos de entrada traduzida para os seis frames de leituras
possíveis contra um banco de dados de sequências de prote-
ínas. O tBlastn compara a sequência de aminoácido de entra-
da contra um banco de dados de sequências de nucleotídeos
traduzidas para todas os seis frames de leitura possíveis. Por
último o tBlastx compara os seis frames de leitura possíveis
de uma sequência de nucleotídeos contra um banco de dados
de sequências de nucelotídeos traduzidos para todos os seis
frames de leitura possíveis.

Além dessas opções o NCBI disponibiliza uma versão para


download, que pode ser usada em computadores pessoais ou
em servidores. Essa versão, popularmente conhecida como
“blast local”, funciona na interface web, como também no modo
texto em um terminal. Essa versão é muito útil quando se quer
296
Biologia Molecular

analisar sequências sem expor seus dados na web, antes de


se tornarem públicas, além de oferecer a opção de analisar
grande número de sequências de uma só vez pelo modo texto
(blastall). O Blast local pode ser obtido através do endereço
ftp://ftp.ncbi.nih.gov/blast/ e funciona em diferentes sistemas
como Windows, Linux, MacOS X e Solaris.

Outros programas que também realizam o alinhamento


local de sequências é o FASTA do Instituto Europeu de Bioin-
formática (EBI).

O FASTA pode ser usado para uma comparação rápida de


sequências de proteínas ou nucleotídeos. Este programa atin-
ge um alto nível de sensibilidade para a busca de similaridade
em alta velocidade. Isto é conseguido através da realização
de buscas otimizadas para alinhamentos locais usando uma
matriz de substituição. A alta velocidade do programa é obtida
usando o padrão observado de palavras (fragmentos da se-

antes de tentar consumir mais tempo, otimizando a busca. A


troca entre a velocidade e a sensibilidade é controlada pelo
-
mentar o ktup diminui o número de resultados errôneos. Nem
toda palavra é procurada, mas ao invés disso, inicialmente
procura-se segmentos contendo muitos resultados próximos
(Pearson, W.R.; 1990). O FASTA pode ser utilizado a partir
do link http://www.ebi.ac.uk/Tools/sss/fasta/ e assim como o
BLAST também possui versão para download.

12.8. ALINHAMENTO GLOBAL

O alinhamento global é utilizado para alinhar sequências

por sequências homólogas. O alinhamento múltiplo global é


chamado assim, pois várias sequências foram alinhadas glo-
297
Biologia Molecular

balmente ao mesmo tempo. Exemplos de programas popula-


res que o utilizam são: clustalW, clustalX, T-Coffe e Muscle.
Ainda dentro de alinhamentos múltiplos há dois principais mé-

ocultos de markov.

-
mento múltiplo de sequências de um conjunto de sequências
homólogas. Em outras palavras a técnica de alinhamento por

de sequências homólogas.

A técnica de alinhamento por modelos ocultos de Markov


(HHM) é muito útil para revelar homologias distantes e na pre-
dição de famílias de genes.

Outro método de alinhamento é o gráfico de pontos.


Esse é o método mais primitivo e simples de alinhar e visu-
alizar duas sequências (alinhamento par a par). Linhas ver-
ticais contínuas em um gráfico de pontos representam re-
giões similares. Rupturas na linha vertical entre dois genes
representam inserções e/ou deleções. Um programa que
realiza esse tipo de alinhamento é o dotlet (http://myhits.
isb-sib.ch/cgi-bin/dotlet).

12.9. SISTEMA OPERACIONAL

Muitas pessoas trabalham com computador há muito tem-

operacional. O sistema operacional é o conjunto de progra-


mas que gerencia o hardware e atua como intermediário entre
um usuário e o seu computador. Seu propósito é fornecer um
ambiente onde os usuários possam executar seus programas
-
lar os dispositivos físicos do computador, tais como, memória,
298
Biologia Molecular

processador, dispositivos de entrada/saída, assim como ge-


renciar os programas aplicativos e usuários do sistema.

Existem muitos tipos de sistemas operacionais, alguns mais


complexos e destinados a trabalhar em máquinas com muitos
processadores, no gerenciamento de centenas de usuários co-
nectados simultaneamente, e para executam tarefas críticas,
por exemplo, controlar dispositivos de uma usina nuclear. Há
também sistemas operacionais mais simples que podem ser
armazenados e executados de um chip de memória ROM (me-
mória de somente leitura) ou até em dispositivo de memória
pen drive).

Entre os diversos sistemas disponíveis, um dos mais utili-


zados em Bioinformática é o sistema operacional Linux, e por
este motivo será o sistema abordado neste capítulo.

12.10. LINUX

Linux geralmente é o nome dado a qualquer sistema ope-


racional que utiliza o núcleo desenvolvido por Linus Torvalds.
O desenvolvimento do Linux foi inspirado no sistema Minix,
um sistema Unix gratuito de código fonte aberto. O Linux pos-
sui o seu código fonte disponível sob licença GPL (Licença
Pública Geral) e permite que qualquer pessoa utilize, estude,

O Linux é um sistema multiusuário, multitarefa, gratuito, de-


senvolvido para rodar desde computadores simples como um
PC, até servidores com milhares de processadores e usuários.
Existem várias distribuições Linux, e as mais conhecidas são:
Debian (http://www.debian.org), RedHat (http://www.redhat.
com), Slackware (http://www.slackware.com), Suse (http://
www.novell.com/linux), Fedora (http://www.fedoraproject.org),
Ubuntu (http://www.ubuntu.com). Alguns sistemas Linux são
299
Biologia Molecular

-
tu, já outros são mais difíceis, como o Debian e Slackware.

O sistema operacional Linux está dividido em vários módulos,


alguns deles são: Núcleo, Processos e Sistema de Arquivos.

12.11. NÚCLEO

Em computação, o núcleo de um sistema (em inglês: kernel)


é o coração do sistema operacional, sendo ele o responsável
por alocar os recursos do computador e escalonar os proces-
sos para permitir que todos os usuários compartilhem os re-
cursos do computador, no qual inclui acesso a CPU (Unidade
Central de Processamento); dispositivos periféricos tais como,
HD (Disco Rígido), DVD e CD-ROM; impressoras, teclado e
mouse. O núcleo do sistema Linux faz o trabalho de ponte
entre os dispositivos do computador (hardware) e os progra-
mas (softwares), e também tem a função de gerenciamento
de memória, criação, eliminação, sincronização, comunica-
ção, escalonamento dos processos que executam na CPU,
gerenciamento do sistema de arquivo, suporte a redes locais
e distribuídas. O acesso ao núcleo do sistema não é feito de
modo direto, para isso, é necessário que o programa faça uma
chamada de sistema para requisitar o serviço ao sistema ope-
racional, que depois passa ao núcleo o controle de realizar
todo o trabalho. Como exemplo de uma chamada de sistema,
podemos citar um programa que está em execução e precisa
de mais espaço na memória para continuar alocando os da-
dos que estão vindos de um arquivo.

12.12. PROCESSO

Em sistema de computação, um processo é a forma de re-


presentar um programa instanciado e que está em execução.
No Linux, tudo que executa no processador e na memória do
300
Biologia Molecular

computador é um processo. Em um determinado momento,


dezenas de processos estão em execução no computador, e
desta forma, é preciso ter meios que permitam controlá-los
através de algumas características, sendo elas: propriedade
do processo; estado do processo e prioridade de execução.
É importante lembrar que apenas um processo é executado
por vez no processador, e os estados em que os processos
podem se encontrar são: execução (running); prontos (ready)

(sleeping), que é quando o processo está esperando alguma


condição para a sua execução.

criado, um novo número é atribuído, sendo assim, não existem


dois processos com o mesmo número executando ao mesmo
tempo.

Alguns comandos são muito utilizados para visualizar e


controlar os processos que estão sendo executados no siste-
ma, e alguns deles são apresentados a seguir:

- Visualizar processos em execução: para visualizar


os processos que estão sendo executados; o tempo que
cada um está alocado na CPU; o usuário que instanciou o
programa; assim como a prioridade e o PID do processo,
dois comandos podem ser utilizados, sendo eles o top e
ps. Para executar os comandos, basta abrir um terminal,
também conhecido como shell, digitar um dos comandos e
apertar a tecla Enter. O comando top mostra na tela os pro-
cessos que estão sendo executados, e a cada 2 segundos,
atualizará a lista no monitor até ser finalizado com a tecla
q. Já o comando ps apenas mostra uma lista contendo as
informações dos processos instanciados na tela do compu-
tador.
301
Biologia Molecular

- Alterando a prioridade do processo: quando o pro-


cesso é criado, atribui-se a ele uma prioridade de execução
representada por um valor que varia de -20 a 19, e quanto
menor for este valor, maior será a prioridade de execução do
processo. Este valor serve para que processos que tenham
prioridades maiores (valor menor) sejam executados primeiros
do que os processos que tenham prioridades menores (valor

Um comando utilizado para alterar a prioridade de um


processo chama-se renice. A execução deste comando tem a
seguinte sintaxe: renice –n prioridade PID. É importante res-
saltar que um usuário comum só poderá alterar a prioridade
dos processos instanciados em seu nome, e que o valor que o
usuário poderá atribuir aos processos está entre 0 e 19. Para
atribuir valores menores que zero (maior prioridade de execu-
ção), é necessário ter privilégios de administrador do sistema
(root), uma vez que prioridades muito baixas poderão compro-
meter o sistema se não for usado corretamente.

A seguir é apresentado um exemplo da utilização do co-


mando renice:

renice –n -5 1908

número 1908 teve sua prioridade aumentada alterando o valor


para -5. A execução passará na frente dos processos com prio-

entrará mais vezes no processador para ser executado.

Sinais de processos: Os sinais são usados para que o


-
cução. A seguir são apresentados alguns dos sinais de pro-
cessos:
302
Biologia Molecular

STOP – interrompe a execução de um processo;

CONT – Reativa um processo parado. Um processo que


foi interrompido pelo sinal STOP pode ser reativado usando o
sinal CONT;

TERM -
cesso. Após a sua execução, o processo deixará de existir
sem a possibilidade de reativá-lo.

Estes sinais podem ser passados para os processos por


meio do comando kill, que por padrão, assume o sinal TERM

A sintaxe do comando kill é a seguinte: kill -SINAL PID.


Exemplos de utilização do comando kill:
kill -STOP 1452
kill -CONT 1452
kill -TERM 1452
Neste exemplo, primeiro a execução do processo com o
PID 1452 foi interrompido com o sinal STOP. Em seguida, o
processo foi reativado para sua execução com o sinal CONT.

12.13. SISTEMA DE ARQUIVOS E ESTRUTURA


DE DIRETÓRIOS

Sistema de arquivos é uma estrutura lógica no Linux


que possibilita que os arquivos sejam armazenados e re-
cuperados no computador. Os arquivos estão organizados
em pastas (diretórios) e conectados em uma estrutura em
forma de árvore que começa na pasta raiz que é designa-
do por uma barra “/” no sistema Linux. Todos os disposi-
tivos de armazenamento conectados no computador, por
exemplo, HDs, CD, DVD, pen drives necessitam estar co-
nectados nesta árvore para que seus dados possam ser
303
Biologia Molecular

acessados. Todos os dispositivos antes de ser acessados


precisam estar montados, isto é, conectar a estrutura de
pasta do dispositivo a árvore de diretório raiz do sistema.
O processo de montar um dispositivo no Linux é feito por
meio do comando mount. Enquanto que para desmontar o
dispositivo e desconectá-lo do computador, usa-se o co-
mando umount. Para montar ou desmontar uma partição, é
necessário ter acesso de administrador do sistema.

A árvore de diretórios do Linux está dividida em várias par-


tições, e as mais comuns são:

/ – diretório raiz do sistema, local onde se encontra todas


as demais pastas e partições montadas;
/lib – bibliotecas de tempo de execução ou compartilha-
das, além daquelas necessárias a compilação de progra-
mas;
/bin – contém os programas binários do sistema;
/sbin – programas utilizados pelo usuário administrador
(root) do sistema para controle e gerenciamento do computador;
/etc
computador;
/dev – contém todos os drives de dispositivos necessários
para conectar periféricos ao sistema;
/usr – repositório para a maioria dos programas, compila-
dores, bibliotecas de documentação do sistema de arquivos
do Linux;
/mnt – diretório de montagem dos dispositivos;
/home – armazena todas as pastas e arquivos dos usuá-
rios;
/opt – local de instalação de pacotes, geralmente os pro-
gramas comerciais são instalados aqui.
/tmp – local de armazenamento dos arquivos temporários
dos usuários e do sistema.

304
Biologia Molecular

12.14. COMANDOS LINUX

O Linux oferece um conjunto de comandos que são utiliza-

para criar, mover e remover pastas, arquivos, usuários, docu-

que o usuário necessita fazer no sistema Linux, sempre existe

Entre os comandos do sistema, os mais comuns e usados


frequentemente pelos usuários são:

mkdir, rmdir – o primeiro cria uma pasta em vazia, en-


quanto que o segundo remove uma pasta desde ela esteja
vazia (ex: mkdir teste; rmdir teste);
touch
rm – remove um arquivo (ex: rm arquivo). Caso seja execu-
tado o comando rm -rf, ele excluirá todas as pastas e subpas-
tas contendo arquivos ou não (ex: rm -rf docs);
cd – entra em uma pasta (ex: cd /home). Caso queira vol-
tar uma pasta é só digitar dois pontos (..) na frente do coman-
do da seguinte forma: cd .. (lembrando de colocar um espaço
entre o comando e o primeiro ponto);
ls – lista o conteúdo do diretório local (ex: ls). Para visu-
alizar arquivos ocultos, coloque a opção -a na frente do co-
mando, assim: ls -a. Caso queira ver detalhes dos arquivos e
diretórios, coloque os parâmetros alh, desta forma: ls -alh.
cat, less e more: mostram o conteúdo de um arquivo (ex:
cat leiame.txt; less leiame.txt; more leiame.txt);
head: mostra as primeiras linhas de um arquivo (ex: head
-100 leiame.txt);
tail: mostra as últimas linhas de um arquivo (ex: tail -50
leiame.txt);
vi: editor de texto simples em modo texto, mas com muitos
recursos (ex: vi leiame.txt);
305
Biologia Molecular

ps: mostra os processos existente no sistema (ex: ps).


Para visualizar mais detalhes dos processos em execução,
adicione os parâmetros, aux, desta forma: ps -aux

O Linux é um Sistema Operacional muito robusto, prepa-


rado para rodar em diferentes plataformas e computadores,
sendo eles pessoais (PC, Laptop) ou grandes servidores com
centenas de processadores interligados uns aos outros. Uma
abordagem mais profunda exigiria vários capítulos, mas para
não deixar de falar deste assunto tão importante para quem
trabalha com bioinformática, uma breve introdução foi apre-
sentada sobre o Sistema Operacional Linux.

12.15. LINGUAGEM PERL

Com o grande crescimento da Bioinformática nos últimos


anos, aumentou a importância da programação de computa-
dores no campo da biologia. Muitas linguagens de programa-
ção como C/C++, Java, Python e Perl tem sido exaustivamente
usado na área de Bioinformática. A linguagem Perl é muito
usada em programação Web e uma das mais utilizadas para
o desenvolvimento de programas em Bioinformática. A Perl
por ser uma linguagem de scripts e de fácil programação, tem
sido largamente aplicada na solução de problemas biológi-
cos, tais como: encontrar a sequência reversa e complemen-
tar de DNA; converter sequência de DNA em aminoácidos;

sequências, conversões de formatos, entre outros.

Pela linguagem Perl ter sido originalmente desenvolvida


para trabalhar com strings (textos), ela contém recursos que
conseguem gerenciar e analisar facilmente longos textos,
como é o caso das sequências de DNA, RNA e aminoácidos.
A linguagem Perl pode ser baixada gratuitamente no endereço
306
Biologia Molecular

http://www.perl.org tendo versões para trabalhar em diver-


sos sistemas operacionais, como: Linux, Unix, Windows,
Mac OS X.

12.16. BIOPERL

Bioperl é um conjunto de mais de 500 módulos em lin-


guagem Perl que foram desenvolvidos para atender as mais
diferentes necessidades de programação quando se trata de
análises de dados em Bioinformática. Os módulos são escritos
e mantidos por um grupo internacional de voluntários espalha-
dos em vários países e continentes. Portanto, os módulos en-
contrados no BioPerl são todos de código aberto, orientados a
objetos contendo várias funções para conversão de formatos,
processamento de relatórios, manipulação de dados, análises
de sequências entre outros. O BioPerl pode ser baixado no
endereço http:/bioperl.org e utilizado gratuitamente.

12.17. MEU PRIMEIRO PROGRAMA

A linguagem Perl é fácil para aprender e de programar


quando comparada com as demais linguagens existentes no
mercado. Uma particularidade muito interessante em Perl é
que não é necessário escrever muito para o programa fazer
o que realmente você deseja que ele faça. Em muitas lingua-
gens de programação é necessário declarar os tipos de va-
riáveis e sub-rotinas que serão usadas antes de escrever a
primeira instrução de seu programa. Como alguns problemas
demandam complexas estruturas de dados, neste caso, de-
claração torna-se uma boa idéia. Porém, em muitos casos do
dia a dia, você deseja fazer coisas simples, como imprimir a
seguinte frase na tela: “Olá mundo”. Para fazer isso na lingua-
gem Perl, basta escrever:

print “Olá Mundo!!!\n”;


307
Biologia Molecular

Pronto, em apenas uma linha temos o exemplo de um pro-


grama completo.

Para você escrever o seu primeiro programa e ver esta


mensagem na tela, primeiro tenha certeza de ter a linguagem
instalada em seu sistema operacional. Depois disso, abra um
editor de texto favorito e escreva exatamente o que está no
exemplo acima. Salve o arquivo com um nome qualquer, por
exemplo, “Ola.pl” e saia do editor. A extensão “.pl” é geral-
mente colocada em scripts
que se trata aquele arquivo, o mesmo caso acontece com os
documentos do Microsoft Word que terminam com a extensão
“.doc” ou “.xls” com arquivos de planilha do Microsoft Excel.

Pronto, uma vez que o arquivo esteja salvo, basta digitar


perl antes do nome do programa em um terminal e dar enter,
desta forma:

perl Ola.pl #depois aperte a tecla Enter

Se tudo foi feito corretamente, aparecerá a seguinte frase


na tela do computador:
Olá Mundo!!!

Neste exemplo temos o comando print que tem a função


de imprimir na saída padrão (monitor) do computador o texto

pular para a próxima linha após imprimir na tela.

A linguagem Perl é muito poderosa e o usuário pode usar


diferentes tipos de variáveis (escalar, array, hash), estruturas
de repetição (for, while), condição (if else, unless, switch), ope-
radores (+, -. *, /, >, <, >=, <=,==, !=) como em qualquer outra
linguagem.

308
Biologia Molecular

Aprofundar na linguagem Perl está fora do escopo deste


livro, mas para não deixar de falar desta área tão importante
para a Bioinformática, uma breve introdução e um exemplo de
programa foi apresentado.

12.18. A BIOINFORMÁTICA E A INTERNET

Atualmente quando falamos em bioinformática é impossí-


vel pensar na viabilidade desta nova área do conhecimento
sem pensar no compartilhamento de informações pelos gran-
des bancos de dados distribuídos pelo mundo. Desta forma
é justo dizer que o sucesso da utilização de boa parte dos
recursos da bioinformática é diretamente dependente da rede
mundial de computadores (Internet).

Ainda nos anos 60 vários grupos empresariais (Bell La-


boratories, AT&T, Texas Instruments, etc...) e grupos de pes-
quisa em Universidades foram os pioneiros em desenvolver
protótipos de sistemas operacionais que permitiam o compar-
tilhamento de informações em curtas distâncias ou mesmo
dentro de seus laboratórios, dando origem ao que chamamos
de computação distribuída e que posteriormente deu origem
as arquiteturas cliente/servidor, ou seja, usuários que através
de terminais acessam dados em centralizados servidores de
dados (Intranet).

Também neste período o Departamento de Defesa dos


EUA desenvolveu um sistema de rede que interligou bases
militares do país, com o objetivo de transmitir informações mi-
litares sobre a guerra fria, esta rede foi chamada de ARPAnet
. No inicio dos
anos 80 pesquisadores da ARPA tornaram público os proto-
colos de transmissão de dados chamados TCP (Transmission
Control Protocol) e IP (Internet Protocol) que serviram como
base pro avanço desta tecnologia. A maioria destes protocolos
309
Biologia Molecular

e da arquitetura utilizadas na conectividade foi desenvolvida


sob o sistema operacional Unix ou de seus derivados, utiliza-
dos gratuitamente em centros de pesquisa e universidades.

No final dos anos 80 toda a tecnologia envolvida em


grandes redes de conexões já tinha alcançado um gran-
de desenvolvimento e muitas redes surgiram, como por
exemplo NFSnet criado pelo -
dation). Com o término da guerra entre Estados Unidos e a
ex-União Soviética, no inicio dos anos 90 a ARPAnet foi ex-
tinta e sua estrutura foi agregada e utilizada pela NFSnet.
Até a primeira metade da década de 90 muitos departa-
mentos governamentais em diferentes países, institutos de
pesquisa, universidades e empresas mantinham separada-
mente suas redes privadas. Neste período acordos políti-
cos liberaram a entre todas as redes existen-
tes no mundo e também liberaram esta grande rede para
uso comercial e público, dando origem ao que foi chamado
de rede mundial de computadores, a Internet.

A primeira experiência de compartilhamento de dados


de proteínas em endereço remoto foi feita pelo -
tional Biomedical Research Foundation) nos Estados Uni-
dos em 1984, liderados por Margaret Dayhoff, considerada
a pioneira no desenvolvimento de métodos computacionais
para alinhamento de proteínas. Dayhoff acumulou sequên-
cias de proteínas desde a década de 60, e juntamente com
seus colaboradores compilaram o primeiro banco de dados
online de proteínas chamado PIR (Protein Information Re-
source).

Para sequências de DNA as primeiras experiências foram


desenvolvidas no Theoretical Biology and Biophusics Group,
em Los Alamos-USA. Estes cientistas utilizaram os dados de
proteínas de Dayhoff (PIR) e criaram rotinas de computador
310
Biologia Molecular

para tradução e acesso das suas sequências na forma de pro-


teínas e nucleotídeos, disponibilizando em 1979 como protóti-
po do atual GenBank.

Como explicado anteriormente, nesta época já estavam


disponíveis tecnologias para a conexão remota destes e mui-
tos outros bancos de dados criados na Europa e no Japão,
entretanto, o acesso a estes bancos demandava muito conhe-
cimento de computação, pois as tecnologias da época eram
demasiadamente difíceis, acrescidos da baixa velocidade das
conexões, comparados com a velocidade de transmissão de
dados conhecidos atualmente. Outro fato muito importante é

de 80 somente utilizavam sistemas de menus onde a busca


por sequências era feita por palavras chaves, isto é, o usuário
escrevia uma palavra chave sobre o nome de uma proteína e
o banco de dados dava como resultado uma ou mais sequên-
cias, que continham estas palavras chaves na sua descrição.

Estas sequências eram analisadas em computadores lo-


cais, geralmente utilizando ferramentas de alinhamento glo-
bal. Este fato é devido à impossibilidade do uso do alinhamen-
to global para encontrar regiões parecidas entre diferentes
sequências, problema que só foi solucionado com a criação
do sistema de semeadura seguido do alinhamento local feito
nos programas FASTA e BLAST, permitindo que um usuário
submeta uma sequência de entrada e o programa percorra o
banco de dados procurando por sequências contendo regiões
parecidas (similaridades).

-
ciamento genômico, da transformação da ARPAnet e demais
redes num sistema aberto e mais estável e da criação de sis-
temas de alinhamento local de sequências (FASTA e BLAST)
convergiram num mesmo período da década de 90.
311
View publication stats

Biologia Molecular

Como comentado anteriormente, é importante lembrarmos


que o desenvolvimento das arquiteturas de conectividade evo-
luiu na sua maioria sob o sistema operacional Unix ou seus
derivados, juntando a isso o fato de que estas derivações do
Unix eram os sistemas operacionais mais utilizados nas insti-
tuições de pesquisa e universidades, onde ocorreu o grande
avanço do sequenciamento de genomas é fácil entendermos
porque a maioria dos programas de bioinformática são nativos
do Unix.

Os primeiros grandes projetos de sequenciamento de ge-


nomas foram feitos em cooperação entre vários laboratórios
distribuídos em vários países, criando a necessidade da troca
de grandes quantidades de sequências entre os diferentes la-
boratórios. Juntando o fato da Internet rodar sobre sistema
operacional Unix e que a maioria dos programas de trata-
mento de sequências genômicas e de proteínas também se-
rem nativos no Unix, surge este casamento perfeito entre a
Internet e a Bioinformática. Esta relação da bionformática e
das tecnologias computacionais da Internet também foi a res-
ponsável por criar alguns padrões técnicos para a evolução
da bioinformática, tais como, a preferência pelo uso de lingua-
gens de programação interpretadas (CGI) como Perl, PHP e

mais aplicadas à Internet.

Finalmente, além destes fatos técnicos sobre o surgimento


e convergência da genômica e da Internet, nos moldes atuais
dos estudos moleculares o compartilhamento de informações
torna-se essencial, com isso, é cada vez mais difícil fazer uti-

providas pela Internet.

312

Você também pode gostar