Você está na página 1de 77

Uma Breve História da Bioinformática

1950-1970: AS ORIGENS - NÃO


COMEÇOU COM A ANÁLISE DE DNA
Avery, MacLeod e McCarty (1944) mostraram que a
absorção do DNA de uma cepa bacteriana virulenta
poderia conferir virulência a uma cepa não virulenta, mas
estes resultados não foram imediatamente aceitos, pois
muitos pensavam que as proteínas eram portadoras de
informação genética.
Hershey e Chase (1952) empregaram bacteriófagos
contendo ou o capsídeo radioativo (uso de enxofre
radioativo) ou o DNA radioativo (uso de fósforo radioativo)
eles provaram que era DNA, não proteína, o material
responsável pelo carreamento da informação genética.
Erwin Chargaff (1950) demonstrou que os monômeros
que compõem o DNA estavam em proporções
equimolares, ou seja, há tanta adenosina quanto a
timidina, e há tanta guanidina quanto a citidina.
Watson, Crick e Franklin
(1953) descreveram a estrutura de dupla
hélice do DNA. Depois da descoberta da
estrutura do DNA, demoraria mais 13
anos para decifrar o código genético e
mais 25 anos para disponibilizar os
primeiros métodos de sequenciamento
de DNA
Margaret Dayhoff juntamente com Robert S. Ledley,
desenvolveram o COMPROTEIN, um programa projetado
para determinar a estrutura primária da proteína usando
dados de sequenciamento peptídico de Edman
Dayhoff desenvolveu o código
de aminoácidos de uma letra,
usado pela primeira vez em
Atlas of Protein Sequence and
Structure de Dayhoff e Eck em
1965, o primeiro banco de
dados de seqüências
biológicas, permitiu aos
pesquisadores criarem a
hipótese de que as sequências
de proteínas refletem a
história evolutiva das
espécies.
A primeira abordagem de alinhamento de sequencias
foi desenvolvida por Da-Fei Feng e Russell F. Doolitle
em 1987. Sua abordagem consistia em:
(i) Realizar alinhamento de Needleman – Wunsch para todos os
pares de sequências;
(ii) Extrair pontuações de similaridade de pares para cada par de
alinhamento;
(iii) Usar essas pontuações para construir um guia árvore ;
(iv) Alinhar as duas seqüências mais semelhantes, e depois a
próxima sequência mais semelhante, e assim por diante, de
acordo com a árvore-guia.
O software MSA CLUSTAL foi desenvolvido em 1988 como uma
simplificação do algoritmo de Feng-Doolittle.
UMA ESTRUTURA MATEMÁTICA PARA
SUBSTITUIÇÕES DE AMINOÁCIDOS
• Em 1978, Dayhoff, Schwartz e Orcutt desenvolveram o
primeiro modelo probabilístico de substituições de
aminoácidos, baseado na observação de 1572 Pontos de
Mutações Aceitáveis (PAMs - point accepted mutations) nas
árvores filogenéticas de 71 famílias de proteínas com mais
de 85% de identidade.
• O resultado foi uma matriz assimétrica de substituição 20 x
20 que continha valores de probabilidade que cada
aminoácido mudasse em um dado pequeno intervalo
evolutivo.
• O menor número de alterações foi usado para quantificar a
distância evolutiva em reconstruções filogenéticas, a matriz
PAM introduziu a substituição como medida de mudança
evolutiva.
1970-1980: MUDANÇA DE PARADIGMA:
DA ANÁLISE DE PROTEÍNA PARA DE DNA
DECIFRAÇÃO DA LINGUAGEM DO
DNA: O CÓDIGO GENÉTICO
• As especificações para qualquer proteína são
codificadas nos arranjos de nucleotídeos da
molécula de DNA.
• Francis Crick no conceito de "Dogma Central“
postulou que as seqüências de RNA, transcritas
do DNA, determinam a sequência de
aminoácidos das proteínas que elas codificam.
• Por sua vez, a sequência de aminoácidos
determina a estrutura tridimensional da proteína.
Em 1968, todos os 64 códons do código genético
foram decifrados.
LEITURA ECONÔMICA DE DNA
• O primeiro método de sequenciamento de DNA
adotado foi o método de sequenciamento
Maxam-Gilbert em 1976.
• Sua complexidade devido ao uso de
radioatividade e substâncias químicas perigosas
tornou o seu uso proibitivo em favor de métodos
desenvolvidos no laboratório de Frederick
Sanger.
Sequenciamento Maxam-Gilbert Sequenciamento Sanger
25 anos depois de obter a primeira sequência de
proteínas, a equipe de Sanger desenvolveu o método de
sequenciamento de DNA em 1977, sendo sequenciada a
DNA polimerase.
O genoma do bacteriófago UX174 (5386
pb), foi sequenciado usando o método de
Sanger. A partir desta sequência de DNA do
genoma completo, pode-se prever a
estrutura primária de todas as proteínas
expressas por um organismo através da
tradução dos genes presentes na
sequência.
Extrair informações manualmente das
sequências de DNA envolve o seguinte:
• 1. Comparações (por exemplo, encontrar
homologia entre sequências de diferentes
organismos);

• 2. Cálculos (por exemplo, construção de uma


árvore filogenética de múltiplos ortólogos
proteicos utilizando a matriz PAM1);

• 3. E correspondência de padrões (por exemplo,


encontrar quadros de leitura abertos em uma
sequência de DNA).
Busca por ortólogos proteicos utilizando a matriz PAM1
Staden Package
• Um dos primeiros softwares de análise de
sequências a incluir caracteres adicionais para
registrar as incertezas em uma sequência de
leitura. Publicado em 1979 poderia ser
respectivamente, usada para:
• (i) Verificar, editar e juntar sequências de
leituras em contigs;
• (ii) Anotar e manipular arquivos de sequência.
http://staden.sourceforge.net/
USANDO SEQÜÊNCIAS DE DNA NA
INFERÊNCIA FILOGENÉTICA
• As primeiras árvores filogenéticas moleculares
foram reconstruídas a partir de sequências de
proteínas, e com valores de parcimônia máxima
(isto é, o menor número de mudanças) como
mecanismo principal mudança evolutiva.
• Se a quantidade de mudanças for pequena ao
longo da evolução, os métodos de parcimônia
serão bem justificados.
• A maioria dos dados envolve grande quantidade
de alterações, e é nesses casos que os métodos
de parcimônia podem falhar.
USANDO SEQÜÊNCIAS DE DNA NA
INFERÊNCIA FILOGENÉTICA
• A utilização de sequências de ácidos nucleicos em
filogenética acrescenta informações adicionais
que não puderam ser obtidas com sequências de
aminoácidos.
• O método de máxima verossimilhança (ML) para
inferir árvores filogenéticas a partir de sequências
de DNA envolve encontrar a árvore filogenética
que tem a maior probabilidade de evoluir os
dados observados.
Filogenia empregando Filogenia empregando
sequências de proteínas sequências de DNA
1980-1990: AVANÇOS PARALELOS
EM BIOLOGIA E CIÊNCIA DA
COMPUTAÇÃO
Os genes não podem ser bioquimicamente
fracionados e individualmente sequenciados
• Todos são contínuos em poucas moléculas de DNA por
célula.
• Os genes estão geralmente presentes em uma ou poucas
cópias por célula.
• Os genes estão em ordens de magnitude menos
abundantes que os produtos eles codificam.
MÉTODOS MOLECULARES PARA DIRECIONAR E
AMPLIFICAR GENES ESPECÍFICOS
Jackson, Symons e Berg (1972)
usaram endonucleases de
restrição para cortar e DNA
ligase para unir o DNA viral
circular de SV40 do DNA
lambda, e então transformar
células de Escherichia coli com
esta construção, permitindo os
genes serem bioquimicamente
fracionados e individualmente
sequenciados.
MÉTODOS MOLECULARES PARA DIRECIONAR E
AMPLIFICAR GENES ESPECÍFICOS
Embora a primeira descrição
de uma "síntese de reparo"
usando DNA polimerase foi
feita em 1971 por Kjell
Kleppe et al. , a invenção da
PCR é creditada a Kary
Mullis por causa das
otimizações que ele trouxe
ao método (o uso da
polimerase Taq termoestável
e o desenvolvimento do
termociclador).
ACESSO A COMPUTADORES E
SOFTWARES ESPECIALIZADOS
Antes dos anos 1970, um "minicomputador"
tinha as dimensões e o peso de um pequeno
refrigerador doméstico.
A primeira onda de microcomputadores
prontos para uso atingiu o mercado
consumidor em 1977.
ACESSO A COMPUTADORES E
SOFTWARES ESPECIALIZADOS
Em 1984, a Universidade de
Wisconsin Genetics Computer
Group publicou o conjunto de
softwares "GCG", composto por
uma coleção de 33 ferramentas
de linha de comando para
manipular seqüências de DNA,
RNA ou proteínas.
O DNASTAR, que pode ser
executado em um computador
pessoal CP / M, atuou na
montagem e análise de dados
de sequenciamento Sanger,
teve popularidade nas décadas
de 1980 e 1990.
BIOINFORMÁTICA E O MOVIMENTO
DO SOFTWARE LIVRE
Em 1985, Richard Stallman publicou o Manifesto GNU, que
delineou a criação de um sistema operacional livre baseado em
Unix chamado GNU (GNU's Not Unix) que mais tarde originou a
Free Software Foundation, cuja a filosofia é: "os usuários têm a
liberdade de executar, copiar, distribuir, estudar, mudar e melhorar
o software”.
https://www.gnu.org/gnu/manifesto.pt-br.html
BIOINFORMÁTICA E O MOVIMENTO
DO SOFTWARE LIVRE
A filosofia do software livre promovida por Stallman influenciou
várias iniciativas em bioinformática, como a European Molecular
Biology Open Software Suite, que era uma alternativa gratuita e de
código aberto ao GCG (http://emboss.sourceforge.net/)
BIOINFORMÁTICA E O MOVIMENTO
DO SOFTWARE LIVRE
As bases de dados da European Laboratory Biology Laboratory (EMBL)e
GenBank se uniram em 1986 e posteriormente DNA Data Bank of Japan
(DDBJ) em 1987 para formar a Colaboração Internacional de Banco de
Dados de Seqüência de Nucleotídeos (http://www.insdc.org/).
BIOINFORMÁTICA E O MOVIMENTO
DO SOFTWARE LIVRE
Os grandes conjuntos de dados, como genomas
completos, foram usados servidores de pequena
escala que usavam linguagens de programação C e
FORTRAN

.
BIOINFORMÁTICA E O MOVIMENTO
DO SOFTWARE LIVRE
Os pequenos conjuntos de dados podiam ser
trabalhados em microcomputadores que usavam
linguagem de programação BASIC e Pascal.
Como resultado, softwares
populares de análise de sequência
feitos para microcomputadores
nem sempre eram compatíveis com
servidores e vice-versa
COMPUTADORES DESKTOP E NOVAS
LINGUAGENS DE PROGRAMAÇÃO
• Perl (Practical Extraction e Reporting Language) é uma
linguagem de scripting de alto nível que foi criada em
1987 por Larry Wall como uma adição ao sistema
operacional GNU para facilitar a análise e o relatório de
dados de texto.
• Até o final dos anos 2000, Perl foi a lingua franca da
bioinformática, devido à sua grande flexibilidade.
• sua sintaxe altamente pontuada, pode resultar em baixa
legibilidade do código, dificultando a manutenção do
código Perl, especialmente para atualizar o software
após vários meses ou anos.
COMPUTADORES DESKTOP E NOVAS
LINGUAGENS DE PROGRAMAÇÃO
• O lançamento do BioPerl em 2002 contribuiu para a
popularidade de Perl no campo da bioinformática.
Essa interface de programação Perl fornece módulos
que facilitam tarefas típicas como:
• (i)Acessar dados de sequência de bancos de dados
locais e remotos;
• (ii)Alternar entre diferentes formatos de arquivo;
• (iii)Pesquisas de similaridade;
• (iv)Anotar dados de sequência.
COMPUTADORES DESKTOP E NOVAS
LINGUAGENS DE PROGRAMAÇÃO
• O Python, assim como o Perl, é uma linguagem de
programação multiparadigmática de alto nível que foi
implementada por Guido van Rossum em 1989.
• O Python foi projetado para ter um vocabulário e uma
sintaxe mais simples, simplificando a leitura e a
manutenção do código (às custas da flexibilidade).
• No entanto, não foi antes do ano 2000 que bibliotecas
especializadas de bioinformática para Python foram
implementadas, e não foi até o final dos anos 2000
que o Python se tornou uma importante linguagem de
programação em bioinformática.
1990–2000: GENÔMICA,
BIOINFORMÁTICA ESTRUTURAL E A
SUPERESTRADA DA INFORMAÇÃO
AMANHECER NA ERA GENÔMICA
Em 1995, o primeiro sequenciamento completo do genoma de um
organismo de vida livre (Haemophilus influenzae) foi sequenciado
pelo Instituto de Pesquisa Genômica, liderado pelo geneticista J.
Craig Venter. No entanto, o ponto de inflexão que iniciou a era
genômica, como a conhecemos atualmente, foi a publicação do
genoma humano no início do século XXI.
AMANHECER NA ERA GENÔMICA
O Projeto Genoma Humano foi iniciado em 1991 pelos Institutos
Nacionais de Saúde dos EUA e custaram US $ 2,7 bilhões durante
13 anos. Em 1998, a Celera Genomics liderou um esforço rival e
privado para sequenciar e montar o genoma humano com um
custo de 1/10 do financiado pelo National Institutes of Health
(NIH)
AMANHECER NA ERA GENÔMICA
Na época tiveram rendimento máximo de 96 leituras de 800 pb de
comprimento por corrida, ordens de grandeza menores do que os
sequenciadores de segunda geração que surgiram no final dos
anos 2000. Assim, o sequenciamento do genoma humano (3,0
Gbp) exigiu um mínimo aproximado de 40 000 corridas para obter
uma cobertura apenas de uma vez
BIOINFORMÁTICA ON LINE
World Wide Web, um sistema global de informações feito de
documentos interligados, permitiu a criação de muitos recursos de
bioinformática acessíveis em todo o mundo, tal como o primeiro
banco de dados de seqüências de nucleotídeos do mundo, o EMBL
Nucleotide Sequence Data Library (que incluía vários outros bancos
de dados, como o SWISS-PROT e o REBASE), em 1993
BIOINFORMÁTICA ON LINE
Em 1992, o banco de dados do GenBank passa a ser de responsabilidade
do NCBI (antes era contrato do Laboratório Nacional Los Alamos).
No entanto, o GenBank era muito diferente de hoje e foi distribuído
como um CD-ROM em seu primeiro lançamento. O site do NCBI foi
disponibilizado on-line em 1994 (incluindo a ferramenta BLAST, que
permite realizar alinhamentos em pares de forma eficiente).
BIOINFORMÁTICA ON LINE
(i) Requer conhecimento prévio de sistemas
operacionais semelhantes ao UNIX;
Um software de (ii) Requer a utilização de linhas de comando
bioinformática (para instalação e uso)
frequentemente: iii) Requer a instalação de várias bibliotecas
de software (dependências) antes de serem
utilizável, o que pode ser pouco intuitivo
mesmo para bioinformáticos experientes.

Felizmente, mais desenvolvedores tentam disponibilizar suas


ferramentas para a comunidade científica por meio de servidores
Web fáceis de usar, permitindo analisar dados sem ter que executar
procedimentos de instalação.
BIOINFORMÁTICA ESTRUTURAL
A primeira estrutura tridimensional de uma proteína, a da
mioglobina, foi determinada experimentalmente em 1958
usando difração de raios X.
BIOINFORMÁTICA ESTRUTURAL
Os primeiros marcos sobre a previsão de uma estrutura
de proteínas foram estabelecidos por Pauling e Corey em
1951 com a publicação de dois artigos que relataram a
previsão de α-hélices e folhas β.
BIOINFORMÁTICA ESTRUTURAL
Agora é possível usar computadores para realizar cálculos
para prever, com graus variados de certeza, a estrutura
secundária e terciária (especialmente graças a algoritmos
de reconhecimento de dobra de proteínas).
BIOINFORMÁTICA ESTRUTURAL
O uso de unidades de processamento gráfico (GPUs) por
meio de placas gráficas de alto desempenho normalmente
usadas para gráficos ou videogames, que ajudam a tornar a
dinâmica molecular acessível.
2000–2010: BIOINFORMÁTICA DE
ALTO DESEMPENHO
SEQUENCIAMENTO DE SEGUNDA GERAÇÃO
O sequenciamento de DNA foi democratizado com o advento
do sequenciamento de segunda geração que começou com a
tecnologia de pirosequenciamento "454", que permitiu o
sequenciamento de milhares a milhões de moléculas de DNA
em uma única máquina, aumentando assim o antigo desafio
computacional.
SEQUENCIAMENTO DE SEGUNDA GERAÇÃO
Agora existem tantas ferramentas que é difícil escolher
uma específica. Se esta tendência persistir, será cada vez
mais difícil para as diferentes equipes comparar suas
descobertas e replicar os resultados de outros grupos
de pesquisa, implicando em novos treinamentos e
testes adicionais, tornando os pesquisadores relutantes
em abandonar os softwares com os quais estão
familiarizados.
BIG DATA BIOLÓGICO
Desde 2008, a Lei de Moore deixou de ser um indicador
preciso dos custos de sequenciamento de DNA após a
chegada de tecnologias de sequenciamento massivamente
paralelos https://www.genome.gov/sequencingcosts/).
BIG DATA BIOLÓGICO
As novas tecnologias de sequenciamento resultaram em um
aumento exponencial de sequências em bancos de dados
públicos, como o GenBank e o WGS, onde foi gerado uma
quantidade dados biológicos além do nível exabyte (1018).
BIG DATA BIOLÓGICO
Nova infra-estrutura de repositório de grandes bancos de
dados surgiu para abrigar genomas de organismos modelo
como Drosophila, Saccharomyces e humano, tem como
função fornecer sequências genômicas com anotações
(muitas vezes curadas) e metadados.
BIG DATA BIOLÓGICO
Surgiram bancos de dados genômicos gerais, como o
Sequence Read Archive e o European Nucleotide Archive,
para armazenar dados de sequenciamento bruto para
posteriormente realizar reprodutibilidade entre os estudos.

https://www.ncbi.nlm.nih.gov/sra https://www.ebi.ac.uk/ena
BIG DATA BIOLÓGICO
Tendo em vista a grande quantidade de bancos de dados que
surgem, é importante definir padrões para estruturar esses
novos recursos e facilitar seu uso. O Consórcio de Padrões
Genômicos foi criado em 2005 para definir as informações
mínimas necessárias para uma sequência genômica.

https://press3.mcs.anl.gov/gensc/
COMPUTAÇÃO DE ALTO DESEMPENHO
Em alguns casos e de acordo com os cálculos necessários,
um simples computador de mesa possa bastar, enquanto
outros projetos de bioinformática exigirão infraestruturas
muito mais imponentes, caras e que irão requerer
profissionais especializados.
COMPUTAÇÃO DE ALTO DESEMPENHO
• Compute Canada
(https://www.computecanada.ca)

• Programa de computação de alto


Organizações desempenho do estado de Nova York
patrocinadas pelo (https://esd.ny.gov/new-york-state-high-
governo performance-computingprogram);
especializadas em
computação de • Plataforma Tecnológica Europeia
alto desempenho para Computação de Alto Desempenho
surgiram: (http://www.etp4hpc.eu/)

• Centro Nacional da China para


Computação de Alto Desempenho
(http://www.nchc.org.tw/en/)
COMPUTAÇÃO COLABORATIVA
Além disso, a ascensão da computação na comunidade redefiniu
quem são os atores que podem participar da bioinformática.
Isso é exemplificado pelo BOINC, que é uma plataforma colaborativa
que permite a qualquer usuário disponibilizar seus computadores
para cálculos distribuídos para diferentes projetos.
Os especialistas enviam tarefas de computação para o BOINC,
enquanto não-especialistas podem se voluntariar alocando seus
recursos de computador para trabalhos submetidos ao BOINC
2010– HOJE: PERSPECTIVAS
PRESENTES E FUTURAS
DEFINIÇÃO DA PROFISSÃO DE
BIOINFORMATA
(i) Ferramentas amigáveis,
muitas vezes disponíveis
O surgimento de pesquisadores através de servidores Web
especializados neste campo: os integrativos como o Galaxy;
bioinformatas, refletindo no
(ii) Ajuda em
aumento significativo em:
comunidades como
SEQanswers e
BioStar .
DEFINIÇÃO DA PROFISSÃO DE BIOINFORMATA
a) Domínio de técnicas , habilidades e ferramentas
necessárias para a prática da biologia computacional;
b) Aplicação de métodos de estatística em biologia
molecular, genômica e genética populacional;
Diretrizes e
c) Conhecimento da biologia geral , conhecimento
recomendações
profundo de pelo menos uma área da biologia e
de competências compreensão das tecnologias de geração de dados
essenciais que um biológicos;
bioinformático
deve ter em seu d) Análise de um problema e identificando os
currículo, tais requisitos computacionais à sua solução;
como:
e) Aplicação de fundamentos matemáticos,
princípios algorítmicos e teoria de modelagem em
projeto de sistemas baseados em computador que
demonstra a compreensão nas escolhas de um
projeto .
O TERMO “BIOINFORMÁTICA” ESTÁ
FICANDO OBSOLETO
O uso de computadores se tornou onipresente na biologia,
assim como na maioria das ciências naturais (física, química,
matemática, criptografia, etc.), mas, curiosamente, somente
a biologia tem um termo específico para se referir ao uso de
computadores neste campo. disciplina (bioinformática). Por
que?
a) Primeiro, a biologia tem sido historicamente
localizada na interface das ciências "duras" e "moles“

b) Segundo, o uso de computadores na biologia exigia


compreensão da estrutura das macromoléculas (ou seja,
ácidos nucleicos e proteínas). Isso levou a biologia a se
informatizar mais tarde do que outras ciências "duras",
como a física e a matemática.
BIOLOGIA DE SISTEMAS
O final do século 20 testemunhou o surgimento de computadores
na biologia. Seu uso, juntamente com a melhoria contínua da
tecnologia laboratorial, permitiu empreendimentos de pesquisa
cada vez mais complexos.

Considerando que o sequenciamento de uma única proteína ou


gene poderia ter sido objeto de uma tese de doutorado até o
início de 1990, pois determinação da estrutura primária de uma
proteína era complexa naquela época.

Agora, um estudante de doutorado pode agora analisar o genoma


coletivo de muitas comunidades microbianas pois agora é possível
identificar todo o proteoma de uma amostra.
BIOLOGIA DE SISTEMAS
A biologia adotou uma abordagem holística, dentro de classes
macromoleculares distintas (por exemplo, genômica, proteômica e
glicômica).
BIOLOGIA DE SISTEMAS
Pode-se prever o próximo salto: em vez de investigar
independentemente genomas inteiros, transcriptomas inteiros ou
metabolitos inteiros, organismos vivos inteiros e seus ambientes
serão computacionalmente modelados, com todas as categorias
moleculares levadas em conta simultaneamente.
BIOLOGIA DE SISTEMAS
Hoje foi possível em Mycoplasma mycoides, no qual todos os
seus genes, seus produtos e suas interações metabólicas
conhecidas foram reconstruídas em silico.
fim