Você está na página 1de 33

Introdução à Bioinformática

Eduardo Ormond dos Santos


Computação e Biologia Molecular

 Bioinformática

 Casamento entre a ciência da computação e a biologia molecular

 É uma área nova


 Há 10 anos atrás o termo nem existia

 Podemos dizer que foi um desdobramento da descoberta de


Watson e Crick (1953) de que o DNA é estruturado como uma
hélice dupla

2
Contexto Histórico (1/6)
 A história começa na década de 1940 com a invenção do moderno
computador digital

 Ele se chama digital, pois os dados são armazenados com um


alfabeto binário

 Dígitos binários – 0 e 1
 A operação também é digital, baseada na lógica liga/desliga

 Em 1944, Avery e colaboradores descobriram que o DNA era a


substância que carregava a informação genética
 Usando a descoberta de Avery como referência, vemos que o
nascimento do moderno computador digital e da moderna biologia
molecular se deram mais ou menos ao mesmo tempo
3
Contexto Histórico (2/6)
 A descoberta da hélice dupla, em 1953, mostrou que a informação
genética também é armazenada de forma digital
 Mas diferente do alfabeto binário dos computadores, os dados

genéticos são armazenados com um alfabeto quaternário


 A, C, G e T

 Mais tarde se descobriu que a forma dos genes operarem também é


digital
 Até certo ponto, os genes podem ser “ligados” ou “desligados”

 Apenas estas observações já seria suficiente para prever, na década de


1950, que um dia informática e biologia molecular iriam juntas fazer
nascer uma nova área de conhecimento

4
Contexto Histórico (3/6)
 O nascimento da área, entretanto, teve de esperar muito tempo para
acontecer

 Essa é a razão da bioinformática ser uma aparente novidade

 Algumas pessoas consideram que a bioinformática passou a ser


reconhecida como importante pelo mundo científico por volta de
1995
 Ano que o primeiro genoma de uma bactéria foi publicado

 Por que tão longa demora?


5
Contexto Histórico (4/6)
 Do lado da biologia molecular o motivo é simples
 Apesar da estrutura do DNA ter sido desvendada em 1953, a

informação nela contida não podia ser “lida”


 Foi como tivéssemos descoberto o alfabeto utilizado para escrever

“o livro da vida”, mas as “palavras” desse livro estavam com


letrinhas tão pequenas que não conseguíamos lê-las
 Foi preciso esperar até fins da década de 1980 para que

aparecesse uma “lente de aumento” suficientemente boa que


permitisse a leitura dessas letrinhas em grande quantidade
 Uma máquina automática

 Em 1995, uma única máquina dessas já conseguia ler milhares de

letrinhas por dia

6
Contexto Histórico (5/6)
 Do lado da computação foi também preciso um amadurecimento
 Computadores sendo capazes de armazenar cada vez mais informação, de
processá-la de modo cada vez mais rápido, a um custo cada vez menor
 Se o seqüenciamento automático do DNA tivesse amadurecido mais
rapidamente, digamos com 20 anos de antecedência, não haveria
computadores com poder suficiente para dar conta dos dados gerados
 Na década de 1970 a unidade básica de armazenamento de informação era o
kilobyte -- 1000 bytes, aproximadamente 1000 letras
 Um computador de grande porte daquela época tinha alguns kbytes de
memória
 Com tal memória um computador desses não seria capaz de processar nem
sequer o genoma de um vírus, que pode chegar a 20 kilobases, ou 20 mil
letrinhas; que dirá o genoma humano, com seus 3 bilhões de letrinhas

7
Contexto Histórico (6/6)
 Então, através de uma evolução que parece mais ou menos
sincronizada, desembocamos em 1995

 Os computadores já estavam suficientemente poderosos para poder


processar os milhões e milhões de letrinhas que passaram a vir à luz.

 E assim nasceu a bioinformática, com a missão de ajudar-nos a


entender a história que está escrita nesse livro da vida

8
Poligamina da Computação
 Até que ponto essa onda em torno da bioinformática é justificada?

 Afinal de de contas, hoje quase toda atividade científica depende do


computador

 Poderíamos falar em física-informática, astronomia-informática,


arqueologia-informática, etc.

 Será que há algo de especial na bioinformática?

9
Abordagens
 Há dois tipos de problemas em que atua a bioinformática

 O primeiro tipo de problema é chamado de problema


biotecnológico

 O exemplo clássico é o da montagem de DNA

 Uma segunda classe de problemas têm um interesse que vai


além de tecnologias específicas, que transcende qualquer
tecnologia, e diz respeito à natureza mesmo da biologia molecular

 Queremos saber que informação está contida nos genomas


10
Problema biotecnológico (1/2)
 Montagem de DNA
 Um genoma de bactéria tem em geral 3 ou 4 milhões de letrinhas
ou bases
 As máquinas seqüenciadoras conseguem ler apenas pedaços de
cerca de 1000 bases
 Então como é possível ler um livro de 3 ou 4 milhões de letras se
só conseguimos ler fragmentos de 1000 letras?
 A solução é gerar uma enorme quantidade de fragmentos que
tenham sobreposição entre si
 Para ler 3 ou 4 milhões são necessários cerca de 100 mil desses
fragmentos
 Aí, obviamente, é necessário um programa de computador para
montar esse quebra cabeça
11
Problema biotecnológico (2/2)
 Esse problema é fruto de uma limitação tecnológica atual
 É bem possível que daqui a 5 anos apareça um novo tipo de
seqüenciador que consiga ler diretamente as 3 ou 4 milhões de
bases
 E quando essa tecnologia aparecer, o problema da montagem do
DNA deixa de existir. Portanto, o nome de problema
biotecnológico
 Tal como esse, existem dezenas ou centenas de outros problemas
na bioinformática, cada um deles motivado por uma particular
tecnologia
 Mas problemas desse tipo existem em outras ciências também
 Certamente os telescópios modernos geram grandes quantidades de
dados de um jeito e formato que exigem programas de computador
sofisticados para coleta e intepretação; e quando mudam os
telescópios mudam os programas.
12
Para além da tecnologia
 Há uma segunda classe de problemas que têm um interesse que vai além de
tecnologias específicas

 Diz respeito à natureza mesmo da biologia molecular

 São esses problemas que dão um charme todo especial à bioinformática

 Que problemas são esses? São basicamente de dois tipos

 Primeiro, temos a interpretação do DNA como uma linguagem, a


linguagem dos genes
 O segundo tipo de problema é o de entender os efeitos da informação
genética

13
Linguagem dos Genes (1/2)
 Os genomas contém informação

 Sempre vamos querer saber que informação está contida neles

 Por exemplo, para diferentes espécies de organismos e para diferentes


indivíduos de uma espécie, particularmente a nossa

 Essa interpretação requer métodos, técnicas, algoritmos que vêm


principalmente da informática, pois afinal ela é a ciência da informação

 Sem o uso dessas técnicas as seqüências de DNA produzidas pelas


máquinas e montadas pelos programas não passam de uma inútil sopa de
letrinhas

 Dar sentido a essa sopa é tarefa dos bioinformatas


14
Linguagem dos Genes (2/2)
 Nesta linha é interessante observar que existe um paralelo entre o uso
da informática para decifrar a informação genética e uma das
primeiras grandes aplicações dos computadores

 O deciframento, pelos ingleses, do código secreto usado pelos


alemães na II guerra mundial

 Um artigo recente que faz uma apanhado geral sobre as técnicas das
ciências da informação usadas no deciframento da linguagem genética
é D. Searls, The Language of Genes, Nature, 420:211-217, 2002

15
Efeitos da Informação Genética (2/2)
 Temos aqui efeitos de gênese, de criação, ou seja, como a partir de um ovo
ou de uma semente se chega a um indivíduo; e também efeitos de
manutenção da vida, ou seja, como um indivíduo já formado responde ao
ambiente em que vive
 O entendimento dos efeitos da informação genética começa com o
entendimento de como uma célula funciona
 Agora temos a possibilidade de tentar descobrir qual é o efeito que uma
perturbação vai ter sem ter que efetivamente realizar essa perturbação
 Para isso bastará "ler as instruções", "ler as especificações" e fazer as deduções
necessárias. Isto é, ler o genoma e entender a cadeia de dependências entre
os genes.
 Essas cadeias são assim: um efeito externo faz um gene produzir uma proteína,
que ativa outro gene, que produz outra proteína, que ativa outro gene e assim
por diante.
 Essa é uma tarefa que vai precisar de muita bioinformática
16
Bioinformática (1/5)

 Definições
 Pesquisa e desenvolvimento de ferramentas
computacionais, matemáticas e estatísticas para a
resolução de problemas da Biologia
 Biologia Molecular

A Computação está para a Biologia da mesma


forma que a matemática está para física
Harold Morowitz

17
Bioinformática (2/5)

 Definições
 Número de definições  Número de bioinformatas

 Todo mundo tem sua própria definição de


Bioinformática, com detalhes sutis para refletir seu
interesse em Ciências Biológicas

Uma combinação de Ciência da Computação, Tecnologia da


Informação e Genética para determinar e analisar informação
genética
Bits Journal - Bioinformatics: Information Technology & Systems

18
Bioinformática (3/5)

 Outras definições

 Aplicação de ferramentas de computação e análise


para captura e interpretação de dados biológicos

 Integração de métodos matemáticos, estatísticos e


computacionais para analisar dados biológicos,
bioquímicos e biofísicos

 Ciência e tecnologia sobre aprendizado,


gerenciamento e processamento de informação
biológica
19
Bioinformática (4/5)
 Outras definições

 Coleção de métodos estatísticos para lidar com grande conjuntos


de dados biológicos
 Estatístico

 Casamento da Ciência da Computação com a Biologia Molecular


 Chefe de departamento de Ciência da Computação

 Aplicação de técnicas de Aprendizado de Máquina para dados


biológicos
 Pesquisador de Inteligência Artificial

20
Bioinformática (5/5)
 Outras definições

 Alinhamento de seqüências
 Comentário feito em uma reunião para decidir que projeto
apoiar

 Linha de comando unix


 Profissional de suporte de sistemas em empresa de
Biotecnologia

 Fluxo de recursos do próximo milênio


 Diretor de Instituição
21
Bioinformática: atualmente (1/2)
 Ênfase está se deslocando progressivamente do acúmulo
de dados para a sua interpretação

 Com os sequenciamentos realizados, um grande volume


de dados tem sido gerado

 Esses dados precisam agora ser analisados

 Análise laboratorial é difícil e cara


 Ferramentas computacionais sofisticadas são necessárias para
a análise dos dados obtidos
22
Bioinformática: atualmente (2/2)
 Para muitas dessas análises, as ferramentas
computacionais precisam lidar com dados imprecisos e
ruidosos
 Técnicas de laboratório de Biologia Molecular quase sempre geram
dados com erros ou imprecisões
 Erros na coleta de dados

 Erros na construção de bases de dados

Aprendizado de Máquina

Fornece técnicas para lidar com os problemas acima


23
Aprendizado de Máquina (AM)(1/2)

 Principal preocupação
 Como construir programas de computador que
automaticamente melhoram seu desempenho com a
experiência?

 Técnicas orientadas a dados


 Aprendem automaticamente a partir de grandes
volumes de dados
 Geração de hipóteses a partir dos dados

24
AM (2/2)

 Algumas Técnicas

 Redes Neurais Artificiais (RNs)


 Máquinas de Vetores Suporte (SVMs)
 Algoritmos de Agrupamento (AA)
 Algoritmos Genéticos (AGs)
 Árvores de Decisão (ADs)
 Raciocínio Baseado em Casos (RBC)
 K-vizinhos mais próximos (kNN)
 ...
25
AM e Biologia (1/2)

 Por muitos anos, sub-áreas da Biologia têm


inspirado técnicas de AM
 Redes Neurais
 Algoritmos Genéticos
 Programação Genética
 Vida Artificial

 Agora, diversas pesquisas na Biologia vêm


utilizando técnicas de AM
26
AM e Biologia (2/2)

Redes Neurais, Algoritmos Genéticos

BIOLOGIA COMPUTAÇÃO

Bioinformática

27
Biologia Molecular e AM (1/2)

 Problemas da Biologia Molecular que podem ser


tratados por AM
 Reconhecimento de genes
 Reconstrução de árvores filogenéticas
 Análise de dados de expressão gênica
 Previsão de estruturas de proteínas
 Análise de interação entre genes
 Montagem de fragmentos
 Alinhamento de seqüências

28
Biologia Molecular e AM (2/2)

Aplicação Técnicas de AM
Reconhecimento genes RNs, ADs, SVMs, RBC, kNN
Filogenia AGs, AA Hierárquico
Análise de Expressão RNs, SVMs, AA, ADs, kNN
Estrutura Proteínas RNs, SVMs, AGs
Interação entre genes Redes Booleanas e Bayesianas
Montagem fragmentos AGs
Alinhamento AGs

29
Problemas Abordados
 Alinhamento de seqüências
 Identificação de elementos que provavelmente surgiram de um
ancestral comum
 Reconhecimento de genes
 Identificação de genes em seqüências de DNA não caracterizadas
 Análise de dados de expressão gênica
 Identificar:
 Um agrupamento dos genes que seja funcionalmente significativo
 Novas sub-classes de doenças
 Funções de genes desconhecidos
 Predição de estrutura de proteínas
 Identificação de estruturas secundárias de proteínas
 Reconstrução de árvores filogenéticas
 Encontrar estratégias eficientes para a obtenção da melhor árvore ou
mesmo de uma árvore sub-ótima 30
Técnicas de AM Utilizadas

 Redes Neurais Artificiais


 Máquinas de Vetores Suporte
 Árvores de Decisão
 Algoritmos Genéticos
 Algoritmos de Agrupamento
 Agrupamento Hierárquico
 k-médias
 Mapa Auto-Organizáveis
 Cadeias escondidas de Markov (HMMs)
31
Objetivo

O objetivo do curso é propiciar aos estudantes um


entendimento das vantagens e limitações das técnicas
de AM revisadas, quando aplicadas aos problemas de
Biologia Molecular propostos

32
Referências
 Baldi, P. e Brunak, S. (2001). Bioinformatics: the Machine Learning
Approach. MIT Press.
 de Souto, M. C. P., Lorena, A. C., Delbem, A. C. B. e de Carvalho, A. C.
P. L. F. (2003). III Jornada de Mini-Curso de Inteligência Artificial –
Livro Texto, capítulo Técnicas de Aprendizado de Máquina para
Problemas de Biologia Molecular, pp. 103-152. Editora SBC.
 Mitchell, T. (1997). Machine Learning. McGraw Hill, New York.
 Setúbal, J. C (2003). A origem e o sentido da palavra bioinformática.
Com Ciência – Revista Científica da SBPC.
http://www.comciencia.br/reportagens/bioinformatica/bio10.shtml

33