Você está na página 1de 49

Bioinformtica

O que a bioinformtica?

A bioinformtica consiste em todo tipo de estudo ou de ferramenta


computacional que se pode realizar e/ou produzir de forma a organizar
ou obter informao biolgica a partir de sequncias de biomolculas.

A Bioinformtica uma nova disciplina cientfica com razes nas


Cincias da Computao, Estatstica, Gentica, Bioqumica e Biologia
Molecular.

H 10 anos o termo
nem existia.
Para que serve a bioinformtica?

Interpretao da Aprendizado automtico


linguagem dos genes por a partir de grande
algoritmos oriundos da volume de dados
informtica

Gerao de
hipteses a partir Criao de bancos
dos dados Bioinformtica de dados.

Leitura de informaes Desenvolvimento de


contidas no cdigo gentico softwares que otimize a
anlise de bancos de dados
genmicos
Contexto Histrico
A histria comea na dcada de 1940 com a inveno do moderno
computador digital

Colossus
Contexto Histrico
- Ele se chama digital, pois os dados so armazenados
com um alfabeto binrio

- Dgitos binrios 0 e 1 (Liga/desliga) Possvel


graas aos transstores

Em 1944, Avery e colaboradores descobriram que o


DNA era a substncia que carregava a informao
gentica

Usando a descoberta de Avery como referncia, vemos que o


nascimento do moderno computador digital e da moderna
biologia molecular se deram mais ou menos ao mesmo tempo
Contexto Histrico

A descoberta da hlice dupla, em 1953, mostrou que a informao


gentica tambm armazenada de forma digital

- Mas diferente do alfabeto binrio dos computadores, os dados genticos


so armazenados com um alfabeto quaternrio A, C, G e T

- Mais tarde se descobriu que a forma dos genes operarem tambm


digital, os genes podem ser ligados ou desligados

Apenas estas observaes j seria suficiente para prever, na dcada de


1950, que um dia informtica e biologia molecular iriam juntas fazer
nascer uma nova rea de conhecimento
Contexto Histrico

O nascimento da rea, entretanto, teve de esperar muito tempo


para acontecer

Essa a razo da bioinformtica ser uma aparente novidade

Algumas pessoas consideram que a bioinformtica passou a ser


reconhecida como importante pelo mundo cientfico por volta de
1995, ano que o primeiro genoma de uma bactria foi publicado

Por que to longa demora?


Contexto Histrico
Do lado da biologia molecular o motivo simples

- Apesar da estrutura do DNA ter sido desvendada em 1953, a informao


nela contida no podia ser lida

- Foi como tivssemos descoberto o alfabeto utilizado para escrever o


livro da vida, mas as palavras desse livro estavam com letrinhas to
pequenas que no conseguamos l-las

- Foi preciso esperar at fins da dcada de 1980 para que aparecesse uma
lente de aumento suficientemente boa que permitisse a leitura dessas
letrinhas em grande quantidade

Uma mquina automtica


- Em 1995, uma nica mquina dessas j conseguia ler milhares de
letrinhas por dia
Contexto Histrico
Do lado da computao foi tambm preciso um amadurecimento

- Computadores sendo capazes de armazenar cada vez mais informao, de


process-la de modo cada vez mais rpido, a um custo cada vez menor

- Se o sequenciamento automtico do DNA tivesse amadurecido mais


rapidamente, no haveria computadores com poder suficiente para dar
conta dos dados gerados

- Na dcada de 1970 a unidade bsica de armazenamento de informao


era o kilobyte - 1024 bytes, aproximadamente 1000 letras
Contexto Histrico

Ento, atravs de uma evoluo que parece mais ou menos


sincronizada, desembocamos em 1995

Os computadores j estavam suficientemente poderosos para


poder processar os milhes e milhes de letrinhas

E assim nasceu a bioinformtica, com a misso de


ajudar-nos a entender a histria que est escrita
nesse livro da vida
Sistemas operacionais

O sistema operacional (SO) o principal programa de um computador. Ele responsvel


pelo gerenciamento da memria, pelo acesso aos discos e tambm faz acesso aos
componentes fsicos da mquina (hardware).

* Os SOs mais conhecidos e utilizados so baseados no Windows, Unix e MacOS.

* Muitas das aplicaes utilizadas em bioinformtica so compiladas e distribudas para a


execuo em plataformas derivadas do Unix

* A preferncia por sistemas baseados em Unix deve-se ao fato de que tais sistemas, so:

- mais confiveis;
-gerenciam melhor o trabalho com grandes quantidades de dados e que algumas
de suas variantes, como o Linux;
- possuem cdigo aberto e distribudos gratuitamente.
Linguagens de programao

As Linguagens de programao foram criadas para facilitar a especificao de


tarefas a um computador.

* Existem milhares de linguagens de programao e cada uma delas possui um


conjunto de comandos especficos;

* Linguagens de programao mais utilizadas: basic, pascal, C, C++, java, cobol e


fortran.

* Entretanto, a linguagem mais utilizada denominada PERL (Pratical Extract and


Report Language);

* O PERL uma linguagem rica, simples, disponvel gratuitamente, possui uma srie de
mdulos enriquecedores (bioperl e biographics) e faz interface com bancos de dados;
Banco de dados

Um banco de dados pode ser considerado uma coleo de dados inter-


relacionados, projetado para suprir as necessidades de um grupo especfico
de aplicaes e usurios.

* Possui a funo de organizar e estruturar as informaes, o que facilita consultas,


atualizaes e delees de dados;
* SGBD (Sistema de Gerenciamento de Banco de Dados)

- utilizado como intermedirio dos processos de construo, manipulao


e administrao do banco de dados
Banco de dados
Principais Sistemas de Gerenciamento de Bancos de dados

- MySQLhttp://www.mysql.org
Acesso livre para download do gerenciador MySQL, como tambm a vrias
Ferramentas de conexo, como: DBI, Java, ODBC e etc. Apresenta
documentao completa.
- PostgreSQLhttp://www.pgsql.com/
Acesso livre para download do gerenciador PostgreSQL, como tambm algumas
ferramentas. Apresenta documentao completa.
- ORACLEhttp://www.oracle.com
Informaes comerciais sobre o banco de dados.
- Microsoft SQL Serverhttp://www.microsoft.com/sql/
Informaes comerciais sobre o banco de dados.
(2017):
Surgimento da bioinformtica
Com o surgimento dos sequenciadores capilares de DNA em larga escala
gerou-se uma enorme quantidade de informao biolgica, de modo que
seria impossvel de se analisar manualmente.

Crescimento do GenBank.
Crescimento exponencial do
nmero de sequncias
contidas nesse banco de dados
ao longo de duas dcadas.

Fonte: GenBank
Surgimento da bioinformtica
1988
fundada a Human Genome Oganization (HUGO), uma organizao
internacional de cientistas para sequenciar e anotar o genoma humano.
Surgimento da bioinformtica
1988
Foi criado o National Center for Biotechnology Information (NCBI), como
um repositrio de diversas bases de dados biolgicas (como o GenBank).
Surgimento da bioinformtica
1993
O primeiro mapa de genoma bacteriano completo publicado
(Haemophilus influenzae) e termina a primeira fase do Projeto Genoma
Humano, com o mapeamento gentico pela Genethon
Surgimento da bioinformtica
2003
Depois de uma dcada o genoma humano finalmente publicado
Objetivos da bioinformtica

Reconhecimento de padres
Criao de algoritmos
Descoberta de genes
Descoberta de novos frmacos
Alinhamento de estruturas de
protenas
Agrupar protenas homlogas
Predio de estruturas de protenas
Previso de expresso gnica e
interaes de protenas
Identificar inibidores de enzimas
Estudos de associao ampla de
genoma e modelagem da evoluo
Biologia computadorizada e a Bioinformtica

Biologia
computadorizada
x Bioinformtica

Diz respeito a qualquer Est frequentemente


aplicao da computao associada a anlises de
na rea biolgica. sequncias do genoma,
transcriptoma e proteoma.
Paradigmas da Bioinformtica

1 3

Ferramentas de Onde a genmica


bioinformtica so encontra a cincia e o
produzidas para Minerao do grande mtodo cientfico de
construir os edifcios volume de dados observao: hiptese,
genmicos. Ex: biolgicos em experimentao
Projeto Genoma genmica gerados. resultados.
Paradigmas da Bioinformtica
Montagem de DNA

- Um genoma de bactria tem em geral 3 ou 4 milhes de letrinhas ou


bases. As mquinas sequenciadoras conseguem ler apenas pedaos de
cerca de 1000 bases

- Como possvel montar um livro com 4 milhes se s conseguimos


ler fragmentos de 1000 bases?

- A soluo gerar uma enorme quantidade de fragmentos que tenham


sobreposio entre si. Para ler 3 ou 4 milhes so necessrios cerca de
100 mil desses fragmentos
A, obviamente, necessrio um programa de
computador para montar esse quebra cabea
Paradigmas da Bioinformtica

Frequentemente esse o perfil de resultados de trabalhos em Genmica


Cincia descritiva.

preciso utilizar a peneira para gerar dados mais


informativos e relevantes

Funes dos genes j identificados em estudos.


Paradigmas da Bioinformtica

Aprendizagem de Mquina (AM)

Principal preocupao

- Como construir programas de computador que automaticamente


melhoram seu desempenho com a experincia?

Tcnicas orientadas a dados

- Aprendem automaticamente a partir de grandes volumes de dados


- Gerao de hipteses a partir dos dados
Aprendizagem de Mquina

Algumas Tcnicas

Redes Neurais Artificiais (RNs)


Mquinas de Vetores Suporte (SVMs)
Algoritmos de Agrupamento (AA)
Algoritmos Genticos (AGs)
rvores de Deciso (ADs)
Raciocnio Baseado em Casos (RBC)
K-vizinhos mais prximos (kNN)
Aprendizagem de Mquina

Problemas em Biologia Molecular que podem ser tratados


por AM

Reconhecimento de genes
Reconstruo de rvores filogenticas
Anlise de dados de expresso gnica
Previso de estruturas de protenas
Anlise de interao entre genes
Montagem de fragmentos
Alinhamento de sequncias
rea estratgica de pesquisa

Os bancos de dados genmicos disponveis gratuitamente na


internet hoje contm mais informao biolgica do que todos os
cientistas do mundo sero capazes de analisar, no importa
quanto tempo se dediquem

Dados gratuitos e de qualidade


Muitas vezes pobremente analisados: a corrida genmica
Brasil: pra qu financiar pesquisas to caras?
No seria melhor investir na educao?

Tarefa do bioinformata
Ser criativo e produtivo ao mesmo tempo
No perde o tempo da produo do dado
Economiza 50% do esforo cientfico
Bioinformtica e suas aplicaes
Cincia bsica
- Construo de rvores filogenticas;
- Montagem e caracterizao de genomas;

Na medicina
- Diagnstico e tratamento;
- Analisar uma Mutao nova de uma doena e comparar com
outras mutaes em bancos de dados;
- Farmacogentica;
- Alvos proteicos com potencial de serem modificados com
frmacos minimizando as causas da doena;
- Terapia gnica
Rede da via glutamatrgica: genes responsveis pela produo de 14
protenas presentes na rede (ns em verde) foram identificados pela
ferramenta como associados a esquizofrenia
Bioinformtica e suas aplicaes
Coppe/UFRJ desenvolve sistema inovador para o tratamento do HIV

SIRA- HIV (Sistema de Identificao de


Resistncia aos Antirretrovirais)

Atualmente a escolha dos medicamentos usados no


combate ao HIV se baseia nos resultados obtidos pelos
sistemas tradicionais, que identificam apenas as
mutaes majoritrias, ou seja, as que se encontram
em alta frequncia na populao de vrus que circula
no paciente (acima de 20%). "J o SIRA-HIV, que
trabalha com o resultado do sequenciamento da nova
gerao, a Next Generation Sequencing (NGS),
identifica as mutaes majoritrias e minoritrias
A aluna de doutorado da Coppe, Letcia Raposo, no (acima de 1%) do HIV",
laboratrio de Sistemas de Sade, onde o SIRA-HIV foi
desenvolvido.
O SIRA HIV integra trs principais sistemas utilizados no
mundo para testes de genotipagem: o americano Stanford HIV
DrugResistanceDatabase (HIVdb), a Agncia Nacional Francesa
de Pesquisas sobre Aids e Hepatites Virais(ANRS) e o REGA
Algorithm.
Robusto, o sistema desenvolvido na Coppe capaz de analisar
sequncias de nova gerao com o objetivo de identificar as
mutaes majoritrias e minoritrias presentes no vrus. Alm
disso, o novo sistema classifica o nvel de resistncia dos
pacientes aos medicamentos.
http://bioinfo.iq.ufrj.br