Você está na página 1de 50

BMP 5762 Bioinformtica Aplicada ao Estudo

de Doenas Parasitrias
Prof Dr Arthur Gruber
Instituto de Cincias Biolgicas

Metagenmica
Carla Bartels
Francisco M Ulloa Stanojlovic
Luis Fbio Batista

O termo Metagenmica foi usado primeiramente


em 1998 por Jo Handelsman (Universidade de
Wiscosin EUA)

Dr. Anand Kumar &


Dr. R. A. Siddique

Introduo
METAGENOMA
METAGENOMA
oogenoma
genomacoletivo
coletivoda
damicrobiota
microbiotatotal,
total,
encontrada
encontradaem
emum
umdeterminado
determinadohabitat.
habitat.

METAGENOMA
METAGENMICA
METAGENMICA
aaanlise
genmica
das
de
oanlise
genoma
coletivo
da
microbiota
genmica
dascomunidades
comunidades
de
microrganismos
de
total, encontrada
em um
microrganismos
deum
umdeterminado
determinado
ambiente
por
de
ambiente
portcnicas
tcnicasindependentes
independentes
de
determinado
habitat
cultivo.
cultivo.
Dr. Anand Kumar &
Dr. R. A. Siddique

Handelsman, 2004

Metagenmica
Metagenmica
Fornece a informao da
Fornece
a informao
da
capacidade
metablica
capacidade metablica
e funcional da
e
funcionalmicrobiana
da
comunidade
comunidade microbiana

Metatranscritoma
Metatranscritoma

Metaprotemica

Permite a identificao
Permite
a identificao
de genes
que esto
de genes
que
esto
ou no sendo
ou expressos
no sendo
expressos

Permite uma melhor


caracterizao
funcional da
comunidade
microbiana

Dr. Anand Kumar &


Dr. R. A. Siddique

Metagenmica aplicada

Dr. Anand Kumar &


Dr. R. A. Siddique

Metagenmica fornece
Informao gentica sobre
possveis novos biocatalizadores
ou enzimas
Conexes genmicas entre funo
e filogenia de organismos no
cultivveis
Perfis evolutivos de funo e
estrutura de comunidades
Novas hipteses de funes
microbiais

Thomas et al, 2012

CSetubal, 2012

Um nicho ecolgico
comunidade

populaes

JC Setubal

DNA

A comunidade

CSetubal, 2012

JC Setubal

DNA

A comunidade

CSetubal, 2012

SEQ

JC Setubal

BIOINFO

Desenho
Desenho do
do
Estudo
Estudo
Amostrage
Amostrage
m
m
Fracioname
Fracioname
nto
nto da
da
amostra
amostra
Extrao
Extrao de
de
DNA
DNA
Sequencia
Sequencia
mento
mento de
de
DNA
DNA
Montagem
Montagem

Thomas et al, 2012

Binning

Anotao
Anotao
Anlises
Anlises
Estatsticas
Estatsticas
Armazenam
Armazenam
ento
ento de
de
dados
dados
Compartilha
Compartilha
mento
mento de
de
dados
dados

Handelsman, 2004

Amostragem
Isolar o DNA
Depende do tipo
de amostras

Clonar DNA
Inserir dentro de
um vetor
(plasmdio,
cosmdio, BAC)
Biblioteca
Screening e
sequenciamento

aniel, 2005 em Prentice Hall, 2005

Amostragem {desafios}
Amostras devem representar a populao
Quantas amostras so necessrias? Curvas de
raridade para estimar frao de espcies
sequenciadas. (Abundncia x Complexidade).
Presena de populaes dominantes afeta anlises
representao maior e maior chance de montar
contigs.
Quanto mais metadados forem coletados mais
detalhadas sero as inferncias das condies
ambientais. Ex.: dados geogrficos, bioqumicos,
data de coleta, mtodos de extrao do DNA.

Bruno Malveira Peixoto 2011

Sequenciamento
Shotgun
Genoma
completo

Hierrquico

Commins, Toft, Fares, 2009

rakash and Taylor, 2012

Montagem
Fatores a serem considerados:
Tamanho das leituras de
sequenciamento usadas para criar
a base de dados de
metagenmica
So necessrias sequncias mais
longas para anotao?
A base de dados est montada
para reduzir os requerimentos de
processamento de dados?

Montagem
Montagem baseada em referncia:
MIRA: An Automated
Genome and
Assembler
Algoritmos rpidos rodam em laptop em 2h;
Regies divergentes no so cobertas inseres, delees ou
polimorfirmos.

Montagem de novo:

Velvet

MetaIDBA

MetaVel
vet

Baseados em grficos de Bruijn


Requer grandes recursos computacionais
Requer milhares de gigabytes dias.
Meta-IDBA e MetaVelvet no clonalidade de populaes naturais subgrficos de Bruijn - N50 e tam. contig

Thomas, Gilbert e Meyer, 2011

Montagem {limitaes}
Amostragem incompleta genomas
parcialmente amostrados
Formao de quimeras sequncias de
espcies diferentes
Dificuldade em montar amostras ricas
em espcies (solo).
Bruno Malveira Peixoto 2011

Mtodos de Discriminao
Processo
Processo de
de classificao
classificao das
das seqs
seqs de
de DNA
DNA em
em
grupos
grupos que
que possam
possam representar um genoma
genoma
individual
individual ou
ou genomas
genomas de
de organismos
organismos fortemente
fortemente
relacionados
relacionados
Vrios
Vrios algoritmos
algoritmos foram
foram desenvolvidos
desenvolvidos empregam
empregam
dois
dois tipos
tipos de
de informaes
informaes contidas
contidas dentro
dentro de uma
dada
dada seq
seq DNA
DNA

Classificao composicional
Similaridade

Pontos
Pontos importantes
importantes a
a considerar:
considerar:
Tipo
Tipo de
de dado
dado de
de entrada
entrada disponvel
disponvel
Existncia
Existncia de
de training
training datasets
datasets adequados
adequados ou
ou genomas
genomas de
de
referncia
referncia
Algumas
Algumas ferramentas
ferramentas combinam
combinam os
os dois
dois approachs
approachs
PhymmBl,
PhymmBl, MetaCluster
MetaCluster
homas et al, 2012; Liu, 2012

Classificao
Composicional
Genomas tm composio de nucleotdeos conservada e
isto ser refletido nos fragmentos de sequncia dos
genomas
Contedo de GC
Uso de cdons
Stios de reconhecimento 5S ou 16S rRNA
Bioinfo tools:
Phylopythia
S-GSCM
TACAO

No funciona bem com leituras curtas por no conterem


informaes suficientes

homas et al, 2012; Liu, 2012

Contedo GC
Karlin & Burge, 1995
A distribuio de nucleotdeos relativamente constante
dentro do genoma, mas varia entre genomas.
A razo de possibilidades (odds ratio) de frequncia de
contedo C+G essencialmente a mesma na maioria dos
organismos para todo o DNA versus o DNA codificante e
tambm a mesma para as fraes de DNA das diferentes
sequncias.
Talvez existam fatores que imponham limites s variaes
composicionais e estruturais de um genoma e que o conjunto
de valores das odds ratios do dinucleotdeo seja uma
assinatura genmica.
Diferenas significativas entre procariotos e eucariotos, entre
vrus e seus hospedeiros.
Karlin, 1995; Liu, 2012

Karlin, 1995

Karlin, 1995

Uso de cdons
Todos
Todos os
os aminocidos,
aminocidos, exceto
exceto Met
Met e
e Trp,
Trp, so
so codificados
codificados
por
por 2
2a
a6
6 cdons
cdons
Cdons
Cdons redundantes/sinnimos
redundantes/sinnimos para
para qq
qq aa
aa no
no so
so
usados
usados com
com frequncias
frequncias iguais
iguais entre
entre os
os diversos
diversos
organismos
organismos
Cada
Cada genoma
genoma tem
tem uma
uma estratgia
estratgia particular
particular de
de
Percentual de G+C nacodificao
3a
codificao
tRNA
posio do cdon

Codon
Codon Usage
Usage Database
Database -- http://www.kazusa.or.jp/codon/
http://www.kazusa.or.jp/codon/

arlin, 1998; Ikemura, 1985

Similaridade
Compara leituras curtas contra
sequncias codificadoras de bases de
dados pblicas de genes usando BlastX
e ento designa para o seu ancestral
comum mais tardio (LCA) de um
organismo alvo
Bioinfo tools

IGG/M
MG-RAST
MEGAN
CARMA
Sort-ITEMS
2012; Liu, 2012
homas et al,MetaPhyler

Classificao {Bioinfo}
Anlise de similaridade: IMG/M, MG-RAST, MEGAN,
CARMA, Sort-ITEMS, MetaPhyler
Anlise composicional: Phylopythia, S-GSOM, PCAHIER,
TACAO
Similaridade e composicional: PhymmBL e MetaCluster

Necessidade de sequncias de referncia* (marcador


de RNAr) para fechar o alinhamento para
sequenciamentos de leitura curta.
* Base de dados escassas e tendenciosas para
apenas trs filos Proteobacteria, Firmicutes e
Bruno Malveira Peixoto 2011
Thomas, Gilbert e Meyer, 2011
Actinobacteria

ANLISES DOS DADOS


Dados de metagenmica cada vez
mais abundantes necessitam de banco
de dados para cobrir as informaes
taxonmicas e funcionais

Plataforma computacional robusta,


combinado com programas de
pesquisa de similaridade
adaptados a esses dados.

Anotao
Contigs longos 30.000 pb: RAST ou IMG
Contigs curtos
Fase 1: identificao dos genes: FragGeneScan
(FGS) 1-2% erro, MetaGeneMark (MGM),
MetaGeneAnotator (MGA), Metagene e Orphelia
Fase 2: identificao atribuio de
funo e agrupamento taxonmico

Pipelines
Sistema aberto que processa automaticamente as
sequncias de metagenomas, faz comparaes com bases
de dados existentes, computa reconstrues filogenticas e
classifica funcionalmente potenciais genes.

Usa FGS, Greengenes , RDP e similaridade


por RNAr
Usa bases de dados funcionais de ontologia
GO (KEGG, eggNOG, COG/KOG, PFAM e

Thomas, Gilbert e Meyer, 2011

Pipelines

Usa FGS, MGA e taxonomia baseada em 16S


RNAr
Usa bases de dados funcionais de ontologia GO
(KEGG, eggNOG, COG e SEED).

Thomas, Gilbert e Meyer, 2011

Pipelines

Usa FGA e MGA


Oferece esquema de anotao mais flexvel
Requer o uso do mesmo workflow para anlise
Thomas, Gilbert e Meyer, 2011

Pipelines

MEGAN

Aplicaes

Aplicaes
oIdentificar genes funcionais e/ou
novas vias metablicas
oEstimar a diversidade microbiana;
permitindo o estudo dos genomas
em uma comunidade como um
todo
oCompreender a dinmica da
populao de uma comunidade
inteira.

Sade

Bioenergia

Metabolismo animal

Identificao novos patgenos

Vigilncia

Medicina forense

BIOPROSPECO
FUNCIONAL
SEQUNCIAS

BIOPROSPECO

ESTUDOS
ECOLGICOS
Primeiros
estudos
Primeiros estudos

Mar de Sargaos
Comunidade
complexa
Genes
desconhecidos
Filotipos novos
Impossibilidade
de sequenciar
todos os
genomas
presentes na
amostra

Projetos recentes
Global Ocean Sampling (GOS)

Fonte: http://camera.calit2.net/about/gos.shtm

Microorganismos representam mais de


90% da biomassa do oceano, mediam
todos os ciclos bioqumicos nos oceanos
e so responsveis por 98% da produo
primria no mar.
Metagenmica uma abordagem
inovadora de sequenciao para
examinar as espcies microbianas de
espao aberto sem a necessidade de
isolamento e cultura de laboratrio de
Alves, 2007
espcies individuais.

Projetos recentes

Projetos recentes

Fluxograma comparativo de projetos


genoma tradicionais e metagenmicos

OBRIGADO!