Você está na página 1de 53

+

Bioinformtica
Genmica, Transcritmica e Metagenmica
Gabriel da Rocha Fernandes

Universidade Catlica de Braslia


gabrielf@ucb.br - fernandes.gabriel@gmail.com

Estratgia de sequenciamento

Estratgia de sequenciamento

Sequenciadores

Arquivos de sequncias
n AB1

e ESD - Sanger

n Fastq
n SFF

- Illumina

- 454

n Esses

arquivos tem que ser processados e a sequencia FASTA


gerada.

n Alguns

programas disponibilizam tambm o arquivo de


qualidade das sequencias.

n Possvel

montagem sem a converso em FASTA.

FastQ

Qualidade

Montagem

Anlise de sequncias?
n Transformar

biolgico.

n Base

os dados do sequenciador em conhecimento

calling.

n Montagem.
n Predio

de genes.

n Identificao
n Genmica

de promotores e marcadores.

comparativa.

Montagem do genoma
n Alinhamento

das sequencias para gerao de um consenso.

n Identificao

e eliminao dos gaps.

10

Predio de genes

11

Anlise Funcional
n Associa

uma funo aos genes preditos.

n Baseada
n Utiliza

na homologia entre sequncias.

bases de dados de sequncias conhecidas e programas


de alinhamento.

12

Transcritoma
n Conjunto

de todas as molculas de RNA encontradas em uma


populao celular:
n mRNA
n tRNA
n rRNA
n miRNA

n Total

de transcritos encontrados em um organismo, tipo


celular, condio...

n Reflete

os genes que esto sendo expressos em um


determinado momento.

n Snapshot

da funo celular.

13

14

Mtodos de estudo
n Expressed

Sequence Tags.

n Sequenciado
n Clonagem

vetores.

por mtodo de Sanger.

dos fragmentos usando

n No

funciona em procariotos.

n Low

throughput.

15

Mtodos de estudo
n Microarray.
n Arranjos

com os genes em locais


determinados.

n Comparao
n Hibridizao.

de amostras par a par.

Next Generation Sequencing

16

Custo do sequenciamento

17

18

RNA-seq
n Ultra
n No

larga escala.

necessita de clonagem.

n Baixo

custo.

n Valores

absolutos.

n Anlise

multi amostras.

n Grande

cobertura.

Protocolo
n Protocolo

para montagem da biblioteca pode variar de acordo


com a tecnologia e com o objetivo:

n Remoo

de rRNA.

n Amplificao
n Converso
n Single

por PCR.

a cDNA.

read ou pair end.

19

Genoma referncia vs. Montagem


de novo
n Mapeamento
n Quantificao
n Identificao

n Montagem

dos reads a um genoma referncia.


da expresso.

de variantes de splicing.

de novo do transcritoma.

n Caracterizao
n Identificao
n Ausncia

dos genes expressos.

de isoformas.

de genoma referncia.

20

O que sai do sequenciador?


n Formato

padro para anlises o FastQ.

n @SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCAC
+
!*((((***+))%%%++)(%%%%).1***-+*))**55CCFCCCCCCC65
n Primeira
n Nome

linha: identificador da sequncia.

da sequncia.

n Informao

n Terceira

sobre filtros.

linha: qualidade da chamada da base (em cdigo).

21

Montagem

22

23

Mapeamento e quantificao
n As

sequncias produzidas so mapeadas a um genma


referncia.

n Alinhou

em apenas uma regio = timo.

n Alinhou

em mais que uma regio = dilema.

n O

uso de replicatas FUNDAMENTAL!

Repl. 1

Repl. 2

Repl. 3

Gene A

12

Gene B

16

25

35

Gene C

10

15

Gene D

750

500

500

Gene E

1504

1005

1030

Interpretando a contagem dos


genes
n No

exemplo da tabela, o Gene E tem duas vezes mais reads


que o Gene D:
n Gene

E expresso duas vezes mais que o Gene D.

n Ambos

os genes se expressam na mesma intensidade, mas o Gene E


duas vezes maior que o Gene D.

n Ambos

os genes tem o mesmo tamanho e se expressam na mesma


intensidade, mas o Gene D tem um parlogo no genoma ao qual metade
dos seus reads foram mapeados.

n A

causa os trs ao mesmo tempo.

n Mas

quando analisamos o mesmo gene em 2 condies


diferentes, os efeitos 2 e 3 so desconsiderados.

24

Identificando genes
diferencialmente expressos.
n Comparar

diferentes condies: controle com testes.

n Clula

normal com clula tumoral.

n Planta

sem e com estresse hdrico.

n Animal

sem e com parasita...

n Genes

em duas condies diferentes VO apresentar


quantidades de reads diferentes.

n Essa

variao pode ser diferena biolgica entre as duas


condies, ou rudo experimental.

n Aplicao

de testes estatsticos.

25

Identificando genes
diferencialmente expressos.
n Para

identificar uma diferena estatisticamente significantes,


necessrio que a diferena de expresso entre as duas
condies seja maior que a impreciso do nvel de expresso
sob uma determinada condio.

26

Sou pobre, no vou usar replicata.


n Lio
n Um

de vida:

Gene H, em uma clula normal extrada do Z Moreno, tem 5 reads.

n O

mesmo Gene H, em clula tumoral extrada do mesmo Z Moreno,


tem 10 reads.

n Uoua!

O Gene H duas vezes mais expresso na clula tumoral!

n Ganhei

uns trocados e fiz transcritoma da clula normal de mais 2


pacientes. De brinde, ganhei o sequenciamento do Z moreno de novo.

n O

Gene H teve 12 reads na clula do Z Moreno, 17 reads na Maria Tol,


e 22 reads na clula do Tio Torresmo.

n Moral

da histria: quanto mais medies fizer, mais vai ter


certeza dos nveis de expresso dos genes.

27

Replicata tcnica vs. Replicata


biolgica
n Tcnica: explica

a variao
encontrada que pode ter
sido causada por critrios
tcnicos: preparao da
biblioteca, qualidade do
sequnciamento, cobertura
do gene...

n Biolgica: explica

a
variao encontrada que
pode ter sido causada pela
variabilidade de expresso
que no est associada
mudana nas condies do
experimento.

28

Fontes de variao
Varincia de Poisson
n

a incerteza existente em qualquer medio em que algo


amostrado e contado.

n Como

baseado no valor da contagem em si, no especfico


do experimento.

n Essa
n Por

varincia est relacionada a quantidade total de reads.

exemplo, a diferena na expresso de um gene medido


com 1 read versus 2 reads inerentemente menos seguro do
que as diferenas na expresso de um gene medido com 100
reads versus 200 reads, apesar de ambas as diferenas serem,
nominalmente, uma mudana 2X.

29

Fontes de variao
Varincia de Poisson

30

Fontes de variao
Variao Tcnica No-Poisson
n Associado

incapacidade da
tcnica no conseguir medir
a expresso perfeitamente.

n Visto

em replicatas tcnicas.

n Causas:
n Seleo

de miRNA.

n Depleo

de rRNA.

n Amplificao

por PCR.

n Armazenamento.
n RNA-later.

n Moral

da histria: Manipule
sua amostra o mnimo
possvel.

31

Fontes de variao
Variao Biolgica
n Ocorre

naturalmente nas amostras.

n A

expresso naturalmente flutua


em clulas sob a mesma condio.

n Causas

da variaes biolgicas
podem ser diferenas genticas,
de maquinaria celular, ou de
resposta a variao do ambiente.

n Variao

biolgica tambm sofre a


influncia das outras duas
variaes vistas.

32

Filosofando...
n Mais

replicatas vs. Mais reads.

n Como

lidar com batch-effects?

n Preciso

validar com RT-PCR?

n Eu

considero como diferencialmente expresso genes com pvalue < 0.01.

n Calcular
n Leia

FDR (False discovery rate)

artigos que tenham usado benchmarks.

n Converse

com o bioinformata que vai fazer as anlises.

33

Metagenmica
n Metagenoma: material

amostras ambientais.

n Fornece

natural.

gentico recuperado diretamente de

informaes sobre os organismos em seu habitat

Metagenmica
n Cerca

de 99% das bactrias no so cultivveis.

n Permite

o estudo de organismos que no so facilmente


cultivados em laboratrio.

n Identificao

de funes em espcies ainda no identificadas.

Anlise do gene do rRNA 16s


n Gene

altamente conservado em bactrias e archaea.

n Regio

hiper varivel confere sequncias com assinatura


especfica.

n Fornece

um perfil da diversidade na amostra.

Whole Genome Shotgun e nova


gerao de sequenciadores
n Permite

uma viso mais global da comunidade.

n Anlise

dos nveis da diversidade filogentica e


polimorfismos intraespecficos.

n Estudo

de genes completos e de vias metablicas da


comunidade.

n Reconstruo
n Demanda

dos genomas.

intensa anlise bioinformtica.

Etapas da anlise metagenmica

n Fatores

influentes.

n Interdependncias

ocultas.

Mtodos de estudo - Funcional


n Isolamento

do DNA da amostra.

n Clonagem

do DNA em um
hospedeiro.

n Expresso

funcional.

n Anlise

do gene e anlise

das sequncias.

Mtodos de estudo - Genmico


n DNA

isolado pode ser submetido a


um sequenciamento aleatrio ou
direcionado.

n Permite

montagem de todo
metaboloma.

n Anlise

filogentica.

n Metagenmica

comparativa.

Anlise filogentica e funcional

Pipeline de anlise

Assinatura filogentica
n Cada

read associado a um organismo (espcie, gnero,


famlia)

n Utiliza

bases de dados de genmas referncia ou base de dados


NT do NCBI.

n Ferramenta
n Valores

70%

de alinhamento.

de identidade para definir o nvel cladstico assinado.


88%

98%

99%
Bacteroides fragilis

Escherichia coli

Assinatura filogentica

n Composio

geral da amostra

n Programa: MEGAN
n Agrupa

multiplos alinhamentos
em um nvel cladstico.

Anlise filogentica
n Qual

clado prevalece na amostra?

n Existe

um perfil filogentico?

n Identificao
n Associao

de marcadores filogenticos.

da presena de um clado a uma determinada


caracterstica.

Anotao funcional
n Avaliar

o potencial gentico da amostra.

n Montagem
n Predio

dos contigs.

dos genes.

n Alinhamento

dos genes preditos a uma base de dados.

Anlise funcional
n Qual

funo est mais presente?

n Existe

alguma funo do seu interesse?

n Montagem
n Rastrear

do mapa metablico do ambiente.

a funo e identificar o organismo que executa.

Visualizao

Você também pode gostar