Montagem RNA-Seq novo

Capítulo 1.
Montagem e Anotação de bancos de RNA-Seq
Vanessa Galli
Objetivos: Apresentar as principais ferramentas para montagem de bancos de RNA-

Seq, utilizando os sistemas operacionais UNIX / Linux e Windows.
Introdução ao RNA-Seq
Manipulações genéticas exigem informações genômicas e transcriptômicas do

modelo biológico de estudo, além da compreensão de vias biossintéticas, controle de
fluxo metabólico, clonagem dos genes que codificam para as enzimas e proteínas
envolvidas nas vias metabólicas de interesse, bem como o desenvolvimento de
marcadores moleculares.
Desta forma, o avanço no sequenciamento de nova geração (next generation

sequencing – NGS) tem permitindo a obtenção de transcritomas de diversos organismos
através do sequenciamento de seus cDNAs (DNA complementar) em uma plataforma
analítica referida como RNA-sequencing (RNA-seq), a qual representa uma excelente
alternativa para obtenção de ESTs (expressed sequencing tags).
Esta metodologia apresenta diversas vantagens, incluindo alto rendimento, baixo

custo, alta sensibilidade, boa reprodutibilidade e a não necessidade de um genoma como
sequência de referência, uma vez que os dados gerados no RNA-seq podem por si só
serem usados para criar sequências montadas, através da metodologia de montagem de
novo. A identificação dos transcritos também pode ser realizada através da montagem
guiada por referência, assunto do próximo capítulo.
Além de permitir a identificação de transcritos, o RNA-seq tem sido comumente

utilizado para detecção dos níveis de expressão dos transcritos identificados, através do
mapeamento de reads aos transcritos oriundos do processo de montagem. Ao contrário
de outras técnicas de expressão gênica, como Microarray ou RT-PCR, o RNA-seq não
necessita uma lista pré-definida dos gene que se deseja detectar. A princípio, qualquer
transcrito que estiver sendo expresso pode ser detectado se o experimento tiver
cobertura suficiente. Assim, mesmo genes desconhecidos podem ser quantificados
quanto ao seu nível de expressão. O RNA-seq apresenta ainda limites superiores e
inferiores de detecção maiores que estas outras plataformas, o que permite a
quantificação mais acurada de transcritos diferencialmente expressos, bem como a
identificação de transcritos pouco abundantes.
Outras aplicações do RNA-seq incluem a detecção de junções exon/exon,

splicing alternativo, isoformas de genes, bem como de novas regiões transcritas em uma
única corrida; identificação da estrutura de genes e mecanismos regulatórios,
interpretação de vias metabólicas e resposta a condições ambientais e a variações
teciduais e temporais, identificação de RNAs não codificantes, tais como microRNAs
(miRNAs), clonagem de genes, desenvolvimento de marcadores moleculares, e
construção do mapa genético e mapeamento físico.
Desta forma, o RNA-seq tem se mostrado uma ferramenta poderosa com uma
infinidade de aplicações, de estudos detalhados de processos biológicos em nível de
células específicas a informações relevantes de questões fundamentais na biologia em
escala evolutiva, representando um recurso robusto para fornecer um grande número de
sequências.
Obtenção de bancos de RNA-Seq
Um dos problemas em manipular RNA é a sua fragilidade. Por isso é preciso

tomar muito cuidado na manipulação da amostra e também é preciso avaliar a sua
qualidade antes de fazer o sequenciamento (utilizando, por exemplo, o BioAnalyzer da
Agilent). Caso a amostra esteja degradada, o resultado é uma taxa muito baixa de reads
mapeados. Outro problema é o RNA Ribossomal, ele corresponde a uma grande
quantidade da massa de RNA de uma célula e, se não for removido da amostra no final,
a maioria dos reads será de RNA ribossomal, o que normalmente não é objetivo do
experimento. É possível utilizar um kit de depleção de RNA Ribossomol, como o
Ribominus (Invitrogen), ou então fazer um enriquecimento para RNA com calda polyA,
como o poly(A) Purist (Invitrogen). Caso haja interesse também em RNAs não
codificantes, como é o caso de miRNAs, é melhor utilizar somente o Ribominus. Caso
contrário, o poly(A) Purist é mais eficiente (alguns grupos utilizam os dois para garantir
a remoção dos ribossomais).
Três plataformas de NGS tem sido majoritariamente utilizados: 454 (Roche),

Solexa Genome Analyzer (Illumina), e SOLID (Applied Biosystems), as quais diferem
na quantidade de reads, no seu tamanho e ainda no tipo de erros gerados. Os dados
gerados por estas plataformas geralmente são apresentados em formato FASTA
(formato texto que contém as sequências dos reads e sua identificação), ou FASTQ
(inclui informações associadas à qualidade do sequenciamento), sendo que estes dados
devem ser processados para a obtenção do transcritoma.
Apesar das vantagens do NGS, a corrida de RNA-seq gera um grande montante

de sequências relativamente pequenas de um determinado transcrito e, desta forma, a
montagem e anotação acurada deste montante de dados é ainda computacionalmente
difícil, podendo gerar vários biases. Apesar disso, diversas ferramentas de
bioinformática foram desenvolvidas, as quais permitem a análise destes
sequenciamentos, incluindo a ferramenta FASTX
(http://hannonlab.cshl.edu/fatx_toolkit/index.html), a qual é utilizada para
processamento dos reads, incluindo retirada de adaptadores e sequências de baixa
qualidade; os softwares Velvet e CLC, os quais são utilizados para montagem de
contigs; Bowtie e SOAP, ferramentas utilizadas para mapeamento de reads no
transcritoma de referência, visando a quantificação dos níveis de expressão. O
melhoramento da técnica através do aumento no tamanho dos reads, do número de reads
por corrida e de ferramentas de bioinformática para facilitar a montagem, análise e
integração de dados irá permitir sua utilização em uma escala ainda maior.
Montagem de novo de bancos de RNA-seq utilizando o software Velvet/Oases
Quando não se tem um genoma de referência, é necessário realizar a montagem

de novo. O processo de montagem de novo é muito mais trabalhoso do que o
mapeamento com referência. É necessário ter uma cobertura muito maior e os
programas de montagem cometem muito mais erros do que os programas de
mapeamento. O pacote Velvet, em associação com o software OASES tem sido
largamente utilizado para montagem de novo de transcritomas utilizando bancos de
RNA-seq. O pacote Velvet contém os subprogramas Velveth e Velvetg, e é baseada na
montagem por grafos de Brujin. O parâmetro mais importante a ser considerado para
execução deste software é o tamanho do Kmer, o qual influencia diretamente na
especificidade e sensibilidade da montagem.
O Velveth estabelece uma tabela hash contendo todas as subsequências

possíveis de acordo com o Kmer estabelecido. Nesta etapa o tamanho do Kmer e o tipo
de read deve ser informado. Velvetg então constrói os grafos de Brujin baseados na
etapa realizada pelo Velveth e remove erros. O Oases deve então ser utilizado para a
finalização da construção efetiva dos contigs, representando os transcritos finais para
análises subsequentes.
Utilizando o software Velvet/Oases
Para montagem de transcritoma com Velvet/OASES, os arquivos de entrada

podem estar nos formatos FASTA ou FASTQ. Caso deseje converter o arquivo FASTQ
em FASTA, você pode utilizar do scritp fq_all2stad.pl, utilizando o comando:
$ perl fq_all2std.pl fq2fa GEK-69.fastq > GEK-69.fasta
Neste caso, ‘fq2fa’ se refere à conversão de um arquivo FASTQ para um arquivo

FASTA; GEK-69.fastq é o arquivo de entrada e GEK-69.fasta o arquivo de saída.
Antes de realizar a etapa de montagem, é aconselhável que as sequências com

caracteres ‘N’, oriundos do sequenciamento, sejam removidos dos bancos de RNA-seq.
Este procedimento pode ser realizado utilizando o script ‘prinseq-lite.pl’, utilizando o
comando:
$ perl prinseq-lite.pl -fasta GEK-69.fasta -out_format 1 -
out_good GEK-69_passed -out_bad GEK-69_filtered -ns_max_n 0
Onde, ‘-fasta’ se refere ao formato do arquivo de entrada; GEK-69.fasta é o
arquivo de entrada; -out_format 1 indica que o formato do arquivo de saída é FASTA; -
out_good GEK-69_passed indica que o arquivo contendo todas as sequencias exceto
aquelas com o caractere ‘N’ deve se chamar GEK-69_passed; -out_bad GEK-
60_filtered indica que o arquivo contendo as sequencias com caractere ‘N’ deve se
chamar GEK-69_filtered; -ns_max_n 0 indica que o máximo de caracteres ‘N’
permitidos no arquivo –out_good é zero.
Após esta etapa de pré-processamento, o software Velvet pode ser instalado

através do gerenciador de pacotes apt com uso da linha de comando:
$ sudo apt-get install velvet
Exemplo da utilização de Velvet/OASES para montagem de novo de

transcritomas utilizando bancos de RNA-seq:
Exemplo para o caso em que o tamanho do Kmer for definido como ‘21
nucleotídeos’, o diretório de saída for ‘kmer-21’ e o banco de RNA-Seq for chamado
‘GEK69.fa’:
$ velveth kmer-21 21 –fastq –short GEK69.fa
Os seguintes parâmetros podem ser incluídos na análise utilizando Velveth:
-strand_specific: para sequenciamentos onde os reads se encontram em um

direcionamento específico (foward ou reverse).
-noHash: quando se deseja preparar as sequências apenas pra hashing.
-reuse_Sequences: para utilizer as sequencias pré-processadas pelo –noHash.
-create_binary: criar arquivo de saída binário do Velveth para acelerar o processamento

do Velvetg.
-interleaved: quando os reads ‘paired-end’ se encontram no mesmo arquivo (default).
-separate: quando os reads ‘paired-end’ estão em arquivos diferentes.
Após a utilização do Velveth, deve-se utilizar o Velvetg. A linha de commando

geral para utilização do Velvetg é a seguinte:
$ velvetg kmer-21 / -min_contig_lgth 200 -cov_cutoff auto -
read_trkg yes
Os seguintes parâmetros podem ser incluídos na análise utilizando Velveth:
-cov_cutoff: exclui nós de baixa cobertura (float | auto).
-max_coverage: exclui contigs com alta cobertura no processo de montagem (float).
-exp_cov: para definer a cobertura esperada no caso de bancos de dados genômicos

padrões (integer | auto).
-min_contig_lgth: tamanho mínimo dos contigs gerados.
-ins_length: para que informe o tamanho em pares de base das sequencias ‘paired-end’.
-ins_length_sd: para que informe o desvio padrão (integer).
-read_trkg: para realizer uma montage mais detalhada (yes | no), usualmente requerido.
-unused_reads: gerar um arquivo de saída com os reads não utilizados na montagem

(yes | no).
-conserveLong: para manter contigs com reads longos neles (yes | no)
Por fim, o OASES é um software utilizado como continuação da montagem

realizada pelo Velvet, requerendo, portanto, o ‘output directory’ gerado pelo Velvet
como ‘input’. Para instalação, baixe oasis.tgz e utilize ‘make’ e ‘make install’. A linha
de comando geral é a seguinte:
$ oases <output_directory>/
Exemplo: oases kmer_21/ -merge –min_trans_lgth 200
Os parâmetros do OASES são os seguintes:

-ins_length: especificar o tamanho dos reads ‘paired-end’ em pares de base.
-cov_cutoff : cobertura minima para o transcrito (int | 3).
-min_pair_count: número mínimo de ‘bridging reads’ para confirmer a distância entre
dois contigs longos (int | 4).
-min_trans_lgth: tamnaho míniomo do transcrito no arquivo de saída (int | 100).
-merge: para realizar a etapa de ‘merge’ e processar um Velvet assembly-of-assemblies.
OASES irá criar um arquivo ‘transcripts.fa’ contendo os transcritos montados.

Usualmente este procedimento é realizado utilizando múltiplos kmers. Ao final deste
procedimento, os arquivos ‘transcripts.fa’ gerados para cada kmer é concatenado,
gerando o arquivo final do transcritoma.
Montagem de novo de bancos de RNA-Seq utilizando o software CLC Genomic

Worbench
O programa CLC Genomic Workbench está disponível para download no site

https://www.qiagenbioinformatics.com/products/clc-genomics-workbench/
Para realizar a montagem de novo, inicialmente deve-se importar o banco de

RNA-seq. O CLC Genomics Workbench lida com um grande número de formatos de
dados, obtidos a partir dos seguintes sistemas de sequenciamento de alto rendimento: o
Sistema 454 de Roche FLX, Genome Analyzer, HiSeq e MiSeq da Illumina, Sistema
Solyd da Applied Biosystems, e Ion Torrent da Life Technologies. Dados de
mapeamento nos formatos SAM/BAM também podem ser importados. Para importar
estes dados basta clicar no botão >Import na barra superior, como mostrado na figura
abaixo:
Para arquivos menores, basta importar utilizando File> Import> Fasta reads file.
O algoritmo de montagem utilizado pelo CLC se baseia na geração de grafos de

Bruijn. A idéia é criar uma tabela de todas as subsequências de um determinado
comprimento (chamadas ‘words’) encontradas nos reads. As ‘words’ são relativamente
pequenas (por exemplo, 20 para bancos de dados pequenos e 27 para os grandes),
seguindo a regra apresentada abaixo:
word size 12: 0 bp - 30000 bp

word size 13: 30001 bp - 90002 bp
word size 14: 90003 bp - 270008 bp
word size 15: 270009 bp - 810026 bp
word size 16: 810027 bp - 2430080 bp
word size 17: 2430081 bp - 7290242 bp
word size 18: 7290243 bp - 21870728 bp
word size 19: 21870729 bp - 65612186 bp
word size 20: 65612187 bp - 196836560 bp
word size 21: 196836561 bp - 590509682 bp
word size 22: 590509683 bp - 1771529048 bp
word size 23: 1771529049 bp - 5314587146 bp
word size 24: 5314587147 bp - 15943761440 bp
word size 25: 15943761441 bp - 47831284322 bp
word size 26: 47831284323 bp - 143493852968 bp
word size 27: 143493852969 bp - 430481558906 bp
word size 28: 430481558907 bp - 1291444676720 bp
word size 29: 1291444676721 bp - 3874334030162 bp
word size 30: 3874334030163 bp - 11623002090488 bp
etc.
Elas são utilizadas para localizar as sequencias vizinhas em potencial, o que é a
base para a formação dos grafos de Bruijn, como mostrado na figura abaixo:
Em geral, apenas um vizinho à direita e um à esquerda é apresentado na tabela,

porém, em alguns casos, como o de presença de SNPs ou erros no sequenciamento
podem gerar as chamadas ‘bolhas’, como mostrado na figura abaixo:
Neste caso, a bolha será colapsada e o montador manterá a sequência que se

encontra em maior número. Se a bolha for muito grande, o software irá quebrar em
vários contigs ao invés de produzir um único. O tamanho máximo da bolha pode ser
definida previamente pelo usuário, sendo aconselhável aumentar este valor para o caso
de sequenciamentos que geram reads longos. O arquivo de saída não é um gráfico e sim
um lista de sequencias contigs. Se um caminho não pode ser totalmente resolvido, são
inseridos caracteres ‘N’.
Assim, a montagem de novo neste software é baseada em duas etapas:
1- Primeiramente, sequencias simples de contigs são geradas utilizando todas as

informações contidas nas sequencias dos reads. Esta é na verdade a etapa ‘de
novo’ do processo. Estes contigs não apresentam nenhuma informação sobre
quais reads foram utilizados para geração dos contigs.
2- Posteriormente, todos os reads são mapeados usando os contigs da etapa 1
como sequencias referência. Isto é feito para mostrar, por exemplo, o nível
de cobertura e permite a realização de outras análises como a detecção de
SNPs e a criação de um arquivo contendo as informações gerais do
mapeamento. Nesta etapa as repetições e erros são removidos.
Para tanto, a montagem é realizada seguindo os caminhos: Toolbox> De novo

sequencing> De novo assembly>. Selecione o arquivo importado e defina os
parâmetros conforme apresentado nas figuras abaixo:
Os parâmetros incluem o tamanho da ‘word’ e o tamanho da bolha (o default

considera 50 pb para reads menores que 110 pb e para reads maiores é a média do
comprimento das reads).
- Em ‘Guidance only reads’, os reads informados nesta etapa não serão utilizados para a
construção dos grafos de Bruijn, apenas para resolver ambiguidades nos grafos.
- Em ‘Minimum contig length’ é possível definir o tamanho mínimo dos contigs que
serão apresentados, sendo 200pb o padrão. Para bancos muito grande é aconselhável
aumentar este valor.
A próxima etapa está apresentada abaixo:

Nesta etapa, parâmetros associados ao mapeamento podem ser configurados.
Na etapa seguinte você pode solicitar que um ‘report’ da montagem seja gerado,
como o apresentado abaixo:
Assim, ao final da montagem, dois arquivos são gerados, um contendo as
sequencias de contigs formadas e outro contendo a descrição destes contigs. Exporte
estes arquivos clicando com o botão direito no nome do arquivo que se encontra à
esquerda na tela. Exporte as sequencias no formato fasta e a o ‘summary report’ em pdf.
Montagem de bancos de RNA-Seq utilizando o software CLC Genomic Worbench

e um genoma de referência
Quando um genoma ou transcritoma está disponível para a espécie em estudo, é

possível importá-los no CLC e utilizá-los como referência para a montagem. Neste caso,
deve-se proceder da seguinte forma: clique me Toolbox> Molecular Biology tools>
sequencing data analysis> Assemble sequences to reference. Isto abrirá uma janela
onde é possível selecionar ou adicionar sequencias para utilização como referência.
Neste caso, você pode montar no máximo 2000 sequencias por vez. Para montar um
número maior de sequências, você deve clicar em: Toolbox> NGS core tools> Map
reads to Reference
Nesta janela são definidos os parâmetros associados à sequencia de referência:
- Include reference sequence in contig(s): Neste caso o arquivo de saída apresentará a

sequencia de referência no topo e os reads alinhados abaixo.
- Only include part of the reference sequence in the contig: Se os reads alinham
apenas uma parte do arquivo contendo as sequencias, é possível especificar as
sequencias que devem ser utilizadas.
- Do not include reference sequence in contig(s): Neste caso, o arquivo de saída não
apresentará a sequencia de referência no topo.
- Conflicts resolved with. Você pode especificar como o software deve lidar no caso de
conflitos, como incluir caracteres ‘N’, nucleotídeos ambíguos, decidir a ordem de
prioridade de nucleotídeos, etc.
Na sequência a seguinte janela aparecerá:

Nesta janela é possível especificar o número mínimo de nucleotídeos em um
read que deve ser alinhado ao contig, para que este não seja excluído da montagem; a
estringência da análise (baixa, média ou alta); a forma de visualização dos contigs
(gráfico ou tabela). Após clicar em Next, a montagem será realizada.
Etapa de anotação utilizando o software BLAST2GO
1- Verifique se o seu computador possui o software BLAST2GO, caso contrário,

instale-o a partir do Google (você terá que fornecer um e-mail para adquirir a
chave necessária para utilizá-lo)
2- Importe o arquivo GEK-69resumido_passed assembly.fasta que você exportou

do CLC, utilizando File> Load> Load sequence (e.g. fasta)
3- Marque apenas quatro sequências, de sua preferência, desta tabela
4- Blast> Run Blast> NCBI> blastx>swissprot

5- Mapping >Run Mapping
6- Annot> Run Annotation
7- Interpro> Run InterProScan
8- Interprot>Merge
9- Annot> Run Annex
10- Analysis> Enzyme code and KEGG> Run
11- Escolha uma das sequencias, clique com o direito > Make graph of GO-
Mapping-results with annotation score – exporte este gráfico
12- Escolha uma das sequencias, clique com o direito > Load KEGG pathway map –
exporte este gráfico
13- Graph>make combined graph – exporte os gráficos gerados
Análise de expressão ‘in silico’ no CLC

1- Importar as sequencias: Import> Standard Import> RNA-Seq Analysis>
seleciona as sequencias ESC-1, Mouse chromosome 7 (gene e mRNA
annotation track).
2- Rodando a análise: Toolbox> Transcriptomics Analysis> RNA-Seq Analysis>
RNA-Seq Analysis
a. Seleciona ESC-1
Utilize como ‘Gene track’, o arquivo ‘Mus_musculus_gene’; como ‘mRNA
track’, o arquivo ‘Mus-musculus_mRNA’. Marque a opção ‘map to gene region only’.
Interpretação dos resultados:
Serão gerados os seguintes arquivos:
Para criar uma tabela de resultados, você deve selecionar todos estes arquivos
usando a tecla Ctrl> clica com direito> new> track list
Duplo clique em ‘ESC-1 (GE), na ‘track list’, abrirá uma tabela que está
conectada com a figura acima.
Assim é possível visualizar os reads individualmente, mapeando o cromossomo

7. Os que aparecem em azul estão mapeando em pares e estão conectados por uma linha
azul. A linha pontilhada indica reads conectados entre junções exon-exon. Reads que
mapearam em apenas uma direção aparecem em verde (forward) ou vermelho (reverse).
Observe a tabela ESC-1 (GE):
Esta tabela contém informações sobre: em qual cromossomo o gene está

localizado (Chromosome), onde está localizado (Region), tamanho do gene (Gene
length), quantos transcritos do arquivo mRNA correspondem a este gene (TRanscripts
annotated), o número de exons no gene (Exons), e seu tamanho acumulado (exon
length).
Se olharmos o gene Ftl1, tem 36.467 fragmentos mapeados nesta região (total
gene reads) e todos mapearam uma única vez nesta região (unique gne reads). 36.276
fragmentos mapearam dentro dos exons neste gene (Total exon reads e Unique exon
reads); 17.624 mapearam nas junções exon-econ (Total exon-exon reds e unique exon-
exon reads); 191 mapearam em introns (Total intrpn-exon reads e unique intron-exon
reads)
o Feature ID. This is the name of the gene.

o Expression values. This is based on the expression measure.
o Transcripts. The number of transcripts based on the mRNA annotations on the
reference. Note that this is not based on the sequencing data - only on the
annotations already on the reference sequence(s).
o Detected transcripts. The number of transcripts which have reads assigned (see
the description of transcript-level expression below).
o Exon length. The total length of all exons (not all transcripts).
o Unique gene reads. This is the number of reads that match uniquely to the gene.
o Total gene reads. This is all the reads that are mapped to this gene -- both reads
that map uniquely to the gene and reads that matched to more positions in the
reference (but fewer than the 'Maximum number of hits for a read' parameter)
which were assigned to this gene.
o Unique exon reads. The number of reads that match uniquely to the exons
(including the exon-exon and exon-intron junctions).
o Total exon reads. Number of reads mapped to this gene that fall entirely within
an exon or in exon-exon or exon-intron junctions. As for the 'Total gene reads'
this includes both uniquely mapped reads and reads with multiple matches that
were assigned to an exon of this gene.
o Unique exon-exon reads. Reads that uniquely match across an exon-exon
junction of the gene. The read is only counted once even though it covers several
exons.
o Total exon-exon reads. Reads that match across an exon-exon junction of the
gene. As for the 'Total gene reads' this includes both uniquely mapped reads and
reads with multiple matches that were assigned to an exon-exon junction of this
gene.
o Unique intron-exon reads. Reads that uniquely map across an exon-intron
boundary. If you have many of these reads, it could indicate that a number of
splice variants are not annotated on your reference.
o Total intron-exon reads. Reads that map across an exon-intron boundary. As
for the 'Total gene reads' this includes both uniquely mapped reads and reads
with multiple matches that were assigned to an exon-intron junction of this gene.
If you have many of these reads, it could indicate that a number of splice
variants are not annotated on your reference.
o Exons. The number of exons based on the mRNA annotations on the reference.
Note that this is not based on the sequencing data - only on the annotations
already on the reference sequence(s).
o Putative exons. The number of new exons discovered during the analysis.
o RPKM. This is the expression value measured in RPKM
.
o Median coverage. This is the median coverage for all exons (for all reads - not
only the unique ones). Reads spanning exon-exon boundaries are not included.
o Chromosome region start. Start position of the annotated gene.
o Chromosome region end. End position of the annotated gene.
Análise estatística da expressão diferencial no CLC

Vamos avaliar a diferença de expressão entre os bancos ESC (duas amostras de
células tronco embrionárias de camundongos) e NPC (duas amostras de células
precursoras neurais de camundongos). Primeiramente é necessário definir os grupos
experimentais:
Esta análise irá gerar os arquivos abaixo:
Agora vamos fazer a análise de expressão utilizando os bancos contendo as

sequências de genes (GE) ou transcritos (TE):
Selecionar ESC-1 (GE), ESC-2 (GE), NPC-1 (GE) e NPC-2 (GE)

Salve identificando como GE e faça o mesmo para os transcritos (arquivos com
identificação TE), assinalando a opção Transcripts: total transcript reads, salvando como
TE
Agora crie uma ‘track list’ contendo os 4 arquivos GE, os quatro arquivos TE, os
4 arquivos de reads.
Na pasta ESC vs NPC (GE), abra o arquivo e localize o gene Rps15a. Selecione
o gene e na ‘track list’ clique em ‘zoom-to-selection’, para visualizar a diferença de
expressão (quantos reads mapeiam em cada banco de dados). Para verificar se esta
diferença é estatisticamente significativa, podemos realizar uma “Análise empírica de
DGE’:
Mantenha os parâmetros de dispersão padrões, e na janela seguinte marque FDR.
No mesmo arquivo ESC vs. NPC (GE) serão incluídas algumas colunas na
tabela referentes à análise estatística, com o nome de ‘ EDGE tesst: ESC vs NPC,
tagwise dispersions’. Filtre utilizando fold change > 1.5 e FDR < 0.001.
Agora clique no ‘volcano plot’ segurando a tecla ‘ctrl’. Conforme clicar em um
dos genes, ele aparecerá marcado em vermelho no gráfico.
Agora vamos gerar um painel hierárquico:
Toolbox> Transcriptomic analysis> Feature clustering> Hierariquical...

Etapa de análise de expressão ‘in silico’ utilizando a ferramenta MeV
1- Abra e execute a ferramenta MeV
2- Importe o arquivo ascorbate_MeV_name_relative, utilizando File>Load data, e

corra a análise
OBS: exporte a figura gerada e aproveite para realizar outras análises de

interesse, explorando as abas da ferramenta

Montagem RNA-Seq novo

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Montagem RNA-Seq novo

Enviado por

Direitos autorais:

Formatos disponíveis

Capítulo 1.

Montagem e Anotação de bancos de RNA-Seq

Objetivos: Apresentar as principais ferramentas para montagem de bancos de RNA-

Manipulações genéticas exigem informações genômicas e transcriptômicas do

Desta forma, o avanço no sequenciamento de nova geração (next generation

Esta metodologia apresenta diversas vantagens, incluindo alto rendimento, baixo

Além de permitir a identificação de transcritos, o RNA-seq tem sido comumente

Outras aplicações do RNA-seq incluem a detecção de junções exon/exon,

Obtenção de bancos de RNA-Seq

Um dos problemas em manipular RNA é a sua fragilidade. Por isso é preciso

Três plataformas de NGS tem sido majoritariamente utilizados: 454 (Roche),

Apesar das vantagens do NGS, a corrida de RNA-seq gera um grande montante

Montagem de novo de bancos de RNA-seq utilizando o software Velvet/Oases

Quando não se tem um genoma de referência, é necessário realizar a montagem

O Velveth estabelece uma tabela hash contendo todas as subsequências

Utilizando o software Velvet/Oases

Para montagem de transcritoma com Velvet/OASES, os arquivos de entrada

Neste caso, ‘fq2fa’ se refere à conversão de um arquivo FASTQ para um arquivo

Antes de realizar a etapa de montagem, é aconselhável que as sequências com

Após esta etapa de pré-processamento, o software Velvet pode ser instalado

Exemplo da utilização de Velvet/OASES para montagem de novo de

$ velveth kmer-21 21 –fastq –short GEK69.fa

Os seguintes parâmetros podem ser incluídos na análise utilizando Velveth:

-strand_specific: para sequenciamentos onde os reads se encontram em um

-noHash: quando se deseja preparar as sequências apenas pra hashing.

-reuse_Sequences: para utilizer as sequencias pré-processadas pelo –noHash.

-create_binary: criar arquivo de saída binário do Velveth para acelerar o processamento

-interleaved: quando os reads ‘paired-end’ se encontram no mesmo arquivo (default).

-separate: quando os reads ‘paired-end’ estão em arquivos diferentes.

Após a utilização do Velveth, deve-se utilizar o Velvetg. A linha de commando

Os seguintes parâmetros podem ser incluídos na análise utilizando Velveth:

-cov_cutoff: exclui nós de baixa cobertura (float | auto).

-max_coverage: exclui contigs com alta cobertura no processo de montagem (float).

-exp_cov: para definer a cobertura esperada no caso de bancos de dados genômicos

-min_contig_lgth: tamanho mínimo dos contigs gerados.

-ins_length_sd: para que informe o desvio padrão (integer).

-unused_reads: gerar um arquivo de saída com os reads não utilizados na montagem

Por fim, o OASES é um software utilizado como continuação da montagem

Exemplo: oases kmer_21/ -merge –min_trans_lgth 200

Os parâmetros do OASES são os seguintes:

OASES irá criar um arquivo ‘transcripts.fa’ contendo os transcritos montados.

Montagem de novo de bancos de RNA-Seq utilizando o software CLC Genomic

O programa CLC Genomic Workbench está disponível para download no site

Para realizar a montagem de novo, inicialmente deve-se importar o banco de

O algoritmo de montagem utilizado pelo CLC se baseia na geração de grafos de

word size 12: 0 bp - 30000 bp

Em geral, apenas um vizinho à direita e um à esquerda é apresentado na tabela,

Neste caso, a bolha será colapsada e o montador manterá a sequência que se

Assim, a montagem de novo neste software é baseada em duas etapas:

1- Primeiramente, sequencias simples de contigs são geradas utilizando todas as

Para tanto, a montagem é realizada seguindo os caminhos: Toolbox> De novo

Os parâmetros incluem o tamanho da ‘word’ e o tamanho da bolha (o default

A próxima etapa está apresentada abaixo:

Montagem de bancos de RNA-Seq utilizando o software CLC Genomic Worbench

Quando um genoma ou transcritoma está disponível para a espécie em estudo, é

Nesta janela são definidos os parâmetros associados à sequencia de referência:

- Include reference sequence in contig(s): Neste caso o arquivo de saída apresentará a

Na sequência a seguinte janela aparecerá:

Etapa de anotação utilizando o software BLAST2GO

1- Verifique se o seu computador possui o software BLAST2GO, caso contrário,

2- Importe o arquivo GEK-69resumido_passed assembly.fasta que você exportou

3- Marque apenas quatro sequências, de sua preferência, desta tabela

4- Blast> Run Blast> NCBI> blastx>swissprot