Escolar Documentos
Profissional Documentos
Cultura Documentos
Aplicabilidade de Softwares em
Nutrigenômica Ciências Ômicas
Análises Genômicas
UFBA
Genômica
Fenômica
(RNA-Seq)
RNAs
Dra. Larissa Fernanda Simielli Fonseca
Zootecnista
Pós-doutoranda FCAV/UNESP
PPG Genética e Melhoramento Animal Epigenômica
1
3/9/2021
• Splincing 3’ é clivado
2
3/9/2021
Como Sequenciar?
• Sequenciamento de Primeira Geração (CLONAGEM)
• Degradação química – Maxam & Gilbert
Sequenciamento
Ion Torrent PCR em Emulsão 400 pb 10 Gb 98%
por síntese
Illumina Ion Torrent
3
3/9/2021
Etapas
• Sequenciamento
Illumina
• HiScan SQ: Híbrido (Sequenciamento e
Genotipagem)
• HiSeq: sequenciamento em alta escala
• MiSeq: sistema de pequena capacidade
4
3/9/2021
Metodologia Illumina
Single Read
Flow Cell
5’ 3’
• Passos:
3’ 5’
1) Isolamento do RNA mensageiro, montagem
Paired-end
das bibliotecas de cDNA e ligação dos adaptadores
5’ 3’
3’ 5’
2) Clusterização das bibliotecas de cDNA na
Lanes
flow cell
Validação
• Bioanalyzer: bibliotecas com 260 pb
5
3/9/2021
Ion Chef
6
3/9/2021
7
3/9/2021
8
3/9/2021
Alinhamento com o
Teste estatístico Teste-T Teste Exato de Fisher Teste Exato de Fisher • No seu próprio servidor
Estimação dos – Linux
FPKM Contagem das reads Contagem das reads
Transcritos • Instalar programas
• Memória mínima
Normalização dos Log2 (Expressão Média Aparada dos
Dados
Log2(FPKM)
Reativa) Valores de M necessária: 64 Gb RAM
Máxima
Método dos
Dispersão -
Momentos
Verossimilhança
Condicional
9
3/9/2021
Plataforma CyVerse
• Criar login para acesso
Cuffdiff – genes DE
• Cufflinks:
– mapeamento dos transcritos
– Cálculo de FPKM
• Cuffmerge
– Concatena todos os arquivos em um único
transcritoma que será usado como referência
10
3/9/2021
Scripts
• Limpeza dos dados
– Preprocess4
• Atropos (sequências de baixa qualidade e adaptadores)
• Prinseq (filtrar, reformatar e trimar sequências)
• Alinhamento
– rnaseq.sh
• 4 opções: 2 alinhadores (TopHat ou Star)
2 mapeadores (stringtie ou cufflinks)
Resultados
• Cuffmerge: fusão dos arquivos gtf para referência
• CuffCompare: comparar transcritos quando não há transcriptoma de referência
• Cuffquant: calcula os perfis de expressão de gene e transcrição e salva esses perfis
em arquivos que você pode analisar posteriormente com Cuffdiff ou Cuffnorm
(economizar RAM)
• Cuffnorm: “Nível extra de normalização” além do FPKM necessário em algumas
situações
• Cuffdiff: comparar a regulação para cima ou para baixo entre duas ou mais
condições
Trimming
Relatório fastqc @HISEQ:68_ACAGTG_L007
• fastqc SAMPLEA1_R1.fastq ATCCTCTGCACGCTCCAGGTCACTCTCAATGATGACCAGCTTACGGGCCACCTCTTCATACTTG
+
FBBBFFFFFFFFFFIIIIIFFIIIIIIFIIIIIIFIIIIIBFIIFFIFIIIFFFIFFFFIIIFFFFFFFFFFFFFFFFFFFFBBFBBF
Pré - processamento
Pós – processamento
Trimming
11
3/9/2021
Alinhamentos
Left reads:
Input: 37254261
• Cufflinks:
Mapped: 33866989 (90.9% of input) – mapeamento dos transcritos
of these: 3617188 (10.7%) have multiple alignments (16714 have >20) – Cálculo de FPKM
Right reads:
Input: 37254261 – Arquivo .gtf
Mapped: 32620511 (87.6% of input)
of these: 3314291 (10.2%) have multiple alignments (17119 have >20)
89.2% overall read alignment rate. • Cuffmerge
– Concatena todos os arquivos em um único
Aligned pairs: 31432574
transcritoma que será usado como referência
of these: 2488072 ( 7.9%) have multiple alignments
and: 282210 ( 0.9%) are discordant alignments – Grande arquivo .gtf formado a partir das saídas do
83.6% concordant pair alignment rate. Cufflinks
cummeRbund (ambiente R)
Genes DE Exploração dos Dados
a bb
Macia Dura
(a) Boxplot do log10 do FPKM dos valores de expressão para os 2 grupos avaliados
(b) Análise de componente principal (PCA) entre os 2 grupos avaliados
Na prática…
DeSeq e edgeR
até o alinhamento, seguimos da mesma forma...
12
3/9/2021
No R – script edgeR
## Set up table as needed
• Utiliza dados de contagem das reads
rcount1 <- rcount[,c(6:25)]
names(rcount1) <-
• Normalização realizada dentro dos programas
c("HRFI0","HRFI1","HRFI2","HRFI3","HRFI4","HRFI5","HRFI6","HRFI7","HRFI8","HRFI9","LRFI0","L
RFI1","LRFI2","LRFI3","LRFI4","LRFI5","LRFI6","LRFI7","LRFI8","LRFI9")
• Gráficos de dispersão
– DeSeq:
## Selecting only the animals classified for the traits
x <- rcount1[,c (1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20)]
• Log2 (Expressão Reativa)
• Método dos Momentos
# Assign condition (first four are controls, second four contain the expansion)
trt <-
factor(c("HRFI","HRFI","HRFI","HRFI","HRFI","HRFI","HRFI","HRFI","HRFI","HRFI","LRFI","LRFI","LR
FI","LRFI","LRFI","LRFI","LRFI","LRFI","LRFI","LRFI"))
– edgeR:
• Média Aparada dos Valores de M
data.frame(sample=colnames(x), trt) • Máxima Verossimilhança Condicional
design <- model.matrix(~0+trt)
design
edgeR output
Gráficos de Dispersão Files:
• de-list-edger.tsv: Tabela de resultados de testes estatísticos, incluindo
estimativas de foldchange e valores p
• logFC = log2 foldchange entre os grupos. Por exemplo. valor 2 significa
que a expressão aumentou 4 vezes
• logCPM = a média de log2 contagens por milhão
• PValue = valor p
• FDR = valor p ajustado
13
3/9/2021
Aplicabilidade de Softwares em
Análises Genômicas
UFBA
Análises práticas de transcriptoma (RNA-Seq)
Obrigada!!!
14