Você está na página 1de 6

Bioinformática

Sala: LIG, UFRJ


Prof. Douglas Terra Machado - UFRJ
Email: dougterra@gmail.com

Nome: Maria Eduarda Araujo de Oliveira


Data: 07.05
Curso: Biotecnologia

--------------------------------------------------------------
Observação:
O envio desse roteiro deve ser em formato PDF e o nome do
arquivo deve estar como:
SEU_NOME_E_SOBRENOME_CURSO_DATA_ESTUDO_DIRIGIDO_AULA03_MONTAGE
M_DE_GENOMAS
--------------------------------------------------------------
Disciplina Bioinformática UFRJ, campus Duque de Caxias
Prof. Douglas Terra Machado

Estudo Dirigido Bioinformática


Módulo: Montagem de Genomas

1. Diferencie o sequenciamento de primeira, segunda e


terceira geração.
R.: O sequenciamento de primeira geração é baseado na
tecnologia Sanger, que permite a leitura de um único
fragmento de DNA por vez.
Já o sequenciamento de segunda geração é baseado em
tecnologias como Illumina e Roche 454, que permitem a
leitura de milhões de fragmentos de DNA simultaneamente,
mas com menor precisão.
O sequenciamento de terceira geração, como o PacBio e
Oxford Nanopore, permite a leitura de longos fragmentos
de DNA em tempo real, o que ajuda a resolver problemas de
montagem de genomas complexos e modificações no DNA.

2. Qual a diferença entre o sequenciamento single-end e


paired-end?
R.: Os dois se tratam de abordagens que geram dados para o
sequenciamento de DNA ou RNA, mas agem de formas
diferentes. No single-end, só é sequenciado 1 fragmento
de DNA ou RNA por meio de uma única extremidade. Já no
paired-end, 2 fragmentos de DNA ou RNA são sequenciados a
partir de ambas as extremidades (5' e 3'). Para resumir,
no primeiro apenas uma sequência é gerada para cada
fragmento de DNA ou RNA, enquanto no segundo, duas
sequências são geradas para cada fragmento. Além disso, o
paired-end possui algumas vantagens em relação ao single-
end, como maior precisão de montagem do genoma e de
detecção de variações genéticas, e a possibilidade de
detecção de eventos de splicing alternativos, mas é mais
caro e precisa de mais recursos.

3. Por que o FASTQC é tão importante na análise de controle


de qualidade após o sequenciamento?
R.: Isso se dá por algumas razões, tais como: A maior
capacidade de identificação de problemas técnicos comuns,
uma melhor precisão de análise e de interpretação dos
resultados, além da padronização do controle de qualidade
que tornam os resultados mais comparáveis entre
diferentes conjuntos de dados e laboratórios.

1
Disciplina Bioinformática UFRJ, campus Duque de Caxias
Prof. Douglas Terra Machado

4. Qual o significado de read (leitura) oriunda do


sequenciamento?
R.: Uma sequência de nucleotídeos que foi gerada a partir
do processo de sequenciamento. Cada read é uma
representação de um fragmento de DNA ou RNA que foi
sequenciado em um sequenciador da próxima geração (NGS).

5. Suponha que você alinhou suas reads contra um genoma de


referência e, ao analisar a montagem, você percebeu que
existem regiões com baixas coberturas. Por que essas
regiões não são confiáveis no resultado do alinhamento?
R.: Porque a falta de cobertura pode ser um sinal de que a
região não foi sequenciada com profundidade suficiente
para garantir a precisão da leitura, isso pode afetar a
precisão e a confiabilidade dos resultados do controlado,
especialmente em análises que dependem de uma cobertura
consistente em todo o genoma ou transcriptoma.

6. Diferencie montagem de genomas com base em genoma de


referência da montagem de genomas de novo.
R.: A principal diferença entre a montagem com base em
genoma de referência e montagem de novo é que a primeira
usa uma sequência de genoma de referência conhecida para
orientar e preencher lacunas na montagem, enquanto a
segunda não depende de um genoma de referência e pode ser
usado para gerar um genoma completo para organismos que
ainda não têm um genoma de referência disponível.

7. Como os contigs são formados? Como eles podem ser usados


para formar os scaffolds?
R.: Os contigs são formadas durante o processo de montagem
de reads de sequenciamento. O processo de montagem de
contigs envolve o controlado dos reads para encontrar
regiões de sobreposição, seguido da sobreposição dos
reads para formar sequências de DNA contínuas e não
quebradas. Os scaffolds são sequências de DNA contínuas
que são geradas a partir da ligação de contigs
adjacentes. Isso é feito usando informações de pares de
reads, que conectam dois contigs próximos no genoma. Os
pares de reads consistem em reads pareados que se
originam de uma mesma molécula de DNA, mas que estão
localizados em regiões distintas do genoma.

2
Disciplina Bioinformática UFRJ, campus Duque de Caxias
Prof. Douglas Terra Machado

8. Defina um grafo do ponto de vista matemático. Coloque


aqui um exemplo de grafo e identifique os vértices e
arestas.
R.: Um exemplo simples de grafo é um grafo não
direcionado com 4 vértices (A, B, C e D) e 4 arestas,
conforme ilustrado abaixo:

A ------ B
| |
| |
C ------ D

Neste exemplo, o conjunto de vértices V = {A, B, C, D} e


o conjunto de arestas E = {(A,B), (A,C), (B,D), (C,D)}.
As arestas podem ser representadas por pares ordenados de
vértices, onde (A,B) representa uma aresta que conecta A
e B. Neste caso, o gráfico não é direcionado, o que
significa que a conexão é bidirecional e pode ser
percorrida em ambas as direcções.

9. O que são k-mers? Cite três exemplos.


R.: K-mer é uma sequência de nucleotídeos de comprimento k
que é extraída de uma sequência de DNA ou RNA.
1. O k-mer "TTAGCGCTA" é um exemplo de um k-mer de
comprimento 9.
2. O k-mer "AGCTGTTAGGCT" é um exemplo de um k-mer de
comprimento 12.
3. O k-mer "GATCACAGGTCTATC" é um exemplo de um k-mer de
comprimento 15.

10. Explique dois desafios na montagem de genomas.


R.: Dois dos principais desafios são: Cobertura desigual
de sequências e as sequências repetitivas. Enquanto no
primeiro, a cobertura desigual pode levar a lacunas na
montagem do genoma e dificultar a reconstrução de regiões
do genoma que têm uma cobertura baixa ou nula, no
segundo, as regiões repetitivas do genoma podem
dificultar a montagem, pois os algoritmos de montagem
podem ter dificuldade em distinguir entre diferentes
cópias da mesma sequência.

11. Qual a relação do número total de contigs/scaffolds


em relação à qualidade de um genoma montado?

3
Disciplina Bioinformática UFRJ, campus Duque de Caxias
Prof. Douglas Terra Machado

R.: Pode ser usado como uma métrica para avaliar a


qualidade da montagem. Idealmente, um genoma montado de
alta qualidade terá um número reduzido de
contigs/scaffolds, com cada um deles representando uma
sequência maior e mais contígua do genoma. Por outro
lado, um genoma montado de baixa qualidade terá um grande
número de contigs/scaffolds, que representam sequências
menores e fragmentadas do genoma.

12. O que são as métricas N50 e L50? Explique com suas


palavras como calcular esses valores.
R.: As métricas N50 e L50 são usadas para avaliar a
qualidade de uma montagem de genoma. A métrica N50 é uma
medida de comprimento médio dos contigs/scaffolds,
enquanto a métrica L50 é uma medida do número de
contigs/scaffolds necessários para representar 50% do
genoma. Para calcular a métrica N50, os contigs/scaffolds
são organizados em ordem decrescente de tamanho e seus
comprimentos são somados até que a soma alcance 50% do
tamanho total do genoma. O comprimento do último
contig/scaffold incluído nessa soma é o valor da métrica
N50. Já a métrica L50 é o número mínimo de
contigs/scaffolds necessários para representar 50% do
tamanho do genoma. Essa métrica é ordenando os
contigs/scaffolds em ordem decrescente de tamanho e
somando o número de contigs/scaffolds necessário para
atingir 50% do tamanho total do genoma.

13. Diferencie: par de base, kilobase, megabase,


gigabase.
R.: Par de base: é a unidade mais básica de medida do
tamanho de sequências de DNA. Refere-se ao tamanho de um
par de bases complementares (AT ou CG).
Kilobase (kb): é uma unidade de medida que representa
1000 pares de base. É comumente usado para descrever o
tamanho de genes, plasmídeos e pequenos genomas.
Megabase (Mb): é uma unidade de medida que representa 1
milhão de pares de base. É comumente usado para descrever
o tamanho de genomas bacterianos e eucarióticos.
Gigabase (Gb): é uma unidade de medida que representa 1
bilhão de pares de base. É comumente usado para descrever
o tamanho de genomas de organismos complexos, como
plantas e animais

4
Disciplina Bioinformática UFRJ, campus Duque de Caxias
Prof. Douglas Terra Machado

14. Dados os tamanhos dos contigs em kilobases abaixo,


responda:

Contig01 = 6
Contig02 = 2
Contig03 = 15
Contig04 = 21
Contig05 = 23
Contig06 = 7

a. Qual o tamanho da sequência montada considerando


todos os contigs?
R.: 6 + 2 + 15 + 21 + 23 + 7 = 74 KB

b. Qual o tamanho da metade da sequência montada?


R.:74 KB/2: 37 KB

c. Calcule N50 e L50, o que os valores obtidos indicam


acerca da montagem desse genoma?
R.: Contig05 = 23 kb Contig04 = 21 kb Contig03 = 15
kb Contig06 = 7 kb Contig01 = 6 kb Contig02 = 2 kb

L50 = 3 (Contig05 + Contig04 + Contig03 = 59 kb)

N50 = 21 kb (Contig04)

A montagem desse genoma apresenta boa qualidade. O


valor de N50 indica que há contigs relativamente
grandes na montagem, enquanto o valor de L50 indica
que há poucos contigs grandes o suficiente para
compor metade da sequência total

Você também pode gostar