Você está na página 1de 15

Índice

FASTQ 04

BAM/SAM 06

VCF 09

BED 12

CONCLUSÃO 14

Tempo estimado de leitura: 7 minutos


Introdução

Com o desenvolvimento do
sequenciada, como variações

sequenciamento de amostras e mutações, essas informações

biológicas foi necessária 
 estarão em arquivos VCFs, e 


a criação de arquivos o arquivo BED dará as

específicos para armazenar, coordenadas das posições

analisar e transferir toda desejadas para a análise 


informação gerada.

(ex.: cromossomos, genes,

transcritos, etc).

Quando uma amostra é

sequenciada, as sequências Muitos outros formatos de

de bases geradas (também arquivos estão presentes no dia

chamadas de reads) são a dia de um profissional que

armazenadas em arquivos atua nessa área, entretanto,

FASTQ. Já quando esses reads esses podem ser considerados

são alinhados contra uma a base para se entender um

referência genômica, as pouco mais sobre esse

informações desse universo.

alinhamento ficam em

arquivos BAM/SAM.

Então, vamos aprender um

pouco mais sobre esses

Caso o foco do arquivos?

sequenciamento seja saber 


as diferenças entre o genoma

de referência e a amostra
O que é FASTQ?

FASTQ é um tipo de arquivo utilizado


para representar sequências de DNA
por bases nitrogenadas, e suas
devidas pontuações de qualidade.

Ele é resultante da conversão das informações geradas pela


tecnologia de sequenciamento utilizada em dados com
informações biológicas (ex.: Illumina utiliza análise de imagens,
enquanto o Thermo Fisher utiliza a concentração de H+ liberado
durante uma reação de síntese).

Estrutura do FastQ

@BLABLA:123:BLEBLE:456:789:101112 (1)

ACTGACTGACTGACTGACTGACTGACTGACTGACTG (2)

+ (3)

JJJJIIIJJJJHIHICEEEFF?DACCCCHIIFFFEE (4)

(1) Contém a informação do identificador da sequência (geralmente, é o


nome do read). Inicia-se com “@”.

(2) Contém a informação da sequência de bases.

(3) A linha exclusiva iniciada por “+” indica o fim da sequência de bases e
o início das informações de qualidade na próxima linha, atuando como
um delimitador de informações.

(4) Contém as informações de qualidade para cada base representada


em (2) Essa qualidade está expressa em codificação ASCII, e pode alterar
de acordo com a versão e/ou da tecnologia utilizada.
Os pares de reads apresentam o mesmo identificador de
sequência acrescido de um indicador numérico relativo ao
sentido do read (forward ou reverse).

Essa numeração pode ser diferente de acordo com a


tecnologia utilizada e/ou programa de conversão utilizado
para a obtenção do FASTQ.

! “#$%&’ ()*+, -. /0123456789 : ; <=>?@ABCDEFGHI



| | | | | | |

0 . . . . 5 . . . 10 . . . 15 . . . 20 . . . 25 . . . 30 . . . 35 . . . 40

| | | | | | |

worst . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . best

@Nome_do_readA /1

@Nome_do_readA /2

GATCACCGACAAGTACCGCGCCG
GTCCAGGATCGGCTCGATGATCG

+
+

CDA@EEGGIGIIEHIKKBKKKKKKH DAAEEGEGI=IIGKBHCKKJKIKKKC

@Nome_do_readB 1 : N : 0 : 1

@Nome_do_readB 2 : N : 0 : 1

GATCACCGACAAGTACCGCGCCG
GTCCAGGATCGGCTCGATGATCG

+
+

CDA@EEGGIGIIEHIKKBKKKKKKH DAAEEGEGI=IIGKBHCKKJKIKKKC
O que é um aquivo
SAM/BAM?
Enquanto o arquivo SAM é um formato em texto, o
arquivo BAM é sua representação binária.

As informações geradas pelo o que comprime as


processo de mapeamento/ informações do alinhamento
alinhamento dos reads contra em arquivos menores.

a sequência de referência são


armazenadas em arquivos Estrutura básica 

conhecidos como Sequence do SAM/BAM 


Alignment Map (SAM).

Exibiremos aqui algumas


Os arquivos SAM são unidades básicas de um
baseados em texto e neles é arquivo SAM/BAM. De uma
possível obter informações forma geral, o arquivo SAM
em formato texto como: possui 2 principais partes: o
posição do alinhamento dos cabeçalho e a sessão de
reads, a qualidade do alinhamento. Ambas as partes
mapeamento (MAQ), nome podem conter pequenas
dos reads e o das sequências variações de acordo com o
referências os quais foram montador e a versão do
alinhados, ou mesmo tornar formato SAM utilizado.

possível o cálculo da distância


entre os pares de reads, etc.

Para informações mais


detalhadas sobre essa
Enquanto o arquivo SAM é um estrutura, o manual do
formato em texto, o arquivo formato SAM/BAM deve ser
BAM (Binary Alignment Map) consultado clique e confira.
é sua representação binária,
Cabeçalho (header)

As linhas do header iniciam-se com “@”

@HD VN:1.3 SO:coordinate

@SQ SN:chrK LN:90354753

@RG ID:Varstation LB:Lib_01 SM:sample_Var PL:ILLUMINA

@PG ID:bwa PN:bwa VN:0.7.13-r1126 CL:bwa mem genome_reference.fa


R1.fastq R2.fastq

Dado o exemplo de header acima:

@HD - Primeira linha do header. Pode conter a versão do arquivo SAM utilizado
(SN), como o alinhamento está ordenado (SO), etc.

@SQ - Exibe a sequência referência, contendo o tamanho da sequência (LN), etc.

@RG - Indica o conjunto de reads geradas a partir de uma única corrida de


sequenciamento. Pode indicar a Biblioteca utilizada (LB), o dado da sua amostra
(SM) e a tecnologia de sequenciamento (PL), etc. Pode apresentar mais de um
“@RG” caso tenha mais de uma amostra, ou reads com diferentes bibliotecas e/ou
sequenciador, etc.

@PG - Retorna o programa utilizado para gerar o arquivo SAM/BAM, juntamente


com o comando de alinhamento.
Alinhamento

Os arquivos SAM possuem as 



11 primeiras colunas como obrigatórias.

As colunas seguintes são consideradas metadados e podem variar de acordo


com o alinhador utilizado. No exemplo abaixo, as colunas obrigatórias estão
indicadas pelos tons de azul, enquanto os metadados em verde.

3. Informações específicas sobre o alinhamento do read.

O primeiro número indica o sam FLAG (clique e confira), enquanto o segundo indica o CIGAR,

uma representação compacta do read alinhado. No exemplo encontramos o valor de

22S12M2D52M65S que indica que o dado read possui 22 bases que foram ignoradas no

alinhamento (soft trimming), 12 bases idênticas com a referência, 2 bases deletadas, 52

bases identicas e 65 bases ignoradas no alinhamento. A soma dos valores do CIGAR é igual

ao tamanho do read.

1. Nome do read. 2. Nome da referência

em que o read alinhou.

TEK15:11:0:1:8415 163 chrK 965512 33 22S12M2D52M65S

= 965567 185 TTGAGTGC BBBABFFH NM/MD/AS/etc

4. Referente ao par do dado read, em 5. Em ordem, é a 6. Metadados, onde

ordem, (1) se está alinhado na mesma sequência de bases podemos encontrar o

referência (=) ou em outra (nome da do read seguido da número de mismatchs.

referência), (2) a posição de alinhamento qualidade.

do par e (3) a quantidade de bases

alinhadas na referência.

Bibliografia:

https://samtools.github.io/hts-specs/SAMv1.pdf
O que é um

arquivo VCF?

Quando se estuda as variações genéticas de um

organismo, as variantes identificadas são armazenadas

em arquivos VCF (Variant Call Format).

Esse tipo de arquivo é de formato texto e nele podemos encontrar

variantes do tipo SNP, Indels ou mesmo variantes estruturais maiores, 


em conjunto com anotações adicionais [1].

Os arquivos VCF podem variar de acordo com a versão utilizada pelos

chamadores de variantes, logo, iremos focar nos aspectos gerais desse

arquivo. Para maiores detalhes deste arquivo, o manual do formato

deverá ser consultado [2].

Como é um arquivo VCF?

O formato VCF é um arquivo tabular, formado por 3 principais partes: 


(1) cabeçalho de metadados, (2) cabeçalho e linhas contendo os dados

e suas devidas anotações (3).

3
1.

Esse cabeçalho inicia-se com dupla marcação hash (##). Sua primeira

linha “fileformat” é obrigatória e indica a versão do VCF em que os dados

foram armazenados. As linhas restantes são opcionais, porém, são

responsáveis por disponibilizar informações sobre os dados na sessão (3).

2.
O cabeçalho das colunas inicia-se por apenas um hash (#). As primeiras

8 colunas são obrigatórias em qualquer versão do VCF (CHROM até INFO).

Caso o VCF reporte a genotipagem da variante, a coluna FORMAT irá

aparecer, seguido por uma coluna que indica os seus valores para cada

amostra (nesse caso, a amostra NA0001). Caso o VCF seja de múltiplas

amostras, múltiplas colunas iriam aparecer em seguida.


Em resumo:

CHROM: Nome referência (pode ser um scaffold / fragmento).

POS: Posição na referência em que foi achado a variante.

ID: Caso a variante tenha sido anotada no dbSNP (em caso de humano),

sua identificação estará aqui.

REF/ALT: A(s) base(s) da referência na posição indicada / A(s) base(s) que

foram alteradas.

QUAL: Índice de qualidade da variante, varia para cada programa. Quanto

maior, mais confiável.

FILTER: Se a variável chamada passou nos requisitos de qualidade do

programa.

INFO: Informações relevantes como número de reads na posição 


(muitas vezes os programas podem desconsiderar reads alinhados de

baixa qualidade), frequência do alelo, contagem dos alelos, entre outros [2].

3.

Nessa parte encontraremos as informações de cada variante encontrada

na(s) amostra(s). Cada linha indica uma variante distinta, na maioria dos

casos. Baseado na primeira linha de dados, a variante em questão seria

chr20:14370G>A.
O que é um arquivo
com formato BED?
O formato BED (Browser Extensible Data) é uma forma
flexível e simples de representar regiões genômicas.

Esse formato é baseado em sendo utilizado amplamente para


linhas, delimitado por tabulações, representar repetições no
designado para anotações de genoma, isoformas de proteínas,
informações sobre o dado regiões ORF ou mesmo regiões de
genômico.

ligação de fatores de transcrição.

Como o arquivo BED pode ser Para a manipulação de um


utilizado em um estudo?
arquivo BED, destaca-se o
Além de ser um bom formato programa Bedtools.

para armazenar diferentes tipos


de anotações sobre uma Especificações do formato

determinada região, o BED pode As três primeiras colunas são


ser utilizado em tarefas bem compulsórias e de formato
específicas. Em estudos padrão, utilizados para indicar as
genômicos, por exemplo, um regiões genômicas. As demais
arquivo BED delimita exatamente colunas que esse arquivo pode vir
regiões do genoma (ex. genes) a ter, varia de acordo com o tipo
que você quer estudar, ignorando de análise a ser realizada e de
todo o resto.

acordo com o programa que irá


utilizá-lo. Além disso, cada linha
Além disso, após uma etapa de corresponde a uma única
alinhamento, medidas como anotação.

cobertura da amostra, ou mesmo


de regiões alvo, ficam Na maioria das vezes é
intrinsecamente ligadas às necessário que o arquivo BED
posições contidas no arquivo BED. utilizado esteja ordenado por
Podemos ver ainda o arquivo BED nome seguido de posição inicial.
Sobre colunas
obrigatória, temos:
1º coluna
Fragmento genômico em que a anotação poderá ser encontrada 

(ex: chr5; scaffold SCAF01; contig NGAT753783).

2º coluna
Posição inicial da região de interesse que inicia em base zero. Isso o faz
diferente de alguns outros arquivos de uso comum, como VCF e GFF,
que possuem a base 1 como início. A base zero significa que a primeira
base do fragmento genômico é numerada como zero.

3º coluna
Posição final final da região de interesse na base 1. A base 1 na posição
final, significa que a base final representada pelo valor não será capturado
pelos programas, entretanto ele estará representado na tabela.

Exemplo
Queremos as primeiras 30 bases do cromossomo 21.

A anotação dessa informação no formato bed seria:

Chr21 0 30
Ou seja, os programas usariam a base 0 até 29 do
cromossomo 21, e não de 0 até 30 (o que seriam 31
bases).

Exemplos de arquivos BED

Clique e acesse

Referências:

https://bedtools.readthedocs.io/en/latest/content/general-usage.html

https://doi.org/10.1093/bioinformatics/btq033

Danecek P, et al. The variant call format and VCFtools.

Bioinformatics 2011;27(15): 2156–8. doi: 10.1093/bioinformatics/btr330

https://samtools.github.io/hts-specs/VCFv4.2.pdf

https://samtools.github.io/hts-specs/SAMv1.pdf
conclusão
A área de sequenciamento genômico possui
várias nuances e peculiaridades. Entretanto,
com a exposição desses diferentes tipos de
arquivos, pode-se perceber a finalidade de
cada um dos arquivos e entender um pouco
mais o conteúdo e organização desses.

Conheça mais sobre Bioinformática, acompanhe


o nosso blog (blog.varsomics.com)

Você também pode gostar