Formato de arquivos bioinformáticos

Índice
FASTQ 04
BAM/SAM 06
VCF 09
BED 12
CONCLUSÃO 14
Tempo estimado de leitura: 7 minutos

Introdução
Com o desenvolvimento do
sequenciada, como variações
sequenciamento de amostras e mutações, essas informações
biológicas foi necessária   estarão em arquivos VCFs, e  
a criação de arquivos o arquivo BED dará as
específicos para armazenar, coordenadas das posições
analisar e transferir toda desejadas para a análise  
informação gerada.
(ex.: cromossomos, genes,
transcritos, etc).
Quando uma amostra é
sequenciada, as sequências Muitos outros formatos de
de bases geradas (também arquivos estão presentes no dia
chamadas de reads) são a dia de um profissional que
armazenadas em arquivos atua nessa área, entretanto,
FASTQ. Já quando esses reads esses podem ser considerados
são alinhados contra uma a base para se entender um
referência genômica, as pouco mais sobre esse
informações desse universo.
alinhamento ficam em
arquivos BAM/SAM.
Então, vamos aprender um
pouco mais sobre esses
Caso o foco do arquivos?
sequenciamento seja saber  
as diferenças entre o genoma
de referência e a amostra
O que é FASTQ?
FASTQ é um tipo de arquivo utilizado

para representar sequências de DNA
por bases nitrogenadas, e suas
devidas pontuações de qualidade.
Ele é resultante da conversão das informações geradas pela

tecnologia de sequenciamento utilizada em dados com
informações biológicas (ex.: Illumina utiliza análise de imagens,
enquanto o Thermo Fisher utiliza a concentração de H+ liberado
durante uma reação de síntese).
Estrutura do FastQ
@BLABLA:123:BLEBLE:456:789:101112 (1)
ACTGACTGACTGACTGACTGACTGACTGACTGACTG (2)
+ (3)
JJJJIIIJJJJHIHICEEEFF?DACCCCHIIFFFEE (4)
(1) Contém a informação do identificador da sequência (geralmente, é o

nome do read). Inicia-se com “@”.
(2) Contém a informação da sequência de bases.
(3) A linha exclusiva iniciada por “+” indica o fim da sequência de bases e
o início das informações de qualidade na próxima linha, atuando como
um delimitador de informações.
(4) Contém as informações de qualidade para cada base representada

em (2) Essa qualidade está expressa em codificação ASCII, e pode alterar
de acordo com a versão e/ou da tecnologia utilizada.
Os pares de reads apresentam o mesmo identificador de
sequência acrescido de um indicador numérico relativo ao
sentido do read (forward ou reverse).
Essa numeração pode ser diferente de acordo com a

tecnologia utilizada e/ou programa de conversão utilizado
para a obtenção do FASTQ.
! “#$%&’ ()*+, -. /0123456789 : ; <=>?@ABCDEFGHI 

| | | | | | | 
0 . . . . 5 . . . 10 . . . 15 . . . 20 . . . 25 . . . 30 . . . 35 . . . 40 
| | | | | | | 
worst . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . best
@Nome_do_readA /1
@Nome_do_readA /2
GATCACCGACAAGTACCGCGCCG
GTCCAGGATCGGCTCGATGATCG
+
+
CDA@EEGGIGIIEHIKKBKKKKKKH DAAEEGEGI=IIGKBHCKKJKIKKKC
@Nome_do_readB 1 : N : 0 : 1
@Nome_do_readB 2 : N : 0 : 1
GATCACCGACAAGTACCGCGCCG
GTCCAGGATCGGCTCGATGATCG
+
+
CDA@EEGGIGIIEHIKKBKKKKKKH DAAEEGEGI=IIGKBHCKKJKIKKKC
O que é um aquivo
SAM/BAM?
Enquanto o arquivo SAM é um formato em texto, o
arquivo BAM é sua representação binária.
As informações geradas pelo o que comprime as

processo de mapeamento/ informações do alinhamento
alinhamento dos reads contra em arquivos menores.
a sequência de referência são

armazenadas em arquivos Estrutura básica  
conhecidos como Sequence do SAM/BAM  
Alignment Map (SAM).
Exibiremos aqui algumas

Os arquivos SAM são unidades básicas de um
baseados em texto e neles é arquivo SAM/BAM. De uma
possível obter informações forma geral, o arquivo SAM
em formato texto como: possui 2 principais partes: o
posição do alinhamento dos cabeçalho e a sessão de
reads, a qualidade do alinhamento. Ambas as partes
mapeamento (MAQ), nome podem conter pequenas
dos reads e o das sequências variações de acordo com o
referências os quais foram montador e a versão do
alinhados, ou mesmo tornar formato SAM utilizado.
possível o cálculo da distância

entre os pares de reads, etc.
Para informações mais

detalhadas sobre essa
Enquanto o arquivo SAM é um estrutura, o manual do
formato em texto, o arquivo formato SAM/BAM deve ser
BAM (Binary Alignment Map) consultado clique e confira.
é sua representação binária,
Cabeçalho (header)
As linhas do header iniciam-se com “@”
@HD VN:1.3 SO:coordinate
@SQ SN:chrK LN:90354753
@RG ID:Varstation LB:Lib_01 SM:sample_Var PL:ILLUMINA
@PG ID:bwa PN:bwa VN:0.7.13-r1126 CL:bwa mem genome_reference.fa

R1.fastq R2.fastq
Dado o exemplo de header acima:
@HD - Primeira linha do header. Pode conter a versão do arquivo SAM utilizado
(SN), como o alinhamento está ordenado (SO), etc.
@SQ - Exibe a sequência referência, contendo o tamanho da sequência (LN), etc.
@RG - Indica o conjunto de reads geradas a partir de uma única corrida de

sequenciamento. Pode indicar a Biblioteca utilizada (LB), o dado da sua amostra
(SM) e a tecnologia de sequenciamento (PL), etc. Pode apresentar mais de um
“@RG” caso tenha mais de uma amostra, ou reads com diferentes bibliotecas e/ou
sequenciador, etc.
@PG - Retorna o programa utilizado para gerar o arquivo SAM/BAM, juntamente

com o comando de alinhamento.
Alinhamento
Os arquivos SAM possuem as  

11 primeiras colunas como obrigatórias.
As colunas seguintes são consideradas metadados e podem variar de acordo

com o alinhador utilizado. No exemplo abaixo, as colunas obrigatórias estão
indicadas pelos tons de azul, enquanto os metadados em verde.
3. Informações específicas sobre o alinhamento do read.
O primeiro número indica o sam FLAG (clique e confira), enquanto o segundo indica o CIGAR,
uma representação compacta do read alinhado. No exemplo encontramos o valor de
22S12M2D52M65S que indica que o dado read possui 22 bases que foram ignoradas no
alinhamento (soft trimming), 12 bases idênticas com a referência, 2 bases deletadas, 52
bases identicas e 65 bases ignoradas no alinhamento. A soma dos valores do CIGAR é igual
ao tamanho do read.
1. Nome do read. 2. Nome da referência
em que o read alinhou.
TEK15:11:0:1:8415 163 chrK 965512 33 22S12M2D52M65S
= 965567 185 TTGAGTGC BBBABFFH NM/MD/AS/etc
4. Referente ao par do dado read, em 5. Em ordem, é a 6. Metadados, onde
ordem, (1) se está alinhado na mesma sequência de bases podemos encontrar o
referência (=) ou em outra (nome da do read seguido da número de mismatchs.
referência), (2) a posição de alinhamento qualidade.
do par e (3) a quantidade de bases
alinhadas na referência.
Bibliografia:
https://samtools.github.io/hts-specs/SAMv1.pdf
O que é um
arquivo VCF?
Quando se estuda as variações genéticas de um
organismo, as variantes identificadas são armazenadas
em arquivos VCF (Variant Call Format).
Esse tipo de arquivo é de formato texto e nele podemos encontrar
variantes do tipo SNP, Indels ou mesmo variantes estruturais maiores,  
em conjunto com anotações adicionais [1].
Os arquivos VCF podem variar de acordo com a versão utilizada pelos
chamadores de variantes, logo, iremos focar nos aspectos gerais desse
arquivo. Para maiores detalhes deste arquivo, o manual do formato
deverá ser consultado [2].
Como é um arquivo VCF?
O formato VCF é um arquivo tabular, formado por 3 principais partes:  
(1) cabeçalho de metadados, (2) cabeçalho e linhas contendo os dados
e suas devidas anotações (3).
3
1.
Esse cabeçalho inicia-se com dupla marcação hash (##). Sua primeira
linha “fileformat” é obrigatória e indica a versão do VCF em que os dados
foram armazenados. As linhas restantes são opcionais, porém, são
responsáveis por disponibilizar informações sobre os dados na sessão (3).
2.
O cabeçalho das colunas inicia-se por apenas um hash (#). As primeiras
8 colunas são obrigatórias em qualquer versão do VCF (CHROM até INFO).
Caso o VCF reporte a genotipagem da variante, a coluna FORMAT irá
aparecer, seguido por uma coluna que indica os seus valores para cada
amostra (nesse caso, a amostra NA0001). Caso o VCF seja de múltiplas
amostras, múltiplas colunas iriam aparecer em seguida.

Em resumo:
CHROM: Nome referência (pode ser um scaffold / fragmento).
POS: Posição na referência em que foi achado a variante.
ID: Caso a variante tenha sido anotada no dbSNP (em caso de humano),
sua identificação estará aqui.
REF/ALT: A(s) base(s) da referência na posição indicada / A(s) base(s) que
foram alteradas.
QUAL: Índice de qualidade da variante, varia para cada programa. Quanto
maior, mais confiável.
FILTER: Se a variável chamada passou nos requisitos de qualidade do
programa.
INFO: Informações relevantes como número de reads na posição  
(muitas vezes os programas podem desconsiderar reads alinhados de
baixa qualidade), frequência do alelo, contagem dos alelos, entre outros [2].
3.
Nessa parte encontraremos as informações de cada variante encontrada
na(s) amostra(s). Cada linha indica uma variante distinta, na maioria dos
casos. Baseado na primeira linha de dados, a variante em questão seria
chr20:14370G>A.
O que é um arquivo
com formato BED?
O formato BED (Browser Extensible Data) é uma forma
flexível e simples de representar regiões genômicas.
Esse formato é baseado em sendo utilizado amplamente para

linhas, delimitado por tabulações, representar repetições no
designado para anotações de genoma, isoformas de proteínas,
informações sobre o dado regiões ORF ou mesmo regiões de
genômico.
ligação de fatores de transcrição.
Como o arquivo BED pode ser Para a manipulação de um

utilizado em um estudo?
arquivo BED, destaca-se o
Além de ser um bom formato programa Bedtools.
para armazenar diferentes tipos

de anotações sobre uma Especificações do formato
determinada região, o BED pode As três primeiras colunas são

ser utilizado em tarefas bem compulsórias e de formato
específicas. Em estudos padrão, utilizados para indicar as
genômicos, por exemplo, um regiões genômicas. As demais
arquivo BED delimita exatamente colunas que esse arquivo pode vir
regiões do genoma (ex. genes) a ter, varia de acordo com o tipo
que você quer estudar, ignorando de análise a ser realizada e de
todo o resto.
acordo com o programa que irá

utilizá-lo. Além disso, cada linha
Além disso, após uma etapa de corresponde a uma única
alinhamento, medidas como anotação.
cobertura da amostra, ou mesmo

de regiões alvo, ficam Na maioria das vezes é
intrinsecamente ligadas às necessário que o arquivo BED
posições contidas no arquivo BED. utilizado esteja ordenado por
Podemos ver ainda o arquivo BED nome seguido de posição inicial.
Sobre colunas
obrigatória, temos:
1º coluna
Fragmento genômico em que a anotação poderá ser encontrada  
(ex: chr5; scaffold SCAF01; contig NGAT753783).
2º coluna
Posição inicial da região de interesse que inicia em base zero. Isso o faz
diferente de alguns outros arquivos de uso comum, como VCF e GFF,
que possuem a base 1 como início. A base zero significa que a primeira
base do fragmento genômico é numerada como zero.
3º coluna
Posição final final da região de interesse na base 1. A base 1 na posição
final, significa que a base final representada pelo valor não será capturado
pelos programas, entretanto ele estará representado na tabela.
Exemplo
Queremos as primeiras 30 bases do cromossomo 21.
A anotação dessa informação no formato bed seria:
Chr21 0 30
Ou seja, os programas usariam a base 0 até 29 do
cromossomo 21, e não de 0 até 30 (o que seriam 31
bases).
Exemplos de arquivos BED
Clique e acesse
Referências:
https://bedtools.readthedocs.io/en/latest/content/general-usage.html
https://doi.org/10.1093/bioinformatics/btq033
Danecek P, et al. The variant call format and VCFtools.
Bioinformatics 2011;27(15): 2156–8. doi: 10.1093/bioinformatics/btr330
https://samtools.github.io/hts-specs/VCFv4.2.pdf
https://samtools.github.io/hts-specs/SAMv1.pdf
conclusão
A área de sequenciamento genômico possui
várias nuances e peculiaridades. Entretanto,
com a exposição desses diferentes tipos de
arquivos, pode-se perceber a finalidade de
cada um dos arquivos e entender um pouco
mais o conteúdo e organização desses.
Conheça mais sobre Bioinformática, acompanhe

o nosso blog (blog.varsomics.com)

Formato de arquivos bioinformáticos

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Formato de arquivos bioinformáticos

Enviado por

Direitos autorais:

Formatos disponíveis

Índice

Tempo estimado de leitura: 7 minutos

sequenciamento de amostras e mutações, essas informações

biológicas foi necessária estarão em arquivos VCFs, e

a criação de arquivos o arquivo BED dará as

específicos para armazenar, coordenadas das posições

analisar e transferir toda desejadas para a análise

(ex.: cromossomos, genes,

Quando uma amostra é

sequenciada, as sequências Muitos outros formatos de

de bases geradas (também arquivos estão presentes no dia

chamadas de reads) são a dia de um profissional que

armazenadas em arquivos atua nessa área, entretanto,

FASTQ. Já quando esses reads esses podem ser considerados

são alinhados contra uma a base para se entender um

referência genômica, as pouco mais sobre esse

informações desse universo.

Então, vamos aprender um

pouco mais sobre esses

Caso o foco do arquivos?

sequenciamento seja saber

as diferenças entre o genoma

FASTQ é um tipo de arquivo utilizado

Ele é resultante da conversão das informações geradas pela

(1) Contém a informação do identificador da sequência (geralmente, é o

(2) Contém a informação da sequência de bases.

(4) Contém as informações de qualidade para cada base representada

Essa numeração pode ser diferente de acordo com a

! “#$%&’ ()*+, -. /0123456789 : ; <=>?@ABCDEFGHI

As informações geradas pelo o que comprime as

a sequência de referência são

Alignment Map (SAM).

Exibiremos aqui algumas

possível o cálculo da distância

Para informações mais

As linhas do header iniciam-se com “@”

@HD VN:1.3 SO:coordinate

@SQ SN:chrK LN:90354753

@RG ID:Varstation LB:Lib_01 SM:sample_Var PL:ILLUMINA

@PG ID:bwa PN:bwa VN:0.7.13-r1126 CL:bwa mem genome_reference.fa

Dado o exemplo de header acima:

@SQ - Exibe a sequência referência, contendo o tamanho da sequência (LN), etc.

@RG - Indica o conjunto de reads geradas a partir de uma única corrida de

@PG - Retorna o programa utilizado para gerar o arquivo SAM/BAM, juntamente

Os arquivos SAM possuem as

As colunas seguintes são consideradas metadados e podem variar de acordo

3. Informações específicas sobre o alinhamento do read.

uma representação compacta do read alinhado. No exemplo encontramos o valor de

alinhamento (soft trimming), 12 bases idênticas com a referência, 2 bases deletadas, 52

1. Nome do read. 2. Nome da referência

em que o read alinhou.

TEK15:11:0:1:8415 163 chrK 965512 33 22S12M2D52M65S

= 965567 185 TTGAGTGC BBBABFFH NM/MD/AS/etc

4. Referente ao par do dado read, em 5. Em ordem, é a 6. Metadados, onde

ordem, (1) se está alinhado na mesma sequência de bases podemos encontrar o

referência (=) ou em outra (nome da do read seguido da número de mismatchs.

referência), (2) a posição de alinhamento qualidade.

do par e (3) a quantidade de bases

Quando se estuda as variações genéticas de um

organismo, as variantes identificadas são armazenadas

em arquivos VCF (Variant Call Format).

Esse tipo de arquivo é de formato texto e nele podemos encontrar

variantes do tipo SNP, Indels ou mesmo variantes estruturais maiores,

biológicas foi necessária   estarão em arquivos VCFs, e  

analisar e transferir toda desejadas para a análise  

sequenciamento seja saber  

! “#$%&’ ()*+, -. /0123456789 : ; <=>?@ABCDEFGHI 

Os arquivos SAM possuem as  

variantes do tipo SNP, Indels ou mesmo variantes estruturais maiores,  

O formato VCF é um arquivo tabular, formado por 3 principais partes:  

INFO: Informações relevantes como número de reads na posição