Você está na página 1de 4

Aula prática de montagem de novo de genoma (sem genoma de

referência) e predição de genes

1) Como essa aula vai depender de logar num servidor Linux, os usuários
do sistema operacional Windows vão precisar instalar um emulador
de terminal. Como exemplo, pode ser usado o programa Putty, cuja a
instalação está descrita abaixo:
a. Entrar no site oficial do programa:
https://the.earth.li/~sgtatham/putty/latest/w32/putty.exe
b. Salvar o arquivo (geralmente Windows grava na pasta de
Downloads)
c. Transferir o arquivo salvo em Downloads para um local adequado
(fácil de ser encontrado).

2) Uma vez instalado o Putty, o acesso ao servidor para usuários


Windows está descrito ao lado esquerdo da Figura 1. Para usuários
de Linux o acesso está descrito ao lado direito da Figura 1. Para
ambos os casos cada aluno precisará de um usuário e uma senha, que
na Figura 1 está sendo representada de forma genérica pelo userXX, no
qual XX será 01, 02, ... 50. Cada aluno terá um usuário seguindo
esse padrão (user01, user02, ...) e a senha terá o mesmo padrão
(pass01, pass02, ...). A relação entre usuário e nome do aluno está
descrita numa planilha (Aluno_e_usuário_Linux.xlsx) disponibilizada
na Aula 4 do classroom. Devido as regras de segurança temos que
acessar um primeiro servidor de entrada (gateway) e a partir dele
acessar o servidor de trabalho (bioinfo05).
Figura 1: Esquema de acesso remoto ao servidor de trabalho a partir de um
acesso de internet fora da Unicamp (casa) e usando Windows ou Linux.

3) Antes de iniciar qualquer atividade esteja certo que você está no


servidor correto (userXX@bioinfo05:~$). Na sequência inicie o
ambiente de trabalho digitando o commando abaixo:

a. source activate Assembly_variantCalling

4) Para manter suas análises organizadas, crie a estrutura de diretórios


descrita na Figura 2 (dica use o comando “mkdir” para criar o diretório
e o comando “cd” para mudar de diretório):
Figura 2: Estrutura de diretórios da aula prática

5) Entrar no diretório aula_pratica/genomica/1_reads

6) Copiar os reads brutos (paired-end reads) do link abaixo:


a. http://143.106.161.133/~mcarazzo/parental_R1.fastq
b. http://143.106.161.133/~mcarazzo/parental_R2.fastq
c. Dica: use o comando “wget <link>” para fazer o download dos
reads.

7) Entrar no diretório para armazenar os resultados da montagem


(exemplo: 3_assembly)

8) Criar links dos arquivos de reads para esse diretório. Dica: use o
comando “ln -s <origem> <destino>”.

9) Executar o programa de montagem de genoma chamado Spades


(https://doi.org/10.1089/cmb.2012.0021) para realizar a montagem do
genoma da cepa parental:

a. spades.py -1 parental_R1.fastq -2 parental_R2.fastq -t 1 -k


21,41,61,81,101,127 -o SpadesAssembly

10) Identificar qual é o arquivo final da montagem do genoma


(assembled_file).

11) Avaliar a qualidade da montagem usando o programa:


a. assembly-stats <assembled_file>

12) Assumindo que o tamanho do genoma é o tamanho da montagem,


calcule a cobertura de sequenciamento desse genoma. Dica: use o
comando “wc <file>” para contar o número de linhas no arquivo de reads
e transforme-o em quantidade de pares de bases sequenciados.

13) Criar um subdiretório para a predição de genes (exemplo:


gene_prediction)

14) Criar um link do arquivo final da montagem (assembled_file) para o


novo diretório gene_prediction

15) Rodar o preditor de genes chamado Augustus


(https://doi.org/10.1186/1471-2105-7-62):

a. augustus --species=saccharomyces_cerevisiae_S288C --gff3=on


assembled_file > gene.gff

Você também pode gostar