Você está na página 1de 4

Roteiro Atividade 1

Responsável: Prof. Danilo T. Amaral


e-mail: danilo.trabuco@ufabc.edu.br
link para apostila de Linux: https://shre.ink/Wnw

Operações Básicas no Linux


1. Faça login no sistema operacional Linux; usuário: ufabc; senha: ufabc.
2. Abra o terminal (shell) do Ubuntu.
3. Utilize o comando `pwd` para verificar o diretório atual.
4. Cheque o conteúdo do diretório atual usando `ls`.
5. Crie as pastas "GENE" e "GENOMA" (em maiúsculas) com o comando `mkdir`.
6. Digite "cd G" (em maiúsculo) e pressione "tab". Observe o que acontece.
7. Remova as pastas utilizando os comandos `rmdir`.

Prática com Dados de Sequência:


8. Crie uma pasta de trabalho chamada "At1" e acesse-a.
9. Baixe o genoma da bactéria Thermus thermophilus usando `wget` no link fornecido.
wget https://www.ebi.ac.uk/ena/browser/api/fasta/AP008226.1
10. Copie o arquivo baixado e altere o nome para "seq.fasta" usando `cp`.
11. Verifique o conteúdo presente na sua pasta com `ls`.
12. Leia o conteúdo do arquivo "seq.fasta" no terminal usando `less`.
13. Leia apenas as primeiras 10 linhas da sequência com `head -n 10 seq.fasta`.
14. Leia apenas as últimas 10 linhas da sequência com `tail -n 10 seq.fasta`.

Atividade de Busca por Sequências Conhecidas:


16. Digite: `grep 'TATAAT' seq.fasta`.
17. Digite: `grep -n 'TATAAT' seq.fasta`. Qual a diferença?
18. Digite: `grep -n 'TATAAT' seq.fasta > busca/seq_grep.fasta`. O que aconteceu?

Análise do Conteúdo de C+G:


19. Utilize `grep '>' seq.fasta` para obter apenas o nome da sequência.
20. Use `grep '[^>]' seq.fasta` para recuperar a sequência. Qual diferença entre os comandos.
21. Busque o conteúdo de Gs e Cs no genoma usando `grep '[^>]' seq.fasta | grep -o '[GC]'`.
22. Conte quantas linhas de Gs e Cs existem com `grep '[^>]' seq.fasta | grep -o '[GC]' | wc -
l`. Anote o valor.
23. Conte o número total de bases nucleotídicas com `grep '[^>]' seq.fasta | wc -m`. Anote o
valor e calcule a porcentagem de C+G.

Bancos de dados biológicos


Atividade 1 - NCBI
1. Acesse o navegador de sua preferência no seu sistema operacional e entro no site
https://www.ncbi.nlm.nih.gov/;
2. Na parte superior esquerda, altere o de “All databases” para “Gene”. Ao lado digite
“luciferase”;
Obs: lembre-se que os bancos de dados estão sendo populados diariamente, que a pesquisa
realizada em diferente períodos poderá trazer quantidades distintas de informação
3. Na parte superior esquerda, abaixo do espaço de busca, clique em “send to:” > “File” >
“Format” > “Tabular text” > clique em “Create File”
4. Abra o arquivo com um programa de planilha ou bloco de notas
5. Feche a planilha e volte na página aberta. Na tabela gerada nesta página, clique sobre o
“GeneID” do primeiro item. Isso te direciona para uma página contendo diversas
informações sobre dados genéticos/genômicos da espécie
6. Na parte superior direita da página clique em “Download Datasets”, selecione as caixas
“Gene Sequence (FASTA)”, “Transcript Sequence (FASTA)” e “Protein Sequence
(FASTA)” e clique em "Download"
7. Após baixar o arquivo, crie uma pasta na “Área de Trabalho” do computador, mova seus
arquivos para ela e os descompacte;
8. Acesse as pastas até encontrar os arquivos no formato “.fna”
9. Abra os três arquivos usando o bloco de notas e observe as diferenças entre os arquivos.
10. Na parte superior esquerda, altere novamente de “All databases” para “Nucleotide”. Ao
lado digite “luciferase”;
11. Na parte inferior ao título do objeto temos um código que contém letras e números.
Experimente copiá-lo e colá-lo na busca
12. Esse é o código de acesso, uma maneira fácil e rápida de citar a sequência e sua
localização no banco de dados. Imagine se toda vez que fossemos buscar uma sequência
de nucleotídeo e proteína tivemos que acrescentar o nome por completo ou a sequência?
Seria computacionalmente exaustivo …
13. Abaixo do código de acesso, temos “FASTA” e avalia a informação presente.
14. Na parte superior esquerda, altere novamente de “All databases” para “Protein”. Ao lado
digite “luciferase”;
15. Clique no primeiro resultado e observe as diferenças entre o banco de dados de
nucleotídeos e de proteínas.

Atividade 2 - Uniprot/KEGG
Acesse o navegador de sua preferência no seu sistema operacional e entro no site
https://www.uniprot.org/;
16. Busque pelo termo “Luciferase” e clique no primeiro resultado que aparece
17. Na parte inferior da página, busque pelo termo “Sequence databases”. Nesta seção, é
possível acessar diversos resultados dessa sequência presente em outros bancos de dados,
como EMBL. Lembre-se que os bancos de dados biológicos buscam cruzar seus dados
para torná-los acessíveis de maneira mais completa e rápida para todos;
18. Ainda nesta página, procure pela seção “Genome annotation database” e clique no link
que leva ao acesso ao KEGG (Kyoto Encyclopedia of Genes and Genomes).
19. Na página que abriu, clique sobre o código da enzima (ou Enzyme Code; EC) e depois
clique no botão “Reaction”. Consegue compreender melhor o que é a anotação gênica?

Agora é sua vez…

Atividade - Trabalhando com o banco de dados

Entregue sua atividade no link a seguir: https://forms.gle/5t8ngM4iqsTtvh1D9


Elabore um guia passo a passo das atividades e das etapas resultantes de sua análise. Por
favor, forneça essas informações no formulário do Google acima.

1. Entre no site https://www.ncbi.nlm.nih.gov/ e clique no ícone Blast


2. A partir da sequência da proteína abaixo, identifique que gene é esse.

>P1
MPQLNGGGGDDLGANDELISFKDEGEQEEKSSENSSAERDLADVKSSLVNESETNQNSSSDSEAERRPPP
RSESFRDKSRESLEEAAKRQDGGLFKGPPYPGYPFIMIPDLTSPYLPNGSLSPTARTLHFQSGSTHYSAY
KTIEHQIAVQYLQMKWPLLDVQAGSLQSRQALKDARSPSPAHIVSNKVPVVQHPHHVHPLTPLITYSNEH
FTPGNPPPHLPADVDPKTGIPRPPHPPDISPYYPLSPGTVGQIPHPLGWLVPQQGQPVYPITTGGFRHPY
PTALTVNASMSRFPPHMVPPHHTLHTTGIPHPAIVTPTVKQESSQSDVGSLHSSKHQDSKKEEEKKKPHI
KKPLNAFMLYMKEMRAKVVAECTLKESAAINQILGRRWHALSREEQAKYYELARKERQLHMQLYPGWSAR
DNYGKKKKRKRDKQPGETNDANTPKKCRALFGLDRQTLWCKPCRRKKKCVRYIQGEGSCLSPPSSDGSLL
DSPPPSPNLLGSPPRDAKSQTEQTQPLSLSLKPDPLAHLSMMPPPPALLLAEATHKASALCPNGALDLPP
AALQPAAPSSSIAQPSTSSLHSHSSLAGTQPQPLSLVTKSLE*

3. Ao identificar a proteína, volte ao NCBI e, utilizando o banco de dados de proteínas,


identifique a função dessa proteína (Deixe sua resposta no relatório)
4. Ainda no NCBI, descubra a sequência gênica que codifica essa proteína (Coloque a
sequência obtida no seu relatório)
5. Usando o Blast novamente, como você pode fazer para avaliar a diferença entre a
sequência obtida em humano com às de um camundongo?
6. Agora acesse o site do UniProt: https://www.uniprot.org/;
7. Busque pelo nome da proteína, acesse a mesma e vasculhe às informações existentes
sobre ela e descubra como acessar diferente bancos de dados
8. Agora encontre dentro uniprot e acesse o banco da dados KEGG
9. Encontre a doença a qual essa proteína está relacionada e acesse às vias metabólicas
associada a essa doença. O que você consegue compreender dessa via metabólica?

Você também pode gostar