Você está na página 1de 17

Ministério da Educação

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ


Câmpus Dois Vizinhos

Professora Dra. Betty Cristiane Kuhn


Curso Engenharia de Bioprocessos e Biotecnologia
Disciplina Bioinformática Turma 6EB1
Acadêmico Sofia de Souza oliveira Data 13/03/2020

Atividade prática 1
Banco de Dados e Alinhamento
(Responder as questões usando a fonte do texto de outra cor (vermelho, azul, verde...))

Etapa 1: Busca com limitadores de campo


Nesta primeira atividade vamos simular a busca por um transcrito especifico. É
necessário lembrar que todo o banco se encontra em inglês e que, portanto, é este o
idioma que deve ser utilizado nas buscas (exceto pelos nomes de espécies em latim).

1) Entre no site NCBI selecione na busca “nucleotide” https://www.ncbi.nlm.nih.gov/

Digite ou cole palavras chave “espécie e proteína”: Oryza sativa ribosomal protein
2) Clique no botão “Search”

Quantas registros retornaram desta busca?


Resposta: 9814

Cite 5 espécies onde o resultado também foi encontrado (Top organisms):


Resposta:
Oryza sativa
Xanthomonas oryzae
Pseudomonas psychrotolerans
Coffea arábica
Malas domestica

3) Realize a busca novamente utilizando as palavras chave “espécie [orgn]


proteína”. Neste caso a busca das palavras estará delimitada à espécie de
interesse no campo de descrição do organismo.
Quantos registros foram recuperados desta vez?
Resposta: 3073

Quais as espécies?
Resposta: oryza sativa (arroz)

4) Realize uma última vez a busca agora utilizando as palavras chave ” espécie [orgn]
proteína [titl]”. Neste caso também estamos limitando a busca da proteína no título do
deposito.
Quantos registros foram recuperados desta vez?
Resposta: 1605

Todos eles são registros relacionados à proteína que você tem interesse?
Resposta: sim

Observações:

5) Copie o número de acesso da primeira sequência obtida. Realize a busca utilizando


este número de acesso.
NCBI Reference Sequence, número da sequência (Acession):
Resposta: NG_068066.1

Quantas sequências são obtidas nesta busca? Por que?


Resposta: 1 sequência, pois esse número é único

6) Realize a busca de nucleotídeo utilizando BARCODE[KYWD]


([KYWD] significa Keyword, ou seja, busca pela palavra-chave)
Quantas sequências são obtidas nesta busca? Por que?
Resposta: 974679 resultados. O resultado da busca foi grande porque a busca foi
realizada por palavra chave, e não pelo título da sequencia.

7) Realize a busca no NCBI na página inicial, sem selecionar nenhuma base de


informações utilizando: Oryza sativa [orgn]
Observações:
Buscando desta forma obtivemos um resultado de pesquisa mais categorizado
tornando mais organizada a pesquisa.
8) Outros marcadores para restringir as buscas podem ser verificados em:
https://www.ncbi.nlm.nih.gov/books/NBK49540/
Etapa 2: Sequências de Referência

1) Abra o NCBI e selecione a busca por nucleotídeos https://www.ncbi.nlm.nih.gov/

2) Busque pela espécie/proteína: homo sapiens insulin

3) Analise os resultados
Observações:
Aparecem vários resultados diferentes
Mas a principal é a insulina de humano
Gene com uma sequência de referencia (INS - insulin
Etapa 3: Entendendo as informações

1) Entre no site NCBI e selecione “Nucleotide” https://www.ncbi.nlm.nih.gov/

2) Digite: E. coli [orgn] lac repressor [titl]


3) Abra a 1ª Sequencia (E.coli lac repressor gene mutation S28 with an 82 bp duplication)
Qual o ID da sequencia?
Resposta: M24298.1

Qual o nome popular da espécie em que a sequência foi identificada:


Resposta: E. coli

Essa sequencia representa um gene? Se sim, qual?


Resposta: Sim. Gene repressor da lactose

Última data de atualização (update)


Resposta: 26/04/1993

Qual o tamanho da sequencia (bp)?


Resposta: 328 bp

4) Entre no site NCBI e selecione “gene” https://www.ncbi.nlm.nih.gov/


5) Selecione GENE. Digite o número de acesso AAF60327.1
6) Abra a sequência do GENE no banco de dados e analise as informações:

Qual o ID da sequencia?
Resposta: 3848

Qual o nome popular da espécie em que a sequência foi identificada:


Resposta: humano

Qual o gene que essa sequência representa:


Resposta: Keratin 1 (queratina)

Última data de atualização (update)


Resposta: 03/03/2020

Essa sequência contém íntrons e exons?


Resposta: sim

Qual o número de nucleotídeos?


Resposta: 5672 nucleotídeos
Obs: deixar o cursor do mouse encima da barra verde que representa os intros e exons
Em qual cromossomo o gene está localizado?
Resposta: cromossomo 12

Em quais tecidos esse gene se expressa?


Resposta: expresso na pele

7) Abra o arquivo FASTA do gene e cole no bloco de notas.

8) Abra o NCBI e busque por proteínas https://www.ncbi.nlm.nih.gov/protein/

9) Digite número de acesso AAF60327.1


Qual o nome popular da espécie em que a sequência foi identificada:
Resposta: humano

Qual proteína essa sequência representa:


Resposta: queratina 1

Última data de atualização (update)


Resposta: 31/07/2000

Quantos aminoácidos a proteína contém?


Resposta: 644 aminoácidos
Etapa 4: Alinhamento local de sequencias (BLAST)

Busca por similaridade em banco de dados de nucleotídeo utilizando sequência


nucleotídica como query – BLASTn (nucleotídeos X nucleotídeos):
O BLASTn é utilizando quando se quer encontrar sequências de nucleotídeos em um
banco de dados que apresentem similaridade com uma sequência de interesse também
de nucleotídeos.
1) Acessar o site em nova aba: https://blast.ncbi.nlm.nih.gov/Blast.cgi
2) Na página seguinte, clique na opção “nucleotide blast”, na seção “Web BLAST”.
3) Na caixa “Enter query sequence”, cole a sequência de nucleotídeos que deseja alinhar
com o banco de dados (formato FASTA obtido na atividade anterior (do NCBI ou bloco
de notas) o BLAST permite também colar o número de acesso da sequencia).
4) No menu “Database”, selecione o conjunto de dados contra o qual a sequência de
interesse será alinhada. Caso queira buscar em todo o banco de dados do GenBank,
selecione “Nucleotide collection”.
Dica: se o objetivo for buscar sequências derivadas de mRNA (sequências expressas),
selecionar dentre os conjuntos de dados aqueles que correspondem a este tipo de dado
(Reference RNA sequences). Se o objetivo for buscar sequências genômicas, selecionar aqueles
que correspondem a sequências derivadas de DNA genômico (Reference genomic sequences).
5) Na caixa “Organism”, é possível restringir as buscas para apenas aquelas que são
derivadas de um organismos específico. Também é possível excluir apenas essa espécie,
clicando no botão “Exclude”; e adicionar mais organismos para restringir ou excluir os
mesmos das buscas (botão “+”). (deixar sem completar para pegar todos os organismos)
6) Clique em “BLAST”. O resultado pode demorar alguns minutos.
7) Analisando os resultados: Na seção “Graphic Summary”, é possível ver uma
representação gráfica dos resultados. O tamanho das barras coloridas indica a extensão
do alinhamento da sequência de interesse (query) com diferentes sequências do banco
de dados. Já as cores indicam o quão similares elas são. Arrastando o mouse por cima
das barras, a caixa acima da representação gráfica mostrará o nome da sequência com a
qual a sequência query apresenta similaridade.
(de um print na tela do gráfico e cole aqui)

8) Na seção “Descriptions”, são mostradas as sequências que apresentam similaridade,


e os dados que quantificam essa similaridade. Dentre eles, é importante observar os
seguintes: “Query coverage” (indica qual porcentagem da sequência de interesse é
“coberta” pelo alinhamento com cada sequência do banco – lembre-se que, por se tratar
de um alinhamento local, muitas vezes apenas uma região de ambas as sequências serão
alinhadas); “E value” (indica a probabilidade de encontrar aquele alinhamento de
maneira aleatória – ou seja, quanto menor o valor, maior é a confiança, sendo o “E
value” = 0 o mais confiável); e “Identity” (indica quantos nucleotídeos idênticos são
encontrados apenas na região que foi alinhada).
Dica: dependendo do tipo de alinhamento feito, um “E value” aceitável pode variar. Por
exemplo, se estamos alinhando sequências de um organismo que apresenta grande número de
sequências depositadas no banco, como humanos, camundongo, mosca-da-fruta ou arroz,
esperamos encontrar “E value” baixos, próximo a zero. Já no caso de buscarmos sequências
obtidas a partir de um organismo que não possui muitas sequências no banco, em geral iremos
encontrar sequências de outros organismos que apresentam similaridade, mas não são idênticas.
Portanto, nesse caso, esperamos “E value” mais alto (1e-10, por exemplo).

(de um print na tela e cole aqui)

9) Na seção “Alignments”, é possível ver os alinhamentos propriamente ditos. (cada


linha vertical representa que os nucleotídeos estão alinhados)
Dica: para acessar as sequências encontradas (para copiá-las e arquivá-las em formato FASTA,
por exemplo), basta clicar no número de acesso das mesmas nesta seção. Uma nova janela/ aba
será aberta, mostrando a sequência e todas as informações associadas a ela.

(de um print na tela e cole aqui)

Responda:
Qual a espécie que possui a sequência mais parecida com a sequência que você
buscou considerando a área de cobertura?
Resposta: humano

Qual a espécie que possui a sequência mais parecida com a sequência que você
buscou considerando a identidade?
Resposta: humano

A queratina do Gorilla possui uma área de cobertura de 43% e uma identidade


de 99,66%, o que isso significa?
Resposta: significa que a sequência uma arcade cobertura menor em relação a
sequencia base mas ela é muito parecida com a mesma

Através destes resultados nós podemos concluir que as espécies geneticamente


mais similares ao Homo sapiens são: Gorilas, Gibões (Hylobates) e Bonobo (Pan
paniscus). Essa afirmação está correta?
Resposta: não, pois mesmo parecendo similar só estamos analisando a queratina e não
o genoma inteiro

Supomos que um pesquisador faz o sequenciamento de um gene da araucária,


porém não sabe nenhuma informação adicional sobre esse gene. Este
pesquisador pode usar o BLAST para analisar seus dados?
Resposta: sim

Com que objetivo o pesquisador faria isso?


Resposta: com o BLAST ele pode analisar através der varias ferramentas, como a de
comparação, para encontrar informações sobre o gene da araucária.
Etapa 5: Busca por proteínas relacionadas

1) Acessar o site em nova aba: https://blast.ncbi.nlm.nih.gov/Blast.cgi


2) Na página seguinte, clique na opção “blastx” (translated nucleotide > protein), na
seção “Web BLAST”.
3) Na caixa “Enter query sequence”, cole o número de acesso M24298.1
4) No menu “Database”, selecione o conjunto de dados contra o qual a sequência de
interesse será alinhada. Caso queira buscar em todo o banco de dados do GenBank,
selecione “
Non-redundant protein sequences (nr)”.
Dica: se o objetivo for buscar sequências derivadas de mRNA (sequências expressas),
selecionar dentre os conjuntos de dados aqueles que correspondem a este tipo de dado
(Reference RNA sequences). Se o objetivo for buscar sequências genômicas, selecionar aqueles
que correspondem a sequências derivadas de DNA genômico (Reference genomic sequences).
5) Na caixa “Organism”, é possível restringir as buscas para apenas aquelas que são
derivadas de um organismos específico. Também é possível excluir apenas essa espécie,
clicando no botão “Exclude”; e adicionar mais organismos para restringir ou excluir os
mesmos das buscas (botão “+”). (deixar sem completar para pegar todos os organismos)
6) Em organismos Selecione “Others”
Clique em “BLAST”. O resultado pode demorar alguns minutos.
7) Analisar os resultados. Na seção “Graphic Summary”, é possível ver uma
representação gráfica dos resultados. O tamanho das barras coloridas indica a extensão
do alinhamento da sequência de interesse (query) com diferentes sequências do banco
de dados. Já as cores indicam o quão similares elas são. Arrastando o mouse por cima
das barras, a caixa acima da representação gráfica mostrará o nome da sequência com a
qual a sequência query apresenta similaridade.
(de um print na tela do gráfico e cole aqui)
Responda:
Qual gene você está analisando? (qual a descrição para o gene representado pelo
código que você inseriu)
Resposta: gene repressor da lactose (E.coli)

Existe no NCBI alguma proteína relacionada ao gene da sua pesquisa? (gene


inserido na busca)
Resposta: sim. Encontramos resultados <

Que informação estes resultados revelam ao pesquisador?


Resposta: informações bem importantes que através da pesquisa nos fornece
resultados baseados no banco de dados e informação de biomol
Revelam proteínas que podem ser codificadas pelo gene que ele possui
Se o pesquisador não sabe qual a possível função do gene, esta técnica é útil na
identificação da possível proteína relacionada? Por que?
Resposta:sim, pois através desta ferramenta ele pode achar proteinas relacionadas e
partir disto ter mais informações sobre sua sequência de interesse
APLICANDO O CONHECIMENTO

Etapa 1. Buscando por sequências

1) Abra o site do NCBI, selecione nucleotídeo e complete o nome da espécie do seu


interesse:
https://www.ncbi.nlm.nih.gov/genbank/
Quantos resultados você encontrou?
Resposta:

2) Escolha uma sequência do seu interesse e responda:


Qual o ID da sequencia?
Resposta:

Qual o nome popular da espécie:


Resposta:

Última data de atualização (update)


Resposta:

A sua sequência é DNA ou RNA?


Resposta:
Qual a descrição da sequência?
Resposta:

3) Clique no formato FASTA e salve a sequência no bloco de notas.


4) Escolha uma sequência do seu interesse e complete o campo Gene com as
informações: “espécie [orgn] proteína [titl]” e clique em Search
Quantos resultados você encontrou?
Resposta:

5) Clique na sequência do seu interesse e responda:


Qual o ID da sequencia?
Resposta:

Qual o nome popular da espécie:


Resposta:

Última data de atualização (update)


Resposta:
Qual o gene? (gene description)
Resposta:

Essa sequência contém íntrons e exons?


Resposta:

Em qual cromossomo o gene está localizado?


Resposta:

Em quais células ou órgãos é expressa?


Resposta:
6) Clique no formato FASTA e salve a sequência no bloco de notas.

7) Escolha uma sequência/proteína do seu interesse e complete o campo Proteína com


as informações: (pode ser a mesma da atividade anterior)
“espécie [orgn] proteína [titl]” e clique em Search
Quantos resultados você encontrou?
Resposta:

8) Clique na sequência do seu interesse e responda:


Qual o ID da sequencia?
Resposta:

Qual o nome popular da espécie:


Resposta:

Última data de atualização (update)


Resposta:

Qual a proteína?
Resposta:

Quais os monômeros que formam este polímero?


Resposta:

Qual a função dessa proteína?


Resposta:

Em quais células ou órgãos é expressa?


Resposta:
Etapa 2: Descobrindo a função da sequência
Supomos que você trabalha com uma espécie pouco estudada e obtém uma
sequência de DNA. Utilize os conhecimentos sobre o NCBI para identificar a sua
sequência e descobrir se algum pesquisador já identificou algum gene ou proteína
similar.

Siga o roteiro das etapas 1-3 com a sequência do arquivo FASTA at avaliativa 01
disponibilizado no Moodle
1) Usando o conhecimento que você adquiriu em sala, use o NCBI para conhecer a
sequência:

2) Use a ferramenta Nucleotide BLAST para descobrir se existe algum gene


identificado parecido com a sequência que você possui.
Com qual espécie você está trabalhando?
Resposta:

Algum gene parecido já foi identificado nesta espécie por algum outro
pesquisador?
Resposta:

Qual a possível função do gene pesquisado por você?


Resposta:

Qual a localização deste gene?


Resposta:

Que informação estes resultados revelam ao pesquisador?


Resposta:

3) Blast proteína. Busque a proteína relacionada à sequência que você possui realizando
o alinhamento nucleotídeo x proteína.
Alguma proteína já foi relacionada ao gene que você sequenciou? Em quais
espécies?
Resposta:

Qual proteína?
Resposta:

Que informação estes resultados revelam ao pesquisador?


Resposta:

Se o pesquisador não sabe qual a possível função do gene, esta técnica é útil na
identificação da possível proteína relacionada? Explique?
Resposta:

Etapa 3: Analisando a sequência


(para a realização desta atividade busque um gene que apresente resultados em todas as
buscas, se o gene escolhido não apresentar, mude de gene, para que possa obter resultado
em todas as etapas necessárias e assim compreender a atividade)

1) Acesse o site NCBI (https://www.ncbi.nlm.nih.gov/) e busque um gene do seu


interesse
2) Abra a sequência do seu interesse e responda:

Qual o ID da sequencia?
Resposta:

Qual o nome popular da espécie:


Resposta:

Última data de atualização (update)


Resposta:?

Qual o gene? (gene description)


Resposta:

Essa sequência contém íntrons e exons?


Resposta:

Em qual cromossomo o gene está localizado?


Resposta:

3) Busque por similaridade em banco de dados de nucleotídeo utilizando sequência


nucleotídica como query – BLASTn (nucleotídeos X nucleotídeos):
Cole o “print” do resultado encontrado:

Responda:
Qual a espécie que possui a sequência mais parecida com a sequência que você
buscou?
Resposta:

Explique o significado dos resultados que você encontrou (discuta sobre os


alinhamentos que você encontrou, as áreas de cobertura, os graus de identidade
e as espécies que possuem genes parecidos com o gene que você buscou):
Resposta:

Neste espaço, cole o “print” da sequência com o maior índice de identidade (identity)
que você encontrou quando comparado ao seu gene e aponte ou descreva se ela tiver
alguma região em que não houve alinhamento:

Neste espaço, cole o “print” da sequência com o menor índice de identidade (identity)
que você encontrou quando comparado ao seu gene e aponte ou descreva se ela tiver
alguma região em que não houve alinhamento:

4) Agora realize a busca de proteínas relacionadas ao gene que você está analisando
5) “blastx” (translated nucleotide > protein), na seção “Web BLAST”.

Cole o “print” do resultado encontrado:

Qual a espécie que possui a sequência mais parecida com a sequência que você
buscou?
Resposta:

Explique o significado dos resultados que você encontrou (discuta sobre os


alinhamentos que você encontrou, as áreas de cobertura, os graus de identidade
e as espécies que possuem genes parecidos com o gene que você buscou):
Resposta:

Existe no NCBI alguma proteína relacionada ao gene da sua pesquisa? (gene


inserido na busca)
Resposta:
O seu gene é provavelmente relacionado à proteína que o pesquisador sugeriu?
(Verificar se a descrição do gene que você usou nas buscas está relacionado com
as proteínas que você encontrou)
Resposta:

Que informação estes resultados revelam ao pesquisador?


Resposta:

Você também pode gostar