Você está na página 1de 3

Bioinform atica 2011 Facom-UFMS Lista de Exerc cios 1

5 de agosto de 2011
1. Pesquise sobre os t opicos: (a) s ntese de prote nas em procariotos (b) taxonomia 2. Escreva um programa que determina o tamanho de todas as sequ encias em um arquivo no formato FASTA. 3. Escreva um programa que conta o n umero de As, Cs, Gs e Ts de uma sequ encia no formato FASTA. 4. Escreva um programa que extrai uma subsequ encia de uma sequ encia s no formato FASTA. O usu ario especica como entrada: (a) o arquivo FASTA contendo s (b) a posi ca o b de in cio da subsequ encia (c) a posi ca o e do nal da subsequ encia (b e) e recebe como sa da outro arquivo FASTA contendo a sequ encia s[b . . . e]. 5. Melhore o programa anterior de tal forma que: (a) se e for omitido, retorna s[b . . . (s)], onde (b) se b for omitido, retorne s[1 . . . e] 6. Combine o programa anterior e o programa para achar o complemento-reverso de uma sequ encia de DNA (visto em aula) para escrever um novo programa que retorna o complemento-reverso de s[b . . . e], se b > e. 1 e o tamanho de s

7. Escreva um programa que simula uma sequ encia gen omica com tamanho fornecido pelo usu ario, em duas vers oes: (a) uma sequ encia totalmente rand omica de As, Cs, Gs eTs (b) uma sequ encia obedecendo a segunda regra de Charga; neste caso o progrma deve receber como entrada o %GC desejado Os exerc cios a seguir dever ao ser entregues via e-mail at e as 23h59m do dia 17/8 (bioinfofacom2011@gmail.com). 8. Escreva um programa que calcula a varia ca o de %GC e a varia c ao de GC skew de uma dada sequ encia de DNA no formato FASTA, sequ encia essa representando um genoma circular. Seu programa deve usar a t ecnica de janela deslizante para ambos os casos, ou seja, dado um valor w para o tamanho da janela (em bp) e um step k , dados pelo usu ario, o programa deve calcular o %GC para cada janela de tamanho w, com k bp entre uma janela e a pr oxima. O mesmo deve ser feito para o GC skew, com par ametros w e k . A sa da deve ser composta dos seguintes arquivos: (a) arquivo texto contendo um par de n umeros por linha (separados por um espa co); o primeiro n umero e a coordenada do centro da janela (um n umero inteiro) e o segundo o %GC daquela janela (um n umero real) (b) arquivo texto contendo um par de n umeros por linha (separados por um espa co); o primeiro n umero e a coordenada do centro da janela (um n umero inteiro) e o segundo o GC skew daquela janela (um n umero real) (c) dois gr acos gerados pelo programa Gnuplot, semelhantes aos vistos abaixo, no formato PostScript Dica: no caso de GC skew, use computa ca o incremental, ou seja, calcule o valor da janela atual usando o valor da janela anterior.
65 0.04 60 0.02 GC content (%) 55 GC skew 0

50 -0.02 45 -0.04 40 0 500000 1e+06 bp 1.5e+06 2e+06 0 500000 1e+06 bp 1.5e+06 2e+06

9. Rode o programa do exerc cio anterior para genoma simulado (totalmente aleat orio) e para os genomas abaixo, para notar a diferen ca. Para GC content, use w = 5000 e k = 200. Para GC skew, use w = 400 e k = 1 para se obter melhor uma resolu c ao. (a) Agrobacterium tumefaciens str. C58, accession number NC 003062 (b) Borrelia burgdorferi ZS7 str. ZS7, accession number NC 011728 (c) Escherichia coli str. K-12 substr. MG1655, accession number NC 000913 Entregue por e-mail um diret orio zipado contendo o programa em Perl, os gr acos gerados e um arquivo README.txt com o nome dos participantes do grupo, e informa c oes sobre os arquivos e programas entregues.

Você também pode gostar