Ejercicios Continuación Bioinformática 1.1

SERIE 2 DE EJERCICIOS
CONTINUACIÓN DE BIOINFORMÁTICA
Entregar por equipo el día lunes 12 de marzo del 2018.
1.- Ejercicio para ORF FINDER.
Secuencia de interés para búsqueda de ORF:
GTTAAATATTCTATAGCTAATTAAACCTAACAACTATGGTTTCCCCTACAACACCAATATCGTATACGTT
ATTACCAGATTTTTTCCACCCATTTTCAAGTTTAACCTCTTTGTCATATAGTCTGTAATTTCTGGAAAAC
ACATTTCTTTGCATTAACACCTCTGACCACATCCAATCATTGTTAATAATGCGTGGTATTAACTCTCTCA
TTAAAGGATGCTTTATTACTATGTTTTCATTTATTGGTGCATACGGTTCTGTGCCAATGAATTTTATATT
TTTTTTGTCTCTTCCAAATCCAAGATAATCTATGTCTTGAGATATTCTATTTACAATGCTTTCCTCAAGC
TGAAACTGTGCATTTATGGCATTGTAAGCACCATAAGAAAATATTGTTGATATTAAAAGAATAAAAGAAA
AATATATTCTTGATATTAACTGTTTATCTTCAAAAGCATAGAATACGCATAGGCAACAAAAAAACATAAA
GCCACCCATACCAATCAATACCCTCGGTGCGTATATTGGTGATTTTAGAAAAATCATTGGTCCAATGATG
AAGAACATTGATGCTAATAAAATTAAAACTACTAGCAATAACTTTGTTTTCTTATTTTCATCTCTTTTGA
TTGCTTTTAAAACTATGACTATCAAAGAAATGATTAGCGCAAAGAATAGCGAGTAGTAGATTAAGTAATT
ATCGCCATTCAAGATCGTGCTAAACATTCTATAAAATGATAAGACGTTAGAAATTATCCCTTCAAATAAA
CTTGAGTTTATCTCTATAATCTTACTATGTTCGATATTGTAAGAACCTGTTACAAGTCTTTTTGCAATAA
AGTAAGAATAGGCAAAATATCCTACTATTAAACCAGCGACAGAAGATGCTGTATTTTTTGTGATATTTGA
AATTGAGTTTTTCTTAACCACATCTGAAATTATAAAGGCCAACAAGAATATTGCGTAAGTATTCAGCGCA
GCCTGATAAAGACTAAGGAATGCAATGGTTAAAATGGATGATATTATGATATTTATAGGCTTGTATTGAT
AAGCGACATACGATGAGATAATAGATATTGCCACACTCATGCACATTGTTAATGAATCATATCTATATGA
TAGATTTTCAATAAAGAATGGGTTTGCCAAAATCATCATAAAACAAAGAGATGCTGTGATGTAGTCATCT
CCAAACAGCTTTTCCCTGATGCAGGATAGTGCCAATGCTAAAATAACTATCCCTAGCATTAAAGGTAGCG
GAGAAGCATCTATAATTGGGGTTCCAAAATTAATGATATAGAAAATAAAGTCGGAAAGTGGGCGACCATT
GCCTGACCAACCCAACCCGCCATATAAAGACCTACCCAAGTCATCAACGAAAAATGATTGATGTGTCAAT
AAAGGAAATGTATATATAATCGCCAATCCAAGAAAGATTGATATAAATATCCTGTCATTACTATTAAATT
TCACTTTTAAAACCCTTACGCTTTAATATGTATTTAGGCCGCTGTTTGGTTTCTATGTAAATTCTACCAA
TATATTCTCCAAGAATACCTATTCCTATCAATTGAACGCCACCCAGGAAAAGAACAGAAACAAGAAGAGA
CGGGTAGCCAGGAACATTATTTCCAAATATTAATTTATCAATAATCATCCATGCACCGTAAAGGAATGAC
ATACCTGCAATAAACAATCCAATGTAAGTCCATATGCGGAGCGGAAATGTTGAGAAAGAAGTTATTCCCT
CCAGCGCCAGGTTCCATAATTTCCAGCCGTTGAATTTCGAATCACCGGCCACGCGTTCGGCACGGGCATA
TTTAACAACATCCGTTTTTCCGCCAACCCAACTGAGCACACCCTTCATAAACAAGTTGCGTTCTGGCATT
TGTTTGATGTTCTCGACAACCGCACGGCTCATTAACCGAAAGTCGCCAACATTTTCTTCGATTTTTGGAT
TGCTGATTTTATTGTGCAGCTTATAAAACCACTCAGCTGTCTTACGCTTCATGCGCCCGTCAGTTGAGCG
GTCTGAGCGCTTAGCCAGCACCATATCCGCGCCAGCCTGCCACTTCTCAATGAGATGAGGGATAACTTCT
ATCGGATCCTGTAAATCGACATCAATAGGAATGACCGCATCCCCGGTTGCATGGTCGAGACCCGCGAAAA
GAGCAGGTTCTTTACCGAAGTTTCGCGTAAACGAAAGCGGAATAACGAGCGGATCAGATGCAGCTATTTT
GTTAATTATTGATTCAGTCGCATCTTTACTACCATCATTAATAAAAACGATCTCAATTTCATATTCTTTT
AGCTCATTAAACTCACGTACCGTTTTATAGAAAATCGGTATCGTGTCTTCTTCGTTAAAAACTGGAACGA
CAAGAGAGATTTTCATCTTATATCCCTGAAAACAATGAATCTGGAATAGATAAAGCCGCATACCAGGCTA
ATTGCCGAGAAAGTGATAAGGGTAATCAATGGTGGCAAGGAACATTGGTCAGCCATCCAGCCAACAACAG
CGCTCAGTGTTCCCATGAATCCCACATACATCATGTAGCGAAGCGTGGTGGTGGTGGCATTAAAGGTGAA
ACGCGCATTGGCATAGAAGCTGAACGATACGGCGATAACAAAACCGGAAAAGTTCGCCAGCGCCTGATGC
GTATGCATCCCATACACACAAAAAGCAAATACGCCCCAATGAATAAGCGTGTTAAGAACACCGATCGATG
TGTACTTAGCGAATAACTTCAACATTATGAAAATCAGCGGATTCGGAAAGGTCTGAAGTGTAGCACTACA
AATTGTTTTGATCGATACAAGCGATCAATAATGTATAATTTGATAGTTTTTATCTATATAATGCATGTTA
ATTGATCGTTGTTACCGATCAATTTTTATTGCTGATTGCTAAGTGGTTTGGGACAAAAATGGGACATACA
AATCTTTGCATCGGTTTGCAAGGCTTTGCATGTCTTTCGAAGATGGGACGTGTGAGCGCAGGTATGACGT
GGTATGTTGTTGACTTAAAAGGTAGTTCTTATAATTCGTAATGCGAAGGTCGTAGGTTCGACTCCTATTA
TCGGCACCAGTTAAATCAAATACTTACGTATTATTCGTGCCTTCCTTATTTTTACTGTGGGACATATTTG
GGACAGAAGTACCAAAAATCGAGTCAATTTGTCGAGCATGTTCAGTCAGGTGATTTGGTGCCAGATGAGC
ATATCGGCGAACCATTTCGATAGACTCCCAGCCACCCATTTCCTGCAATACCGAAATCGGAACGCCAGCC
TGAACTAACCAACTTGCCCACGTGTGCCTCAGGTCATGAAAACGGAAGTCTTCAATGCCCGCTCGTTTTA
ATGCTGCCCTCCATGCAGTATTAGCGTCATAGCGCATCTTCCTCACTACAGGTGATTTAGTTCCGTCTGG
TTTGGTGCTGCTTTCCTTGTAGACGAACACCCATTTGTGATGATTGCCGATTTGCTTTTTCAGCACCCGG
CAAGCGGTATCATTCAGCGCCACTCCAATGGCATGATTAGACTTGCTTTGTTCCGGGTGTATCCATGCCA
CCTTTCGTTGCATGTCTATCTGCTGCCACTCCAGATTGATAATGTTAGACCGCCTTAAGCCAGTAGAAAG
CGCAAACTCTACGACTGACTTTAGCGGTTCCTGGCATTCATCAATCAACCTTTTTGCCTCGTGAGGCTCA
AGCCAGCGGATACGCTTATTTTTCGGCTGAGGAACTTTGATGATCGGAGCCTTATCCAGCATCTTCCATT
CGCGTTCAGCAGCCCGGAGGAGTGCCTTAATGAATGAAAGGTGAGTTGCTTTTGTAGCTACTGCTGCCGG
CTTAGGCTTGAATACCGGAGGCTGCTTCCCATTCTTCCTGCAAGCTTCATCCATTAACTTCCAGTTTTCC
TCATGCCGCCGATTAGTTATCTTCTGGATGGCGGAGTAAATCTTCGTCTCGGTAATATCCTTCAACTGCA
TTCCTGCAAAATGCTGGAGCCAGAATCCTATCCGACTCTTGTCATCATCCAGCGACTTCTTATGCGCCTT
CTCCTCTAACCACCTGACACAGGCCCCCTCAAAAGTCATGTCAGGCGTCTCTCCTAATTTACTTACCCTC
CATGCTTCTGCCTTCAGCTTGTCATGAAGCTCTGTGGCCTGCCTTTTGTCCTTTGTCCCAAGAGACTGCT
TAAATCTTTTGCCGTTCGGCAATGTGAAACTGGCGTACCAGGTTTCACCTCTGCGGAATAGTGACATTTC
AGTTCCTCTGTTATGTCATCACCCGCGCTCACCTGGACAGTATGCAGCGGAGATTGAAGTGCCGCAATGC
AGGCTTGTCGTGTGGTGAGGTAAGGGGATTTCGGTTTGGTGGGGTCTTTACGTGTTGCCTGTAGTCGGCC
TGTGCGAATCCAGTTGGTGGCGGTAGGTCTGGATATCTTGAGAAATGCACAGGCCTCATCAAGTGTGAGG
CTGTGTGATTCCATGTTTACTCCGCTGTTTCTTCTTCGTCTTCTTTTGCGTTAGGCATGTCGTAGAATTG
CCCGTAAGTTATTTTCTTGAATGCATCAGGGATAACAACTACGCCATGCCTTTCTTCTTTGTTATTTGGT
ATTGCAAAAATAAGACAATCATCGCGTTGCGGGTGCTTGCCGCCGTACGTTGATAACATAACGAAACCAA
AGCCACGGCCCGATTGACCACCAATTCCTGTACGCATAATCCCGTAGTGGTTGGTTATGTAGTAATTCCA
TTCAGGCAAGGATTTTAGCTTGGCGTTAGCGTTATGCATGATTGCATCCAGCTCTTTGTTGTATGCGCGG
CCTTCCTTTGTGTTTCCCTTTCCTCGCGCTATCACAACTCTCTTCCCGTCCAAAAAATCCTCGCGTTTGA
TTGTTATCTGGCATGGGAATTCATATCCTTTTTCCCAAACGAAGCTTTGTAGAAGTCCGCCTTCTCCACC
CCAGCTACGGGCTGTAGTCCATGCGATTGCGCCAACCTTTTCAGCGGCTGTGGTTAGGATTGAATTTCGT
TGATCGTTAATGGTGTCGTATGACTGGATAAGCTCCTTAACATCCTCACCCTCTACCATGTAGTAGTCGT
AATATTTGCTCTGGCCTGACATTTATTGTCTCCAATAAAAAACCGCCATCAGGCGGCTTGGTGTTCTTTC
AGTTCTTCAATTCGAATATTGGTTACATTGTTTTCATATATGAATAAATAAATTAGCTTTTTTCGTTGCC
TTTGCGTTCCTTATTAATTCTGACAAACTCGTTTTTACCACGCTCTCCAAATGCGTCTTTAGAGTCGTTG
TATCCGCAATCGCAGCACACATAATCATCAGACCATCCACGCATTGTTTTTTCTTTTGCAATATTTCCAG
AACCGCATTTTGGACAAGACATGTCACTACCTCCAAAGCATGAGTGAGATGACAACGTAACATTGATTGG
AGATTAACAATAGATTGCTGATGTAAAAGATATGTATAAGCTTCGCTATCAAAGGGGAGGATCTGGTAGC
TGCATCCAGTGGCTTACACCGATAATTTCCATACCCTCCCAATAGTCAAAGAACCCATCATCGTCGTATG
TAGCAACGAACATCCCCTGACCCAGACATTTTCCGGTAAAAATTGCGATGGGTTTAGATTCATCATTATC
TGGCATTCGCTCACTACAGCTTATCCAGCCACCCGGAATTACCGGAGAGTTGCCTGCCAGCGCTTCTTGC
AGTCGTTCAAGCTTCACGTATTCCTGAACGCAAGTTCCCGAGTAGTTATTTATCCAGATGGTCGCCTTTT
CTGGGTCAGGCGTATAAGTAACCACTTCTCCCGACTGCCAGCACAGGGCGTACAGGTCAGCGACTGCCTT
AACCTGTGCGTATGGCAACTCGGCAGGGCATTCCTCCGGCACTACCGACTCTGGCTGCTCTTTGATATGC
AGTCGTGGCTCGCCGTCTTTCGGTTCAGGCCACTGGCGTGTTTTGTTTATCTCCAGTTTTTCAATCATCG
CCCTCGTAATGAATTCGTCGGAAATTCCCATGCGCCGCTGGGCATCCCACAATAAAAACTGCATATCAGC
CCATTCAAGCGGGTCTGATGGGTCGGCAGCGGCTTCCAGCGCTTCTTTCGAAAGATGTTTAAGCGGGCCG
ACTGGACCAACATCGCCGAACGTCTTATCTGACCACTCGGCGTGCTCACGGCGAATACGTTCGCGTTCTG
GCACTGGCGGGGCGGCGTAGAGCGGTATATACACGGCAACATCATCAGCAGCATTTGGCTGCTGCTCTAA
TGTCACGCATGTACCGGAAAATTTATTCAGGTATCGCACAGTCTCAGCATCCAGCGATGCCAGCGCAATC
CGTGCCAGCTCCATTTGTTCGCCACGGGTAAGCCCGTTTTCAAGCGGCGATTTAACGAACAATTCAATAC
GTTCTTTGGTAATAGTGGTCATGGGTTAGTCCTCAACGCTGATATCAACGGCCACTTTCATTCTCCCGGC
AGAAACTTCAAAACCGGTGACATCCGCATTAAGCATGTATTCAGATATAACCAGCGCAAGAAGTTTTAAC
TTCGCGTCTGTATCGTTACCGTTCAATTCTTCAAGAAGCTCAATAACTGGCTTCATATGTTCACCAATCT
TCATGCTCATTCCCCCTTAACCTTGATGCCAGCGCGTGTGCTATATGCAGACATGCACTGCGTGAACCCG
GATTGGTCATCTGTCTGCCCATAACTGAACCCTGCTTTCAGGCCGTCACGGAATGCGCCATCCTGCAACT
TGTCGTCAGTTTCAAGCTTCGCCTCCAGTTCTTGAATACGCTGGCGTAACGCTGTAATTTCCACCTCAGC
AGCGTCTGCGTAATGAACGTTTTCATGCTCAAGTGGTGGTAAATCCGGCGTAATGACACCAAAAAGTTTT
GCCAGCGCCCGGTAATTCAGTTCGCTGTGATAACGACCTTTGCAGCGAACCAGTTTTTCAGCAGCAGCTA
CAATCGCGCTTTGTTCTGTCATGCGCTTTTTTGCTGCTTCCAGCTCAACTCGCAGCTTCCCAACCGTAAG
CGCAATATCCTCGTCCTCCTGGTCGCGGAGTTTGATGTATTGCTGTTTTTTATCCAGCTCATCCAGCAGC
GCCTCTGCGGCGATATAAATAACCTGGCGTGCACGGTCTGCTGGGTCGCTGTAATGGTCTTGCATGTACT
GGAATTCTTCACGCAGCGCCTGTTTGTCGATGTTGCTCATTGGGCTGTCTCCGGTGGATAACAAATATCG
TCGAAATATTTTTCTGCAACGCACATGTTGAAGTGATCGAGATTCATCTCCTCCACCTGGAGTTTTGCCC
CAACAATACCCGTGCATCGATTGACGTAATCCCGATTTTCTGGGGATTCCGCTACCCACTCCATAAGGTC
TTCGGTGACACGTTTTAAGCAACGTAAGGCGCAGTCCATATCAGTAAAATGCTGAGCATCTGTGATGCAG
GAGACGACATAATACGTGGTGATTTTTGGCCCTTCAGCGCGTCGCTTAAGTTCTCTCTCTATATCTCTTT
TCAGATCAACCAGTTCATGGTCATTGAGTTTGTCGATGTTGCTCATTGGGCTGGCCCTCGCATTTGTGAT
TTTCTGGATCATCGGCTTTGAAATAACCGCCGCAGATTTTGCAGGGTATCGTCGGCACTTCGTCGTAATT
TGAGGTTCCCGTAATCATGACTGCACTCCTTTGCGAAGCTGGGCGGCGATATCTTCGATAACGCCATCGG
CGAATGAGCGATCAAAATCGCCTTCCGGTGCATCAGCCATAAATTCTGTGGAGGTCAGTATCATTCGTGC
GATGTCCGCAGCGTTCTTTGCTGTGTCGTCGATAAATCCTGCATCCCATGCGGCCAGCATTCGGTTAGCA
ACAAAGTAAGCGCCTTCCTTGTGAGCCTGCGCCCGCATCTCCGCCAGAAAGGCGTCTGTCGCCGGGGTCT
CAGTGAAATCGTCTACCCACGTATCGCCAACGTCCTCGCACTCGTGACGACAATAATCGTTGAATTCGAC
CTCTGATTTTTTCAGTGCCCCATTCTCCACCACCAGTGCCGCGCATTTCGCCTCCAGTTCCCGATAATCC
GACGCCAGCACCAGATCCACACAGAACGATTCAGACTGTACCGGTGGGGATAAATCTGATGGGGATGCGG
TGTAAATTTTTACCTGTTGCATTTATCTTTCCTCAGTATCGCATTCAAATATTTATTCTCGTTAATAGAA
GGAAATGAATTGCGCTGCAATAATTCTTCGCGTGTAGGCATTGGTTTAATTTTGTGCCTAATAATAAGTT
CGGCTGGTAGAATGTCGGGATTGTATGCAAGTCCTCTCATCGTAAACTCCTCAGTTATTGCTGATAGCTC
CGTAACGCGAACGGTAATCACGAAGACGCGGGTCTATTTCAATGAATTTGGTGTAAGTGGCTTTGCGGAA
TGGCCGGATGGCTGTCTGGTAAATTCGCTCGCGTTCTTCTTTCTCTGCAAGCCATATACAGTGGCGAAAT
TCCTTTTCCTCTTTCGTTTCCTGCGGTAGTGACATTATCAGGTCGTAGTTTTTTCTGAATTTATCCAGCA
CCTCCGATACGGAATTGCCGGAACAGCGGCGCGGGTCATCCGCACCATACAAAGGCGCTGGCATAATTTA
CTCCAGGGTAGGTTATCCGAATAATGTGGTACGTATAGGGTTATTTCTTTCGTAAACGTGATAGCCTGCT
TTTTACCGACTCTTCACTTCGCCCGAGAATTTTTGCTACATTTCTTTGTGTATAGCCTGATGAGATAAGC
GTCTGCATTCTTTTGTCTTCGTCGTCGCTCCATCTTGGCTTAATGAATGCCGTTTTTAATGACAGTTTTT
TTGCTATGTAATAAAACTGATTTATGTTTAGGCCCAGATGTTCTGCTGCACGGCAAGCTACCATGCGACC
GCAAACTGACTCCATCTCCGCTGTAGTTATGTTTAATCTTCTCATTAAGCCACCTGTTTAAGCTCATTTA
TTCTGATATTCATTACCTGAACGCATTTTGTCTGCTCATCATCGTGACCAGTCAATAATTGCCAGTCGTG
CTGGTATCTCTCAATTAGCTTTTTCTTGTCCGTTTCTGTTGCTGCATATTCACTGAATGCCTTAAGAACC
TGTTCAGGAGCAGGGGAGGAAGGCGATGATTTAGTTTGCTTAGCAGGTGCTGCATTCTGCTGCTGTTTGT
GCTCCTCAGTATCAGCGTCTTTGGCGTCGTCGATACCAAACAAACCGTTAAGGCAATATTTGCGAGCGTA
AGAGCTTGTAGCGCCCGTTACCTGAGCTGCATCCATTCCCTTCTTGTTTTCTTCTTCTCGCGCTATAGCG
a) Seleccione 600nt de longitud mínima de ORF (observe y cheque los diferentes tipos de
códigos genéticos que existen, nosotros usaremos el standard).
b) Seleccione a la derecha Desplegar la traducción de los seis marcos abiertos de lectura
(“display six-frame translation”).
c) Despliegue los ORF en traducción de secuencia codificante (“CDS translation”)
ORF1 CDS translation
1 ATGCACGGGTATTGTTGGGGCAAAACTCCAGGTGGAGGAGATGAA
M H G Y C W G K T P G G G D E
46 TCTCGATCACTTCAACATGTGCGTTGCAGAAAAATATTTCGACGA
S R S L Q H V R C R K I F R R
91 TATTTGTTATCCACCGGAGACAGCCCAATGAGCAACATCGACAAA
Y L L S T G D S P M S N I D K
136 CAGGCGCTGCGTGAAGAATTCCAGTACATGCAAGACCATTACAGC
Q A L R E E F Q Y M Q D H Y S
181 GACCCAGCAGACCGTGCACGCCAGGTTATTTATATCGCCGCAGAG
D P A D R A R Q V I Y I A A E
226 GCGCTGCTGGATGAGCTGGATAAAAAACAGCAATACATCAAACTC
A L L D E L D K K Q Q Y I K L
271 CGCGACCAGGAGGACGAGGATATTGCGCTTACGGTTGGGAAGCTG
R D Q E D E D I A L T V G K L
316 CGAGTTGAGCTGGAAGCAGCAAAAAAGCGCATGACAGAACAAAGC
R V E L E A A K K R M T E Q S
361 GCGATTGTAGCTGCTGCTGAAAAACTGGTTCGCTGCAAAGGTCGT
A I V A A A E K L V R C K G R
406 TATCACAGCGAACTGAATTACCGGGCGCTGGCAAAACTTTTTGGT
Y H S E L N Y R A L A K L F G
451 GTCATTACGCCGGATTTACCACCACTTGAGCATGAAAACGTTCAT
V I T P D L P P L E H E N V H
496 TACGCAGACGCTGCTGAGGTGGAAATTACAGCGTTACGCCAGCGT
Y A D A A E V E I T A L R Q R
541 ATTCAAGAACTGGAGGCGAAGCTTGAAACTGACGACAAGTTGCAG
I Q E L E A K L E T D D K L Q
586 GATGGCGCATTCCGTGACGGCCTGAAAGCAGGGTTCAGTTATGGG
D G A F R D G L K A G F S Y G
631 CAGACAGATGACCAATCCGGGTTCACGCAGTGCATGTCTGCATAT
Q T D D Q S G F T Q C M S A Y
676 AGCACACGCGCTGGCATCAAGGTTAAGGGGGAATGA
S T R A G I K V K G E *
En qué hebra están ubicados estos ORF (“Strand”):

d) Realice BLAST del ORF más largo (base datos “otros”, realice megablast)
Esta secuencia a qué organismo pertenece:
hypothetical protein, partial [Salmonella enterica]
Cuál es el número de acceso en el Gen Bank:

YP_009279823.1
Cuál podría ser su importancia biomédica:
Estudio Genómico de tres nuevos bacteriófagos útiles en el control
biológico de Salmonela
-----
2.- BLAST, alineamiento y comparación de dos secuencias:
A)
tgttgagggc ggagaaatgc aagtttcatt
5041 acaaaagtta acgtaacaaa gaatctggta gaagtgagtt ttggatagta aaataagttt
5101 cgaactctgg cacctttcaa ttttgtcgca ctctccttgt ttttgacaat gcaatcatat
5161 gcttctgcta tgttaagcgt attcaacagc gatgattaca gtccagctgt gcaagagaat
5221 attcccgctc tccggagaag ctcttccttc ctttgcactg aaagctgtaa ctctaagtat
5281 cagtgtgaaa cgggagaaaa cagtaaaggc aacgtccagg atagagtgaa gcgacccatg
5341 aacgcattca tcgtgtggtc tcgcgatcag aggcgcaaga tggctctaga gaatcccaga
5401 atgcgaaact cagagatcag caagcagctg ggataccagt ggaaaatgct tactgaagcc
5461 gaaaaatggc cattcttcca ggaggcacag aaattacagg ccatgcacag agagaaatac
5521 ccgaattata agtatcgacc tcgtcggaag gcgaagatgc tgccgaagaa ttgcagtttg
5581 cttcccgcag atcccgcttc ggtactctgc agcgaagtgc aactggacaa caggttgtac
5641 agggatgact gtacgaaagc cacacactca agaatggagc accagctagg ccacttaccg
5701 cccatcaacg cagccagctc accgcagcaa cgggaccgct acagccactg gacaaagctg
5761 taggacaatc gggtaacatt ggctacaaag acctacctag atgctccttt ttacgataac
5821 ttacagccct cactttctta tgtttagttt caatattgtt ttcttttctc tggctaataa
5881 aggccttatt catttcagtt
Compare con
B)
tcttaaactctgaagaagagacaagttttgggactggtgacaattgtctagagagcatggagggccatgt
caagcgccccatgaatgcatttatggtgtggtcccgtggtgagaggcacaagttggcccagcagaatccc
agcatgcaaaatacagagatcagcaagcagctgggatgcaggtggaaaagccttacagaagccgaaaaaa
ggccctttttccaggaggcacagagattgaagatcctacacagagagaaatacccaaactataaatatca
gcctcatcggagggctaaagtgtcacagaggagtggcattttacagcctgcagttgcctcaacaaaactg
tacaaccttctgcagtgggacaggaacccacatgccatcacatacaggcaagactggagtagagctgcac
acctgtactccaaaaaccagcaaagcttttattggcagcctgttgatatccccactgggcacctgcagca
gcagcagcagcagcagcagcagcagcagttccataaccaccaccagcagcaacagcagttctatgaccac
caccagcagcagcagcagcagcagcagcagcagcagcagttccatgaccaccaccagcagaagcagcagt
ttcatgaccaccaccagcagcaacagcagttccatgaccaccaccaccaccaccaggagcagcagttcca
tgaccaccaccagcagcaacagcagttccatgaccaccagcagcagcagcagcagcagcagcagcagcag
ttccatgaccaccaccagcagaagcagcagttccatgaccaccaccaccaccaacagcagcagcagttcc
atgaccaccagcagcagcagcagcagttccatgaccaccagcagcagcagcatcagttccatgaccaccc
ccagcagaagcagcagttccatgaccacccccagcagcaacagcagttccatgaccaccaccaccagcag
cagcagaagcagcagttccatgaccaccaccagcagaagcagcagttccatgaccaccaccagcagaagc
agcagttccatgaccaccaccagcagcaacagcagttccatgaccaccaccagcagcagcagcagcagca
gcagcagcagcagcagcagttccacgaccagcagcttacctacttactaacagctgacatcactggtgag
catacaccataccaggagcacctcagcacagccctgtggttggcagtctcatgacactggccttttctcc
tacctatgccaacactcccccttgctatgatttttaagtctgagattcctagttggtttagatactgact
tttctcctgtcatgaaaaaggtcctgctccttccttttgggttctaaaatgtgtgtaaagatgtgtagtg
tgtaaggaaggagaaagcttagaaatgcttctacatagtttttgtttaacatagtactagttgcattgtt
gtggcatttaatccacagaagaaaccagagatttacactcag
Explique sus resultados obtenidos de blast, en base a homología, valor de E, gaps.

A qué corresponde cada secuencia.
A qué organismo y gen corresponden:

Diga si observa huecos (“gaps”) en el alineamiento de las secuencias, y a qué podrían
deberse.
Una vez en la secuencia del mensajero del gen identificado, seleccione una etiquete del
tipo STS para diseño de oligonucleótidos para e-PCR. Pegue la secuencia de sus diseños.
Haga primer-blast y diga si son específicos para su gen de interés.
NOTA: “STS”, sequence tagged sites. Secuencia de DNA corta (200 a 500 pares de bases)
que ocurre una vez en el genoma y cuya ubicación y secuencia de bases son conocidas.
3.- Haga BLASTP con el identificador que le proporciono:
NP_387887 Seleccione base de datos swiss-prot/uni-prot, realice protein-protein blast
A qué organismo corresponde, y qué proteína es: Subunidad de ADN girasa B [Bacillus
subtilis subsp. subtilis str. 168]
En la parte superior de sus resultados de BLAST, verá una gráfica de dominios
conservados, a qué tipo de súper-familia corresponde, qué dominios funcionales
observa y qué residuos de la proteína abarca:
Super familia: TOP2c
Dominios funcionales:
Lista de éxitos de dominio
Valor
Nombre Adhesión Descripción Intervalo
E
gyrB PRK05644 Subunidad de ADN girasa B; Validado 1-638 0e +
00
gyrB TIGR01059 DNA girasa, subunidad B; Este modelo describe la 8-638 0e +
topoisomerasa de ADN tipo II común (ADN girasa). ... 00
GyrB COG0187 DNA girasa / topoisomerasa IV, subunidad B [Replicación, 4-638 0e +
recombinación y reparación]; 00
TOP2c smart00433 TopoisomeraseII; ADN eucariota topoisomerasa II, GyrB, ParE 37-631 0e +
00
TopoII_Trans_DNA_gyrase cd00822 TopoIIA_Trans_DNA_gyrase: dominio del transductor, que 224-378 5.41e-
tiene un doblez del dominio ribosómico S5 2 veces, del ... 88
DNA_gyraseB pfam00204 DNA girasa B; Esta familia representa el segundo dominio de la 225-378 2.21e-
ADN girasa B que tiene un ribosoma ... 76
residuos de la proteína que abarca se mmuestran en la siguiente figura::
Si da click sobre la “barra negra” de resultados (posición en # de aa), lo llevará a la página

de Dominios Conservados, ahí seleccione el dominio de TopoIIA_Trans_DNA_gyrase (en color
azul).
Función y estructura de este dominio?
Descargue la aplicación de Cn3D para lo siguiente:
Interactivamente ver la estructura 3D de ese dominio conservado (en Structure view,
baje el archivo de la estructura y analice con Cn3D)
En la imagen 3D, click en view-animation-spin. Haga lo mismo con stop para detener la
animación.
En style-rendering shortcuts-worms. Luego style-coloring shortcuts-domains. Con el cursor
puede mover la estructura 3D.
Aprecie los diferentes dominios de la estructura en la imagen y en el visor de alineamientos
de secuencias.
En CDD, edite PUBMED REFERENCES, seleccione 1646964 (launch). De qué es esta
estructura cristalina: escriba la referencia bibliográfica.
En CDD description ítems, seleccione “show annotations panel” y elija ATP-binding site
“show”
En el visor de “sequence alignment viewer” pegue los residuos para unión a ATP de esta
proteína.
En “view” seleccione “show” y luego “taxonomy abbreviated”, pegue la imagen que obtiene
de la taxonomía
En la página de Dominios conservados, abajo en el alineamiento de secuencias. Indique
otros 2 organismos con los cuáles se compara este dominio proteico.
Sólo dele zoom al CD tree y observe cómo clasifica las secuencias proteicas y ayuda a
investigar relaciones evolutivas. Ver el árbol de la secuencia filogenética para un modelo de
dominio conservado de interés
Encuentre otras proteínas con una arquitectura de dominio similar (en CDART introduzca
mismo identificador proporcionado arriba NP_387887 También se pueden hacer filtrados por
taxonomía y súper-familia, por ahora no los usaremos).
https://www.ncbi.nlm.nih.gov/Structure/lexington/lexington.cgi
Pegue sólo la imagen de la primera página de resultados. Menciones al menos 3
proteínas con este dominio funcional.
4.- Visite la página del “reactoma”.

https://reactome.org/
Revisaremos qué hay acerca de las proteín-cinasas del ratón. En la ventana de búsqueda
escriba “protein kinase”. Seleccione Mus musculus en organismo (a la izquierda). Como
indico en la siguiente figura:
A continuación, seleccione la primer ruta para chaperonas y elija metabolismo de proteínas,

despliegue la ruta.
En qué organelo se ubica la reacción?. Homo sapiens Pegue la imagen de la reacción.
Puede ver las reacciones vecinas, moviendo el cursor o las flechas a la derecha.
Vaya a la página principal del reactoma y conteste:
¿Cuál es la última noticia en la página de inicio de Reactome?
Últimas noticias
 Versión 63 lanzada
 Acuerdo de licencia actualizado
 Nueva publicación de Reactome publicada en 2018 NAR Database Issue
 Orgullosamente presentamos nuestro nuevo logo
 Nuevo sitio web receptivo con una apariencia fresca
¿Cuántas proteínas humanas están representadas en Reactome?

10996 Proteínas
¿Cuál es el primer elemento enumerado que se incluirá en la próxima versión?
nuevo artículo en @ PLOSCompBiol explica cómo nos movimos a una base de datos de
gráficos @ neo4j y sus beneficios en términos de rendimiento, escalabilidad y mantenimiento
de código https: // doi.org/10.1371/journa l.pcbi.1005968 ... # biology # bioinformatics # cypher
# NoSQL
¿VAV2 de humano está en Reactome?

Si
¿Cuántas reacciones involucran VAV2? 4

Developmental Biology (Homo sapiens)
Hemostasis (Homo sapiens)
Immune System (Homo sapiens)
Signal Transduction (Homo sapiens)
¿Hay algún complejo que incluya VAV2? Si
Efectores Rho / Rac VAV2 : PIB

Efectores Rho / Rac VAV2 : GTP
EFNAs / EFNBs: p-EPHAs / p-EPHBs: SFKs: p- VAV2 , VAV3
¿CRB2 está en Reactome? Si

RHP9
Species: Schizosaccharomyces pombe
Primary external reference: UniProt: P87074
5.- BLAST. Valor esperado de E
NOTA: El valor de E es un parámetro que describe el número de resultados (hits) que uno
puede "esperar" ver por casualidad al buscar en una base de datos de un tamaño particular
(resultados falsos positivos). Disminuye exponencialmente a medida que el ajuste (match del
score, S) del puntaje aumenta. Esencialmente, el valor E describe las secuencias que
ajustarían con mi búsqueda, por mero “azar”. Por ejemplo, un valor de E= 1 asignado a un
hit puede interpretarse como que en la base de datos uno podría esperar ver 1 coincidencia
de secuencia con un puntaje similar simplemente por casualidad. Cuanto menor sea el valor
E, o cuanto más cerca esté de cero, más "significativa" será la coincidencia.
De acuerdo con la presentación enviada y la información proporcionada. Conteste:
Se muestran los resultados del alineamiento de una secuencia proteica desconocida. De acuerdo al valor de E
mostrado, se puede inferir que el alineamiento más significativo es con cuál gen:
Seria este
En este otro ejemplo del genoma del jitomate, cuál sería el alineamiento menos significativo,
cuántas secuencias similares encontraríamos por mero azar en la base de datos:
Seria este
6.-visite OMIM en NCBI:

Busque talasemias.
Qué son las talasemias?
Enfermedad sanguínea caracterizada por cantidades inferiores a las normales de una proteína
transportadora de oxígeno.
De cuántos tipos hay?

Alfa y beta
Loci implicados y ID en OMIM:
Vaya a los genes causales ______ _______

Y diga, cuántas variantes genéticas existen (vea la tabla, es muy larga):
Busque dentro de talasemias, la variante HEMOGLOBIN J MEXICO, o la de Chiapas. Elija
una de ellas:
Cuál es el tipo de mutación y el “rs” asociado:
https://www.ncbi.nlm.nih.gov/genbank/
https://blast.ncbi.nlm.nih.gov/smartblast/smartBlast.cgi
https://blast.ncbi.nlm.nih.gov/Blast.cgi
https://blast.ncbi.nlm.nih.gov/Blast.cgi
https://www.ncbi.nlm.nih.gov/protein/1070066923?report=genbank&log$=smartblast
https://reactome.org/content/query?q=protein+kinase&species=Homo+sapiens&species=E
ntries+without+species&cluster=true

Ejercicios Continuación Bioinformática 1.1

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Ejercicios Continuación Bioinformática 1.1

Enviado por

Direitos autorais:

Formatos disponíveis

SERIE 2 DE EJERCICIOS

En qué hebra están ubicados estos ORF (“Strand”):

Cuál es el número de acceso en el Gen Bank:

Explique sus resultados obtenidos de blast, en base a homología, valor de E, gaps.

A qué organismo y gen corresponden:

residuos de la proteína que abarca se mmuestran en la siguiente figura::

Si da click sobre la “barra negra” de resultados (posición en # de aa), lo llevará a la página

4.- Visite la página del “reactoma”.

A continuación, seleccione la primer ruta para chaperonas y elija metabolismo de proteínas,

¿Cuántas proteínas humanas están representadas en Reactome?

¿VAV2 de humano está en Reactome?

¿Cuántas reacciones involucran VAV2? 4

¿Hay algún complejo que incluya VAV2? Si

Efectores Rho / Rac VAV2 : PIB

¿CRB2 está en Reactome? Si

6.-visite OMIM en NCBI:

De cuántos tipos hay?

Vaya a los genes causales _

Você também pode gostar