Você está na página 1de 9

Proyecto Ensamblaje y Anlisis Datos de Secuencias Genticas

Curso Anlisis y Diseo de Algoritmos

Debido a la vinculacin de la Universidad de Caldas, en la alianza Suma (Sistema Universitario de Manizales) y la definicin de Manizales como la Sede del Centro de Bioinformtica y Biologa Computacional de Colombia. Se desea favorecer los conocimientos y competencias de los estudiantes del Programa de Ingeniera de Sistemas y Computacin de la Universidad de Caldas, en temas referentes al procesamiento y descubrimiento de informtica gentica a partir de diferentes etapas de anlisis bioinformtico, para lo cual los profesores de la Asignatura Anlisis y Diseo de Algoritmo desean proponer a los estudiantes la posibilidad de implementar y analizar diferentes funciones y procedimientos que favorezcan la labor de los cientficos y el personal que desea realizar actividades de Bioinformtica en la regin.

Conceptos: La bioinformtica se encarga del anlisis de los datos biolgicos a partir de las ciencias de la computacin, la estadstica, la qumica y la biologa. Genoma: proviene de un acrnimo entre gene y cromosoma, acuado por el profesor alemn Hans Winkler, referido a la informacin gentico que posee un organismo. El conjunto de genes de los cromosomas de una especie se denomina Genoma. Gen: Secuencia de nucletidos, de la molcula de ADN. Los genes se distribuyen a lo largo de las cromtidas de los cromosomas. Los genes estn conformados por regiones que codifican protenas denominados exones y tambin por intrones los cuales no codifican los animocidos.

figura tomada de: http://www.medmol.es/glosario/16/

Nmero de genes en algunos organismos


Organismo N de genes pares de bases

Plantas

<50000

<1011

Humanos

250001

3 109

Mosca

12000

1,6 108

Hongo

6000

1,3 107

Bacteria

500-6000

5 105 107

Mycoplasma genitalium

500

580.000

Virus ADN

10-300

5.000 800.000

Virus ARN

1-25

1.000 23.000

Transposones

1-10

2.000 10.000

Viroides

0-1

~500

Priones

;0

Cromosoma: Son segmentos largos de ADN que se encuentran en el ncleo de la clula. Son los portadores de la informacin del material gentico y por ende incorporan las caractersticas hereditarias de cada especie. El ADN contiene los genes. Grfica de un cromosoma

Diagrama de un cromosoma eucariticoduplicado y condensado (en metafasemittica). (1) Cromtida, cada una de las partes idnticas de un cromosoma luego de la duplicacin del ADN. (2)Centrmero, el lugar del cromosoma en el cual ambas cromtidas se tocan. (3) Brazo corto. (4) Brazo largo. 1
1

Tomado de http://es.wikipedia.org/wiki/Cromosoma

Mapa citogentico o cariograma de una nia antes de nacer tomado de:

http://upload.wikimedia.org/wikipedia/commons/f/f3/Mapa_gen %C3%A9tico_o_cariograma.jpeg

Secuenciacin: Es un conjunto de tcnicas, mtodos que determinar cual es el orden de los nucletidos presentes en el ADN.

permiten

Pirosecuenciacin: Es un mtodo de secuenciacin de ADN basado en el principio de sntesis de las secuencias mediante luminiscencias, este mtodo es aplicable a grandes genomas. Ms informacin consulte el siguiente enlace (Pirosecuenciacin)

Ensamblaje: En Bioinformtica, establecer el orden original de una secuencia a partir de mltiples fragmentos, utilizando mecanismos como la alineacin y mezcla se denomina ensamblaje.

La siguiente figura representa las diferentes mquinas de los cuales realizan secuencias de datos biolgicos.

Una vez la muestra biolgica ha sido secuenciada con cualquiera de los mtodos por terminacin de cadena o automtico (utilizando los secuenciadores), el resultado de este proceso es un conjunto de datos que representan el orden de los nucletidos, para lo cual se requiere proceder a realizar el ensamblaje de las diferentes secuencias

Proyecto Se desea a partir de informacin gentica de una especie cualquiera , la cual se encuentra estructurada en archivos planos (en los formatos fasta, fastq), realizar en primera instancia el procedimiento de ensamblaje. Para este caso prctico se tendrn 2435 reads 2, los cuales corresponden a una secuencia biolgica real, del secuenciador BAC 454. Se debe realizar un proceso de ensamblaje de los reads. En la actualidad hay dos estrategias preponderantes en el ensamblaje de secuencias:

2 reads es denominada a la informacin contenida en una secuencia

1) La primera de ellas denominada de novo: intenta construir la secuencia de ADN completa a partir de las lecturas sin ningn tipo de conocimiento previo acerca del genoma a ensamblar. Busca lecturas cuyo final coincida con el principio de otra de forma que se puedan unir para formar fragmentos mayores hasta completar el genoma. 2)Ensamblado comparativo: basndose en un genoma secuenciado previamente y que suponemos sea similar al que se quiere ensamblar. El procedimiento bsico tratar de colocar cada una de las lecturas en la posicin adecuada utilizando el genoma de referencia como gua.

Los algoritmos de ensamblado de novo se pueden agrupar en 3 categorias: OverlapLayout-Consensus (OLC), grafos de Bruijn (DBG) y grafos greedy que usan OLC o DBG

los archivos se encuentran en formato (.fasta y fasta.qual), los cuales tienen las
siguientes caractersticas: Una secuencia bajo formato FASTA comienza con una descripcin en una nica lnea (lnea de cabecera), seguida por lneas de datos de secuencia. La lnea de descripcin se distingue de los datos de secuencia por un smbolo '>' (mayor que) en la primera columna. La palabra siguiente a este smbolo es el identificador de la secuencia, y el resto de la lnea es la descripcin (ambos son opcionales). No debera existir espacio entre el '>' y la primera letra del identificador. Se recomienda que todas las lneas de texto sean menores de 80 caracteres. La secuencia termina si aparece otra lnea comenzando con el smbolo '>'; esto indica el comienzo de otra secuencia. Un ejemplo simple de una secuencia en el formato FASTA puede ser:

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNL V EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFL G LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVI L GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAG X IENY

Se deben tener datos globales de la secuencia: Las funciones bsicas del proyecto son dos:
1.

1.

Visualizacin -- Interfaz con el usuario (30%, desglosado en los siguientes items) a) (10%) Facilidad para visualizar una secuencia o todas las secuencias que se encuentran en el archivo. b) (5%) Por una secuencia determinada visualizar las frecuencias de cada nucletido. c) (5%) Configuracin de los colores de las bases nitrogenadas. (El usuario puede asociar un color por defecto a las bases), en la visualizacin de la secuencia se deben identificar las bases de acuerdo con los colores definidos d) (10%) Frecuencias : Total de nucletidos por reads, frecuencia por base en cada read y frecuencia por base en todo el archivo fasta. Implementacin de un algoritmo para encontrar la subsecuencia ms larga (70%) a. (10%) Implementar la forma de comparar entre las secuencias, la subsecuencia contigua ms larga que se encuentre en todas las secuencias o en un porcentaje (definido en la interfaz grfica). Ejemplo encontrar la subsecuencia ms larga que se encuentra en el 80% de las secuencias, el valor de 80% es un parmetro. b. (40%) Anlisis matemtico de la solucin y contrastacin del tiempo de ejecucin y la estrategia utilizada para leer grandes volmenes de datos. c. (20%) Se debe documentar la aplicacin indicando : i.Documentar el Cdigo ii.Informe en UML que incorpore (Requerimientos, Casos de USO, diagrama

iii.de clases, Documentacin Pruebas)


2. Opcional: a. (15%)Se bonificar a aquellos estudiantes que implementen la opcin de encontrar la subsecuencia NO contigua ms larga entre un porcentaje de secuencias de Utilizar o implementar una librera grfica que permita visualizar la informacin del proyecto. b. (10%) Se valorar de manera opcional el desarrollo de una aplicacin web y/o entorno distribuido.