Você está na página 1de 67

Transcriptoma

El transcriptoma, es el repertorio completo de transcritos en una especie, representa una liga clara entre la informacin codificada por el DNA y el fenotipo. Un transcriptoma completo es muy grande. Por ejemplo, hay ms de 3 billones de bases en el genoma humano, cerca de 1014 clulas en el cuerpo, cada clula tiene alrededor de 300,000 molculas de RNA, y el tamao promedio de un gen completo es de cerca de 28 000 pares de bases. Por consiguiente, una representacin completa del transcriptoma humano, tiene cerca de 8.423 (280000 300000 1014) bases de RNA .

Transcriptmica y transcriptoma

Tcnicas para el estudio del transcriptoma humano

Microarreglos de DNA y SAGE

Qu es un microarray?
Un formato experimental, basado en la sntesis o fijacin de sondas, que representan los genes (o proteinas, tejidos o metabolitos), sobre un sustrato slido (cristal, plstico, slice,...), y expuestos a las molculas diana (la muestra).

Cmo funciona un microarray?


El nivel de hibridacin entre la sonda especfica (probe) y la molcula diana (target) se indica generalmente mediante fluorescencia y se mide por anlisis de imagen e indica el nivel de expresin del gen correspondiente a la sonda en la muestra problema

Que tipos de microarrays existen?


de DNA de Protenas de tejidos Arrays de CGH SNPs de Expresin de cDNA de oligonucletidos: GeneChip Affymetrix Otras marcas

Aplicaciones de los microarrays


Estudio

de genes que se expresan diferencialmente entre varias condiciones Sanos/enfermos, mutantes/salvajes, tratados/no tratados Clasificacin molecular en enfermedades complejas Identificacin de genes caractersticos de una patologa (firma o signature) Prediccin de respuesta a un tratamiento Deteccin de mutaciones y polimorfismos de un nico gen (SNP) Etc,etc

Microarrays de 2 colores (spotted) Diseo y produccin del chip Preparacin de la muestra Hibridacin Escaneado del chip Anlisis de la imagen

Microarrays de oligonucletidos sintetizados in situ


Diseo

ms avanzado que los de 2 colores Utilizan tecnologas desarrolladas en el entorno de la microelectrnica Algunos rasgos distintivos No se basan en hibridacin competitiva: cada chip contiene muestras de un solo tipo (1 color) Las sondas se sintetizan directamente sobre el chip en vez de sintetizarlas in vitro y adherirlas despus Cada gen esta representado por un grupo de sondas cortas en vez de por solo una.

Los GeneChips de Affymetrix


Affymetrix (www.affymetrix.com) es la compaa lder en este tipo de chips Se denominan genricamente GeneChips Cada gen esta representado por un conjunto de secuencias cortas que lo caracterizan Algunos chips contienen genomas completos con ms de 50.000 grupos de sondas! NOTA: Grupos de sondas = Probesets

Fuentes de variabilidad de un microarreglo Heterogeneidad biolgica en la poblacin. Recoleccin del espcimen/ Efectos del manejo. Tumor: ciruga. Lnea celular: condiciones de cultivo, nivel de confluencial. Heterogeneidad biolgica en la muestra. extraccin de RNA. Amplificacin del RNA. Marcaje con flor. Hibridacin. Escaneo. voltage. Poder del lser.

Anlisis de conglomerados (clustering)


Los genes no varan de forma independiente El anlisis de conglomerados permite descubrir grupos de genes que varan de forma similar Puede utilizarse tambin para agrupar muestras: (fenotipos similares) descubrimiento de subclases

Anlisis basados en la GO (Gen Ontology)


Los resultados de los estudios

de microarrays suelen ser largas listas de genes Para contribuir a su interpretacin podemos Proyectarlos en bases de datos de anotaciones como la GO o KEGGS Estudiar si hay clases funcionales enriquecidas entre los genes seleccionados Agrupar los genes por su

Anlisis basados en la GO (Gen Ontology)

Anlisis basados en la GO..

Conclusiones y perspectivas
Los experimentos con microarrays han revolucionado
el estudio de la genmica funcional Mejorando el conocimiento de la funcin de los genes a partir de la similitud de patrones de expresin Mejorando el conocimiento de las familias de genes: Permiten incluir nuevos genes en las familias Descubren patrones de expresin coordinados Aumenta el nmero de familias conocidas de genes Como toda tecnologas los microarreglos tienen sus limitaciones Algunas como la baja reproducibilidad o la calidad del genoma, se solucionaran con el tiempo Otras como el uso adecuado de sus posibilidades dependen del buen (o mal) uso que se haga de ellas.

Tcnica SAGE
La tcnica SAGE (Serial Analysis of Gene Expression) es una tcnica usada por los biologos moleculares para producir una imagen de la poblacin de RNA mensajero en una muestra de inters, en forma de pequeas etiquetas que corresponden a fragmentos de estos transcritos. La tcnica original fu desarrollada por el Dr. Victor Velculescu del Centro de Oncologa de la Universidad Johns Hopkins y se public 1995.

Procedimiento de SAGE
1) Aislamiento del mRNA de la muestra (xej un tumor) 2) Extraer un pequeo fragmento de secuencia (etiqueta) de una posicin definida de cada molcula de mRNA. 3) Ligar los fragmentos pequeos de secuencias para formar una cadena larga (concatmero). 4) Clonar estas cadenas en un vector plasmdico. 5) Secuenciar estas cadenas usando secuenciadores de DNA. 6) Procesar estos datos con una computadora para contar las pequeas etiquetas de secuencias.

SAGE

Protemica y Proteoma

Proteoma-protemica
El proteoma es el complemento total de protenas producidas por un genoma en particular, incluyendo variantes de la misma protena bsica generada por modificaciones post-traduccionales. El estudio del proteoma es la protemica.

Tcnicas
Geles de SDS-PAGE en doble dimencin ( 2D-gels). Anlisis por espectrometra de masas (MS). Microarreglos de protenas

1 dimensin = p

2. Dimensin= PM

Mapas peptdicos

Electroforesis en dos dimensiones (2Dpage)

Electroforesis en dos dimensiones

Nuevas tecnologas en protemica

Informacin acerca de protenas (PDb).....


Microarreglo:Un dispocitivo en miniatura conocido como chip, conteniendo, cientos o miles de molculas diferentes inmobilizadas en un patrn regular. Microarreglo de DNA: (genotipificacin y anlisis de expresin)
Microarreglo de protenas: anlisis de expresin y deteccin de interaccin entre protenas.

MIAME: Informacin mnima acerca de un experimento de microarreglos. Convencin reciente para la presentacin no ambigua de datos de microarreglos.

Informacin.....
B-series: fragmentos N-terminales en una escalera de pptidos generados por espectrometra de masas. ESI: Ionizacin por electrospray. Tcnica de espectrometra de masas adecuada para la ionizacin de molculas tales como protenas, sin una degradacin significativa. TrEMBL: EMBL traducido. Base de datos de secuencias de protenas traducidas de la base de datos de nucletidos del EMBL. No es tan extensa cono Swiss-Prot

Categoras
Familias de protenas: basado en su similitud funcional Dominios de protenas: el dominio dedos de cinc es uno de los ms abundantes.
Dominio proteico:

Repeticiones de protenas:las ms comunes son la repeticin beta de la protena G-WD-40( ~400 compatibilidades protecas) y la repeticin de ancirina (> de 260 compatibilidades de protena)

Familias de protenas
Una familia proteica es un grupo de protenas evolutivamente relacionadas, y frecuentemente es sinnima de familia gnica. El trmino familia proteica no debe confundirse con familia como se usa para estudios taxonmicos.

Familias proteicas
Las protenas estn agrupadas en familias basadas en similitudes en estructura y funcin y se piensa que han evolucionado de una protena ancestral comn a travs de duplicacin gnica y mutacin subsecuente. La base de datos SCOP (Structural Classification of Proteins http://scop.mrc-lmb.cam.ac.uk/scop/) agrupa a las protenas por familia y superfamilia.

Homologa
Las protenas en una familia descienden de un ancestro comn ( son homlogas) y tpicamente tienen estructuras tridimensionales similares, funcin y similitud de secuencia significativa. Es difcil evaluar la significancia de similitud funcional o estructural, el mtodo de alineamiento de secuencias nos permite evaluar la similitud entre un grupo de secuencias proteicas. Las protenas que no comparten un ancestro comn es poco probable que compartan similitud en sus secuencias, lo que hace del alineamiento de secuencias de aminocidos, una herramienta poderosa para identificar miembros de una familia proteica. Actualmente, se han definido ms de 60,000 familias proteicas.

Evolucin de protenas
De acuerdo al dogma actual, las familias proteicas se originan de dos formas, por especiacin y por duplicacin. Primeramente, la separacin de una especie parental en dos especies genticamente aisladas (especiacin) acumulan variaciones (mutaciones) en estos dos linajes. Esto resulta en una familia de ortlogos, usualmente con motivos de secuencia conservados. En segundo lugar, una duplicacin gnica puede crear una segunda copia de un gen (llamado parlogo). Debido a que el gen original es an capaz de presentar la funcin, el gen duplicado est libre para diverger y puede adquirir nuevas funciones (por mutaciones al azar). Ciertas familias gnicas/proteicas, especialmente en eucariotas, llevan a cabo expansiones y contracciones extremas en el curso de la evolucin, algunas veces con

Clases de homlogos
Trmino Homlogo Definicin Surgieron de una protena ancestral en comn, y su relacin evolutiva es evidente por similitudes en la secuencia, la estructura y/o en la funcin Son similares de alguna forma, pero no hay evidencias de ancestro comn. Anlogos estructurales comparten el mismo plegamiento, y anlogos funcionales la misma funcin. Son genes equivalentes en diferentes especies que surgieron de un ancestro comn por especiacin. Surgieron por duplicacin de genes dentro de un genoma, y tienen funciones diferentes, pero generalmente relacionadas. Incluyen residuos de unin, en contacto con sustrato y cofactor, y residuos catalticos que intervienen en el mecanismo enzimtico.

Anlogo

Ortlogos Parlogos

Residuos funcionales

Homlogos

Dominios de protenas y motivos


El concepto de familia proteica fu concebido cuando se conocan un reducido nmero de estructuras o secuencias proteicas, por ejemplo, protenas pequeas de un solo dominio como mioglobina, hemoglobina, y citocromo C. Desde entonces, se encontr que muchas protenas estn formadas de multiples unidades funcionales y estructurales independientes o dominios.

Protenas homlogas La familia de ciclofilina, representada por las estructuras de los dominios de isomerasa de algunos de sus miembros.

Como se originan las protenas

Dominios proteicos
Un dominio proteico es la zona de la protena donde se halla mayor densidad. Es decir, donde hay mas plegamientos. Una cadena polipptidica puede tener uno o ms dominos. Si una protena est formada por ms de una cadena polipeptidica, los dominios de cada cadena de polipptidos son sus dominios. Inclusive una proteina formada por ms de una cadena polipptidica puede tener un solo dominio, compartido por las cadenas de polipptidos. Un dominio proteico puede ser funcional si es una unidad modular de la protena que lleva a cabo una funcin bioqumica determinada, y estructural si se refiere a un componente estable de la estructura.

Dominio proteico
Un dominio es un trmino ms genrico que designa una regin de una protena con inters biolgico funcional o estructural. Tambin se llama dominio a una regin de la estructura tridimensional de una protena con una funcin concreta, que incluye regiones no necesariamente contiguas en la secuencia de aminocidos.

Un motivo es un elemento conservado en la secuencia de aminocidos, que habitualmente se asocia con una funcin concreta. Los motivos se generan a partir de alineamientos mltiples de regiones con elementos funcionales o estructurales conocidos, por lo que son tiles para predecir la existencia de esos mismos elementos en otras protenas de funcin y estructura desconocida. Una huella o perfil ( fingerprint) es un conjunto de motivos que se usan para predecir la presencia de motivos similares, bien en una secuencia concreta o en una base de datos. Una huella contiene un nmero de motivos consecutivos tomados de distintos puntos de un alineamiento mltiple. Las secuencias que pertenecen a la misma familia contienen todos los motivos del mismo fingerprint, mientras que las subfamilias comparten slo parte de la huella.

Uso e importancia de las familias proteicas


A medida que se incrementa el numero de secuencias proteicas y crece el inters en el anlisis protemico, hay un incremento del esfuerzo para organizar a las protenas en familias y describir los dominios y motivos que las forman. Una identificacin de las familias proteicas es crtica para el anlisis filogentico, la anotacin funcional y la exploracin de la diversidad de funcin de las protenas en una cierta rama filogentica.

Ejemplos de dominios

Protena con tres dominios

Modelo mostrando diferentes dominios

Las protenas pueden compartir motivos similares. Los motivos son secuencias comunes de aminocidos con secuencia de pliegues bien conocidas. Algunos ejemplos son las terminales de zinc y las uniones de leucina (conocidos en ingls como "zinc fingers" y "leucine zippers respectivamente). Las secuencias que se encuentran entre motivos pueden ser muy diferentes entre una protena y otra y la estructura plegada de esas reas puede ser desconocida pero las regiones de los motivos conocidos usualmente se plegarn de forma similar

CDART(herramienta para bsqueda de dominios en una secuencia de aminocidos)

Bases de datos biolgicas de protenas


There are many biological databases that record examples of protein families and allow users to identify if newly identified proteins belong to a known family. Here are a few examples: Pfam - Protein families database of alignments and HMMs PROSITE - Database of protein domains, families and functional sites PIRSF - SuperFamily Classification System PASS2 - Protein Alignment as Structural Superfamilies v2 PASS2@NCBS[6] SUPERFAMILY - Library of HMMs representing superfamilies and database of (superfamily and family) annotations for all completely sequenced organisms SCOP and CATH - classifications of protein structures into superfamilies, families and domains.

Informacin (definiciones)
Swiss-Prot: base de datos de secuencias de protenas confirmadas con extensas anotaciones. Mantenida por el Instituto Suizo de Bioinformtica. KEGG:Kyoto Encyclopedia of genes and genomes. Informacin de rutas metablicas. Superfamilia:una coleccin de familias de protenas, relacionadas por homologas, pero involucrando relaciones evolutivas ms distantes de las de miembros de una nica familia. Espectrometra de masas: (MS) Una tcnica usada para medir exactamente la relacin masa /de iones en un vaco, y por consiguiente el clculo de la masa molecular. MALDI: Matrix assisted laser desorption/ionization. Una tcnica para generar iones en espectrometra de masas, til para anlisis de protenas grandes sin degradacin significativa.

Informacin......
Huella de pptidos: (Peptide mass fingerprinting). Un mtodo para anotacin de protenas en el cual la masa de los pptidos (producida por digestin con proteasas) se determina por espectrometra de masas y es usada para buscar en base de datos positivos en protenas digeridas virtualmente. Motivo: (Motif) Una regin corta conservada de secuencia de DNA o protena. Dominio: Parte de una protena que se puede doblar y llevar a cabo una funcin independiente. Usado ms generalmente indica parte de una secuencia de protena, por ejemplo un dominio rico en glicinas. Matriz: Formato experimental, conocido como arreglo, en el cual la combinacin de condiciones se prueban en todas las combinaciones posibles en pares.

Informacin.....
Microarreglo:Un dispocitivo en miniatura conocido como chip, conteniendo, cientos o miles de molculas diferentes inmobilizadas en un patrn regular. Microarreglo de DNA: (genotipificacin y anlisis de expresin)
Microarreglo de protenas: anlisis de expresin y deteccin de interaccin entre protenas.

MIAME: Informacin mnima acerca de un experimento de microarreglos. Convencin reciente para la presentacin no ambigua de datos de microarreglos.

Informacin.....
B-series: fragmentos N-terminales en una escalera de pptidos generados por espectrometra de masas. ESI: Ionizacin por electrospray. Tcnica de espectrometra de masas adecuada para la ionizacin de molculas tales como protenas, sin una degradacin significativa. TrEMBL: EMBL traducido.Base de datos de secuencias de protenas traducidas de la base de datos de nucletidos del EMBL. No es tan extensa cono Swiss-prot

Informacin en la WWW.
Base de datos protenas: SwissProt y ExPasy Tcnicas: Protein chips, electroforesis 2D, MS.

Videos: Varios en youtube. Para ver diferentes tcnicas in al sitio del Hospital General de Boston, USA:

Bases de datos para consulta de tipo de protenas, secuencia y funcin.


Varias bases de datos estn dedicadas a a registrar caractersticas de secuencias que son compartidas por mltiples protenas e indican funciones comunes o relacionadas. Dos bases de datos utilizadas a menudo son: Interpro: conservada en el European Bioinformatics Institute (EBI)

Pfam: preservada en el Wellcome Trust Sanger Institute

Principales familias de protenas en el proteoma humano


InterPro IPR000272 IPR000719 IPR001909 IRP001806 IPR00582 IPR000387 IPR001254 IPR000379 IPR007114 IPR001993 IPR001664 IPR001128 Nombre de la familia Protenas compatibles Receptor acoplado prot.G/Rhodopsina 826 Cinasa de protena 688 Caja Krab(rel. A Kruppel) 314 Superfamilia GTPasa Ras 192 Protena de transporte inico 149 Fosfatasa de protena especfica de tirosina 139 Proteasa de serina, familia tripsina 128 Esterasa/lipasa/tioesterasa sitio activo 112 Superfamilia facilitadora mayor 100 Transportador mitocondrial de sustrato 86 Protena de filamento intermedio 85 Citocromo P-450 84

Los 15 principales dominios proteicos en el proteoma humano


Interpro
IPR007087 IPR002186 IPR006209 IPR003006 IPR002048 IPR001452 IPR003961 IPR000504 IPR001356 IPR002955 IPR001478 IPR001841 IPR001849 IPR000210 IPR005225

Nombre del dominio

No. total

Dedo de cinc, tipoC2H2 28654 Caderina 4131 Dominio parecido al EGF 3107 Inmunoglobulina/complejoHM 2384 Banda EF de enlace de Ca 1885 Dominio SH3 1815 Fibronectina, tipo III 1812 regin RNP-1 1783 Homeobox 1435 Extensina rica en Prolina 1229 Dominio PDZ/DHR/GLGF 1143 Dedo de cinc, RING 1132 Parecido a Preclastina 1061 Dominio BTB/POZ 494 Dominio pequeo de protena 189 de enlace de GTP

Evolucin en el laboratorio
Es una herramienta reciente para estudiar la funcin y adaptacin enzimtica, que nos permite observar adaptacin bajo condiciones controladas. Como se pueden definir las presiones evolutivas, se pueden explorar funciones no naturales, y distinguir lo biolgicamente relevante de lo fsicamente posible. Pasos: Generar diversidad (mutagnesis al azar y/o recombinacin in vitro) Identificar variantes mejoradas

Evolucin en el laboratorio (evolucin acelerada)

Ontologas gnicas
El Gen Ontology Consortium (GO), define las categoras de clasificacin funcional de acuerdo a: 1) Componente celular en el que opera la protena. 2) Funcin molecular. 3) Proceso biolgico total al que contribuye la protena.

Ontologas gnicas por funcin molecular


Protena de defensa Protena del citoesqueleto Regulador de la transcripcin Molcula de adherencia celular Enlace de ligando o portador Ligando Receptor Otra Seal de transduccin Enzima Transportador Regulador enzimtico Otras funciones

Ontologas gnicas por proceso biolgico


Adherencia celular Sealamiento clula con clula Muerte celular Organizacin/biognesis celulares Metabolismo de protenas Metabolismo del DNA Metabolismo del RNA Otros procesos metablicos Respuesta al estrs Transporte Procesos del desarrollo Transduccin de seal Otros procesos

Factores de transcripcin
Factores de transcripcin generales: transcripcin de la mayor parte de promotores para una clase especfica de polimerasa de RNA. Factores de transcripcin especializados:
de tejidos de genes especficos Activadores y coactivadores Represores y corepresores

Você também pode gostar