Escolar Documentos
Profissional Documentos
Cultura Documentos
org el 12 de mayo de 2008 - Publicado por Cold Spring Harbor Laboratory Press
"Fig._1_Timeline_Poster.pdf"
Los datos complementarios http://www.genome.org/cgi/content/full/17/6/669/DC1
referencias Este artculo cita de 99 artculos, 42 de los cuales se puede acceder gratuita en:
http://www.genome.org/cgi/content/full/17/6/669#References
Acceso abierto Libremente disponible en lnea a travs de la opcin de Investigacin del Genoma del acceso abierto.
Recibe alertas de correo electrnico gratuito cuando los nuevos artculos citan este artculo - inscribirse en el cuadro de la
correo electrnico de alerta
servicio de esquina superior derecha del artculo o haga clic aqu
notas
Perspectiva
Universidad de Yale, New Haven, Connecticut 06511, EE.UU.; 3 Departamento de Ciencias de la Computacin de la Universidad de Yale, New Haven, Connecticut 06511, EE.UU.; 4 Centro
Mientras que la secuenciacin del genoma humano nos sorprendi con el nmero de genes que codifican protenas que hay, que no cambi fundamentalmente
nuestra perspectiva sobre lo que es un gen. Por el contrario, los complejos patrones de regulacin dispersa y la transcripcin omnipresente descubierto por el
proyecto ENCODE, junto con la conservacin no gnica y la abundancia de ARN no codificantes de genes, han cuestionado la nocin del gen. Para ilustrar esto, se
revisa la evolucin de las definiciones operacionales de un gen durante el siglo pasado, desde los elementos abstractos de la herencia de Mendel y Morgan a los
ORF actuales enumeradas en los bancos de datos de secuencias. a continuacin, se resumen las conclusiones de ENCODE actuales y proporcionar una metfora
computacional para la complejidad. Finalmente, se propone una actualizacin de tentativa a la definicin de un gen: Un gen es una unin de secuencias genmicas
que codifican un conjunto coherente de potencialmente la superposicin de productos funcionales. Nuestra definicin deja de lado la complejidad de la regulacin y
transcripcin mediante la eliminacin de la antigua por completo de la definicin y argumentando que, productos gnicos funcionales finales (en lugar de
transcripciones intermedios) debe ser utilizado para las entidades del grupo juntos asociados con un nico gen. Tambin pone de manifiesto cmo el concepto
integral de la funcin biolgica es en la definicin de los genes.
Introduccin el siglo pasado, resumen el pensamiento actual sobre la base de los hallazgos ms recientes
ENCODE, y proponer una nueva definicin de gen actualizada que tenga en cuenta estos
La visin clsica de un gen como un elemento discreto en el genoma ha hallazgos.
sido sacudida por ENCODE
9 Autor correspondiente.
17: 669-681 2007 por Cold Spring Harbor Laboratory Press; ISSN 1088-9051 / 07; www.genome.org Investigacin del Genoma 669
www.genome.org
descargado de www.genome.org el 12 de mayo de 2008 - Publicado por Cold Spring Harbor Laboratory Press
Gerstein et al.
Figura 1. ( Cerrado el cartel) Cronologa de la historia del trmino gen. Un trmino inventado hace casi en los primeros aos de la bacteriologa. Una vista prctico del gen fue la del cistrn, una regin
un siglo, gen, con su seductora y sencilla la ortografa, se ha convertido en un concepto central en la de ADN definida por mutaciones que en
biologa. Dado un significado especfico en su moneda, esta palabra se ha convertido en algo complejo
trans no pudo genticamente se complementan entre s (Benzer
y difcil de alcanzar en los ltimos aos, lo que refleja nuestro conocimiento cada vez mayor en la
gentica y en ciencias de la vida en general. Las impresionantes descubrimientos realizados en el 1955).
Proyecto ENCODE muchas similar antes de que enriquecieron significativamente el significado de este
trmino, son precursores de otra ola de cambio en nuestra comprensin de lo que es un gen.
Definicin de 1960: gnica como cdigo transcrito
Fue la solucin de la estructura tridimensional del ADN por Watson y Crick en 1953 (Watson y
Crick 1953) que explica cmo el ADN podra funcionar como la molcula de la herencia.
apareamiento de bases explic cmo la informacin gentica podra ser copiada, y la existencia
resorte, es decir, estos rasgos se transmiten como distintas, discretas entidades (Mendel 1866).
de dos hebras explic cmo los errores ocasionales en la replicacin podra dar lugar a una
Su trabajo tambin demostr que las variaciones en los rasgos fueron causadas por las
mutacin en uno de los ejemplares hija de la molcula de ADN.
variaciones en los factores hereditarios (o, en la terminologa de hoy, el fenotipo es causada por
el genotipo). Fue slo despus de que el trabajo de Mendel se repiti y redescubierto por Carl
Correns, Erich von Tschermak-Seysenegg, y Hugo De Vries en 1900 que funciona ms en la
Desde la dcada de 1960, la biologa molecular ha desarrollado a un ritmo rpido. El
naturaleza de la unidad de herencia comenz de verdad (Tschermak 1900; Vries 1900;
transcrito de ARN de las secuencias de codificacin de protenas se tradujo utilizando el cdigo
Rheinberger 1995).
gentico (resuelto en 1965 por Nirenberg et al. [1965] y Sll et al. [1965]) en una secuencia de
aminocidos. Francis Crick (1958) resumi el flujo de informacin en la expresin gnica a partir
Definicin de los aos 1910: Gen como un locus distinto del cido nucleico a la protena (los inicios de la dogma central). Sin embargo, hubo algunas
excepciones inmediatas a esto: Se saba que algn cdigo genes no para la protena pero para
En el siguiente desarrollo importante, el genetista estadounidense Thomas Hunt Morgan y sus
las molculas de ARN funcionales, tales como ARNr y ARNt. Adems, en el ARN virus el gen
estudiantes estaban estudiando la segregacin de las mutaciones en Drosophila melanogaster. Fueron
est hecho de ARN. La vista molecular del gen que se desarroll a travs de la dcada de 1960
capaces de explicar sus datos con un modelo que los genes estn dispuestos linealmente, y su
se puede resumir en trminos generales a ser un cdigo que reside en el cido nucleico que da
capacidad de cross-over es proporcional a la distancia que los separa. El primer mapa gentico
lugar a un producto funcional.
fue creado en 1913 (Sturtevant
El hecho de que la herencia tiene una base fsica, molecular se demostr mediante la
Definicin 1990s-2000s: anotado entidad genmico, enumeradas en los
observacin de que los rayos X podra causar mutaciones (Muller 1927). (1928) la demostracin
bancos de datos (vista actual, pre-ENCODE)
de que algo en Griffith virulenta, pero muertos Neumococo cepas podran ser absorbidos por no
virulenta en directo Neumococo y transformarlos en bacterias virulentas fue una prueba ms en La definicin actual de un gen utilizado por organizaciones cientficas que anotan los genomas
esta direccin. Ms tarde se demostr que esta sustancia podra ser destruido por la enzima todava se basa en la idea de secuencia. As, un gen se define por la Organizacin
ADNasa (Avery et al. 1944). En 1955, Hershey y Chase establecieron que la sustancia Nomenclatura Genoma Humano como un segmento de ADN que contribuye al fenotipo /
realmente transmitida por bacterifago a su progenie es ADN y no protenas (Hershey y Chase funcin. En ausencia de la funcin demostrado un gen puede estar caracterizado por la
1955). Adems, la idea de que el producto de un gen es una sustancia difusible subyace en la secuencia, la transcripcin o la homologa(Wain et al. 2002). Recientemente, el Consorcio de
prueba de complementacin que se utiliz para definir genes Ontologa Secuencia informes, llamado el gen una regin localizable de la secuencia genmica,
que corresponde a una unidad de herencia, que se asocia con
Qu es un gen?
regiones reguladoras, regiones transcritas y / u otras regiones de la secuencia modificacin post-traduccional. Tales secuencias podran residir dentro de la secuencia de
funcional(Pearson 2006). codificacin, as como en las regiones flanqueantes, y en el caso de potenciadores y elementos
La secuenciacin del primero la Haemophilus influenza genoma y luego el genoma relacionados, muy lejos de la secuencia de codificacin. Aunque funcionalmente necesario para
humano (Fleischmann et al 1995;. Lander et al 2001;.. Venter et al 2001) condujo a una la expresin del producto gnico, los elementos reguladores, especialmente los ms distantes,
explosin en la cantidad de secuencia que las definiciones tales como la anteriormente podran hecho que el concepto del gen como un locus gentico compacto problemtico.
aplicarse a. De hecho, hubo un gran inters popular en contar el nmero de genes en diferentes
organismos. Este inters se cristaliz originalmente por apuesta de Gene Gran Premio en el
nmero de genes en el genoma humano, que recibi una amplia cobertura de los medios (Wade Reglamento es parte integral de muchas definiciones actuales del gen. En particular, una
definicin libro de texto actual de un gen en trminos moleculares es toda la secuencia de cido
nucleico que es necesaria para la sntesis de un polipptido funcional (o ARN) (Lodish et al.
2003). 2000). Si eso implica apropiadamente regulados sntesis, las secuencias de ADN en un gen
Se ha sealado que estas enumeraciones demasiado nfasis en los genes tradicionales, incluira no slo aquellos que codifica para la pre-mRNA y sus regiones de control flanqueantes,
que codifican protenas. En particular, cuando se inform de que el nmero de genes presentes sino tambin potenciadores. Adems, muchos potenciadores son distantes a lo largo de la
en el genoma humano en secuencia de ADN, a pesar de que son en realidad muy cerca debido a la estructura de la
2003, se reconoci que muy poco se sabe acerca de RNAcoding genes, de tal manera que el cromatina tridimensional.
nmero que se dio fue la de proteincoding genes. La vista Ensembl del gen se resumi
especficamente en las reglas del gen de Gran Premio como sigue: transcripciones
empalmados alternativamente todos pertenecen a la misma de genes, incluso si las protenas
que se producen son diferentes (http: //web.archive. org / web / 20050627080719 / 2. La superposicin de genes y empalmados
La superposicin
Como genes, ARNm, y genomas completos finalmente fueron secuenciados, el modelo opern
Una corriente metfora computacional: Genes como subrutinas en el sistema sencilla result ser aplicable solamente a los genes de procariotas y sus fagos. Eucariotas eran
operativo genmico diferentes en muchos aspectos, incluyendo la organizacin gentica y el flujo de informacin. El
modelo de genes como unidades hereditarias que son no solapada y continua ha demostrado
Dado que el conteo de los genes en el genoma es tal esfuerzo computacional a gran escala y
ser incorrecta por el mapeo preciso de las secuencias codificantes de genes. De hecho, se han
que los genes se refieren fundamentalmente con el procesamiento de la informacin, el lxico de
encontrado algunos genes para solaparse entre s, compartiendo la misma secuencia de ADN
la informtica, naturalmente, se ha aplicado cada vez ms a describirlos. En particular, la gente
en un marco de lectura diferente o en la cadena opuesta. La estructura discontinua de genes
en la comunidad de la biologa computacional han utilizado la descripcin de un lenguaje formal
permite potencialmente un gen para estar contenida completamente dentro de intrn de otro, o
para describir la estructura de los genes en gran medida de la misma manera que las gramticas
un gen para solaparse con otro en la misma cadena, sin compartir ninguna exones o elementos
se utilizan para describir los programas-con la computadora una sintaxis precisa de aguas arriba
reguladores.
de regulacin, los exones e intrones (Searls 1997, 2001, 2002). Por otra parte, una metfora que
es cada vez ms popular para describir los genes es pensar en ellos en trminos de subrutinas
en un sistema operativo enorme (OS). Es decir, la medida en que los nucletidos del genoma se
ponen juntos en un cdigo que se ejecuta a travs del proceso de la transcripcin y la
traduccin, el genoma puede ser pensado como un sistema operativo para un ser vivo. Los
genes son entonces subrutinas individuales en este sistema general que se denominan de forma empalme
repetitiva en el proceso de la transcripcin. Splicing fue descubierto en 1977 (Berget et al 1977;. Chow et al 1977;. Gelinas y Roberts 1977).
Pronto se vio que el gen no era una unidad sencilla de la herencia o funcin, sino ms bien una
serie de exones, que codifica, en algunos casos, los dominios de protenas discretos, y se
separ por tramos no codificantes largos llamados intrones. Con splicing alternativo, un locus
gentico podra codificar para mltiples diferentes transcritos de ARNm. Este descubrimiento
complica el concepto del gen radicalmente. Por ejemplo, en la secuenciacin del genoma,
Celera define un gen como un locus de los exones co-transcrito (Venter et al. 2001), y en la
cuestiones problemticas con la definicin actual de un gen pgina Web de Gene Gran Premio de Ensembl defini originalmente un gen como un conjunto
de transcripciones conectados, , dondeconectadosignifica el intercambio de un exn (http:.
//web.archive org / web / 20050428090317 / www.ensembl.org / Genesweep).
Hay una serie de aspectos problemticos de la definicin actual de un gen, tal como se aplica al
genoma humano, que se discuten a continuacin. Varias complicaciones adicionales se
resumen en la Tabla 1.
1. regulacin gnica
Trans- empalme
Jacob y Monod (1961), en su estudio de la laca opern de
Escherichia coli, proporcionado un paradigma para el mecanismo de regulacin del gen: El fenmeno de la trans- empalme (ligadura de dos molculas de ARNm separadas) complica
Consista en una regin de ADN que consiste en secuencias que codifican una o ms protenas, an ms nuestra comprensin (Blumenthal 2005). Hay ejemplos de transcripciones del mismo
una secuencia promotor para la unin de la ARN polimerasa, y una secuencia de operador a gen, o la cadena de ADN opuesta, o incluso otro cromosoma, estando unidas antes de ser
la que reguladora genes se unen. Ms tarde, se encontraron otras secuencias de existir que empalmados. Claramente, el concepto clsico del gen como un locus ya no se aplica para
podran afectar prcticamente todos los aspectos de la regulacin de genes de transcripcin a la estos productos de los genes cuyas secuencias de ADN son ampliamente separados en todo el
degradacin mRNA y genoma.
Gerstein et al.
Descripcin Problema
variacin estructural
elementos mviles elemento gentico aparece en nuevas ubicaciones ms Un elemento gentico puede ser no constante en su
McClintock generaciones (1948) ubicacin
reordenamientos del gen / variantes estructurales reordenacin del ADN o de empalme en las clulas somticas la estructura del gen no es hereditaria, o estructura
resultados en muchos productos de genes pueden diferir entre los individuos o clulas / tejidos
alternativos (Early et al., 1980)
variantes del nmero de copias nmero de copias de genes / elementos reguladores pueden Los elementos genticos pueden diferir en su nmero
diferir entre individuos (Iafrate et al 2004;. Sebat et al 2004;.
Tuzun et al 2005).
eventos post-transcripcional
El empalme alternativo de ARN Una transcripcin puede generar mltiples ARNm, Mltiples productos de un locus gentico;
dando lugar a diferentes productos de protena (Berget et al informacin en el ADN no relacionada linealmente con que en la protena
1977;. Gelinas y Roberts 1977)
productos empalmados alternativamente con alterno marcos de lectura alternativos del tumor INK4a Dos productos de splicing alternativo de un pre-ARNm
marcos de lectura gen supresor codifica dos protenas no relacionadas producir productos de protena sin secuencia en comn
(Quelle et al. 1995)
ARN trans- empalme, homotipica trans- secuencias de ADN Distante de empalme pueden codificar transcripciones Una protena puede resultar de la combinacin
se lig en diversas combinaciones (Borst 1986). Dos la informacin codificada en mltiples transcripciones
transcripciones idnticas de un gen puede
trans- empalmar para generar un ARNm donde se repite la
misma secuencia de exn (Takahara et al. 2000).
edicin de ARN ARN se enzimticamente modificado (Eisen 1988) La informacin sobre el ADN no est codificado
directamente en secuencia de ARN
Protena trans- empalme protenas distintas pueden empalmarse juntos en la Inicio y final de los sitios de protenas no determinados por
ausencia de una trans- transcrito empalmado (Handa et al. 1996) codigo genetico
la modificacin de protenas La protena se modifica para alterar la estructura y La informacin sobre el ADN no est codificado
funcin del producto final (Wold 1981) directamente en la secuencia de protenas
Pseudogenes y retrogenes
retrogenes A retrogene se forma a partir de transcripcin inversa RNA-a-DNA flujo de informacin
de de su gen padre mRNA (Vanin et al. 1980) y mediante la
insercin del producto de ADN en un genoma
pseudogenes transcrito Un pseudogen se transcribe (Zheng et al. 2005, la actividad bioqumica de supuestamente muerto
2007) elementos
Por ltimo, una serie de estudios recientes han puesto de manifiesto un fenmeno denominado 3. genes parasitarias y mviles
quimerismo en tndem, en el que dos genes consecutivos se transcriben en un nico ARN
(Akiva et al 2006;. Parra et al., 2006). La traduccin (despus de corte y empalme) de tales ARN Un desafo a nuestro concepto del gen ha sido la del gen egosta o parasitaria. La idea
puede conducir a una nueva, protena fusionada, que tiene partes de ambas protenas propuesta por primera vez por Richard Dawkins es que la unidad de la evolucin no es el
originales. organismo pero el gen (Dawkins, 1976). Los organismos son slo herramientas que los genes
utilizan para repre-
Qu es un gen?
licate s mismos. concepto de Dawkins de la Optimon (o selecton) es una unidad de ADN que Sin anotaciones y alternativo DST
sobrevive de recombinacin para suficientes generaciones para ser seleccionados para juntas.
Una segunda observacin es que hay un gran nmero de sitios de inicio de la transcripcin
unannotated (DST) identificados por cualquiera de secuenciacin del 5 final de ARNm transcritos
El trmino parasitaria ciertamente parece apropiado para los transposones, cuya nica
o la asignacin de factores de transcripcin del promotor asociado a travs de chip-chip o CHIP-
funcin es la de replicarse a s mismos y que no proporcionan ningn beneficio obvio para el
PET (El ENCODE Proyecto Consortium 2007). Por otra parte, el consorcio encontrado que
organismo. Los transposones pueden cambiar su ubicacin, adems de copiarse a s mismas
muchos genes de protenas conocidas tienen alternativa TSSs que a veces son> 100 kb aguas
mediante la escisin, la recombinacin o la transcripcin inversa. Fueron descubiertos por
arriba del sitio de inicio de transcripcin anotada. En particular, Denoeud et al. (2007) llevaron a
primera vez en la dcada de 1930 en el maz y ms tarde se encontr que existen en todas las
cabo 5 amplificacin rpida de extremos de ADNc (RACE) en todos los 399 loci codificantes de
ramas de la vida, incluyendo los seres humanos (McClintock 1948). Los transposones han
protenas bien caracterizados contenidas en las regiones ENCODE. El cebador RACE fue
cambiado nuestra visin del gen mediante la demostracin de que un gen no es fijo en su lugar.
seleccionado de un exn 5 que se comparte entre las transcripciones ms comentadas de cada
locus, y los productos de RACE se hibrida con matrices y asignada. Ellos encontraron que ms
de la mitad de los loci tena un sitio de inicio de la transcripcin alternativa aguas arriba del sitio
conocido en al menos uno de los 12 tejidos ensayados. Algunos de estos TSSs distal utilizarse
el promotor de un tipo completamente diferente locus del gen (es decir, comparten el mismo sitio
4. La gran cantidad de ADN basura bajo seleccin
de inicio de transcripcin). La importancia de este descubrimiento es que el TSS alternativa para
El ORF concepto patrn de secuencia del gen, tal como exista desde la dcada de 1980 hizo algunas de estas transcripciones comenz dos o tres loci de genes aguas arriba del locus
en adelante claro que haba grandes extensiones de elementos nongenic en genomas fromwhich se seleccion el cebador RACE. Por lo tanto, algunas isoformas alternativas son
eucariotas, en particular el genoma humano. En ausencia de conocimiento de una funcin para transcripciones que abarcan mltiples loci de genes. las regiones no traducidas (UTRs).
estas regiones, se propuso que carecan de una funcin por algunos que utiliza la etiqueta de
ADN basura (Ohno 1972). Esto se puso de relieve por la posterior secuenciacin del genoma
humano, donde se demostr que slo el 1,2% del cdigo bases de ADN para los exones (Lander
et al 2001;. Venter et al., 2001). Sin embargo, algunos principios de piloto funcionales de
genmica experimentos en los cromosomas 21 y 22 indicaron que cantidades apreciables de la
ADN basura supuestamente fueron transcritas (Kapranov et al 2002;. Rinn et al.
Ms splicing alternativo
2003). Adems, la comparacin de los otros genomas de vertebrados humano, perro, ratn, y
mostr que una gran fraccin de stos se conserv, con ~ 5% bajo seleccin negativa desde la Teniendo en cuenta estos resultados, el equipo de La Habana en el Instituto Sanger produjo el
divergencia de estas especies (Waterston et al 2002;. Lindblad-Toh et al., 2005). GENCODE anotacin bien curada (Harrow et al. 2006). No han encontrado que el nmero de
loci conocidos gen que codifica la protena se ha incrementado significativamente en el tiempo.
Por el contrario, el nmero de isoformas alternativas comentadas por locus ha aumentado. (La
anotacin GENCODE contiene actualmente un promedio de 5.4 transcripciones por locus). Por
lo tanto, mientras que parte de la gran cantidad de nuevo, la transcripcin unannotated podra
La vista ENCODE moderna de la actividad del genoma dispersa
corresponder a completamente nuevo de codificacin de protena del gen loci, la mayor parte es
probable que corresponden a segmentos de unannotated empalmados alternativamente
transcripciones que implican conocido loci de genes o a totalmente nuevos ARN no codificantes.
Como se describi anteriormente, antes del advenimiento del proyecto ENCODE, hubo una serie
de aspectos de genes que estaban muy complicado, pero gran parte de esta complejidad fue en
cierto sentido barrido debajo de la alfombra y en realidad no afectan a la definicin fundamental
de un gen. La experiencia del proyecto ENCODE, en particular el mapeo de la actividad
transcripcional y regulacin utilizando suelo de baldosas arrays, se ha extendido estos aspectos
desconcertantes y confusos de los genes, llevndolos a la vanguardia, donde uno tiene que la regulacin dispersa
lidiar de manera ms directa con ellos en relacin con la definicin de lo que es un gen. Como se esquematiza en la figura 2B, el proyecto ENCODE ha proporcionado evidencia de
propagacin dispersa regulacin en todo el genoma (El Consorcio ENCODE Project 2007). Por
otra parte, los sitios de regulacin para un gen dado no son necesariamente directamente aguas
arriba de la misma y pueden, de hecho, estar situados lejos en el cromosoma, ms cerca de otro
gen. Mientras que la unin de muchos factores de transcripcin parece manta todo el genoma,
Lo que los experimentos muestran ENCODE: Rejas de largo transcripciones y
no est dispuesto de acuerdo con las expectativas aleatorias simples y tiende a ser agrupadas
se dispersaron regulacin
en ricos bosques reguladoras y desiertos pobres (Zhang et al. 2007).
la transcripcin no anotada
Un primer hallazgo del consorcio ENCODE que ha reproducido los resultados anteriores Por otra parte, parece que algunos de los elementos reguladores en realidad pueden a
(Bertone et al 2004;.. Cheng et al 2005) es que una gran cantidad de ADN, no anotado como su vez ser transcrito. En un modelo de gen convencional y concisa, un elemento de ADN (por
genes conocidos, se transcribe en ARN (el proyecto ENCODE Consorcio 2007) . Estos nuevos ejemplo, promotor, potenciador, y el aislante) que regula la expresin del gen no se transcribe y
transcrito regiones generalmente se llaman alquitranes (es decir, regiones transcripcionalmente por lo tanto no es parte de la transcripcin de un gen. Sin embargo, muchos estudios iniciales
activas) y transfrags. Mientras que la mayora del genoma parece ser transcrito en el nivel de han descubierto en casos especficos que elementos reguladores pueden residir en las regiones
transcritos primarios, slo la mitad de la transcripcin procesado (corte y empalme) detectados transcritas, como el laca operador (Jacob y Monod 1961), un promotor para regular el gen de la
en todas las lneas y condiciones mapeadas clula es actualmente anotada como genes. beta-globina (Tuan et al. 1989), y el sitio de unin a ADN del factor YY1 (Shi et al. 1991). El
proyecto ENCODE y otra reciente ex chip-chip
Gerstein et al.
RNAs no codificantes
periments han proporcionado pruebas a gran escala que el modelo de gen concisa puede ser XIST gen implicado en la compensacin de la dosis muestra que ncRNAs funcionales pueden
demasiado simple, y muchos elementos reguladores en realidad residir en el primer exn, ampliar de manera significativa ms all de constreido, computacionalmente regiones
intrones, o todo el cuerpo de un gen (Cawley et al 2004;.. Euskirchen et al 2004; Kim et al 2005;. identificables (Chureau et al 2002;. Duret et al., 2006).
El consorcio del proyecto ENCODE 2007; Zhang et al 2007)..
Tambin es posible que los productos de ARN mismos no tienen una funcin, sino que
reflejan o son importantes para un proceso celular particular. Por ejemplo, la transcripcin de
una regin reguladora puede ser importante para la accesibilidad de la cromatina para la unin
Gnica frente intergnica: Existe una distincin?
del factor de transcripcin o de la replicacin del ADN. Tal transcripcin se ha encontrado en la
En general, los experimentos han revelado ENCODE un rico tapiz de la transcripcin que implica regin de control del locus (LCR) del locus de beta-globina, y la actividad de la polimerasa se ha
corte y empalme alternativo, que cubre el genoma en una red compleja de las transcripciones. sugerido que es importante para la replicacin del ADN en E coli. Alternativamente, la
De acuerdo con las definiciones tradicionales, los genes son regiones unitarias de secuencia de transcripcin podra reflejar la actividad no especfica de una regin particular, por ejemplo, el
ADN, separados unos de otros. ENCODE revela que si se intenta definir un gen sobre la base reclutamiento de la polimerasa para sitios reguladores. En cualquiera de estos escenarios, las
de la superposicin de las transcripciones compartidos, entonces muchos loci de genes transcripciones mismos se carecen de una funcin y es poco probable que se conservan.
anotados distintas se unen en regiones genmicas ms grandes. Una consecuencia evidente de
los resultados es que ENCODE
Qu es un gen?
pseudogenes tiva llama a una subrutina discreto en un sistema operativo de ordenador normal. Sin embargo,
el marco de describir el genoma como cdigo ejecutado todava tiene cierto mrito. Es decir,
Los pseudogenes son otro grupo de misteriosos componentes genmicos que se encuentran a
todava se puede entender la transcripcin de genes en trminos de hilos paralelos de ejecucin,
menudo en intrones de los genes o en el espacio intergnico (Torrents et al 2003; Zhang et al.
con la salvedad de que estos hilos no siguen la estructura cannica subrutina y modular. Ms
2003).. Se derivan de genes funcionales (a travs de retrotransposition o duplicacin), pero han
bien, hilos de ejecucin se entrelazan de una manera bastante sin orden ni concierto, muy
perdido las funciones originales de sus genes parentales (Balakirev y Ayala 2003). A veces
parecido a lo que se describe como un cdigo de programa informtico estructurado descuidado
balancendose entre muertos y vivos, pseudogenes pueden influir en la estructura y funcin del
con una gran cantidad de instrucciones GOTO pasar con velocidad dentro y fuera de los bucles
genoma humano. Su prevalencia (tantos como genes codificantes de protenas) y su estrecha
y otras construcciones.
similitud con genes funcionales ya han confundido anotacin de genes. Recientemente, tambin
se ha encontrado que una fraccin significativa (hasta 20%) de ellos son transcripcionalmente
vivo, lo que sugiere que el cuidado tiene que ser tomado cuando se utiliza la expresin como
prueba para la localizacin de genes (Yano et al 2004;.. Harrison et al 2005 ; Zheng et al. 2005,
2007; Frith et al. La importancia de modelos de genes para interpretar el
experimento de alto rendimiento en ENCODE
Dados los hallazgos de provocacin del proyecto ENCODE, uno se pregunta hasta qu punto la
2006). De hecho, algunos de los nuevos alquitranes se puede atribuir a la transcripcin interpretacin de los experimentos highthroughput puede ser empujado. Esta interpretacin es,
pseudogene (Bertone et al 2004;. Zheng et al., 2005). En unos pocos casos sorprendentes, se de hecho, muy contingente sobre el uso de modelos de genes.
encontr una RNA pseudogene o al menos una pieza de la misma para ser empalmado con la
transcripcin de su gen vecino para formar un quimrico transcripcin de genes pseudogene.
Estos resultados se suman una capa adicional de complejidad para establecer la estructura Aspectos de la interpretacin de los datos suelo de baldosas gama
exacta de un locus del gen. Adems, las transcripciones pseudogene funcionales tambin se
Una gran parte de los datos de transcripcin se ha generado utilizando microarrays de alta
han descubierto en las clulas eucariotas, tales como las neuronas del caracol Lymnaea
densidad de mosaico (Emanuelsson et al 2007;. Rozowsky et al 2007;. El ENCODE Proyecto
stagnalis ( Korneev et al. 1999). Adems, curiosamente, el ser humano XIST gen mencionado
Consortium 2007). La ventaja de estas matrices es que sondean la transcripcin de una manera
anteriormente en realidad surge del cuerpo muerto de un pseudogen (Duret et al.
imparcial y detallada, sin ideas preconcebidas en cuanto a dnde buscar actividad. Por otra
parte, el resultado de un experimento de suelo de baldosas serie puede ser ruidoso y necesita
una interpretacin cuidadosa con el fin de permitir la recoleccin de un conjunto fiable de las
2006). pseudogen la transcripcin y la frontera borrosa entre los genes y pseudogenes (Zheng y
regiones transcritas. La cantidad de transcripcin detectado depende en gran medida de los
Gerstein 2007) pone de relieve una vez ms que la naturaleza funcional de muchos nuevos TAR
umbrales utilizados cuando se invoca regiones transcritas y hasta cierto punto tambin en los
debe ser resuelto por los futuros experimentos bioqumicos o genticos (para una revisin, ver
algoritmos de segmentacin utilizados para delimitar las regiones transcritas de las regiones no
Gingeras 2007).
transcritas. Adems,
elementos restringidos
Las regiones intergnicas no codificantes contienen una gran fraccin de elementos funcionales
identificadas mediante el examen de los cambios evolutivos a travs de mltiples especies y
dentro de la poblacin humana. El proyecto ENCODE observ que slo el 40% de las bases
evolutivamente limitados estaban dentro de los exones codificantes de protenas o sus regiones
no traducidas asociados (el consorcio del proyecto ENCODE 2007). La resolucin de elementos
limitados identificados por el anlisis de especies mltiples en el proyecto ENCODE es muy alta, El resultado esperado exacta de un mapeo de transcripcin experimento de la
la identificacin de secuencias tan pequeas como 8 bases (con una mediana de 19 bases) (El transcripcin fiel de mapas es, por supuesto, desconocido. Por lo tanto, una parte crucial de la
ENCODE consorcio del proyecto 2007). Esto sugiere que los loci codificantes de protenas interpretacin de mapeo de transcripcin de datos de matriz de mosaico es entender cmo la
pueden ser vistos como un grupo de pequeos elementos restringidos dispersos en un mar de seal es diferente de varias expectativas aleatorios (modelos nulo). Una forma ingenua para
secuencias sin restricciones. Aproximadamente el otro 20% de los elementos limitados solapa lograr este objetivo es asignar al azar a los datos en bruto y luego aplicar todos los esquemas de
con regiones reguladoras experimentalmente anotado. normalizacin, de puntuacin, y la segmentacin (con parmetros sin cambios) para obtener una
lnea base de la transcripcin que es recogido a partir de datos supuestamente sin sentido.
Pero no est claro que esta es la mejor manera de hacerlo: GC-contenido, distribucin de la
longitud de las regiones del (reales o esperados) transcrito, dinucleotide composicin y otras
caractersticas tambin debe tenerse en cuenta en la distribucin de transcripcin de
referencia.
La nueva perspectiva ENCODE no es as, por supuesto, en forma con la metfora del gen como
Los genes como modelos estadsticos que resumen muchos experimentos
una simple rutina exigible en un gran sistema operativo. En esta nueva perspectiva, se entra en
un gen de rutina de muchas maneras diferentes en el marco de splicing alternativo y celosas En el contexto de la interpretacin de experimentos de alto rendimiento, tales como suelo de
de largo transcripciones. La ejecucin del sistema operativo genmico no tiene una calidad tan baldosas arrays, el concepto de un gen tiene una importancia-como prctico aadido un modelo
limpio como esta idea de repetitivo estadstico para ayudar a interpretar y proporcionar la sumarizacin concisa a los datos
experimentales potencialmente ruidosos.
Gerstein et al.
Por ejemplo, los experimentos de suelo de baldosas serie transcripcionales en ltima instancia, la literatura biolgica ha ido aumentando considerablemente. Por lo tanto, el escenario estaba
identificar alquitranes / transfrags, que generalmente corresponden a los exones en los genes. Por lo listo para el proyecto ENCODE y la gran complejidad en el aparato transcripcional y regulatorio
tanto, los modelos de genes ms adecuados para ser considerados pueden ser grficos de empalme que puso de relieve. En este punto, no est claro qu hacer: En el caso extremo, se podra
(Heber et al. 2002) que representan los exones como nodos y eventos de empalme como bordes declarar el concepto de gen muertos y tratar de llegar a algo completamente nuevo que se
dirigidos. adapte a todos los datos. Sin embargo, sera difcil de hacer esto con consistencia. Aqu, hemos
Con el fin de construir y ajustar modelos estadsticos para la interpretacin experimental, hecho un intento tentativa a un compromiso, la elaboracin de actualizaciones y parches para la
otros conocimientos biolgicos relacionados (por ejemplo, la anotacin de genes y datos de definicin existente de un gen.
validacin experimentales) tiene que ser combinada con la matriz de datos de alto rendimiento.
Por ejemplo, la matriz de datos de la transcripcin pueden identificar regiones transcritas
aislados, y la validacin experimental como la raza pueden proporcionar informacin de
Los criterios a tener en cuenta en la actualizacin de la definicin
conectividad. Usando estos datos juntos, los modelos estadsticos pueden ser mejor entrenados
y luego se pueden utilizar para analizar el resto de los datos de alto rendimiento que no estn En primer lugar, consideramos varios criterios para ser importante, mientras que dar con una
cubiertos por los experimentos de validacin. definicin actualizada de un gen: (1) Una nueva definicin debe intentar ser compatible con
versiones anteriores, en el sentido de que algo que antes se llamaba un gen debe seguir siendo
un gen. (2) Debe ser organismo independiente; es decir, ya sea como vlido para las bacterias
Los diferentes modelos estadsticos (Karplus et al 1999;. Bertone et al 2004;. Schadt et al como de un virus o un eucariota superior. (3) Debe ser una declaracin de un
2004;. Gibbons et al 2005;. Ji y Wong 2005;. Li et al 2005; Du et al 2006;.. Marioni et al 2006 ) se
han propuesto para explicar la generacin de la matriz de datos de mosaico. Como se muestra idea simple, en lugar de ver los distintos mecanismos y excepciones. (4) Debe ser lo
en la Figura 3, estos modelos pueden ser entrenados utilizando los datos de la matriz de suficientemente prctico para que se pueda enumerar fcilmente genes y contestar a una
mosaico y otros conocimientos biolgica y luego extrapolarse a toda la secuencia del genoma de pregunta como Cuntos genes hay en el genoma humano? (5) Debe ser compatible con otra
mejor segmento en elementos funcionales. A medida que se acumula ms y ms conocimiento nomenclatura biolgica que hace uso de la idea de un gen digital. Por ejemplo, debera ser
biolgico, especialmente a travs de la validacin experimental de regiones funcionales consistente con regulome trmino, que representa el conjunto completo de interacciones
previstos generados por el procedimiento de anlisis, podemos esperar que los modelos estarn reguladoras en un organismo.
mejor capacitados, lo que conduce a los resultados del anlisis refinados de estos experimentos.
Sin embargo, ser poco prctico para validar cada elemento funcional individual identificada por
los experimentos de mosaico utilizando RT-PCR o RACE. Para cada experimento suelo de
baldosas gama, tal vez slo un conjunto de tamao medio de las regiones funcionales predichos Una definicin actualizada propuesta
ser validada experimentalmente.
Hay tres aspectos a la definicin que vamos a enumerar a continuacin, antes de proporcionar la
definicin sucinta:
1. Un gen es una secuencia genmica (ADN o ARN) que codifica directamente molculas de
Como se muestra en la Figura 3, las regiones para la validacin experimental pueden ser productos funcionales, ya sea ARN o protena.
recogidos utilizando diferentes estrategias. Evidentemente, es beneficioso para recoger estas 2. En el caso de que hay varios productos funcionales que comparten regiones de solapamiento,
regiones de una manera ptima para que el modelo entrenado basa en estos resultados de la se toma la unin de todas las secuencias genmicas de solapamiento que codifican para
validacin canmost Ana- precisin ellos.
Qu es un gen?
exones frameshifted
3. Esta unin debe ser coherente, es decir, hecho por separado para protenas y ARN productos hay dos conjuntos de secuencias con elementos comunes, as que hay un gen. El hecho de que
finales, pero no requiere que todos los productos comparten necesariamente una las secuencias de estas dos protenas estn limitados al mismo tiempo, de manera que una
mutacin en uno de ellos afectara simultneamente el otro, sugiere que esta situacin no es
subsecuencia comn. Esto se puede resumir de forma concisa:
afn a la de dos genes que codifican protenas no relacionadas. Por esta razn, la generalizacin
de este caso especial, estamos a favor del mtodo de tomar la unin de los segmentos de
El gen es una unin de secuencias genmicas que codifican una coherente secuencia, no de los productos, sino de las secuencias de ADN que codifican para las
conjunto de productos funcionales potencialmente solapados. La Figura 5 proporciona un secuencias de productos.
Gerstein et al.
los dos productos comparten ninguna secuencia de bloques. Este concepto se puede homenaje a la expresin de varios genes puede ser reconocida. Esto es particularmente cierto
generalizar a otros tipos de genes discontinuos, como los genes reordenados (por ejemplo, en el para los elementos de largo alcance tales como la betaglobina LCR, que contribuye a la
locus del gen de inmunoglobulina, el segmento C es comn a todos los productos de protenas expresin de varios genes, y probablemente ser el caso para muchos otros potenciadores
codificadas de la misma), o como sus verdaderos objetivos de genes se asignan. Tambin se puede aplicar a las regiones
trans- transcripciones longitudinalmente (donde una pre-mRNA se puede empalmar a una serie no traducidas que contribuyen a mltiples loci de genes, tales como los transcritos empalmados
de otros pre-ARNm antes del procesamiento posterior y la traduccin). Esto implica que el largo observadas en la regin de codificacin y trans-
nmero de genes en el genoma humano va a aumentar significativamente cuando se haya
completado la encuesta del transcriptoma humano. A la luz de la gran cantidad de exones empalmados.
transcripcin (una definicin alternativa potencial de un gen), entonces se ver que grandes
Para mayor claridad en la discusin, nos referimos a ADN cuando significa secuencias
segmentos de cromosomas hara fundirse en estos grupos. Esta definicin alternativa de un gen
genmicas en general. Nuestra definicin propuesta es aplicable a todos los genomas, incluido
resultara en un nmero mucho menor genes, y sera de utilidad limitada.
el de los virus de ARN. En casos complejos, el gen resulta no corresponden a un locus gentico
individual discreta, como secuencias que codifican su producto (s) pueden estar muy separados
en el genoma. En particular, debido a que el gen es un conjunto de secuencias compartidas
entre los productos, no hay ningn requisito de conectividad entre estas secuencias y las
secuencias que ocurren para conectarlos no tienen que ser parte del gen. Por lo tanto, los
Splicing alternativo
miembros de una secuencia pueden estar en diferentes cadenas de un cromosoma o incluso en
En relacin con los productos de genes empalmados alternativamente, existe la posibilidad de los cromosomas separados. Esto significa que trans- transcripciones longitudinalmente
que nadie exn codificante se comparte entre todos los productos de protena. En este caso, se pertenecen a un gen.
entiende que la unin de estos segmentos de secuencia define el gen, siempre y cuando cada
exn se comparte entre al menos dos miembros de este grupo de productos.
5 y 3 las regiones no traducidas (UTRs) juegan un papel importante en la traduccin, la La visin clsica de un gen como una unidad de informacin hereditaria alineados a lo largo de un
regulacin, la estabilidad, y / o localizacin de los ARNm. cromosoma, cada uno de codificacin para una protena, tiene
Qu es un gen?
cambiado drsticamente durante el siglo pasado. Para Morgan, los genes en los cromosomas referencias
eran como cuentas de un collar. La revolucin de la biologa molecular cambi
Akiva, P., Toporik, A., Edelheit, S., Peretz, Y., Diber, A., Shemesh, R.,
considerablemente esta idea. Para citar Falk (1986), ''. . . el gen es [. . .] Ni discreta [. . .] Ni
Novik, A., y Sorek, R. 2006. mediada por transcripcin fusin de genes en el genoma humano. Genome
[continua. . .], Ni tampoco tiene una ubicacin constante [. . .], Ni una funcin bien definida [. . .], Res. diecisis: 30-36. Avery, OT, MacLeod, CM, y McCarty, M. 1944. Estudios sobre la
Ni siquiera secuencias constantes [. . .] Ni fronteras definidas. '' Y ahora el proyecto ENCODE ha
la naturaleza qumica de la sustancia que induce la transformacin de tipos neumoccicos. J. Exp.
aumentado la complejidad an ms.
Medicina. 79: 137-158. Balakirev, ES y Ayala, FJ 2003. Los pseudogenes: son basura o
ADN funcional? Annu. Rev. Genet. 37: 123-151. Beadle, GW y Tatum, EL 1941. El control gentico
de la bioqumica
Lo que no ha cambiado es que el genotipo determina fenotipo, y en el nivel molecular,
reacciones en Neurospora. Proc. Natl. Acad. Sci. 27: 499-506. Benzer, S. 1955. Estructura fina de una
esto significa que las secuencias de ADN determinan las secuencias de molculas funcionales. regin gentica en bacterifago. Proc.
En el caso ms sencillo, una secuencia de ADN todava codifica para una protena o ARN. Sin Natl. Acad. Sci. 41: 344-354.
Berget, SM, Moore, C., y Sharp, PA 1977. empalmado segmentos en el 5
embargo, en el caso ms general, podemos tener genes que consiste en la secuencia de
terminal de adenovirus 2 ARNm tardo. Proc. Natl. Acad. Sci.
mdulos que se combinan de varias maneras de generar productos. Al centrarse en los 74: 3171-3175.
productos funcionales del genoma, esta definicin establece una norma concreta en la Bertone, P., Stolc, V., Royce, TE, Rozowsky, JS, Urban, AE, Zhu, X.,
Rinn, JL, Tongprasit, W., Samanta, M., Weissman, S., et al. 2004. identificacin global de secuencias
enumeracin de forma inequvoca el nmero de genes que contiene.
transcritas humanos con arrays genoma suelo de baldosas. Ciencia 306: 2242-2246. Blumenthal, T. 2005.
Trans-empalme y operones. WormBook (ed. La
Un aspecto importante de nuestra definicin propuesta es el requisito de que los C. elegans Comunidad de Investigacin). WormBook, doi / 10.1895 / wormbook.1.5.1,
http://www.wormbook.org. Borst, P. 1986. transcripcin discontinua y la variacin antignica en
productos de protena o ARN deben estar funcional
con el fin de asignarlos a un gen particular. Creemos que esto se conecta con el principio bsico tripanosomas. Annu. Rev. Biochem. 55: 701-732. Cawley, S., Bekiranov, S., Ng, HH, Kapranov, P.,
de la gentica, que determina el genotipo fenotipo. A nivel molecular, se supone que el fenotipo Sekinger, EA, Kampa,
D., Piccolboni, A., Sementchenko, V., Cheng, J., Williams, AJ, et al.
se refiere a la funcin bioqumica. Nuestra intencin es hacer que nuestra definicin compatibles
2004. imparcial mapeo de factor de transcripcin sitios a lo largo de los cromosomas humanos 21 y 22
con versiones anteriores con los conceptos anteriores del gen. puntos a la regulacin generalizada de los ARN no codificantes de unin. Celda 116: 499-509. Cheng, J.,
Kapranov, P., Drenkow, J., Dike, S., Brubaker, S., Patel, S.,
Largo, J., Stern, D., tammana, H., Helt, G., et al. 2005. mapas transcripcional de 10 cromosomas
Este nfasis en productos funcionales, por supuesto, pone de relieve la cuestin de qu humanos a una resolucin de 5-nucletido. Ciencia 308: 1149-1154. Chow, LT, Gelinas, RE, Broker,
funcin biolgica es en realidad. Con esto, nos movemos a la pregunta dura de lo que es un TR, y Roberts, RJ 1977. Un
marcador de posicin como el alquitrn, o indicar nuestro grado de confianza en funcin de del gen VP2-VP3 y el gen VP1 en el genoma de SV40. Celda
12: 529-538. Crick, FHC 1958. En la sntesis de protenas. Symp. Soc. Exp. Biol.
asumir para un producto genmico. Tambin puede ser capaz de inferir la funcionalidad de las
propiedades estadsticas de la secuencia (por ejemplo, Ponjavic et al. 2007). XII: 138-163. Dawkins, R. 1976. El gen egosta. Oxford University Press, Oxford, Reino Unido. Denoeud,
F., Kapranov, P., Ucla, C., Frankish, A., Castelo, R., Drenkow,
J., Lagarde, J., Alioto, T., Manzano, C., Chrast, J., et al. 2007. uso prominente de 5 distal los sitios de
Sin embargo, probablemente no ser capaz de saber siempre la funcin de todas las inicio de transcripcin y descubrimiento de un gran nmero de exones adicionales en las regiones
molculas en el genoma. Es concebible que algunos productos genmicos son slo ruido, es ENCODE. Genome Res.
(Este nmero) doi: 10.1101 / gr5660607. Dobrovic, A., Gareau, JL, Ouellette, G., y Bradley, WE 1988.
decir, los resultados de los eventos evolutivamente neutros que son tolerados por el organismo
DNA
(por ejemplo, Tress et al. 2007). O, puede haber una funcin que es compartida por otros la metilacin y la inactivacin gentica en timidina quinasa locus: Dos mecanismos diferentes para el
productos genmicos somany que la funcin de la identificacin de los enfoques de mutacin silenciamiento de genes autosmicos. Somat. Cell Mol. Gineta. 14: 55-68. Doolittle, R. 1986. De URFs y
ORF: Una introduccin a la forma de analizar derivada
puede ser muy difcil. Si bien la determinacin de la funcin biolgica puede ser difcil, lo que
demuestra la falta de funcin es an ms difcil (casi imposible). Algunos bloques de secuencias secuencias de aminocidos. University Science Books, Mill Valley, CA. Du, J., Rozowsky, JS, Korbel, J.,
en el genoma son propensos a mantener sus etiquetas de RAT de funcin desconocida de Zhang, ZD, Royce, TE, Schultz, MH,
Snyder, M., y Gerstein, M. 2006. Un supervisados oculto marco modelo de Markov para segmentar
forma indefinida. Si esas regiones pasan a compartir secuencias con genes funcionales, sus
de manera eficiente datos de la matriz de mosaico en experimentos de transcripcin y de
lmites (o ms bien, el nmero de miembros de su conjunto de secuencias) seguirn siendo
ChIP-chip: la incorporacin sistemtica de conocimiento biolgico validado. bioinformtica
incierto.
22: 3016 hasta 3.024.
Duret, L., Chureau, C., Samain, S., Weissenbach, J., y Avner, P. 2006.
El gen de ARN Xist evolucion en euterios por pseudogenization de un gen codificante de la protena. Ciencia
312: 1653-1655. Early, P., Huang, H., Davis, M., Calame, K., y Hood, L. 1980. Un
cadena pesada de inmunoglobulina gen de la regin variable se genera a partir de tres segmentos de
ADN: VH, D y JH. Celda 19: 981-992. Eddy, SR 2001. No-codificacin de los genes de ARN y ARN del
mundo moderno.
Expresiones de gratitud Nat. Rev. Genet. 2: 919-929. Eisen, H. edicin de 1988. ARN: Quin est en primera? Celda 53: 331-332.
Emanuelsson, O., Nagalakshmi, U., Zheng, D., Rozowsky, JS, Urban,
Agradecemos al consorcio ENCODE, y reconocer a las siguientes fuentes de financiacin:
ENCODE subvencin # U01HG03156 del Genoma Humano Instituto Nacional de Investigacin AE, Du, J., Lian, Z., Stolc, V., Weissman, S., Snyder, M., et al. 2007. Evaluacin del funcionamiento de las
(NHGRI) / Institutos Nacionales de Salud (NIH); NIH subvencin T15 LM07056 de la Biblioteca diferentes estrategias de baldosas microarrays de alta densidad para cartografiar regiones transcritas del
genoma humano.
Nacional de Medicina (CB, ZDZ); y Marie Curie de salida Beca Internacional (JOK).
Genome Res. ( este nmero) doi: 10.1101 / gr.5014606. El Proyecto ENCODE Consorcio. 2007.
Identificacin y anlisis de
elementos funcionales en el 1% del genoma humano por el ENCODE
Gerstein et al.
Euskirchen, G., Royce, TE, Bertone, P., Martone, R., Rinn, JL, Nelson, Lan, N., Jansen, R., y Gerstein, M. 2002. Hacia una sistemtica
FK, Sayward, F., Luscombe, NM, Miller, P., Gerstein, M., et al. definicin de la funcin de protenas que se ajusta al nivel del genoma: funcin que define en trminos de
2004. CREB se une a mltiples loci en el cromosoma humano 22. Mol. Celda. Biol. 24: 3804 hasta 3814. interacciones. Proc. IEEE 90: 1848-1858. Lan, N., Montelione, GT, y Gerstein, M. 2003. ontologas para
Falk, R. 1986. Qu es un gen? Semental. Hist. Philos. Sci. 17: 133-173. Fiers, W., Contreras, R., De
Wachter, R., Haegeman, G., Merregaert, J., protemica: Hacia una definicin sistemtica de la estructura y la funcin que se ajusta al nivel del
genoma. Curr. Opin. Chem. Biol.
Jou, WM, y Vandenberghe, A. 1971. Los recientes progresos en la determinacin de la secuencia 7: 44-54.
del bacterifago MS2 ARN. Biochimie Lander, ES, Linton, LM, Birren, B., Nusbaum, C., Zody, MC,
53: 495-506. Baldwin, J., Devon, K., Dewar, K., Doyle, M., Fitzhugh, W., et al.
Fiers, W., Contreras, R., Duerinck, F., Haegeman, G., Iserentant, D., 2001. secuenciacin inicial y el anlisis del genoma humano. Naturaleza
Merregaert, J., MinJou, W., Molemans, F., Raeymakers, A., Van den Berghe, A., et al. 1976. secuencia 409: 860-921.
de nucletidos completa del bacterifago de ARN MS2: Estructura primaria y secundaria del gen de Li, W., Meyer, CA, y Liu, XS 2005. Un modelo oculto de Markov para el anlisis de chip-chip experimentos en
replicasa. Naturaleza 260: 500-507. matrices genoma suelo de baldosas y su aplicacin a las secuencias de unin de p53. bioinformtica 21: i274-I282.
Lindblad-Toh, KCM, Wade, TS, Mikkelsen, EK, Karlsson, DB, Jaffe,
Fleischmann, RD, Adams, MD, White, O., Clayton, RA, Kirkness,
EF, Kerlavage, AR, Bult, CJ, Tomb, JF, Dougherty, BA, Merrick, M., Kamal, M., Clamp, JL, Chang, EJ, tercera Kulbokas, MC, Zody,
JM, et al. 1995. Todo el genoma de secuenciacin aleatoria y montaje de Haemophilus influenzae Rd. Ciencia E., et al. 2005. secuencia del genoma, el anlisis comparativo y la estructura de haplotipos del perro
269: 496-512. Frith, MC, Wilming, LG, Forrest, A., Kawaji, H., Tan, SL, Wahlestedt, domstico. Naturaleza 438: 803-819. Lodish, H., Scott, MP, Matsudaira, P., Darnell, J., Zipursky, L.,
Kaiser,
C., Bajic, VB, Kai, C., Kawai, J., Carninci, P., et al. 2006. RNA Pseudo-mensajero: Phantoms del CA, Berk, A., y Krieger, M. 2000. Molecular Cell Biology, Quinta ed. Freeman and Co., Nueva York.
transcriptoma. PLoS Genet. Marioni, JC, Thorne, NP, y Tavare, S. 2006. BioHMM: Un
2: e23.
Gelinas, RE y Roberts, RJ 1977. Una predominante heterogneo modelo oculto de Markov para la segmentacin de datos CGH array. bioinformtica 22:
5 -undecanucleotide en adenovirus 2 finales de los ARN mensajeros. Celda 1144-1146. Mattick, JS y Makunin, IV 2006. ARN no codificante. Tararear. Mol.
11: 533-544.
Gibbons, FD, Proft, M., Struhl, K., y Roth, FP 2005. Chipper: Gineta. 15 Spec. No. 1: R17-R29.
El descubrimiento de dianas factor de transcripcin de la cromatina immunoprecipitation McClintock, B. 1929. Un estudio citolgico y gentico del maz triploide.
microarrays se utiliza la estabilizacin de la varianza. Gentica 14: 180-222. McClintock, B. 1948. loci mutable en el maz. Carnegie Inst. De lavado. Ao
Genome Biol. 6: R96.
Gingeras, T. 2007. Origen de fenotipos: Los genes y las transcripciones. genoma Libro 47: 155-169.
Res. ( este nmero) doi: 10.1101 / gr.625007. Griffith, F. 1928. La importancia de tipos neumoccicos. J. Mendel, JG 1866. Versuche ber Pflanzenhybriden. Verhandlungen des
Hyg. (Lond.) naturforschenden Vereines en Brnn 4 Abhandlungen, 3-47. Citado por Robert C. Olby (1997) sobre
27: 113-159.
Griffiths, PE y Stotz, K. 2006. Los genes en la era postgenmica. Theor. http://www.mendelweb.org/MWolby.html, visitada 2007-03-16. Morgan, TH, Sturtevant, AH, Muller, HJ, y
Medicina. Bioeth. 27: 499-521. puentes, CB 1915. los
Handa, H., Bonnard, G., y Grienenberger, JM 1996. La semilla de colza mecanismo de la herencia mendeliana. Holt Rinehart y Winston, Nueva York.
gen mitocondrial que codifica un homlogo de la CCL1 protena bacteriana se divide en dos marcos de
lectura transcritas de forma independiente. Muller, HJ 1927. transmutacin artificial del gen. Ciencia 46: 84-87. Nirenberg, M., Leder, P., Bernfield, M.,
Mol. Gen. Genet. 252: 293-302. Brimacombe, R., Trupin, J.,
Harrison, PM, Zheng, D., Zhang, Z., Carriero, N., y Gerstein, M. Rottman, F., y O'Neal, C. 1965. palabras de cdigo de ARN y la sntesis de protenas, VII. Sobre la
2005. pseudogenes procesados Transcrito en el genoma humano: una forma intermedia de retrosequence naturaleza general del cdigo ARN. Proc. Natl. Acad. Sci. 53: 1161-1168. Ohno, S. 1972. Tanto el ADN
expresada que carece de la capacidad de codificacin de protena. Nucleic Acids Res. 33: 2374-2383. basura en el genoma. En Evolucin de
Harrow, J., Denoeud, F., Frankish, A., Reymond, A., Chen, CK, Chrast, sistemas genticos, vol. 23 (ed. HH Smith), pp. 366-370. Brookhaven Simposios en Biologa. Gordon y
J., Lagarde, J., Gilbert, JG, Storey, R., Swarbreck, D., et al. 2006. GENCODE: La produccin de una Breach, Nueva York. Parra, G., Reymond, A., Dabbouseh, N., Dermitzakis, ET, Castelo, R.,
anotacin de referencia para codificar. Genome Biol. 7 Supl. 1: S4.1-S9.
Thomson, TM, Antonarakis, SE, y Guig, R. 2006. Tandem quimerismo como un medio para aumentar la
Heber, S., Alekseyev, M., Sze, S., Tang, H., y Pevzner, PA 2002. complejidad de protenas en el genoma humano. Genome Res. diecisis: 37-44. Paul, J. 1972. La teora
grficos de empalme y problema montaje EST. bioinformtica general de la estructura del cromosoma y el gen
18: S181-S188.
Heimans, J. 1962. Hugo de Vries y el concepto de gen. A.m. Nat. la activacin en eucariotas. Naturaleza 238: 444-446. Pearson, H. 2006. Gentica: Qu es un gen? Naturaleza
96: 93-104. 441: 398-401. Pedersen, JS, Bejerano, G., Siepel, A., Rosenbloom, K., Lindblad-Toh,
Henikoff, S., Keene, MA, Fechtel, K., y Fristrom, JW 1986. Gen
dentro de un gen: Nested Drosophila genes codifican protenas no relacionadas en hebras de ADN K., Lander, ES, Kent, J., Miller, W., y Haussler, D. 2006. Identificacin y clasificacin de las
opuestas. Celda 44: 33-42. estructuras secundarias de ARN conservada en el genoma humano. PLoS Comput. Biol. doi:
Hershey, AD y Chase, M. 1955. Un lmite superior a la protena
contenido de la sustancia germinal de T2 bacterifago. Virologa 10.1371 / journal.pcbi.0020033.
1: 108-127. Ponjavic, J., Ponting, CP, y Lunter, G. 2007. funcionalidad o
Iafrate, AJ, Feuk, L., Rivera, MN, Listewnik, ML, Donahoe, PK, Qi, el ruido de la transcripcin? Las pruebas de seleccin dentro de los ARN no codificantes de largo. Genome
Y., Scherer, SW, y Lee, C. 2004. La deteccin de la variacin a gran escala en el genoma humano. Nat. Res. 17: 556-565.
Gineta. 36: 949-951. Jacob, F. y Monod, J. 1961. mecanismos reguladores genticos en el Quelle, DE, Zindy, F., Ashmun, RA, y Sherr, CJ 1995. Alternativa
marcos de lectura del tumor INK4a gen supresor codifican dos protenas no relacionadas capaces
sntesis de protenas. J. Mol. Biol. 3: 318-356. de inducir la detencin del ciclo celular. Celda
Ji, H. y Wong, WH 2005. TileMap: Crear un mapa cromosmico de 83: 993-1000.
hibridaciones suelo de baldosas serie. bioinformtica 21: 3.629-3.636. Johannsen, W. 1909. Rheinberger, HG 1995. Cuando ley Darl Correns de Gregor Mendel
Elementos der exakten Erblichkeitslehre, Jena. papel? Isis 86: 612-616.
Citado por Nils Roll-Hansen (1989). El experimento crucial de Wilhelm Johannsen. Biol. Philos. 4: Rinn, JL, Euskirchen, G., Bertone, P., Martone, R., Luscombe, NM,
303-329. Hartman, S., Harrison, PM, Nelson, FK, Mille, P., Gerstein, M., et al. 2003. La actividad de transcripcin
Kapranov, P., Cawley, SE, Drenkow, J., Bekiranov, S., Strausber, RL, del cromosoma humano 22.
Fodor, SP, y Gingeras, TR actividad transcripcional de 2002. gran escala en los cromosomas 21 y 22. Ciencia Genes & Dev. 17: 529-540.
296: 916-919. Karplus, K., Barrett, C., Cline, M., Diekhans, M., Grate, L., y Hughey, Rogic, S., Mackworth, AK, y Ouellette, FB 2001. Evaluacin de
programas de secuencias de mamferos gen de investigacin. Genome Res.
R. 1999. La prediccin de estructura de protenas utilizando slo la informacin 11: 817-832.
secuencial. protenas 37 (Suppl 3): 121-125. Rozowsky, J., Newburger, D., Sayward, F., Wu, J., Jordan, G., Korbel,
Kim, TH, Barrera, LO, Zheng, M., Qu, C., Singer, MA, Richmond, JO, Nagalakshmi, U., Yang, J., Zheng, D., Guigo, R., et al. 2007. Clasificacin El DART de la transcripcin
TA, Wu, Y., Green, RD, y Ren, B. 2005. Un mapa de alta resolucin de promotores activos en el no anotada dentro de las regiones ENCODE: transcripcin Asociar con loci conocidos y nuevos. Genome
genoma humano. Naturaleza 436: 876-880. Korneev, SA, Parque, JH, y O'Shea, M. 1999. neuronal Res. ( este nmero) doi: 10.1101 / gr.5696007. Sager, R. y Kitchin, R. 1975. silenciamiento selectivo de DNA
expresin de eucariota.
xido ntrico sintasa protena neuronal (nNOS) es suprimida por un ARN antisentido transcrito a
partir de un pseudogen NOS. J. Neurosci. Ciencia 189: 426-433.
Qu es un gen?
Schadt, EE, Edwards, SW, Guhathakurta, D., Holder, D., Ying, L., GG, Smith, HO, Yandell, M., Evans, CA, Holt, RA, et al. 2001. La secuencia del genoma humano. Ciencia
Svetnik, V., Leonardson, A., Hart, KW, Russell, A., Li, G., et al. 291: 1304-1351. Villa-Komaroff, L., Guttman, N., Baltimore, D., y Lodishi, HF 1975.
2004. Un ndice exhaustivo transcripcin del genoma humano genera utilizando microarrays y mtodos de
clculo. Genome Biol. 5: R73. traduccin completa del ARN de poliovirus en un sistema libre de clulas eucariotas. Proc. Natl. Acad.
Sci. 72: 4157-4161. Vries, H. 1900. Sur la loi de disjonction des hybrides. Comptes rendus de
Searls, DB 1997. Resumen: enfoques lingsticos para biolgica
secuencias. Comput. Appl. Biosci. 13: 333-344. Searls, DB 2001. La lectura del libro de la vida. bioinformtica l'Academie des Sciences (Paris). 130: 845-847. Wade, N. 2003. sorteos gen termina, pero el ganador
17: 579- tambin puede estar equivocada. Nuevo
580. York Times. http://query.nytimes.com/gst/fullpage.html?sec= la salud y res =
Searls, DB 2002. El lenguaje de los genes. Naturaleza 420: 211-217. Sebat, J., Lakshmi, B., Troge, J., 9A02E0D81230F930A35755C0A9659C8B63 Wain, HM, Bruford, EA, Lovering, RC, Lozano, MJ,
Alexander, J., Young, J., Lundin, P., Wright, MW,
Maner, S., Massa, H., Walker, M., Chi, M., et al. 2004. gran escala nmero de copias polimorfismo en y Povey, S. 2002. Directrices para la nomenclatura gnica humana.
el genoma humano. Ciencia genmica 79: 464-470.
305: 525-528. Washietl, S., Hofacker, IL, Lukasser, M., Huttenhofer, A., y Stadler,
Shi, Y., Seto, E., Chang, LS, y Shen, KT 1991. transcripcional PF 2005. Mapeo de estructuras secundarias de ARN conservada predice miles de ARN no codificantes
represin de YY1, una protena humana relacionada con el GLI-Kruppel, y el alivio de la represin por la funcionales en el genoma humano.
protena E1A de adenovirus. Celda 67: 377-388. Sll, D., Ohtsuka, E., Jones, DS, Lohrmann, R., Hayatsu, Nat. Biotechnol. 23: 1383-1390. Washietl, S., Pedersen, JS, Korbel, JO, Stocsits, C., Gruber,
H., Nishimura, AR,
S., y Khorana, HG 1965. Estudios sobre polinucletidos, XLIX. La estimulacin de la unin de Hackermller, J., Hertel, J., Lindemeyer, M., Reiche, K., Tanzer, A., et al. 2007. ARN estructurados de la
aminoacil-sRNA de a los ribosomas por ribotrinucleotides y una encuesta de las asignaciones de ENCODE regiones seleccionadas del genoma humano. Genome Res. ( este nmero) doi: 10.1101 /
codones para 20 aminocidos. Proc. Natl. Acad. Sci. 54: 1378-1385. gr.5650707. Waterston, RH, Lindblad-Toh, K., Birney, E., Rogers, J., Abril, JF,
Spilianakis, C, Lalioti, M., Ciudad, T., Lee, G., y Flavell, R. 2005. Agarwal, P., Agarwala, R., Ainscough, R., Alexandersson, M., An, P., et al. 2002. secuenciacin inicial y
asociaciones interchromosomal entre loci expresadas alternativamente. el anlisis comparativo del genoma de ratn. Naturaleza 420: 520-562. Watson, JD y Crick, FHC 1953.
Naturaleza 435: 637-645. Una estructura de desoxirribonucleico
Sturtevant, H. 1913. La disposicin lineal de seis factores ligados al sexo en
Drosophila como se muestra por su modo de asociacin. J. Exp. Zool. cido. Naturaleza 171: 964-967. Wold, F. 1981. En la modificacin qumica in vivo
14: 43-59. de protenas
Takahara, T., Kanazu, SI, Yanagisawa, S., y Akanuma, H. 2000. (modificacin post-traduccional). Annu. Rev. Biochem. 50: 783-814. Yano, Y., Saito, R., Yoshida, N.,
mRNAs Sp1 heterogneos en clulas HepG2 humanos incluyen un producto de homotpica trans- empalme. Yoshiki, A., Wynshaw-Boris, A., Tomita,
J. Biol. Chem. 275: 38067-38072. Torrents, D., Suyama, M., Zdobnov, E., y Bork, P. 2003. Un M., y Hirotsune, S. 2004. Un nuevo papel para pseudogenes expresadas como ncRNA: Regulacin de la
estabilidad del ARNm de su gen codificante homloga. J. Mol. Medicina. 82: 414-422.
encuesta de todo el genoma de pseudogenes humanos. Genome Res.
13: 2559-2567. Zhang, Z., Harrison, PM, Liu, Y., y Gerstein, M. 2003. Millones de
Tress, M., Martelli, PL, Frankish, A., Reeves, G., Wesselink, JJ, Yeats, aos de evolucin conservados: en un catlogo completo de los pseudogenes procesados en
C., Olason, PI, Albrecht, M., Hegyi, H., Giorgetti, A., et al. 2007. Las implicaciones de splicing el genoma humano. Genome Res.
alternativo en el complemento de protenas ENCODE. Proc. Natl. Acad. Sci. 104: 5495 hasta 5500. 13: 2541-2558.
Tschermak, E. 1900. ber Knstliche Kreuzung bei Pisum sativum. Zhang, ZD, Paccanaro, A., Fu, Y., Weissman, S., Weng, Z., Chang, J.,
Snyder, M., y Gerstein, MB 2007. El anlisis estadstico de la distribucin genmica y la correlacin de
Berichte Deutsche Botanischen. Gesellschaft 18: 232-239. Tuan, DY, Salomn, WB, Londres, elementos reguladores en las regiones ENCODE. Genome Res. ( este nmero) doi: 10.1101 / gr.5573107.
mensajera instantnea, y Lee, DP 1989. Un Zheng, D. y Gerstein, MB 2007. La ambigua frontera entre la
-Eritroide especfica, el grado de desarrollo independiente del promotor de lejos contra la corriente de
lo humano -como globinagenes. Proc. Natl. Acad. Sci. genes y pseudogenes: los muertos se levantan hacia arriba, o lo hacen? Trends Genet.
86: 2554-2558. 23: 219-224.
Tuzun, E., Sharp, AJ, Bailey, JA, Kaul, R., Morrison, VA, Pertz, LM, Zheng, D., Zhang, Z., Harrison, PM, Karro, J., Carriero, N., y
Haugen, E., Hayden, H., Albertson, D., Pinkel, D., et al. variacin estructural de 2005. a escala fina Gerstein, M. 2005. Integrated pseudogene anotacin para el cromosoma humano 22: Evidencia para la
del genoma humano. Nat. Gineta. transcripcin. J. Mol. Biol. 349: 27-45. Zheng, D., Frankish, A., Baertsch, R., Kapranov, P., Reymond, A.,
37: 727-732. Choo,
Vanin, EF, Goldberg, GI, Tucker, PW, y Smithies, O. 1980. Un SW, Lu, Y., Denoeud, F., Antonarakis, SE, Snyder, M., et al. 2007. Los pseudogenes en el ENCODE
ratn globina-relacionados pseudogene que carece de secuencias que intervienen. regiones: Consenso de anotacin, el anlisis de la transcripcin, y la evolucin. Genome Res. ( este
Naturaleza 286: 222-226. nmero) doi:
Venter, JC, Adams, MD, Myers, EW, Li, PW, Mural, RJ, Sutton, 10.1101 / gr.5586307.