Você está na página 1de 14

descargado de www.genome.

org el 12 de mayo de 2008 - Publicado por Cold Spring Harbor Laboratory Press

Qu es un gen, post-ENCODE? Historia y definicin actualizada


Mark B. Gerstein, Can Bruce, Joel S. Rozowsky, Deyou Zheng, Jiang Du, Jan O. Korbel, Olof Emanuelsson,
Zhengdong D. Zhang, Sherman Weissman y Michael Snyder

Genome Res. 2007 17: 669-681


Acceder a la versin ms reciente en doi: 10.1101 / gr.6339607

"Fig._1_Timeline_Poster.pdf"
Los datos complementarios http://www.genome.org/cgi/content/full/17/6/669/DC1

referencias Este artculo cita de 99 artculos, 42 de los cuales se puede acceder gratuita en:
http://www.genome.org/cgi/content/full/17/6/669#References

El artculo citado en:


http://www.genome.org/cgi/content/full/17/6/669#otherarticles

Acceso abierto Libremente disponible en lnea a travs de la opcin de Investigacin del Genoma del acceso abierto.

Recibe alertas de correo electrnico gratuito cuando los nuevos artculos citan este artculo - inscribirse en el cuadro de la
correo electrnico de alerta
servicio de esquina superior derecha del artculo o haga clic aqu

notas

Para suscribirse a Investigacin del genoma ir:


http://www.genome.org/subscriptions/

2007 Cold Spring Harbor Laboratory Press


descargado de www.genome.org el 12 de mayo de 2008 - Publicado por Cold Spring Harbor Laboratory Press

Perspectiva

Qu es un gen, post-ENCODE? Historia


y definicin actualizada
Mark B. Gerstein, 1,2,3,9 Puede Bruce, 2,4 Joel S. Rozowsky, 2 Deyou Zheng, 2 Jiang Du, 3
Jan O. Korbel, 2,5 Olof Emanuelsson, 6 Zhengdong D. Zhang, 2 Sherman Weissman, 7
y Michael Snyder 2,8
1 Programa de Biologa Computacional y Bioinformtica de la Universidad de Yale, New Haven, Connecticut 06511, EE.UU.; 2 Biofsica Molecular y Departamento de Bioqumica de la

Universidad de Yale, New Haven, Connecticut 06511, EE.UU.; 3 Departamento de Ciencias de la Computacin de la Universidad de Yale, New Haven, Connecticut 06511, EE.UU.; 4 Centro

de Informtica Mdica, Universidad de Yale, New Haven, Connecticut


06511, EE.UU.; 5 Laboratorio Europeo de Biologa Molecular, 69117 Heidelberg, Alemania; 6 Estocolmo Centro de Bioinformtica, Centro Universitario AlbaNova, Universidad de
Estocolmo, SE-10691 Estocolmo, Suecia; 7 Departamento de Gentica de la Universidad de Yale, New Haven, Connecticut 06511, EE.UU.; 8 Molecular, Celular, Biologa del Desarrollo
y Departamento de la Universidad de Yale, New Haven, Connecticut
06511, EE.UU.

Mientras que la secuenciacin del genoma humano nos sorprendi con el nmero de genes que codifican protenas que hay, que no cambi fundamentalmente
nuestra perspectiva sobre lo que es un gen. Por el contrario, los complejos patrones de regulacin dispersa y la transcripcin omnipresente descubierto por el
proyecto ENCODE, junto con la conservacin no gnica y la abundancia de ARN no codificantes de genes, han cuestionado la nocin del gen. Para ilustrar esto, se
revisa la evolucin de las definiciones operacionales de un gen durante el siglo pasado, desde los elementos abstractos de la herencia de Mendel y Morgan a los
ORF actuales enumeradas en los bancos de datos de secuencias. a continuacin, se resumen las conclusiones de ENCODE actuales y proporcionar una metfora
computacional para la complejidad. Finalmente, se propone una actualizacin de tentativa a la definicin de un gen: Un gen es una unin de secuencias genmicas
que codifican un conjunto coherente de potencialmente la superposicin de productos funcionales. Nuestra definicin deja de lado la complejidad de la regulacin y
transcripcin mediante la eliminacin de la antigua por completo de la definicin y argumentando que, productos gnicos funcionales finales (en lugar de
transcripciones intermedios) debe ser utilizado para las entidades del grupo juntos asociados con un nico gen. Tambin pone de manifiesto cmo el concepto
integral de la funcin biolgica es en la definicin de los genes.

Introduccin el siglo pasado, resumen el pensamiento actual sobre la base de los hallazgos ms recientes
ENCODE, y proponer una nueva definicin de gen actualizada que tenga en cuenta estos
La visin clsica de un gen como un elemento discreto en el genoma ha hallazgos.
sido sacudida por ENCODE

El consorcio ENCODE completado recientemente su caracterizacin de 1% del genoma humano


Historia del gen, de 1860 hasta justo antes de ENCODE
mediante diversas tcnicas experimentales y computacionales de alto rendimiento diseados
para caracterizar los elementos funcionales (El ENCODE consorcio del proyecto 2007). Este Definicin 1860s-1900s: gnica como una unidad discreta de la herencia
proyecto representa un hito importante en la caracterizacin del genoma humano, y los
El concepto de la gen ha evolucionado y ser ms complejo ya que fue propuesto por primera
resultados actuales muestran una imagen sorprendente de la actividad molecular compleja.
vez (ver lnea de tiempo en la Fig. 1, el cartel de acompaamiento). Hay varias definiciones del
Aunque la secuenciacin del genoma humano hito sorprendi a muchos con el pequeo nmero
trmino, aunque las descripciones iniciales comunes incluyen la capacidad de determinar una
(con relacin a organismos ms simples) de los genes codificantes de protenas que anotadores
caracterstica particular de un organismo y la heredabilidad de esta caracterstica. En particular,
secuencia podra identificar ( ~ 21.000, de acuerdo con la ltima estimacin [ver
la palabra gene fue utilizado por primera vez por Wilhelm Johannsen en 1909, basado en el
www.ensembl.org]), ENCODE resaltar el nmero y la complejidad de las transcripciones de ARN
concepto desarrollado por Gregor Mendel en 1866 (Mendel 1866). La palabra era un derivado de pangene,
que produce el genoma. En este sentido, ENCODE ha cambiado nuestra visin de lo que es un
que fue utilizado por Hugo De Vries para las entidades involucradas en la pangnesis, el
gen considerablemente ms que la secuenciacin del Haemophilus influenza y genomas
mecanismo hipottico de Darwin de la herencia (Heimans 1962). Johnannsen llama un gen los
humanos hicieron (Fleischmann et al 1995;.. Lander et al 2001; Venter et al., 2001). La
especiales condiciones, fundaciones y determinantes que estn presentes [en los gametos] en
discrepancia entre nuestra opinin protena centradas anterior del gen y uno que se revela por la
formas nicas, separados y por lo tanto independientes [por que] muchas caractersticas del
extensa actividad transcripcional del genoma nos lleva a reconsiderar ahoraQue es un gen. En
organismo se especifican (Johannsen 1909, p. 124). La etimologa del trmino deriva del griego gnesis
este artculo examinamos cmo el concepto de gen ha cambiado a lo largo
( Nacimiento) o genos ( "origen"). La palabra relacionada gentica fue utilizado por el genetista
William Bateson en 1905 (http://www.jic.ac.uk/corporate/about/bateson.htm).

9 Autor correspondiente.

E-mail Mark.Gerstein@yale.edu; fax (360) 838-7861.


El artculo est en lnea en http://www.genome.org/cgi/doi/10.1101/gr.6339607. Libremente disponible en lnea a
Mendel demostr que cuando la cra de plantas, algunas caractersticas como la altura o
travs de la Investigacin del genoma opcin de acceso abierto. color de la flor no aparecen mezclados en su off-

17: 669-681 2007 por Cold Spring Harbor Laboratory Press; ISSN 1088-9051 / 07; www.genome.org Investigacin del Genoma 669
www.genome.org
descargado de www.genome.org el 12 de mayo de 2008 - Publicado por Cold Spring Harbor Laboratory Press

Gerstein et al.

Figura 1. ( Cerrado el cartel) Cronologa de la historia del trmino gen. Un trmino inventado hace casi en los primeros aos de la bacteriologa. Una vista prctico del gen fue la del cistrn, una regin
un siglo, gen, con su seductora y sencilla la ortografa, se ha convertido en un concepto central en la de ADN definida por mutaciones que en
biologa. Dado un significado especfico en su moneda, esta palabra se ha convertido en algo complejo
trans no pudo genticamente se complementan entre s (Benzer
y difcil de alcanzar en los ltimos aos, lo que refleja nuestro conocimiento cada vez mayor en la
gentica y en ciencias de la vida en general. Las impresionantes descubrimientos realizados en el 1955).
Proyecto ENCODE muchas similar antes de que enriquecieron significativamente el significado de este
trmino, son precursores de otra ola de cambio en nuestra comprensin de lo que es un gen.
Definicin de 1960: gnica como cdigo transcrito

Fue la solucin de la estructura tridimensional del ADN por Watson y Crick en 1953 (Watson y
Crick 1953) que explica cmo el ADN podra funcionar como la molcula de la herencia.
apareamiento de bases explic cmo la informacin gentica podra ser copiada, y la existencia
resorte, es decir, estos rasgos se transmiten como distintas, discretas entidades (Mendel 1866).
de dos hebras explic cmo los errores ocasionales en la replicacin podra dar lugar a una
Su trabajo tambin demostr que las variaciones en los rasgos fueron causadas por las
mutacin en uno de los ejemplares hija de la molcula de ADN.
variaciones en los factores hereditarios (o, en la terminologa de hoy, el fenotipo es causada por
el genotipo). Fue slo despus de que el trabajo de Mendel se repiti y redescubierto por Carl
Correns, Erich von Tschermak-Seysenegg, y Hugo De Vries en 1900 que funciona ms en la
Desde la dcada de 1960, la biologa molecular ha desarrollado a un ritmo rpido. El
naturaleza de la unidad de herencia comenz de verdad (Tschermak 1900; Vries 1900;
transcrito de ARN de las secuencias de codificacin de protenas se tradujo utilizando el cdigo
Rheinberger 1995).
gentico (resuelto en 1965 por Nirenberg et al. [1965] y Sll et al. [1965]) en una secuencia de
aminocidos. Francis Crick (1958) resumi el flujo de informacin en la expresin gnica a partir

Definicin de los aos 1910: Gen como un locus distinto del cido nucleico a la protena (los inicios de la dogma central). Sin embargo, hubo algunas
excepciones inmediatas a esto: Se saba que algn cdigo genes no para la protena pero para
En el siguiente desarrollo importante, el genetista estadounidense Thomas Hunt Morgan y sus
las molculas de ARN funcionales, tales como ARNr y ARNt. Adems, en el ARN virus el gen
estudiantes estaban estudiando la segregacin de las mutaciones en Drosophila melanogaster. Fueron
est hecho de ARN. La vista molecular del gen que se desarroll a travs de la dcada de 1960
capaces de explicar sus datos con un modelo que los genes estn dispuestos linealmente, y su
se puede resumir en trminos generales a ser un cdigo que reside en el cido nucleico que da
capacidad de cross-over es proporcional a la distancia que los separa. El primer mapa gentico
lugar a un producto funcional.
fue creado en 1913 (Sturtevant

1913), y Morgan y sus estudiantes publicaron El mecanismo de la herencia mendeliana en 1915


(Morgan et al. 1915). Para la dcada de los genetistas, un gen era una entidad abstracta cuya
existencia se refleja en la forma fenotipos fueron transmitidas entre generaciones. La
Definicin 1970s-1980s: Gen marco de lectura que abierto (ORF) patrn de
metodologa utilizada por los primeros genetistas mutaciones y recombinacin implicados, por lo
secuencia
que el gen era esencialmente un locus cuyo tamao se determin por mutaciones que inactivan
(o activadas) un rasgo de inters y por el tamao de las regiones de recombinacin. El hecho de El desarrollo de tcnicas de clonacin y secuenciacin en la dcada de 1970, en combinacin
que la vinculacin gentica correspondi a lugares fsicos en los cromosomas se demostr ms con el conocimiento del cdigo gentico, revolucion el campo de la biologa molecular,
tarde, en 1929, por Barbara McClintock, en sus estudios citogenticos en el maz (McClintock proporcionando una gran cantidad de informacin sobre cmo los genes se organizan y se
expresaron. El primer gen a ser secuenciado era del bacterifago MS2, que tambin fue el
primer organismo para ser completamente secuenciado (Fiers et al. 1971,

1929). 1976). El desarrollo paralelo de herramientas computacionales llev a algoritmos para la


identificacin de genes basadas en sus caractersticas de secuencia (por ejemplo, para revisin,
Definicin 1940: gnica como modelo para una protena vase Rogic et al. 2001). En muchos casos, una secuencia de ADN podra utilizarse para inferir
la estructura y la funcin para el gen y sus productos. Esta situacin ha creado un nuevo
Beadle y Tatum (1941), que estudi Neurospora metabolismo, descubrieron que las mutaciones
concepto de gen nominal, que se define por su secuencia prevista en vez de como un locus
en genes podra causar defectos en las etapas en las vas metablicas. Esto se indica como la
gentico responsable de un fenotipo (Griffiths y Stotz 2006). La identificacin de la mayora de
un gen, una enzima vista, que ms tarde se convirti en un gen, una polipptido. En este
genes en genomas secuenciados se basa ya sea en su similitud con otros genes conocidos, o la
punto de vista, el gen est siendo considerado implcitamente como la informacin detrs de las
firma estadsticamente significativa de una secuencia de codificacin de protena. En muchos
molculas individuales en una va bioqumica. Este punto de vista se hizo cada vez ms explcita
casos, el gen efectivamente se identific como un ORF anotado en el genoma (Doolittle
y mecanicista en dcadas posteriores.

Definicin de 1950: gnica como una molcula fsica 1986).

El hecho de que la herencia tiene una base fsica, molecular se demostr mediante la
Definicin 1990s-2000s: anotado entidad genmico, enumeradas en los
observacin de que los rayos X podra causar mutaciones (Muller 1927). (1928) la demostracin
bancos de datos (vista actual, pre-ENCODE)
de que algo en Griffith virulenta, pero muertos Neumococo cepas podran ser absorbidos por no
virulenta en directo Neumococo y transformarlos en bacterias virulentas fue una prueba ms en La definicin actual de un gen utilizado por organizaciones cientficas que anotan los genomas
esta direccin. Ms tarde se demostr que esta sustancia podra ser destruido por la enzima todava se basa en la idea de secuencia. As, un gen se define por la Organizacin
ADNasa (Avery et al. 1944). En 1955, Hershey y Chase establecieron que la sustancia Nomenclatura Genoma Humano como un segmento de ADN que contribuye al fenotipo /
realmente transmitida por bacterifago a su progenie es ADN y no protenas (Hershey y Chase funcin. En ausencia de la funcin demostrado un gen puede estar caracterizado por la
1955). Adems, la idea de que el producto de un gen es una sustancia difusible subyace en la secuencia, la transcripcin o la homologa(Wain et al. 2002). Recientemente, el Consorcio de
prueba de complementacin que se utiliz para definir genes Ontologa Secuencia informes, llamado el gen una regin localizable de la secuencia genmica,
que corresponde a una unidad de herencia, que se asocia con

670 Investigacin del Genoma


www.genome.org
descargado de www.genome.org el 12 de mayo de 2008 - Publicado por Cold Spring Harbor Laboratory Press

Qu es un gen?

regiones reguladoras, regiones transcritas y / u otras regiones de la secuencia modificacin post-traduccional. Tales secuencias podran residir dentro de la secuencia de
funcional(Pearson 2006). codificacin, as como en las regiones flanqueantes, y en el caso de potenciadores y elementos
La secuenciacin del primero la Haemophilus influenza genoma y luego el genoma relacionados, muy lejos de la secuencia de codificacin. Aunque funcionalmente necesario para
humano (Fleischmann et al 1995;. Lander et al 2001;.. Venter et al 2001) condujo a una la expresin del producto gnico, los elementos reguladores, especialmente los ms distantes,
explosin en la cantidad de secuencia que las definiciones tales como la anteriormente podran hecho que el concepto del gen como un locus gentico compacto problemtico.
aplicarse a. De hecho, hubo un gran inters popular en contar el nmero de genes en diferentes
organismos. Este inters se cristaliz originalmente por apuesta de Gene Gran Premio en el
nmero de genes en el genoma humano, que recibi una amplia cobertura de los medios (Wade Reglamento es parte integral de muchas definiciones actuales del gen. En particular, una
definicin libro de texto actual de un gen en trminos moleculares es toda la secuencia de cido
nucleico que es necesaria para la sntesis de un polipptido funcional (o ARN) (Lodish et al.
2003). 2000). Si eso implica apropiadamente regulados sntesis, las secuencias de ADN en un gen
Se ha sealado que estas enumeraciones demasiado nfasis en los genes tradicionales, incluira no slo aquellos que codifica para la pre-mRNA y sus regiones de control flanqueantes,
que codifican protenas. En particular, cuando se inform de que el nmero de genes presentes sino tambin potenciadores. Adems, muchos potenciadores son distantes a lo largo de la
en el genoma humano en secuencia de ADN, a pesar de que son en realidad muy cerca debido a la estructura de la
2003, se reconoci que muy poco se sabe acerca de RNAcoding genes, de tal manera que el cromatina tridimensional.
nmero que se dio fue la de proteincoding genes. La vista Ensembl del gen se resumi
especficamente en las reglas del gen de Gran Premio como sigue: transcripciones
empalmados alternativamente todos pertenecen a la misma de genes, incluso si las protenas
que se producen son diferentes (http: //web.archive. org / web / 20050627080719 / 2. La superposicin de genes y empalmados

www.ensembl.org / Genesweep /).

La superposicin

Como genes, ARNm, y genomas completos finalmente fueron secuenciados, el modelo opern
Una corriente metfora computacional: Genes como subrutinas en el sistema sencilla result ser aplicable solamente a los genes de procariotas y sus fagos. Eucariotas eran

operativo genmico diferentes en muchos aspectos, incluyendo la organizacin gentica y el flujo de informacin. El
modelo de genes como unidades hereditarias que son no solapada y continua ha demostrado
Dado que el conteo de los genes en el genoma es tal esfuerzo computacional a gran escala y
ser incorrecta por el mapeo preciso de las secuencias codificantes de genes. De hecho, se han
que los genes se refieren fundamentalmente con el procesamiento de la informacin, el lxico de
encontrado algunos genes para solaparse entre s, compartiendo la misma secuencia de ADN
la informtica, naturalmente, se ha aplicado cada vez ms a describirlos. En particular, la gente
en un marco de lectura diferente o en la cadena opuesta. La estructura discontinua de genes
en la comunidad de la biologa computacional han utilizado la descripcin de un lenguaje formal
permite potencialmente un gen para estar contenida completamente dentro de intrn de otro, o
para describir la estructura de los genes en gran medida de la misma manera que las gramticas
un gen para solaparse con otro en la misma cadena, sin compartir ninguna exones o elementos
se utilizan para describir los programas-con la computadora una sintaxis precisa de aguas arriba
reguladores.
de regulacin, los exones e intrones (Searls 1997, 2001, 2002). Por otra parte, una metfora que
es cada vez ms popular para describir los genes es pensar en ellos en trminos de subrutinas
en un sistema operativo enorme (OS). Es decir, la medida en que los nucletidos del genoma se
ponen juntos en un cdigo que se ejecuta a travs del proceso de la transcripcin y la
traduccin, el genoma puede ser pensado como un sistema operativo para un ser vivo. Los
genes son entonces subrutinas individuales en este sistema general que se denominan de forma empalme

repetitiva en el proceso de la transcripcin. Splicing fue descubierto en 1977 (Berget et al 1977;. Chow et al 1977;. Gelinas y Roberts 1977).
Pronto se vio que el gen no era una unidad sencilla de la herencia o funcin, sino ms bien una
serie de exones, que codifica, en algunos casos, los dominios de protenas discretos, y se
separ por tramos no codificantes largos llamados intrones. Con splicing alternativo, un locus
gentico podra codificar para mltiples diferentes transcritos de ARNm. Este descubrimiento
complica el concepto del gen radicalmente. Por ejemplo, en la secuenciacin del genoma,
Celera define un gen como un locus de los exones co-transcrito (Venter et al. 2001), y en la
cuestiones problemticas con la definicin actual de un gen pgina Web de Gene Gran Premio de Ensembl defini originalmente un gen como un conjunto
de transcripciones conectados, , dondeconectadosignifica el intercambio de un exn (http:.
//web.archive org / web / 20050428090317 / www.ensembl.org / Genesweep).
Hay una serie de aspectos problemticos de la definicin actual de un gen, tal como se aplica al
genoma humano, que se discuten a continuacin. Varias complicaciones adicionales se
resumen en la Tabla 1.

1. regulacin gnica
Trans- empalme
Jacob y Monod (1961), en su estudio de la laca opern de
Escherichia coli, proporcionado un paradigma para el mecanismo de regulacin del gen: El fenmeno de la trans- empalme (ligadura de dos molculas de ARNm separadas) complica
Consista en una regin de ADN que consiste en secuencias que codifican una o ms protenas, an ms nuestra comprensin (Blumenthal 2005). Hay ejemplos de transcripciones del mismo
una secuencia promotor para la unin de la ARN polimerasa, y una secuencia de operador a gen, o la cadena de ADN opuesta, o incluso otro cromosoma, estando unidas antes de ser
la que reguladora genes se unen. Ms tarde, se encontraron otras secuencias de existir que empalmados. Claramente, el concepto clsico del gen como un locus ya no se aplica para
podran afectar prcticamente todos los aspectos de la regulacin de genes de transcripcin a la estos productos de los genes cuyas secuencias de ADN son ampliamente separados en todo el
degradacin mRNA y genoma.

Investigacin del Genoma 671


www.genome.org
descargado de www.genome.org el 12 de mayo de 2008 - Publicado por Cold Spring Harbor Laboratory Press

Gerstein et al.

Tabla 1. Fenmenos que complica el concepto del fenmeno gen

Descripcin Problema

localizacin de genes y la estructura


genes intronic Existe un gen dentro de un intrn de Dos genes en el mismo locus
otro (Henikoff et al. 1986)
Los genes con la superposicin de marcos de lectura Una regin de ADN puede codificar para dos diferentes No correspondencia uno-a-uno entre el ADN
productos de protena en diferentes marcos de lectura y la secuencia de protenas
(Contreras et al., 1977)
Potenciadores, silenciadores elementos reguladores Distant (Spilianakis et al. secuencias de ADN determinacin de la expresin pueden ser
2005) ampliamente separados uno de otro en el genoma.
Muchos-a-muchos relacin entre los genes y sus
potenciadores.

variacin estructural
elementos mviles elemento gentico aparece en nuevas ubicaciones ms Un elemento gentico puede ser no constante en su
McClintock generaciones (1948) ubicacin
reordenamientos del gen / variantes estructurales reordenacin del ADN o de empalme en las clulas somticas la estructura del gen no es hereditaria, o estructura
resultados en muchos productos de genes pueden diferir entre los individuos o clulas / tejidos
alternativos (Early et al., 1980)
variantes del nmero de copias nmero de copias de genes / elementos reguladores pueden Los elementos genticos pueden diferir en su nmero
diferir entre individuos (Iafrate et al 2004;. Sebat et al 2004;.
Tuzun et al 2005).

Epigentica y la estructura de los cromosomas


Las modificaciones epigenticas, imprinting informacin heredada puede no ser secuencia de ADN Fenotipo no est estrictamente determinado por
basado (por ejemplo, Dobrovic et al 1988.); La expresin de genotipo
un gen depende de si es de origen paterno o materno (Sager
y Kitchin
1975)
Efecto de la estructura de la cromatina estructura de la cromatina, lo que hace gen influencia La expresin gnica depende de embalaje de ADN.
expresin, slo se asocia sin apretar, con secuencias secuencia de ADN no es suficiente para predecir producto gnico.
particulares de ADN (Paul 1972)

eventos post-transcripcional
El empalme alternativo de ARN Una transcripcin puede generar mltiples ARNm, Mltiples productos de un locus gentico;
dando lugar a diferentes productos de protena (Berget et al informacin en el ADN no relacionada linealmente con que en la protena
1977;. Gelinas y Roberts 1977)
productos empalmados alternativamente con alterno marcos de lectura alternativos del tumor INK4a Dos productos de splicing alternativo de un pre-ARNm
marcos de lectura gen supresor codifica dos protenas no relacionadas producir productos de protena sin secuencia en comn
(Quelle et al. 1995)
ARN trans- empalme, homotipica trans- secuencias de ADN Distante de empalme pueden codificar transcripciones Una protena puede resultar de la combinacin
se lig en diversas combinaciones (Borst 1986). Dos la informacin codificada en mltiples transcripciones
transcripciones idnticas de un gen puede
trans- empalmar para generar un ARNm donde se repite la
misma secuencia de exn (Takahara et al. 2000).

edicin de ARN ARN se enzimticamente modificado (Eisen 1988) La informacin sobre el ADN no est codificado
directamente en secuencia de ARN

los acontecimientos posteriores a la traduccin


remodelacin de la protena, poliprotenas virales productos de protenas auto-escinde y puede generar Inicio y final de los sitios de protenas no determinados por
mltiples productos funcionales (Villa-Komaroff et al. 1975) codigo genetico

Protena trans- empalme protenas distintas pueden empalmarse juntos en la Inicio y final de los sitios de protenas no determinados por
ausencia de una trans- transcrito empalmado (Handa et al. 1996) codigo genetico

la modificacin de protenas La protena se modifica para alterar la estructura y La informacin sobre el ADN no est codificado
funcin del producto final (Wold 1981) directamente en la secuencia de protenas

Pseudogenes y retrogenes
retrogenes A retrogene se forma a partir de transcripcin inversa RNA-a-DNA flujo de informacin
de de su gen padre mRNA (Vanin et al. 1980) y mediante la
insercin del producto de ADN en un genoma

pseudogenes transcrito Un pseudogen se transcribe (Zheng et al. 2005, la actividad bioqumica de supuestamente muerto
2007) elementos

Por ltimo, una serie de estudios recientes han puesto de manifiesto un fenmeno denominado 3. genes parasitarias y mviles
quimerismo en tndem, en el que dos genes consecutivos se transcriben en un nico ARN
(Akiva et al 2006;. Parra et al., 2006). La traduccin (despus de corte y empalme) de tales ARN Un desafo a nuestro concepto del gen ha sido la del gen egosta o parasitaria. La idea
puede conducir a una nueva, protena fusionada, que tiene partes de ambas protenas propuesta por primera vez por Richard Dawkins es que la unidad de la evolucin no es el
originales. organismo pero el gen (Dawkins, 1976). Los organismos son slo herramientas que los genes
utilizan para repre-

672 Investigacin del Genoma


www.genome.org
descargado de www.genome.org el 12 de mayo de 2008 - Publicado por Cold Spring Harbor Laboratory Press

Qu es un gen?

licate s mismos. concepto de Dawkins de la Optimon (o selecton) es una unidad de ADN que Sin anotaciones y alternativo DST
sobrevive de recombinacin para suficientes generaciones para ser seleccionados para juntas.
Una segunda observacin es que hay un gran nmero de sitios de inicio de la transcripcin
unannotated (DST) identificados por cualquiera de secuenciacin del 5 final de ARNm transcritos
El trmino parasitaria ciertamente parece apropiado para los transposones, cuya nica
o la asignacin de factores de transcripcin del promotor asociado a travs de chip-chip o CHIP-
funcin es la de replicarse a s mismos y que no proporcionan ningn beneficio obvio para el
PET (El ENCODE Proyecto Consortium 2007). Por otra parte, el consorcio encontrado que
organismo. Los transposones pueden cambiar su ubicacin, adems de copiarse a s mismas
muchos genes de protenas conocidas tienen alternativa TSSs que a veces son> 100 kb aguas
mediante la escisin, la recombinacin o la transcripcin inversa. Fueron descubiertos por
arriba del sitio de inicio de transcripcin anotada. En particular, Denoeud et al. (2007) llevaron a
primera vez en la dcada de 1930 en el maz y ms tarde se encontr que existen en todas las
cabo 5 amplificacin rpida de extremos de ADNc (RACE) en todos los 399 loci codificantes de
ramas de la vida, incluyendo los seres humanos (McClintock 1948). Los transposones han
protenas bien caracterizados contenidas en las regiones ENCODE. El cebador RACE fue
cambiado nuestra visin del gen mediante la demostracin de que un gen no es fijo en su lugar.
seleccionado de un exn 5 que se comparte entre las transcripciones ms comentadas de cada
locus, y los productos de RACE se hibrida con matrices y asignada. Ellos encontraron que ms
de la mitad de los loci tena un sitio de inicio de la transcripcin alternativa aguas arriba del sitio
conocido en al menos uno de los 12 tejidos ensayados. Algunos de estos TSSs distal utilizarse
el promotor de un tipo completamente diferente locus del gen (es decir, comparten el mismo sitio
4. La gran cantidad de ADN basura bajo seleccin
de inicio de transcripcin). La importancia de este descubrimiento es que el TSS alternativa para
El ORF concepto patrn de secuencia del gen, tal como exista desde la dcada de 1980 hizo algunas de estas transcripciones comenz dos o tres loci de genes aguas arriba del locus
en adelante claro que haba grandes extensiones de elementos nongenic en genomas fromwhich se seleccion el cebador RACE. Por lo tanto, algunas isoformas alternativas son
eucariotas, en particular el genoma humano. En ausencia de conocimiento de una funcin para transcripciones que abarcan mltiples loci de genes. las regiones no traducidas (UTRs).
estas regiones, se propuso que carecan de una funcin por algunos que utiliza la etiqueta de
ADN basura (Ohno 1972). Esto se puso de relieve por la posterior secuenciacin del genoma
humano, donde se demostr que slo el 1,2% del cdigo bases de ADN para los exones (Lander
et al 2001;. Venter et al., 2001). Sin embargo, algunos principios de piloto funcionales de
genmica experimentos en los cromosomas 21 y 22 indicaron que cantidades apreciables de la
ADN basura supuestamente fueron transcritas (Kapranov et al 2002;. Rinn et al.

Ms splicing alternativo
2003). Adems, la comparacin de los otros genomas de vertebrados humano, perro, ratn, y
mostr que una gran fraccin de stos se conserv, con ~ 5% bajo seleccin negativa desde la Teniendo en cuenta estos resultados, el equipo de La Habana en el Instituto Sanger produjo el
divergencia de estas especies (Waterston et al 2002;. Lindblad-Toh et al., 2005). GENCODE anotacin bien curada (Harrow et al. 2006). No han encontrado que el nmero de
loci conocidos gen que codifica la protena se ha incrementado significativamente en el tiempo.
Por el contrario, el nmero de isoformas alternativas comentadas por locus ha aumentado. (La
anotacin GENCODE contiene actualmente un promedio de 5.4 transcripciones por locus). Por
lo tanto, mientras que parte de la gran cantidad de nuevo, la transcripcin unannotated podra
La vista ENCODE moderna de la actividad del genoma dispersa
corresponder a completamente nuevo de codificacin de protena del gen loci, la mayor parte es
probable que corresponden a segmentos de unannotated empalmados alternativamente
transcripciones que implican conocido loci de genes o a totalmente nuevos ARN no codificantes.
Como se describi anteriormente, antes del advenimiento del proyecto ENCODE, hubo una serie
de aspectos de genes que estaban muy complicado, pero gran parte de esta complejidad fue en
cierto sentido barrido debajo de la alfombra y en realidad no afectan a la definicin fundamental
de un gen. La experiencia del proyecto ENCODE, en particular el mapeo de la actividad
transcripcional y regulacin utilizando suelo de baldosas arrays, se ha extendido estos aspectos
desconcertantes y confusos de los genes, llevndolos a la vanguardia, donde uno tiene que la regulacin dispersa

lidiar de manera ms directa con ellos en relacin con la definicin de lo que es un gen. Como se esquematiza en la figura 2B, el proyecto ENCODE ha proporcionado evidencia de
propagacin dispersa regulacin en todo el genoma (El Consorcio ENCODE Project 2007). Por
otra parte, los sitios de regulacin para un gen dado no son necesariamente directamente aguas
arriba de la misma y pueden, de hecho, estar situados lejos en el cromosoma, ms cerca de otro
gen. Mientras que la unin de muchos factores de transcripcin parece manta todo el genoma,
Lo que los experimentos muestran ENCODE: Rejas de largo transcripciones y
no est dispuesto de acuerdo con las expectativas aleatorias simples y tiende a ser agrupadas
se dispersaron regulacin
en ricos bosques reguladoras y desiertos pobres (Zhang et al. 2007).

la transcripcin no anotada

Un primer hallazgo del consorcio ENCODE que ha reproducido los resultados anteriores Por otra parte, parece que algunos de los elementos reguladores en realidad pueden a
(Bertone et al 2004;.. Cheng et al 2005) es que una gran cantidad de ADN, no anotado como su vez ser transcrito. En un modelo de gen convencional y concisa, un elemento de ADN (por
genes conocidos, se transcribe en ARN (el proyecto ENCODE Consorcio 2007) . Estos nuevos ejemplo, promotor, potenciador, y el aislante) que regula la expresin del gen no se transcribe y
transcrito regiones generalmente se llaman alquitranes (es decir, regiones transcripcionalmente por lo tanto no es parte de la transcripcin de un gen. Sin embargo, muchos estudios iniciales
activas) y transfrags. Mientras que la mayora del genoma parece ser transcrito en el nivel de han descubierto en casos especficos que elementos reguladores pueden residir en las regiones
transcritos primarios, slo la mitad de la transcripcin procesado (corte y empalme) detectados transcritas, como el laca operador (Jacob y Monod 1961), un promotor para regular el gen de la
en todas las lneas y condiciones mapeadas clula es actualmente anotada como genes. beta-globina (Tuan et al. 1989), y el sitio de unin a ADN del factor YY1 (Shi et al. 1991). El
proyecto ENCODE y otra reciente ex chip-chip

Investigacin del Genoma 673


www.genome.org
descargado de www.genome.org el 12 de mayo de 2008 - Publicado por Cold Spring Harbor Laboratory Press

Gerstein et al.

hay menos de una distincin que debe hacerse entre las


regiones gnicas y intergnicas. Los genes que ahora
parecen extenderse en lo que una vez fue llamado espacio
intergnico, con transcripciones recientemente descubiertos
procedentes de sitios reguladores adicionales. Adems, hay
mucha actividad entre los genes anotados en el espacio
intergnico. Dos fuentes bien caracterizados pueden
contribuir a esto, transcritos ARN no proteincoding (ncRNAs)
y pseudogenes transcritas, y una fraccin apreciable de
estos elementos transcritos estn bajo restriccin evolutiva.
Un nmero de estos pseudogenes transcrito y ncRNA genes
son, de hecho, situado dentro de intrones de genes
codificantes de protenas. Uno no puede simplemente
ignorar estos componentes dentro de intrones, porque
algunos de ellos pueden influir en la expresin de sus genes
del husped, ya sea directa o indirectamente.

RNAs no codificantes

Las funciones de los genes ncRNA son muy diversas,


incluyendo la regulacin de genes (por ejemplo, miRNAs), el
procesamiento del ARN (por ejemplo, snoRNAs), y la
sntesis de protenas (ARNt y ARNr) (Eddy 2001; Mattick y
Makunin 2006). Debido a la falta de codones y los marcos
de lectura por lo tanto abiertas, ncRNA genes son difciles
de identificar, y por lo tanto probablemente slo una fraccin
de la ncRNAs funcional en los seres humanos se conoce
hasta la fecha, con la excepcin de los que tienen los
evolutiva y / o estructural ms fuerte restricciones, que
Figura 2. la complejidad biolgica revelado por ENCODE. ( UN) Representacin de un tpico re- gin genmica retratar la complejidad de las
pueden ser identificados computacionalmente a travs de
transcripciones en el genoma. ( Parte superior) secuencia de ADN con los exones anotadas de genes (rectngulos negros) y novedosos alquitranes
plegado y la coevolucin anlisis de ARN (por ejemplo,
(rectngulos huecos). ( Fondo) Las diversas transcripciones que surgen de la regin tanto del avance y hebras inversa. (Las lneas discontinuas)
empalmadas de salida intrones. Convencional anotacin de genes representara slo una parte de los transcritos procedentes de los cuatro genes miRNAs que muestran estructuras precursoras en forma de
de la regin (indicada). Los datos del proyecto ENCODE revelan que muchas transcripciones estn presentes que abarcan mltiples loci de genes, horquilla caractersticos, o ncRNAs en los complejos de
algunos usando distal 5 los sitios de inicio de transcripcin. ( SEGUNDO) Representacin de las diversas secuencias reguladoras identificadas para ribonucleoprotena que en combinacin con pptidos forman
un gen diana. Para Gene 1 mostramos todas las transcripciones de componentes, incluyendo muchas isoformas nuevos, adems de todas las
estructuras secundarias especficas) (Washietl et al 2005.,
secuencias de iden- tificado para regular el gen 1 (crculos grises). Observamos que algunas de las secuencias potenciadoras son en realidad
promotores para nuevas isoformas de empalme. Adems, algunas de las secuencias reguladoras para el gen 1 en realidad podra estar ms cerca 2007; Pedersen et al. 2006). Sin embargo, el ejemplo de la
de otro gen, y el objetivo sera identificado errneamente si elegido puramente basado en la proximidad. gran 17-kb

periments han proporcionado pruebas a gran escala que el modelo de gen concisa puede ser XIST gen implicado en la compensacin de la dosis muestra que ncRNAs funcionales pueden
demasiado simple, y muchos elementos reguladores en realidad residir en el primer exn, ampliar de manera significativa ms all de constreido, computacionalmente regiones
intrones, o todo el cuerpo de un gen (Cawley et al 2004;.. Euskirchen et al 2004; Kim et al 2005;. identificables (Chureau et al 2002;. Duret et al., 2006).
El consorcio del proyecto ENCODE 2007; Zhang et al 2007)..
Tambin es posible que los productos de ARN mismos no tienen una funcin, sino que
reflejan o son importantes para un proceso celular particular. Por ejemplo, la transcripcin de
una regin reguladora puede ser importante para la accesibilidad de la cromatina para la unin
Gnica frente intergnica: Existe una distincin?
del factor de transcripcin o de la replicacin del ADN. Tal transcripcin se ha encontrado en la
En general, los experimentos han revelado ENCODE un rico tapiz de la transcripcin que implica regin de control del locus (LCR) del locus de beta-globina, y la actividad de la polimerasa se ha
corte y empalme alternativo, que cubre el genoma en una red compleja de las transcripciones. sugerido que es importante para la replicacin del ADN en E coli. Alternativamente, la
De acuerdo con las definiciones tradicionales, los genes son regiones unitarias de secuencia de transcripcin podra reflejar la actividad no especfica de una regin particular, por ejemplo, el
ADN, separados unos de otros. ENCODE revela que si se intenta definir un gen sobre la base reclutamiento de la polimerasa para sitios reguladores. En cualquiera de estos escenarios, las
de la superposicin de las transcripciones compartidos, entonces muchos loci de genes transcripciones mismos se carecen de una funcin y es poco probable que se conservan.
anotados distintas se unen en regiones genmicas ms grandes. Una consecuencia evidente de
los resultados es que ENCODE

674 Investigacin del Genoma


www.genome.org
descargado de www.genome.org el 12 de mayo de 2008 - Publicado por Cold Spring Harbor Laboratory Press

Qu es un gen?

pseudogenes tiva llama a una subrutina discreto en un sistema operativo de ordenador normal. Sin embargo,
el marco de describir el genoma como cdigo ejecutado todava tiene cierto mrito. Es decir,
Los pseudogenes son otro grupo de misteriosos componentes genmicos que se encuentran a
todava se puede entender la transcripcin de genes en trminos de hilos paralelos de ejecucin,
menudo en intrones de los genes o en el espacio intergnico (Torrents et al 2003; Zhang et al.
con la salvedad de que estos hilos no siguen la estructura cannica subrutina y modular. Ms
2003).. Se derivan de genes funcionales (a travs de retrotransposition o duplicacin), pero han
bien, hilos de ejecucin se entrelazan de una manera bastante sin orden ni concierto, muy
perdido las funciones originales de sus genes parentales (Balakirev y Ayala 2003). A veces
parecido a lo que se describe como un cdigo de programa informtico estructurado descuidado
balancendose entre muertos y vivos, pseudogenes pueden influir en la estructura y funcin del
con una gran cantidad de instrucciones GOTO pasar con velocidad dentro y fuera de los bucles
genoma humano. Su prevalencia (tantos como genes codificantes de protenas) y su estrecha
y otras construcciones.
similitud con genes funcionales ya han confundido anotacin de genes. Recientemente, tambin
se ha encontrado que una fraccin significativa (hasta 20%) de ellos son transcripcionalmente
vivo, lo que sugiere que el cuidado tiene que ser tomado cuando se utiliza la expresin como
prueba para la localizacin de genes (Yano et al 2004;.. Harrison et al 2005 ; Zheng et al. 2005,
2007; Frith et al. La importancia de modelos de genes para interpretar el
experimento de alto rendimiento en ENCODE

Dados los hallazgos de provocacin del proyecto ENCODE, uno se pregunta hasta qu punto la
2006). De hecho, algunos de los nuevos alquitranes se puede atribuir a la transcripcin interpretacin de los experimentos highthroughput puede ser empujado. Esta interpretacin es,
pseudogene (Bertone et al 2004;. Zheng et al., 2005). En unos pocos casos sorprendentes, se de hecho, muy contingente sobre el uso de modelos de genes.
encontr una RNA pseudogene o al menos una pieza de la misma para ser empalmado con la
transcripcin de su gen vecino para formar un quimrico transcripcin de genes pseudogene.
Estos resultados se suman una capa adicional de complejidad para establecer la estructura Aspectos de la interpretacin de los datos suelo de baldosas gama

exacta de un locus del gen. Adems, las transcripciones pseudogene funcionales tambin se
Una gran parte de los datos de transcripcin se ha generado utilizando microarrays de alta
han descubierto en las clulas eucariotas, tales como las neuronas del caracol Lymnaea
densidad de mosaico (Emanuelsson et al 2007;. Rozowsky et al 2007;. El ENCODE Proyecto
stagnalis ( Korneev et al. 1999). Adems, curiosamente, el ser humano XIST gen mencionado
Consortium 2007). La ventaja de estas matrices es que sondean la transcripcin de una manera
anteriormente en realidad surge del cuerpo muerto de un pseudogen (Duret et al.
imparcial y detallada, sin ideas preconcebidas en cuanto a dnde buscar actividad. Por otra
parte, el resultado de un experimento de suelo de baldosas serie puede ser ruidoso y necesita
una interpretacin cuidadosa con el fin de permitir la recoleccin de un conjunto fiable de las
2006). pseudogen la transcripcin y la frontera borrosa entre los genes y pseudogenes (Zheng y
regiones transcritas. La cantidad de transcripcin detectado depende en gran medida de los
Gerstein 2007) pone de relieve una vez ms que la naturaleza funcional de muchos nuevos TAR
umbrales utilizados cuando se invoca regiones transcritas y hasta cierto punto tambin en los
debe ser resuelto por los futuros experimentos bioqumicos o genticos (para una revisin, ver
algoritmos de segmentacin utilizados para delimitar las regiones transcritas de las regiones no
Gingeras 2007).
transcritas. Adems,

elementos restringidos

Las regiones intergnicas no codificantes contienen una gran fraccin de elementos funcionales
identificadas mediante el examen de los cambios evolutivos a travs de mltiples especies y
dentro de la poblacin humana. El proyecto ENCODE observ que slo el 40% de las bases
evolutivamente limitados estaban dentro de los exones codificantes de protenas o sus regiones
no traducidas asociados (el consorcio del proyecto ENCODE 2007). La resolucin de elementos
limitados identificados por el anlisis de especies mltiples en el proyecto ENCODE es muy alta, El resultado esperado exacta de un mapeo de transcripcin experimento de la
la identificacin de secuencias tan pequeas como 8 bases (con una mediana de 19 bases) (El transcripcin fiel de mapas es, por supuesto, desconocido. Por lo tanto, una parte crucial de la
ENCODE consorcio del proyecto 2007). Esto sugiere que los loci codificantes de protenas interpretacin de mapeo de transcripcin de datos de matriz de mosaico es entender cmo la
pueden ser vistos como un grupo de pequeos elementos restringidos dispersos en un mar de seal es diferente de varias expectativas aleatorios (modelos nulo). Una forma ingenua para
secuencias sin restricciones. Aproximadamente el otro 20% de los elementos limitados solapa lograr este objetivo es asignar al azar a los datos en bruto y luego aplicar todos los esquemas de
con regiones reguladoras experimentalmente anotado. normalizacin, de puntuacin, y la segmentacin (con parmetros sin cambios) para obtener una
lnea base de la transcripcin que es recogido a partir de datos supuestamente sin sentido.
Pero no est claro que esta es la mejor manera de hacerlo: GC-contenido, distribucin de la
longitud de las regiones del (reales o esperados) transcrito, dinucleotide composicin y otras
caractersticas tambin debe tenerse en cuenta en la distribucin de transcripcin de
referencia.

La metfora computacional ENCODE: Genes como rutinas libremente


codificados

La nueva perspectiva ENCODE no es as, por supuesto, en forma con la metfora del gen como
Los genes como modelos estadsticos que resumen muchos experimentos
una simple rutina exigible en un gran sistema operativo. En esta nueva perspectiva, se entra en
un gen de rutina de muchas maneras diferentes en el marco de splicing alternativo y celosas En el contexto de la interpretacin de experimentos de alto rendimiento, tales como suelo de
de largo transcripciones. La ejecucin del sistema operativo genmico no tiene una calidad tan baldosas arrays, el concepto de un gen tiene una importancia-como prctico aadido un modelo
limpio como esta idea de repetitivo estadstico para ayudar a interpretar y proporcionar la sumarizacin concisa a los datos
experimentales potencialmente ruidosos.

Investigacin del Genoma 675


www.genome.org
descargado de www.genome.org el 12 de mayo de 2008 - Publicado por Cold Spring Harbor Laboratory Press

Gerstein et al.

lisar el resto de la matriz de datos de mosaico. En un caso


concreto, al analizar los datos suelo de baldosas serie
utilizando un modelo de Markov oculto (Du et al. 2006), si
las regiones de validacin se seleccionan para lograr la
mxima entropa de la seal, el sistema de seleccin
MaxEntropy, el modelo de segmentacin gen resultante
supera a otros. Para la transcripcin suelo de baldosas
arrays, MaxEntropy seleccionar generalmente las regiones
que contienen ambos exones e intrones.

Hacia una definicin actualizada de un


gen

Como hemos descrito anteriormente, nuestro conocimiento


de los genes ha evolucionado mucho a lo largo del siglo
pasado. Aunque nuestra comprensin ha crecido, tambin
Figura 3. Formacin de modelos de genes estadsticos basados en los datos oligonucletido suelo de baldosas de microarrays de alta densidad. ( UN) datos de la hemos descubierto un nmero cada vez mayor de los
seal a gran escala a partir de suelo de baldosas serie de experimentos se pueden usar para entrenar modelos estadsticos para anotar los golpes, y una aspectos problemticos con definiciones sencillas de un gen
proporcin pequea / mediana de estos resultados pueden ser validados adems por experimentos u otro conocimiento biolgico a travs de carreras de iteraciones
(Tabla 1). Splicing (incluyendo corte y empalme alternativo)
y optimizaciones. ( SEGUNDO) Diferentes estrategias se pueden utilizar para seleccionar regiones genmicas para la validacin; por ejemplo, (1) seleccionar slo las
regiones con seales de alta, (2) seleccionar regiones al azar, o (3) seleccionar los que tienen las entropas mxima de la seal, que generalmente contiene
y la transcripcin intergnica son, evidentemente, algunos
fronteras de las seales de alto y bajo. Una pregunta que vale la pena preguntar si es una manera ptima de seleccin existe para mejor ayuda en el de los aspectos ms problemticos. Como se muestra en la
entrenamiento del modelo estadstico. Figura 4, la frecuencia de mencin de estos trminos en

Por ejemplo, los experimentos de suelo de baldosas serie transcripcionales en ltima instancia, la literatura biolgica ha ido aumentando considerablemente. Por lo tanto, el escenario estaba
identificar alquitranes / transfrags, que generalmente corresponden a los exones en los genes. Por lo listo para el proyecto ENCODE y la gran complejidad en el aparato transcripcional y regulatorio
tanto, los modelos de genes ms adecuados para ser considerados pueden ser grficos de empalme que puso de relieve. En este punto, no est claro qu hacer: En el caso extremo, se podra
(Heber et al. 2002) que representan los exones como nodos y eventos de empalme como bordes declarar el concepto de gen muertos y tratar de llegar a algo completamente nuevo que se
dirigidos. adapte a todos los datos. Sin embargo, sera difcil de hacer esto con consistencia. Aqu, hemos
Con el fin de construir y ajustar modelos estadsticos para la interpretacin experimental, hecho un intento tentativa a un compromiso, la elaboracin de actualizaciones y parches para la
otros conocimientos biolgicos relacionados (por ejemplo, la anotacin de genes y datos de definicin existente de un gen.
validacin experimentales) tiene que ser combinada con la matriz de datos de alto rendimiento.
Por ejemplo, la matriz de datos de la transcripcin pueden identificar regiones transcritas
aislados, y la validacin experimental como la raza pueden proporcionar informacin de
Los criterios a tener en cuenta en la actualizacin de la definicin
conectividad. Usando estos datos juntos, los modelos estadsticos pueden ser mejor entrenados
y luego se pueden utilizar para analizar el resto de los datos de alto rendimiento que no estn En primer lugar, consideramos varios criterios para ser importante, mientras que dar con una
cubiertos por los experimentos de validacin. definicin actualizada de un gen: (1) Una nueva definicin debe intentar ser compatible con
versiones anteriores, en el sentido de que algo que antes se llamaba un gen debe seguir siendo
un gen. (2) Debe ser organismo independiente; es decir, ya sea como vlido para las bacterias
Los diferentes modelos estadsticos (Karplus et al 1999;. Bertone et al 2004;. Schadt et al como de un virus o un eucariota superior. (3) Debe ser una declaracin de un
2004;. Gibbons et al 2005;. Ji y Wong 2005;. Li et al 2005; Du et al 2006;.. Marioni et al 2006 ) se
han propuesto para explicar la generacin de la matriz de datos de mosaico. Como se muestra idea simple, en lugar de ver los distintos mecanismos y excepciones. (4) Debe ser lo
en la Figura 3, estos modelos pueden ser entrenados utilizando los datos de la matriz de suficientemente prctico para que se pueda enumerar fcilmente genes y contestar a una
mosaico y otros conocimientos biolgica y luego extrapolarse a toda la secuencia del genoma de pregunta como Cuntos genes hay en el genoma humano? (5) Debe ser compatible con otra
mejor segmento en elementos funcionales. A medida que se acumula ms y ms conocimiento nomenclatura biolgica que hace uso de la idea de un gen digital. Por ejemplo, debera ser
biolgico, especialmente a travs de la validacin experimental de regiones funcionales consistente con regulome trmino, que representa el conjunto completo de interacciones
previstos generados por el procedimiento de anlisis, podemos esperar que los modelos estarn reguladoras en un organismo.
mejor capacitados, lo que conduce a los resultados del anlisis refinados de estos experimentos.
Sin embargo, ser poco prctico para validar cada elemento funcional individual identificada por
los experimentos de mosaico utilizando RT-PCR o RACE. Para cada experimento suelo de
baldosas gama, tal vez slo un conjunto de tamao medio de las regiones funcionales predichos Una definicin actualizada propuesta
ser validada experimentalmente.
Hay tres aspectos a la definicin que vamos a enumerar a continuacin, antes de proporcionar la
definicin sucinta:

1. Un gen es una secuencia genmica (ADN o ARN) que codifica directamente molculas de
Como se muestra en la Figura 3, las regiones para la validacin experimental pueden ser productos funcionales, ya sea ARN o protena.
recogidos utilizando diferentes estrategias. Evidentemente, es beneficioso para recoger estas 2. En el caso de que hay varios productos funcionales que comparten regiones de solapamiento,
regiones de una manera ptima para que el modelo entrenado basa en estos resultados de la se toma la unin de todas las secuencias genmicas de solapamiento que codifican para
validacin canmost Ana- precisin ellos.

676 Investigacin del Genoma


www.genome.org
descargado de www.genome.org el 12 de mayo de 2008 - Publicado por Cold Spring Harbor Laboratory Press

Qu es un gen?

cuencias que codifican para ellos residen en lugares


separados en el genoma, por lo que no constituiran un gen.

exones frameshifted

Hay casos, como el de la CDKN2A (anteriormente INK4a /


ARF) tumor gen supresor (por ejemplo, Quelle et al. 1995),
cuando un pre-mRNA puede ser empalmados
alternativamente para generar un ARNm con un
desplazamiento de marco en la secuencia de la protena.
Por lo tanto, aunque los dos mRNAs han secuencias en
comn de codificacin, los productos proteicos pueden ser
completamente diferentes. Este caso bastante inusual
plantea la cuestin de cmo exactamente una identidad de
secuencia debe ser manipulado cuando se toma la unin de
segmentos de secuencia que se comparten entre los
productos proteicos. Si se considera la secuencia de los
productos de protena, hay dos protenas no relacionadas,
por lo que deben ser dos genes con la superposicin de
conjuntos de secuencias. Si uno proyectos la secuencia de
Figura 4. Anlisis de palabras clave y la complejidad de genes. El uso de Google Acadmico, una bsqueda de texto completo de los
los productos de protena de vuelta a la secuencia de ADN
artculos cientficos se realiz para las palabras clave intrones, splicing alternativo y transcripcin intergnica. Pendientes de las curvas
indican que en los ltimos aos la frecuencia de mencin de trminos relacionados con la complejidad de un gen se ha incrementado. (La que los codifica (como se describi anteriormente), entonces
bsqueda de Google Acadmico se limit a los artculos en los siguientes temas: Medicina, Farmacologa y Ciencias Veterinarias Biologa,
Ciencias de la Vida y Ciencias del Medio Ambiente;; Qumica y Ciencia de los Materiales)

3. Esta unin debe ser coherente, es decir, hecho por separado para protenas y ARN productos hay dos conjuntos de secuencias con elementos comunes, as que hay un gen. El hecho de que

finales, pero no requiere que todos los productos comparten necesariamente una las secuencias de estas dos protenas estn limitados al mismo tiempo, de manera que una
mutacin en uno de ellos afectara simultneamente el otro, sugiere que esta situacin no es
subsecuencia comn. Esto se puede resumir de forma concisa:
afn a la de dos genes que codifican protenas no relacionadas. Por esta razn, la generalizacin
de este caso especial, estamos a favor del mtodo de tomar la unin de los segmentos de
El gen es una unin de secuencias genmicas que codifican una coherente secuencia, no de los productos, sino de las secuencias de ADN que codifican para las
conjunto de productos funcionales potencialmente solapados. La Figura 5 proporciona un secuencias de productos.

ejemplo para ilustrar la aplicacin de esta definicin.

Las regiones reguladoras no incluidos


Aspectos e implicaciones de la definicin
A pesar de que las regiones reguladoras son importantes para la expresin gnica, se sugiere
Hay implicaciones importantes de esta definicin.
que no deben ser considerados para decidir si mltiples productos pertenecen a los mismos
genes. Este aspecto de la definicin resulta de nuestro concepto del opern bacteriano. El hecho
Colapsando en casos sencillos
de que los genes en un opern comparten una regin de operador y promotor no ha sido
En casos sencillos, donde el gen no es discontinua o no hay productos que se solapan, nuestra tradicionalmente considerado dar a entender que sus productos proteicos son productos
definicin colapsa a la versin clsica de ser una secuencia de ADN que codifica para un alternativas de un solo gen. En consecuencia, en eucariotas superiores, dos transcritos que se
producto de protena o ARN. originan en el sitio de inicio mismo de la transcripcin (comparten el mismo promotor y
elementos reguladores), pero no comparten ninguna secuencia de elementos en sus productos
finales (por ejemplo, debido a corte y empalme alternativo) no sera productos de la mismo gen.
Proyectando hacia abajo en la toma de la unin Una lgica similar se aplicara a mltiples transcripciones que comparten un promotor o aislante
comn pero distante.
En nuestra propuesta de definicin de un gen, diferentes productos funcionales de la misma
clase (protena o RNA) que se superponen en su uso de la secuencia de ADN primaria se
combinan en el mismo gen. Esta superposicin se realiza mediante la proyeccin de la
secuencia del producto final (ya sea secuencia de aminocidos o de ARN) hacia abajo en la
secuencia genmica original de fromwhich se deriv. Se podra, en principio, se superponen las
secuencias de los productos finales ( que sobresale hacia arriba); sin embargo, ya anotacin
de los genes se realiza para el ADN genmico, creemos que nuestra eleccin es la ms
coherente con la prctica actual. Un punto obvio que todava debera ser afirmado es que,
productos finales, no los grupos de transcripcin
cuando se mira en productos genmicos con segmentos de secuencias comunes, la mera
identidad de secuencia no es suficiente; los productos tienen que ser codificado directamente de A medida que la definicin actualizada hace hincapi en los productos finales de un gen, no
la misma regin genmica. As, las protenas paralogous pueden compartir bloques de tiene en cuenta los productos intermedios procedentes de una regin genmica que puede
secuencias, suceder a superponerse. Por ejemplo, un transcrito de intrnica claramente comparte
secuencias con un transcrito de mayor superposicin, pero este hecho es irrelevante cuando se
concluye que

Investigacin del Genoma 677


www.genome.org
descargado de www.genome.org el 12 de mayo de 2008 - Publicado por Cold Spring Harbor Laboratory Press

Gerstein et al.

Cuando se utiliza una definicin estricta de las regiones que


codifican el producto final de un gen proteincoding, estas
regiones ya no seran considerados parte del gen, como es
a menudo el caso en el uso actual. Por otra parte, las
transcripciones de codificacin de protenas que comparten
secuencia de ADN slo en sus regiones no traducidas o
intrones no estaran agrupados juntos en un gen comn.
Mediante la eliminacin de UTRs de la definicin de un gen,
se puede evitar el problema de mltiples 5 y 3 extremos
nublar la delineacin del gen y tambin evitar una situacin
en la que aguas arriba o aguas

trans 5 secuencias lder se empalman a una secuencia de


codificacin de protenas. Por otra parte, se ha observado
que la mayora de las transcripciones que codifican
protenas ms largos identificados por ENCODE difieren
slo en sus UTRs, y por lo tanto nuestra definicin es
bastante transparente a este grado de complejidad
transcripcin.
Figura 5. Como la definicin propuesta del gen se puede aplicar a un caso de ejemplo. Una regin genmica produce tres transcritos
primarios. Despus de corte y empalme alternativo, los productos de dos de estos codifican cinco productos de protena, mientras que
el tercero codifica para un ARN no codificante producto (ncRNA). Los productos de protenas estn codificadas por tres grupos de
regiones de genes asociadas
segmentos de secuencias de ADN (A, B, y C; D; y E). En el caso de la agrupacin de tres segmentos (A, B, C), cada segmento de
secuencia de ADN es compartido por al menos dos de los productos. Dos transcripciones primarias comparten un 5 regin no traducida, Como se describi anteriormente, las regiones reguladoras y
pero sus regiones traducidas D y E no se superponen. Tambin hay un no codificante producto de ARN, y porque su secuencia es de
no traducidas que juegan un papel importante en la
ARN, no protena, el hecho de que comparte sus secuencias genmicas (X e Y) con la protena codificante genmica segmentos A y E
no significa que sea un coproducto de estos genes codificantes de protenas. En resumen, hay cuatro genes en esta regin, y que son expresin de genes ya no seran considerados parte del
los conjuntos de secuencias que se muestran dentro de la naranja lneas discontinuas: Gen 1 consiste en la secuencia de los gen. Sin embargo, nos gustara crear una categora
segmentos A, B, y C; gen 2 consiste en D; gen 3 de E; y el gen 4 de X e Y. En el diagrama, para mayor claridad, la exonic y secuencias especial para ellos, diciendo que seran asociada al gen. De
de protenas A-E han sido alineados verticalmente, por lo que las lneas de trazos para las transcripciones empalmados y productos
esta manera, estas regiones todava conservan su papel
funcionales indican la conectividad entre las secuencias de protenas (valos) y las secuencias de ARN (cajas).
importante en la contribucin a la funcin del gen. Por otra
parte, su capacidad de con-

los dos productos comparten ninguna secuencia de bloques. Este concepto se puede homenaje a la expresin de varios genes puede ser reconocida. Esto es particularmente cierto
generalizar a otros tipos de genes discontinuos, como los genes reordenados (por ejemplo, en el para los elementos de largo alcance tales como la betaglobina LCR, que contribuye a la
locus del gen de inmunoglobulina, el segmento C es comn a todos los productos de protenas expresin de varios genes, y probablemente ser el caso para muchos otros potenciadores
codificadas de la misma), o como sus verdaderos objetivos de genes se asignan. Tambin se puede aplicar a las regiones
trans- transcripciones longitudinalmente (donde una pre-mRNA se puede empalmar a una serie no traducidas que contribuyen a mltiples loci de genes, tales como los transcritos empalmados
de otros pre-ARNm antes del procesamiento posterior y la traduccin). Esto implica que el largo observadas en la regin de codificacin y trans-
nmero de genes en el genoma humano va a aumentar significativamente cuando se haya
completado la encuesta del transcriptoma humano. A la luz de la gran cantidad de exones empalmados.

transcripciones entrelazados que fueron identificados por el consorcio ENCODE, si tratamos a


agruparse transcripciones enteras juntos para formar la superposicin de grupos de conjuntos inconexos de la secuencia genmica

transcripcin (una definicin alternativa potencial de un gen), entonces se ver que grandes
Para mayor claridad en la discusin, nos referimos a ADN cuando significa secuencias
segmentos de cromosomas hara fundirse en estos grupos. Esta definicin alternativa de un gen
genmicas en general. Nuestra definicin propuesta es aplicable a todos los genomas, incluido
resultara en un nmero mucho menor genes, y sera de utilidad limitada.
el de los virus de ARN. En casos complejos, el gen resulta no corresponden a un locus gentico
individual discreta, como secuencias que codifican su producto (s) pueden estar muy separados
en el genoma. En particular, debido a que el gen es un conjunto de secuencias compartidas
entre los productos, no hay ningn requisito de conectividad entre estas secuencias y las
secuencias que ocurren para conectarlos no tienen que ser parte del gen. Por lo tanto, los
Splicing alternativo
miembros de una secuencia pueden estar en diferentes cadenas de un cromosoma o incluso en
En relacin con los productos de genes empalmados alternativamente, existe la posibilidad de los cromosomas separados. Esto significa que trans- transcripciones longitudinalmente
que nadie exn codificante se comparte entre todos los productos de protena. En este caso, se pertenecen a un gen.
entiende que la unin de estos segmentos de secuencia define el gen, siempre y cuando cada
exn se comparte entre al menos dos miembros de este grupo de productos.

UTRs Conclusin: Cul es la funcin?

5 y 3 las regiones no traducidas (UTRs) juegan un papel importante en la traduccin, la La visin clsica de un gen como una unidad de informacin hereditaria alineados a lo largo de un
regulacin, la estabilidad, y / o localizacin de los ARNm. cromosoma, cada uno de codificacin para una protena, tiene

678 Investigacin del Genoma


www.genome.org
descargado de www.genome.org el 12 de mayo de 2008 - Publicado por Cold Spring Harbor Laboratory Press

Qu es un gen?

cambiado drsticamente durante el siglo pasado. Para Morgan, los genes en los cromosomas referencias
eran como cuentas de un collar. La revolucin de la biologa molecular cambi
Akiva, P., Toporik, A., Edelheit, S., Peretz, Y., Diber, A., Shemesh, R.,
considerablemente esta idea. Para citar Falk (1986), ''. . . el gen es [. . .] Ni discreta [. . .] Ni
Novik, A., y Sorek, R. 2006. mediada por transcripcin fusin de genes en el genoma humano. Genome
[continua. . .], Ni tampoco tiene una ubicacin constante [. . .], Ni una funcin bien definida [. . .], Res. diecisis: 30-36. Avery, OT, MacLeod, CM, y McCarty, M. 1944. Estudios sobre la
Ni siquiera secuencias constantes [. . .] Ni fronteras definidas. '' Y ahora el proyecto ENCODE ha
la naturaleza qumica de la sustancia que induce la transformacin de tipos neumoccicos. J. Exp.
aumentado la complejidad an ms.
Medicina. 79: 137-158. Balakirev, ES y Ayala, FJ 2003. Los pseudogenes: son basura o

ADN funcional? Annu. Rev. Genet. 37: 123-151. Beadle, GW y Tatum, EL 1941. El control gentico
de la bioqumica
Lo que no ha cambiado es que el genotipo determina fenotipo, y en el nivel molecular,
reacciones en Neurospora. Proc. Natl. Acad. Sci. 27: 499-506. Benzer, S. 1955. Estructura fina de una
esto significa que las secuencias de ADN determinan las secuencias de molculas funcionales. regin gentica en bacterifago. Proc.
En el caso ms sencillo, una secuencia de ADN todava codifica para una protena o ARN. Sin Natl. Acad. Sci. 41: 344-354.
Berget, SM, Moore, C., y Sharp, PA 1977. empalmado segmentos en el 5
embargo, en el caso ms general, podemos tener genes que consiste en la secuencia de
terminal de adenovirus 2 ARNm tardo. Proc. Natl. Acad. Sci.
mdulos que se combinan de varias maneras de generar productos. Al centrarse en los 74: 3171-3175.
productos funcionales del genoma, esta definicin establece una norma concreta en la Bertone, P., Stolc, V., Royce, TE, Rozowsky, JS, Urban, AE, Zhu, X.,
Rinn, JL, Tongprasit, W., Samanta, M., Weissman, S., et al. 2004. identificacin global de secuencias
enumeracin de forma inequvoca el nmero de genes que contiene.
transcritas humanos con arrays genoma suelo de baldosas. Ciencia 306: 2242-2246. Blumenthal, T. 2005.
Trans-empalme y operones. WormBook (ed. La

Un aspecto importante de nuestra definicin propuesta es el requisito de que los C. elegans Comunidad de Investigacin). WormBook, doi / 10.1895 / wormbook.1.5.1,
http://www.wormbook.org. Borst, P. 1986. transcripcin discontinua y la variacin antignica en
productos de protena o ARN deben estar funcional
con el fin de asignarlos a un gen particular. Creemos que esto se conecta con el principio bsico tripanosomas. Annu. Rev. Biochem. 55: 701-732. Cawley, S., Bekiranov, S., Ng, HH, Kapranov, P.,
de la gentica, que determina el genotipo fenotipo. A nivel molecular, se supone que el fenotipo Sekinger, EA, Kampa,
D., Piccolboni, A., Sementchenko, V., Cheng, J., Williams, AJ, et al.
se refiere a la funcin bioqumica. Nuestra intencin es hacer que nuestra definicin compatibles
2004. imparcial mapeo de factor de transcripcin sitios a lo largo de los cromosomas humanos 21 y 22
con versiones anteriores con los conceptos anteriores del gen. puntos a la regulacin generalizada de los ARN no codificantes de unin. Celda 116: 499-509. Cheng, J.,
Kapranov, P., Drenkow, J., Dike, S., Brubaker, S., Patel, S.,

Largo, J., Stern, D., tammana, H., Helt, G., et al. 2005. mapas transcripcional de 10 cromosomas
Este nfasis en productos funcionales, por supuesto, pone de relieve la cuestin de qu humanos a una resolucin de 5-nucletido. Ciencia 308: 1149-1154. Chow, LT, Gelinas, RE, Broker,
funcin biolgica es en realidad. Con esto, nos movemos a la pregunta dura de lo que es un TR, y Roberts, RJ 1977. Un

gen? A qu es una funcin?


disposicin de la secuencia increble en los 5 extremos de adenovirus 2 ARN mensajero. Celda 12:
1-8.
sern necesarios-alto rendimiento ensayos bioqumicos y mutacionales para definir la Chureau, C., Prissette, M., Bourdet, A., Barbe, V., Cattolico, L., Jones, L.,
Eggen, A., Avner, P., y Duret, L. 2002. Anlisis comparativo de secuencias de la regin central
funcin en gran escala (Lan et al. 2002, 2003). Con suerte, en la mayora de los casos ser slo
X-inactivacin en el ratn, humano y bovino. Genome Res. 12: 894-908.
una cuestin de tiempo hasta que adquiramos la evidencia experimental que establecer lo que la
mayora de los ARN o protenas hacen. Hasta entonces tendremos que utilizar los trminos Contreras, R., Rogiers, R., van de, VA, y Fiers, W. 1977. La superposicin

marcador de posicin como el alquitrn, o indicar nuestro grado de confianza en funcin de del gen VP2-VP3 y el gen VP1 en el genoma de SV40. Celda
12: 529-538. Crick, FHC 1958. En la sntesis de protenas. Symp. Soc. Exp. Biol.
asumir para un producto genmico. Tambin puede ser capaz de inferir la funcionalidad de las
propiedades estadsticas de la secuencia (por ejemplo, Ponjavic et al. 2007). XII: 138-163. Dawkins, R. 1976. El gen egosta. Oxford University Press, Oxford, Reino Unido. Denoeud,
F., Kapranov, P., Ucla, C., Frankish, A., Castelo, R., Drenkow,

J., Lagarde, J., Alioto, T., Manzano, C., Chrast, J., et al. 2007. uso prominente de 5 distal los sitios de
Sin embargo, probablemente no ser capaz de saber siempre la funcin de todas las inicio de transcripcin y descubrimiento de un gran nmero de exones adicionales en las regiones
molculas en el genoma. Es concebible que algunos productos genmicos son slo ruido, es ENCODE. Genome Res.
(Este nmero) doi: 10.1101 / gr5660607. Dobrovic, A., Gareau, JL, Ouellette, G., y Bradley, WE 1988.
decir, los resultados de los eventos evolutivamente neutros que son tolerados por el organismo
DNA
(por ejemplo, Tress et al. 2007). O, puede haber una funcin que es compartida por otros la metilacin y la inactivacin gentica en timidina quinasa locus: Dos mecanismos diferentes para el
productos genmicos somany que la funcin de la identificacin de los enfoques de mutacin silenciamiento de genes autosmicos. Somat. Cell Mol. Gineta. 14: 55-68. Doolittle, R. 1986. De URFs y
ORF: Una introduccin a la forma de analizar derivada
puede ser muy difcil. Si bien la determinacin de la funcin biolgica puede ser difcil, lo que
demuestra la falta de funcin es an ms difcil (casi imposible). Algunos bloques de secuencias secuencias de aminocidos. University Science Books, Mill Valley, CA. Du, J., Rozowsky, JS, Korbel, J.,
en el genoma son propensos a mantener sus etiquetas de RAT de funcin desconocida de Zhang, ZD, Royce, TE, Schultz, MH,
Snyder, M., y Gerstein, M. 2006. Un supervisados oculto marco modelo de Markov para segmentar
forma indefinida. Si esas regiones pasan a compartir secuencias con genes funcionales, sus
de manera eficiente datos de la matriz de mosaico en experimentos de transcripcin y de
lmites (o ms bien, el nmero de miembros de su conjunto de secuencias) seguirn siendo
ChIP-chip: la incorporacin sistemtica de conocimiento biolgico validado. bioinformtica
incierto.
22: 3016 hasta 3.024.
Duret, L., Chureau, C., Samain, S., Weissenbach, J., y Avner, P. 2006.
El gen de ARN Xist evolucion en euterios por pseudogenization de un gen codificante de la protena. Ciencia
312: 1653-1655. Early, P., Huang, H., Davis, M., Calame, K., y Hood, L. 1980. Un

cadena pesada de inmunoglobulina gen de la regin variable se genera a partir de tres segmentos de
ADN: VH, D y JH. Celda 19: 981-992. Eddy, SR 2001. No-codificacin de los genes de ARN y ARN del
mundo moderno.
Expresiones de gratitud Nat. Rev. Genet. 2: 919-929. Eisen, H. edicin de 1988. ARN: Quin est en primera? Celda 53: 331-332.
Emanuelsson, O., Nagalakshmi, U., Zheng, D., Rozowsky, JS, Urban,
Agradecemos al consorcio ENCODE, y reconocer a las siguientes fuentes de financiacin:
ENCODE subvencin # U01HG03156 del Genoma Humano Instituto Nacional de Investigacin AE, Du, J., Lian, Z., Stolc, V., Weissman, S., Snyder, M., et al. 2007. Evaluacin del funcionamiento de las

(NHGRI) / Institutos Nacionales de Salud (NIH); NIH subvencin T15 LM07056 de la Biblioteca diferentes estrategias de baldosas microarrays de alta densidad para cartografiar regiones transcritas del
genoma humano.
Nacional de Medicina (CB, ZDZ); y Marie Curie de salida Beca Internacional (JOK).
Genome Res. ( este nmero) doi: 10.1101 / gr.5014606. El Proyecto ENCODE Consorcio. 2007.
Identificacin y anlisis de
elementos funcionales en el 1% del genoma humano por el ENCODE

Investigacin del Genoma 679


www.genome.org
descargado de www.genome.org el 12 de mayo de 2008 - Publicado por Cold Spring Harbor Laboratory Press

Gerstein et al.

proyecto piloto. naturaleza ( en prensa). 19: 7.711 hasta 7.720.

Euskirchen, G., Royce, TE, Bertone, P., Martone, R., Rinn, JL, Nelson, Lan, N., Jansen, R., y Gerstein, M. 2002. Hacia una sistemtica
FK, Sayward, F., Luscombe, NM, Miller, P., Gerstein, M., et al. definicin de la funcin de protenas que se ajusta al nivel del genoma: funcin que define en trminos de
2004. CREB se une a mltiples loci en el cromosoma humano 22. Mol. Celda. Biol. 24: 3804 hasta 3814. interacciones. Proc. IEEE 90: 1848-1858. Lan, N., Montelione, GT, y Gerstein, M. 2003. ontologas para
Falk, R. 1986. Qu es un gen? Semental. Hist. Philos. Sci. 17: 133-173. Fiers, W., Contreras, R., De
Wachter, R., Haegeman, G., Merregaert, J., protemica: Hacia una definicin sistemtica de la estructura y la funcin que se ajusta al nivel del
genoma. Curr. Opin. Chem. Biol.
Jou, WM, y Vandenberghe, A. 1971. Los recientes progresos en la determinacin de la secuencia 7: 44-54.
del bacterifago MS2 ARN. Biochimie Lander, ES, Linton, LM, Birren, B., Nusbaum, C., Zody, MC,
53: 495-506. Baldwin, J., Devon, K., Dewar, K., Doyle, M., Fitzhugh, W., et al.
Fiers, W., Contreras, R., Duerinck, F., Haegeman, G., Iserentant, D., 2001. secuenciacin inicial y el anlisis del genoma humano. Naturaleza
Merregaert, J., MinJou, W., Molemans, F., Raeymakers, A., Van den Berghe, A., et al. 1976. secuencia 409: 860-921.
de nucletidos completa del bacterifago de ARN MS2: Estructura primaria y secundaria del gen de Li, W., Meyer, CA, y Liu, XS 2005. Un modelo oculto de Markov para el anlisis de chip-chip experimentos en
replicasa. Naturaleza 260: 500-507. matrices genoma suelo de baldosas y su aplicacin a las secuencias de unin de p53. bioinformtica 21: i274-I282.
Lindblad-Toh, KCM, Wade, TS, Mikkelsen, EK, Karlsson, DB, Jaffe,
Fleischmann, RD, Adams, MD, White, O., Clayton, RA, Kirkness,
EF, Kerlavage, AR, Bult, CJ, Tomb, JF, Dougherty, BA, Merrick, M., Kamal, M., Clamp, JL, Chang, EJ, tercera Kulbokas, MC, Zody,
JM, et al. 1995. Todo el genoma de secuenciacin aleatoria y montaje de Haemophilus influenzae Rd. Ciencia E., et al. 2005. secuencia del genoma, el anlisis comparativo y la estructura de haplotipos del perro
269: 496-512. Frith, MC, Wilming, LG, Forrest, A., Kawaji, H., Tan, SL, Wahlestedt, domstico. Naturaleza 438: 803-819. Lodish, H., Scott, MP, Matsudaira, P., Darnell, J., Zipursky, L.,
Kaiser,
C., Bajic, VB, Kai, C., Kawai, J., Carninci, P., et al. 2006. RNA Pseudo-mensajero: Phantoms del CA, Berk, A., y Krieger, M. 2000. Molecular Cell Biology, Quinta ed. Freeman and Co., Nueva York.
transcriptoma. PLoS Genet. Marioni, JC, Thorne, NP, y Tavare, S. 2006. BioHMM: Un
2: e23.
Gelinas, RE y Roberts, RJ 1977. Una predominante heterogneo modelo oculto de Markov para la segmentacin de datos CGH array. bioinformtica 22:
5 -undecanucleotide en adenovirus 2 finales de los ARN mensajeros. Celda 1144-1146. Mattick, JS y Makunin, IV 2006. ARN no codificante. Tararear. Mol.
11: 533-544.
Gibbons, FD, Proft, M., Struhl, K., y Roth, FP 2005. Chipper: Gineta. 15 Spec. No. 1: R17-R29.
El descubrimiento de dianas factor de transcripcin de la cromatina immunoprecipitation McClintock, B. 1929. Un estudio citolgico y gentico del maz triploide.
microarrays se utiliza la estabilizacin de la varianza. Gentica 14: 180-222. McClintock, B. 1948. loci mutable en el maz. Carnegie Inst. De lavado. Ao
Genome Biol. 6: R96.
Gingeras, T. 2007. Origen de fenotipos: Los genes y las transcripciones. genoma Libro 47: 155-169.
Res. ( este nmero) doi: 10.1101 / gr.625007. Griffith, F. 1928. La importancia de tipos neumoccicos. J. Mendel, JG 1866. Versuche ber Pflanzenhybriden. Verhandlungen des
Hyg. (Lond.) naturforschenden Vereines en Brnn 4 Abhandlungen, 3-47. Citado por Robert C. Olby (1997) sobre
27: 113-159.
Griffiths, PE y Stotz, K. 2006. Los genes en la era postgenmica. Theor. http://www.mendelweb.org/MWolby.html, visitada 2007-03-16. Morgan, TH, Sturtevant, AH, Muller, HJ, y
Medicina. Bioeth. 27: 499-521. puentes, CB 1915. los
Handa, H., Bonnard, G., y Grienenberger, JM 1996. La semilla de colza mecanismo de la herencia mendeliana. Holt Rinehart y Winston, Nueva York.
gen mitocondrial que codifica un homlogo de la CCL1 protena bacteriana se divide en dos marcos de
lectura transcritas de forma independiente. Muller, HJ 1927. transmutacin artificial del gen. Ciencia 46: 84-87. Nirenberg, M., Leder, P., Bernfield, M.,
Mol. Gen. Genet. 252: 293-302. Brimacombe, R., Trupin, J.,
Harrison, PM, Zheng, D., Zhang, Z., Carriero, N., y Gerstein, M. Rottman, F., y O'Neal, C. 1965. palabras de cdigo de ARN y la sntesis de protenas, VII. Sobre la
2005. pseudogenes procesados Transcrito en el genoma humano: una forma intermedia de retrosequence naturaleza general del cdigo ARN. Proc. Natl. Acad. Sci. 53: 1161-1168. Ohno, S. 1972. Tanto el ADN
expresada que carece de la capacidad de codificacin de protena. Nucleic Acids Res. 33: 2374-2383. basura en el genoma. En Evolucin de

Harrow, J., Denoeud, F., Frankish, A., Reymond, A., Chen, CK, Chrast, sistemas genticos, vol. 23 (ed. HH Smith), pp. 366-370. Brookhaven Simposios en Biologa. Gordon y
J., Lagarde, J., Gilbert, JG, Storey, R., Swarbreck, D., et al. 2006. GENCODE: La produccin de una Breach, Nueva York. Parra, G., Reymond, A., Dabbouseh, N., Dermitzakis, ET, Castelo, R.,
anotacin de referencia para codificar. Genome Biol. 7 Supl. 1: S4.1-S9.
Thomson, TM, Antonarakis, SE, y Guig, R. 2006. Tandem quimerismo como un medio para aumentar la
Heber, S., Alekseyev, M., Sze, S., Tang, H., y Pevzner, PA 2002. complejidad de protenas en el genoma humano. Genome Res. diecisis: 37-44. Paul, J. 1972. La teora
grficos de empalme y problema montaje EST. bioinformtica general de la estructura del cromosoma y el gen
18: S181-S188.
Heimans, J. 1962. Hugo de Vries y el concepto de gen. A.m. Nat. la activacin en eucariotas. Naturaleza 238: 444-446. Pearson, H. 2006. Gentica: Qu es un gen? Naturaleza
96: 93-104. 441: 398-401. Pedersen, JS, Bejerano, G., Siepel, A., Rosenbloom, K., Lindblad-Toh,
Henikoff, S., Keene, MA, Fechtel, K., y Fristrom, JW 1986. Gen
dentro de un gen: Nested Drosophila genes codifican protenas no relacionadas en hebras de ADN K., Lander, ES, Kent, J., Miller, W., y Haussler, D. 2006. Identificacin y clasificacin de las
opuestas. Celda 44: 33-42. estructuras secundarias de ARN conservada en el genoma humano. PLoS Comput. Biol. doi:
Hershey, AD y Chase, M. 1955. Un lmite superior a la protena
contenido de la sustancia germinal de T2 bacterifago. Virologa 10.1371 / journal.pcbi.0020033.
1: 108-127. Ponjavic, J., Ponting, CP, y Lunter, G. 2007. funcionalidad o
Iafrate, AJ, Feuk, L., Rivera, MN, Listewnik, ML, Donahoe, PK, Qi, el ruido de la transcripcin? Las pruebas de seleccin dentro de los ARN no codificantes de largo. Genome
Y., Scherer, SW, y Lee, C. 2004. La deteccin de la variacin a gran escala en el genoma humano. Nat. Res. 17: 556-565.
Gineta. 36: 949-951. Jacob, F. y Monod, J. 1961. mecanismos reguladores genticos en el Quelle, DE, Zindy, F., Ashmun, RA, y Sherr, CJ 1995. Alternativa
marcos de lectura del tumor INK4a gen supresor codifican dos protenas no relacionadas capaces
sntesis de protenas. J. Mol. Biol. 3: 318-356. de inducir la detencin del ciclo celular. Celda
Ji, H. y Wong, WH 2005. TileMap: Crear un mapa cromosmico de 83: 993-1000.
hibridaciones suelo de baldosas serie. bioinformtica 21: 3.629-3.636. Johannsen, W. 1909. Rheinberger, HG 1995. Cuando ley Darl Correns de Gregor Mendel
Elementos der exakten Erblichkeitslehre, Jena. papel? Isis 86: 612-616.
Citado por Nils Roll-Hansen (1989). El experimento crucial de Wilhelm Johannsen. Biol. Philos. 4: Rinn, JL, Euskirchen, G., Bertone, P., Martone, R., Luscombe, NM,
303-329. Hartman, S., Harrison, PM, Nelson, FK, Mille, P., Gerstein, M., et al. 2003. La actividad de transcripcin
Kapranov, P., Cawley, SE, Drenkow, J., Bekiranov, S., Strausber, RL, del cromosoma humano 22.
Fodor, SP, y Gingeras, TR actividad transcripcional de 2002. gran escala en los cromosomas 21 y 22. Ciencia Genes & Dev. 17: 529-540.
296: 916-919. Karplus, K., Barrett, C., Cline, M., Diekhans, M., Grate, L., y Hughey, Rogic, S., Mackworth, AK, y Ouellette, FB 2001. Evaluacin de
programas de secuencias de mamferos gen de investigacin. Genome Res.
R. 1999. La prediccin de estructura de protenas utilizando slo la informacin 11: 817-832.
secuencial. protenas 37 (Suppl 3): 121-125. Rozowsky, J., Newburger, D., Sayward, F., Wu, J., Jordan, G., Korbel,
Kim, TH, Barrera, LO, Zheng, M., Qu, C., Singer, MA, Richmond, JO, Nagalakshmi, U., Yang, J., Zheng, D., Guigo, R., et al. 2007. Clasificacin El DART de la transcripcin
TA, Wu, Y., Green, RD, y Ren, B. 2005. Un mapa de alta resolucin de promotores activos en el no anotada dentro de las regiones ENCODE: transcripcin Asociar con loci conocidos y nuevos. Genome
genoma humano. Naturaleza 436: 876-880. Korneev, SA, Parque, JH, y O'Shea, M. 1999. neuronal Res. ( este nmero) doi: 10.1101 / gr.5696007. Sager, R. y Kitchin, R. 1975. silenciamiento selectivo de DNA
expresin de eucariota.
xido ntrico sintasa protena neuronal (nNOS) es suprimida por un ARN antisentido transcrito a
partir de un pseudogen NOS. J. Neurosci. Ciencia 189: 426-433.

680 Investigacin del Genoma


www.genome.org
descargado de www.genome.org el 12 de mayo de 2008 - Publicado por Cold Spring Harbor Laboratory Press

Qu es un gen?

Schadt, EE, Edwards, SW, Guhathakurta, D., Holder, D., Ying, L., GG, Smith, HO, Yandell, M., Evans, CA, Holt, RA, et al. 2001. La secuencia del genoma humano. Ciencia
Svetnik, V., Leonardson, A., Hart, KW, Russell, A., Li, G., et al. 291: 1304-1351. Villa-Komaroff, L., Guttman, N., Baltimore, D., y Lodishi, HF 1975.
2004. Un ndice exhaustivo transcripcin del genoma humano genera utilizando microarrays y mtodos de
clculo. Genome Biol. 5: R73. traduccin completa del ARN de poliovirus en un sistema libre de clulas eucariotas. Proc. Natl. Acad.
Sci. 72: 4157-4161. Vries, H. 1900. Sur la loi de disjonction des hybrides. Comptes rendus de
Searls, DB 1997. Resumen: enfoques lingsticos para biolgica
secuencias. Comput. Appl. Biosci. 13: 333-344. Searls, DB 2001. La lectura del libro de la vida. bioinformtica l'Academie des Sciences (Paris). 130: 845-847. Wade, N. 2003. sorteos gen termina, pero el ganador
17: 579- tambin puede estar equivocada. Nuevo
580. York Times. http://query.nytimes.com/gst/fullpage.html?sec= la salud y res =
Searls, DB 2002. El lenguaje de los genes. Naturaleza 420: 211-217. Sebat, J., Lakshmi, B., Troge, J., 9A02E0D81230F930A35755C0A9659C8B63 Wain, HM, Bruford, EA, Lovering, RC, Lozano, MJ,
Alexander, J., Young, J., Lundin, P., Wright, MW,
Maner, S., Massa, H., Walker, M., Chi, M., et al. 2004. gran escala nmero de copias polimorfismo en y Povey, S. 2002. Directrices para la nomenclatura gnica humana.
el genoma humano. Ciencia genmica 79: 464-470.
305: 525-528. Washietl, S., Hofacker, IL, Lukasser, M., Huttenhofer, A., y Stadler,
Shi, Y., Seto, E., Chang, LS, y Shen, KT 1991. transcripcional PF 2005. Mapeo de estructuras secundarias de ARN conservada predice miles de ARN no codificantes
represin de YY1, una protena humana relacionada con el GLI-Kruppel, y el alivio de la represin por la funcionales en el genoma humano.
protena E1A de adenovirus. Celda 67: 377-388. Sll, D., Ohtsuka, E., Jones, DS, Lohrmann, R., Hayatsu, Nat. Biotechnol. 23: 1383-1390. Washietl, S., Pedersen, JS, Korbel, JO, Stocsits, C., Gruber,
H., Nishimura, AR,
S., y Khorana, HG 1965. Estudios sobre polinucletidos, XLIX. La estimulacin de la unin de Hackermller, J., Hertel, J., Lindemeyer, M., Reiche, K., Tanzer, A., et al. 2007. ARN estructurados de la
aminoacil-sRNA de a los ribosomas por ribotrinucleotides y una encuesta de las asignaciones de ENCODE regiones seleccionadas del genoma humano. Genome Res. ( este nmero) doi: 10.1101 /
codones para 20 aminocidos. Proc. Natl. Acad. Sci. 54: 1378-1385. gr.5650707. Waterston, RH, Lindblad-Toh, K., Birney, E., Rogers, J., Abril, JF,

Spilianakis, C, Lalioti, M., Ciudad, T., Lee, G., y Flavell, R. 2005. Agarwal, P., Agarwala, R., Ainscough, R., Alexandersson, M., An, P., et al. 2002. secuenciacin inicial y
asociaciones interchromosomal entre loci expresadas alternativamente. el anlisis comparativo del genoma de ratn. Naturaleza 420: 520-562. Watson, JD y Crick, FHC 1953.
Naturaleza 435: 637-645. Una estructura de desoxirribonucleico
Sturtevant, H. 1913. La disposicin lineal de seis factores ligados al sexo en
Drosophila como se muestra por su modo de asociacin. J. Exp. Zool. cido. Naturaleza 171: 964-967. Wold, F. 1981. En la modificacin qumica in vivo
14: 43-59. de protenas
Takahara, T., Kanazu, SI, Yanagisawa, S., y Akanuma, H. 2000. (modificacin post-traduccional). Annu. Rev. Biochem. 50: 783-814. Yano, Y., Saito, R., Yoshida, N.,
mRNAs Sp1 heterogneos en clulas HepG2 humanos incluyen un producto de homotpica trans- empalme. Yoshiki, A., Wynshaw-Boris, A., Tomita,
J. Biol. Chem. 275: 38067-38072. Torrents, D., Suyama, M., Zdobnov, E., y Bork, P. 2003. Un M., y Hirotsune, S. 2004. Un nuevo papel para pseudogenes expresadas como ncRNA: Regulacin de la
estabilidad del ARNm de su gen codificante homloga. J. Mol. Medicina. 82: 414-422.
encuesta de todo el genoma de pseudogenes humanos. Genome Res.
13: 2559-2567. Zhang, Z., Harrison, PM, Liu, Y., y Gerstein, M. 2003. Millones de
Tress, M., Martelli, PL, Frankish, A., Reeves, G., Wesselink, JJ, Yeats, aos de evolucin conservados: en un catlogo completo de los pseudogenes procesados en
C., Olason, PI, Albrecht, M., Hegyi, H., Giorgetti, A., et al. 2007. Las implicaciones de splicing el genoma humano. Genome Res.
alternativo en el complemento de protenas ENCODE. Proc. Natl. Acad. Sci. 104: 5495 hasta 5500. 13: 2541-2558.
Tschermak, E. 1900. ber Knstliche Kreuzung bei Pisum sativum. Zhang, ZD, Paccanaro, A., Fu, Y., Weissman, S., Weng, Z., Chang, J.,
Snyder, M., y Gerstein, MB 2007. El anlisis estadstico de la distribucin genmica y la correlacin de
Berichte Deutsche Botanischen. Gesellschaft 18: 232-239. Tuan, DY, Salomn, WB, Londres, elementos reguladores en las regiones ENCODE. Genome Res. ( este nmero) doi: 10.1101 / gr.5573107.
mensajera instantnea, y Lee, DP 1989. Un Zheng, D. y Gerstein, MB 2007. La ambigua frontera entre la
-Eritroide especfica, el grado de desarrollo independiente del promotor de lejos contra la corriente de
lo humano -como globinagenes. Proc. Natl. Acad. Sci. genes y pseudogenes: los muertos se levantan hacia arriba, o lo hacen? Trends Genet.
86: 2554-2558. 23: 219-224.
Tuzun, E., Sharp, AJ, Bailey, JA, Kaul, R., Morrison, VA, Pertz, LM, Zheng, D., Zhang, Z., Harrison, PM, Karro, J., Carriero, N., y
Haugen, E., Hayden, H., Albertson, D., Pinkel, D., et al. variacin estructural de 2005. a escala fina Gerstein, M. 2005. Integrated pseudogene anotacin para el cromosoma humano 22: Evidencia para la
del genoma humano. Nat. Gineta. transcripcin. J. Mol. Biol. 349: 27-45. Zheng, D., Frankish, A., Baertsch, R., Kapranov, P., Reymond, A.,
37: 727-732. Choo,
Vanin, EF, Goldberg, GI, Tucker, PW, y Smithies, O. 1980. Un SW, Lu, Y., Denoeud, F., Antonarakis, SE, Snyder, M., et al. 2007. Los pseudogenes en el ENCODE
ratn globina-relacionados pseudogene que carece de secuencias que intervienen. regiones: Consenso de anotacin, el anlisis de la transcripcin, y la evolucin. Genome Res. ( este
Naturaleza 286: 222-226. nmero) doi:
Venter, JC, Adams, MD, Myers, EW, Li, PW, Mural, RJ, Sutton, 10.1101 / gr.5586307.

Investigacin del Genoma 681


www.genome.org

Você também pode gostar