Você está na página 1de 17

1. Estrutura e organizao do gene Inicialmente convm estabelecer o que entendemos por gene.

Numa concepo simplista podemos admitir que um gene o segmento de DNA que codifica uma certa protena. Embora esta definio possa ser til e vlida, ela encontra dificuldades de aplicao quando o segmento de DNA contm introns. Por outro lado, convm em muitos casos considerar as regies controladoras da expresso do gene como partes integrantes dele. Assim, a definio molecular de gene deve compreender um segmento de DNA bem maior do que o mnimo necessrio para codificar os aminocidos que fazem parte da sequncia polipeptdica. Vamos comear o caminho na direo da definio molecular de um gene pela anlise da estrutura tpica de um gene procarioto. Embora em muitos casos vrios genes estejam sob o controle de um nico sistema, formando o chamado operon, vamos aqui considerar que um nico gene est em jogo. A figura abaixo mostra um gene tpico de um procarioto.

Figura 1: Estrutura tpica de um gene procarioto. RBS = stio ligador de ribossomo; ATG = cdon de iniciao da sntese protica; Cds ou ORF = quadro aberto de leitura; stop = qualquer um dos trs cdons de finalizao da sntese protica; terminador = regio terminadora da transcrio

O trecho compreendido entre o cdon de iniciao da sntese proteca (usualmente ATG ou TTG) e um dos trs cdons para terminao da sntese protica (designados aqui por stop) determina a sequncia de aminocidos do polipeptdeo final, produto do gene. Este trecho frequentemente designado como quadro aberto de leitura (ORF = open reading frame) ou sequncia codificadora (Cds = coding sequence). Antes dele (diz-se 5' dele) esto o promotor (onde vai se ligar a RNA polimerase) e o stio ligador de ribossomo (RBS = ribosome binding site ou rrs = ribosome recognition site), uma sequncia que, quando transcrita para o mRNA, ir permitir o pareamento deste com um trecho complementar do RNA 16 S da subunidade menor do ribossoma. Aps a ORF (3' dela, como se diz no jargo de biologia molecular), h o sinal de parada da transcrio, que formado por uma sequncia didica acompanhada de um poliT (na fita 5'-3', que sempre a de cima, salvo quando especificado na figura). A transcrio da regio do

terminador provoca a formao de um grampo no RNA mensageiro nascente, seguido de um poli-U, que interrompe a sntese de RNA. A transcrio do DNA, que comea numa base dentro da regio promotora e termina no grampo de terminao, gera o mRNA. A anlise da figura a seguir mostra que ele tem um segmento antes do cdon de iniciao (AUG), que no ser traduzido. Este trecho de mRNA designado 5'- UTR (regio 5' no traduzida; UTR = untranslated region) e pode ter dezenas de bases na maioria das bactrias. Da mesma forma, aps o cdon de terminao da traduo, h um trecho de mRNA no traduzido, designado como regio 3'UTR. Este segmento pode ter tambm vrias dezenas de bases. A funo das regies UTR nas bactrias nem sempre clara. No caso da 5'-UTR, ela contm o stio ligador de ribossoma, sem o qual nenhuma sntese de protena possvel.

Figura 2: mRNA transcrito do gene. Observe que a regio 5'-UTR contm o RBS, enquanto a 3'-UTR tem o grampo de terminao.

Nos eucariotos os genes costumam ter, cada um, sua regio controladora. H poucos exemplos de transcritos de RNA com vrios genes, que so, entretanto, comuns nas bactrias. A estrutura geral do gene acompanha, portanto, a figura acima, mas h vrias particularidades, tanto na organizao das regies controladores e codificantes, como no processo de transcrio e processamento do RNA at chegar ao mRNA maduro. Vamos observar primeiro a estrutura geral de um gene eucarioto, como representado na figura abaixo.

Figura 3: Diagrama de um gene hipottico eucarioto. Alm das regies, stios e caractersticas j descritas para o gene procarioto, h ainda sinais (S) entre o promotor e o cdon de inciao (pequenas sequncias que determinam o destino do mRNA, sua durao e outros parmetros importantes na fisiologia da clula) e uma diviso da ORF em regies codificantes (formadas por exons) e regies intercalares (formadas por introns).

O promotor, como nos procariotos, pode conter uma sequncia de 6 a 8 bases, rica em A e T, conhecida como caixa TATA. Esta sequncia varia um pouco de posio, mas costuma estar cerca de 25 bases do incio da transcrio do RNA (que determina a base +1). A caixa CAT est mais acima (5') e tem uma posio menos conservada. Eventualmente, no existe. Observe que o cdon de iniciao da sntese protica est quase no meio do primeiro exon. Esta posio muito varivel e o cdon pode at mesmo estar no 2o. ou no 3o. exon. Todas as bases antes dele vo formar a regio 5' no traduzida. O exon 1 do exemplo da globina s tem parte dele devotada codificao da protena, sendo o segmento inicial conservado no mRNA, mas no traduzido. Seria mais correto dizer que os exons so as sequncias que permanecem no RNA aps a retirada dos introns. Entretanto, ainda esta definio pode ainda ser confusa porque, devido ao splicing alternativa, ora um certo exon permanece na sequncia final do RNA, ora retirado, dependendo do tecido, do desenvolvimento do organismo, de seu sexo e de muitos outros fatores. Assim, preciso estar alerta sobre esta dificuldade conceitual, que de fato no tem soluo. 2. Processamento do RNA - transcrito primrio do DNA - para gerao do mRNA No genoma humano os introns iniciam sempre com GU e terminam em AG. H um nmero maior de bases relativamente conservadas nas duas extremidades e elas participam no reconhecimento do intron pelo spliceossomo ou encadeassomo, complexo enzimtico responsvel pela retirada dos introns e emenda dos exons adjacentes (mais adiante vamos ver que os exons devem ser sinalizados para o sistema). A figura abaixo mostra esquematicamente a retirada os introns, assim como duas outras

modificaes importantes do transcrito primrio de RNA: o capeamento e o caudeamento. No capeamento, uma base diferente das demais que compem o RNA, a 7-metil-guanosina, adicionada na extremidade 5' do mRNA, com sua hidroxila da posio 3' voltada para fora do RNA. Na outra extremidade, a partir de um sinal de poli-adenilao (uma sequncia no mRNA), uma enzima especfica cliva o RNA, descarta a poro final e adiciona extremidade 3' um nmero varivel de adeninas (de 15 a 300). Com isto, o trecho que vai deste sinal at o fim do mRNA fica perdido. Este fenmeno dificulta imensamente o estudo do mecanismo de terminao da transcrio em eucariotos, que ainda no bem compreendido.

Figura 4: Diagrama do processamento do transcrito primrio at o mRNA maduro. Os introns formam laos (denominados lariats) na presena do splicesossomo (1), sendo retirados. Ao mesmo tempo, a parte final (3') do RNA clivada (2) e uma cauda poli-A adicionada. Por fim, uma resduo de 7-metil-guanosina adicionado extremidade 5' do RNA, criando o bon, ou cap (3).

O mRNA pronto passa pelo poro nuclear para o citoplasma, onde ser traduzido. Por este poro passam tambm as duas sub-unidades do ribossomo (separadamente). Dependendo dos sinais que o mRNA tiver nas regies 5'UTR e 3'-UTR, ele poder ser exportado para uma organela (mitocndria ou cloroplasto), transportado para determinadas regies da clula (botes sinpticos, por exemplo) ou ainda formar parte do pool de mRNAs no traduzidos. As duas regies UTR tm, na verdade, um importante papel na regulao ps-transcricional da expresso gnica, mas este assunto no ser desenvolvido aqui. basta no momento sabermos que muitos eucariotos

empregam este mecanismo com frequncia e, em alguns casos, quase exclusivamente (como o caso da Leishmania e do Trypanosoma). 3. Diversidade da estrutura do gene Embora o diagrama apresentado para a estrutura de um gene eucarioto seja correto, os genes podem diferir muito em nmero de exons e no seu tamanho final. A figura abaixo d alguns exemplos esclarecedores.

Figura 5: Genes humanos mostram uma grande variao de tamanho e da proporo relativa entre exons e introns. Nesta figura o tamanho do gene est representado pela barra vermelha e o contedo de exons pela porcentagem ao lado do nome do gene. No caso da imunoglobulina, est mostrado o tamanho do gene na linhagem germinativa. Considere que a cadeia pesada tem cerca de 440aa, o que corresponde a aprox. 1300 bases, dando uma porcentagem de exons de 0,1%.

Vamos procurar analisar a figura acima, que bastante densa. Deve-se ter em mente inicialmente, que o tamanho mdio de uma protena humana de 450 aminocidos. Protenas muito pequenas costumam conter apenas os

domnios funcionais indispensveis para sua funo. Seus genes so, tambm, geralmente pequenos. o caso de todas as protenas mostradas no quadro dos genes com menos de 10 kb. Observe tambm que no quadro h o gene para um tRNA. O conceito de gene que codifica um RNA, e no uma protena, mais uma concesso ao nome "gene", que est se tornando um conceito cada vez mais amplo e, lamentavelmente, cada vez mais vago. Ainda com a ateno sobre o quadro dos genes pequenos, fica claro que, medida que os introns aparecem nas suas sequncias, eles aumentam de tamanho. Assim, a globina e a molcula de HLA Classe I no so maiores que o interferon , mas seus genes so 2 e 4 vezes maiores, respectivamente. Se nos movermos para os quadros seguintes, vamos verificar um aumento de tamanho de genes de 1 e 2 ordens de grandeza, sem que as protenas que eles codifiquem sejam significativamente maiores que aquelas do quadro 1: 95% das protenas humanas tm entre 150 e 800 aminoccidos, e aquelas mostradas nos trs quadros da figura acima, exceto pela apolipoprotena (mais de 4000 aa) e pela distrofina (427 kD, pouco mais de 4000 aa e um mRNA de aprox. 17.000 bases) , no so maiores que isto. A concluso a que somos forados : os introns so em geral muito maiores que os exons. Isto pode ser comprovado pela porcentagem relativa de introns nos genes dos quadros. No caso extremo do gene da distrofina, com cerca de 80 exons espalhados por quase 2,5 milhes de pares de bases, das quais perto de 16.000 apenas codificam aminocidos, os introns so verdadeiramente imensos. Neste caso, e em boa parte dos demais genes, os exons ficam imersos num conjunto de grandes introns. Por isso a Natureza desenvolveu um sofisticado sistema de reconhecimento de exons no processo de splicing. Embora seja comum lermos em livros texto que o spliceossomo reconhece sequncias no incio e no fim dos introns, o que tambm foi dito no item anterior nesta aula, isto apenas parte do sistema de reconhecimento da regio a ser encadeada. indispensvel que as fronteiras entre exons e introns seja bem delimitadas e que haja mesmo uma sinalizao para a presena do exon, para que ele no fique "perdido" num "mar" de introns. A figura abaixo mostra o atual estado de conhecimento deste sofisticado mecanismo. O artigo completo da revista Nature (julho/2002) pode ser baixado aqui (585 kb).

Figura 6: Reconhecimento de exons no processo de splicing. Os stios aceptores de splicing GU e AG so reconhecidos pela maquinaria de splicing com base na sua proximidade com os exons. Os exons contm sequncias chamadas ativadores exnicos de splicing (ESE), que so stios de ligao para as protenas SR. Quando elas se ligam a estes stios no RNA, recrutam as snRNP U1 (pequenas ribonucleoprotenas nucleares) para o stio aceptor de splicing 5', localizado mais abaixo do SR, e recrutam o fator de splicing U2AF, tanto a subunidade de 65 kD como a de 35 kD, para as repeties de pirimidina YYYY e para o dinucleotdeo AG do stio aceptor de splicing 3', respectivamente. Assim, as protenas SR recrutam fatores de splicing para formar um complexo de reconhecimento atravs do exon (cross exon). As protenas SR tambm funcionam no reconhecimento atravs do intros (cross intron), facilitando as interaes entre a snRNP U1, ligada ao GU, e a snRNP U2, ligada sequncia de ramificao.

Splicing alternativo O splicing alternativo tem aparecido nos ltimos anos como o mecanismo que pode explicar a enorme diferena entre o tamanho modesto do conjunto de genes humano e a elevada complexidade do proteoma. Pelo menos um tero, e provavelmente a maioria, dos genes humanos so alternativamente encadeados, e alguns genes podem gerar milhares de isoformas de protenas por eventos complexos de splicing alternativo. A anlise do transcriptoma (conjunto de mRNAs do ser vivo ou da clula em estudo) depender do desenvolvimento de novas tecnologias para atacar a complexidade criada pelo splicing alternativo. Na pgina satlite disponibilizada aqui vamos rever apenas as vrias possibilidades de splicing alternativo e examinar alguns exemplos elucidativos. A comparao entre trs genes bem estudados, o da -globina, o do fator VIII e o da HPRT, encerrar este item, evidenciando todos os pontos discutidos acima. O gene da -globina cobre perto de 2 kb, enquanto o do fator VIII dez vezes maior. O primeiro tem apenas 3 exons, enquanto o segundo tem 26. Entretanto, o tamanho dos seus produtos gnicos (protenas) no muito diferente. A razo reside, evidentemente, no

nmero e tamanho dos introns. O gene da HPRT est numa posio intermediria entre os dois genes j discutidos, tem 9 exons e cobre 50 kb do genoma. Uma anlise da figura 5 acima mostra que os exons representam 33% do gene da globina, mas apenas 4% do gene da HPRT e somente 3% do gene do fator VIII. A figura abaixo compara os trs genes.

Figura 7: Comparao entre os genes humanos da b-globina, do fator VIII da coagulao e da HPRT (hipoxantina ribosil transferase). Os trs genes diferem largamente em tamanho, mas esto representados no mesmo fundo de escala. Os exons esto indicados ou numerados. As pequenas caixa no hachuradas antes e depois do primeiro e do ltimo exon, respectivamente, representam as regies 5'-UTR e 3'-UTR de cada gene. As regies promotoras esto indicadas, assim como sua estrutura geral.

4. Promotores e ativadores Na figura acima um outro aspecto importante da estrutura geral de um gene eucarioto est representado: a regio promotora. Observe que ela difere entre os 3 genes apresentados: os dois primeiros so genes controlados durante a vida da clula a presentam ao menos uma caixa TATA. As regies, ou caixas, TATA e CAT, so stios ligadores da RNA polimerase 2 eucariota

(que transcreve mRNAs), e so controladas por um complexo sistema de fatores de transcrio e regies ativadoras (enhancers) da expresso gnica. J o terceiro gene constitutivamente expresso (no controlado) e tem apenas regies ricas em G e C, chamadas caixas GC. Um promotor eucarioto tpico est mostrado abaixo (para um gene do vrus do herpes simplex, o que pode parecer estranho: mas lembre-se que os genes do vrus tm que ser transcritos e traduzidos pela maquinaria da clula hospedeira, no caso um eucarioto). As regies controladoras podem ocupar milhares de bases, pois os ativadores e outras sequncias controladores podem estar muito distantes do stio de iniciao da sntese de RNA.

Figura 8: Um promotor eucarioto tpico, neste caso o promotor do gene da timidina quinase do virus do herpes simplex. Ele contm 3 sequncias acima da caixa TATA que so necessrias para uma transcrio eficiente: a caixa CAT (ou CCAAT) e duas caixas GC, com a sequncia de consenso GGGCGG.

Observe a semelhana estrutural entre este promotor e o promotor bacteriano, apresentado na aula 3 da pgina Biolmol. As duas caixas TATA e CAT, correspondem s caixas TATA e TTGACA do procarioto. No caso deste promotor viral, h tambm duas sequncias ricas em G e C, com o consenso GGGCGG, que reforam a funo promotora deste stio.

Figura 9: O promotor do virus SV40 (simian virus 40, de uma leucemia de macacos) para os genes de expresso precoce contm uma caixa TATA e seis caixas GC arranjadas em trs conjuntos de sequncias repetidas. Adicionalmente, a transcrio necessita ainda, para ser eficiente, de um enhancer acima da regio promotora, e que consiste em duas repeties de 72 pb cada.

O mecanismo pelo qual um ativador auxilia na transcrio parece ser dependente de um dobramento do DNA e da aproximao da sequncia do promotor com a caixa TATA. Por isso os atenuadores podem ser muito distantes do incio do stio de transcrio (por exemplo, 50 kb) e podem estar orientados no mesmo sentido da transcrio ou, muitas vezes, em sentido oposto. A figura abaixo mostra esquematicamente este processo.

Figura 10. Loop de DNA. Os fatores de transcrio ligados a ativadores distantes so capazes de interagir com fatores de transcrio mais gerais que esto ligados ao promotor, porque o segmento de DNA entre os dois stios pode formar uma ala (loop). Assim, no parece haver diferena fundamental entre a ao de fatores de transcrio ligados logo acima do promotor ou a ativadores distantes.

5. Genes cpia nica, famlias e superfamlias de genes. Nos genomas eucariotos em geral os genes tm mais de uma cpia, mesmo considerando apenas o complemento haplide. As duplicaes de genes ocorrem por vrios mecanismos possveis e a seleo natural aos poucos vai fazendo com que estas cpias progressivamente se diferenciem entre si. Muitos genes que hoje tm funes distintas provavelmente um dia surgiram por duplicao. Genes de igual funo e com similaridade de sequncia num mesmo organismo so chamados parlogos, reservando-se o nome ortlogo para o gene com a mesma funo e similar a outro de outra espcie de organismo. Nos dois casos, desde que a funo biolgica dos dois genes seja a mesma (ou prxima), eles so chamados de homlogos. Assim, muitos genes no genoma humano pertencem a famlias, reconhecidos pela similaridade da sequncia de nucleotdeos ou, no mais das vezes, de aminocidos. Os genes cpia nica so raros. Um exemplo de famlia gnica a famlia das globinas, mostrada na figura abaixo.

Figura 11: Famlia das globinas, distribuda em dois cromossomos.

Alm dos genes funcionais para -globina e -globina, os cromossomos 11 e 16 mostram genes no funcionais, conhecidos como pseudogenes. Os pseudogenes com introns foram gerados possivelmente por duplicao gnica e posterior mutao, eliminado o cdon de iniciao ou algum elemento regulador importante, ou ainda criando um cdon de terminao precoce. Quando os pseudogenes no tm introns eles so chamados pseudogenes processados, e podem ter sido originados de retrotransposio a partir de mensageiros do prprio organismo, A comparao das sequncias das diversas cpias permite inferir que, para os genes da globina, deve ter havido um primeiro evento de duplicao h quase 500 milhes de anos. Portanto, um fenmeno muito antigo (lembre-se que a Exploso Cambriana aconteceu a 580 milhes de anos). Os genes de um mesmo grupo, por exemplo, no cromossoma 16, so mais semelhantes entre si do que em relao aos membros do grupo no cromossoma 11. Cada gene expresso numa diferente fase da vida do indivduo. Quatro so exclusivamente fetais. dois exclusivamente embrinicos, dois exclusivamente expressos no indivduo adulto e dois expressos desde o feto at o adulto (veja figura abaixo)

Figura 12: Expresso dos genes de globina ao longo do desenvolvimento do indivduo. Os dois genes fetais G e A tm elevada expresso antes do nascimento e so silenciados progressivamente, iniciando algumas semanas antes do nascimento e progredindo at o bloqueio completo em 24- 36 semanas. Ao contrrio, o gene b (beta) adulto est pouco expresso na vida fetal e intensamente ativado aps o nascimento.

interessante notar que a estrutura de introns e exons dos genes da globina est preservada para todas as cpias funcionais. Entretanto, observa-se, como era de se esperar pela presso da seleo natural, muito mais conservao entre sequncias de exons do que de introns ente os mesmos genes. A maior superfamlia de genes a da imunoglobulina. Aparentemente esta famlia de genes evoluiu a partir de uma sequncia que codificava um domnio Ig globular de cerca de 110 aminocidos, formando uma estrutura fechada por uma ponte dissulfeto. Centenas de genes fazem parte agora desta superfamlia, que incluem muitas das molculas do sistema imune e um grande nmero de molculas de adeso. A figura abaixo mostra alguns membros da superfamlia envolvidos na resposta imune.

Figura 13: Algumas das protenas de membrana da superfamlia das imunoglobulinas.Os domnios Ig esto marcados em cinza e os domnios ligadores de antgeno em azul. A superfamlia Ig tambm inclui muitas protenas de membrana envolvidas na interao clula a clula, mas que no fazem parte do sistema imune, como a protena de adeso celular neural (N-CAM) e os receptores para vrios fatores de crescimento proticos.

6. Expresso de genes: sntese protica (Traduo e Cdigo Gentico) indispensvel a sua leitura para a compreenso da importncia da organizao do gene na sua expresso.

7. Uma viso geral da organizao do genoma humano O genoma humano de foto compreende dois genomas: o nuclear, que responde por 99,995% das sequncias de bases, e o mitocondrial. O reduzido genoma mitocondrial mostra que houve, durante o processo de simbiose e integrao clula, uma transferncia progressiva de genes da mitocndria para o genoma do eucarioto. Agora os poucos genes mitocondriais restantes so transcritos e traduzidos pelos ribossomos mitocondriais. A maior parte das protenas que a mitocndria necessita so produzidas no citoplasma da clula e exportadas para a mitocndria. Para dirigir nossa discusso sobre a organizao do genoma vamos tomar por base o diagrama abaixo.

Figura 14: Organizao do genoma humano. A informao gentica est essencialmente concentrada no genoma nuclear. O nmero de genes para o genoma mitocondrial conhecido, mas para o genoma nuclear apenas estimado. Genes so considerados aqui os segmentos de DNA que so transcritos para dar origem a uma protena ou RNA funcional. Sequncias relacionadas a genes so as regies controladoras 5' e 3' do gene, algumas vezes a vrias kbases de distncia do incio da transcrio ou de seu trmino. DNA codificador apenas aquele que traduzido. Por fragmentos de genes entende-se trechos do DNA que contm restos de genes deixados no genoma ao longo da evoluo. As sequncias no traduzidas, grupadas com os introns, so as regies 3'-UTR e 5'-UTR. Repeties so ditas em tandem quando o final de um motivo seguido imediatamente pelo incio de um motivo idntico, sendo este arranjo repetido muitas vezes (como nos vages de um trem). Repeties agrupadas tm entre si DNA no repetitivo, mas esto fisicamente prximas no genoma.

O genoma mitocondrial O genoma mitocondrial composto de um pequeno DNA circular fita dupla (16,6 kb), densamente povoado de genes. Num pequeno trecho este DNA aparece como fita tripla, pois uma parte de uma das fitas replicada 2 vezes durante a duplicao do genoma. 28 genes so codificados por uma

das fitas (dita pesada, e rica em guaninas) e 9 pela outra fita (dita leve). Do total de genes 24 especificam RNAs funcionais: 22 tRNAs mitocondriais e 2 rRNAs mitocondriais. Os 13 genes restantes codificam polipeptdeos que so produzidos pela prpria mitocndria, atravs de seus ribossomas. O cdigo gentico da mitocndria (assim como o dos cloroplastos) difere levemente do cdigo empregado pelos genes nucleares. O genoma nuclear O genoma nuclear humano est dividido entre 24 diferentes tipos de molculas de DNA lineares fita dupla, que formam, junto com as histonas e outras molculas, os cromossomos. Dois destes cromossomos determinam o sexo na espcie e so denominados X e Y. A composio dos cromossomos e sua estrutura geral sero tema de outra aula. Os cromossomos humanos so molculas muito grandes, variando de 50 Mb a 250 Mb, com mdia de 130 Mb, sendo assim cada um deles em mdia 10.000 maiores que o genoma mitocondrial. Para fins de comparao podemos citar que o genoma de uma bactria pode variar de 2,5 Mb a 10 Mb. O genoma de um protozorio costuma ter entre 15 e 50 Mb. Mas o tamanho do cromossomo no guarda uma relao bvia com a complexidade do organismo, tanto por causa das repeties de DNA e regies no codificantes diversas, comuns nos genomas de eucariotos, como pela ploidia (nmero de cpias dos cromossomos no genoma). Nas preparaes citogenticas de cromossomos metafsicos uma banda pode ter perto de 6 Mb de DNA. A proporo de bases no genoma humano de 43% GC (lembre-se que o nmero de bases A deve ser igual ao de T, e de G igual ao de C num DNA fita dupla, mas no precisa haver correlao clara entre o nmero de bases A e G, por exemplo. H organismos mais ricos em G e C, outros muito mais ricos em A e T, e que geralmente so filogeneticamente prximos). Um importante aspecto do estudo da genmica a distribuio do dinucleotdeo CpG (com esta sigla designamos o dinucleotdeo 5'-CG-3', que indica cytosine-phosphate-guanine). Pelas frequncia de G e C no genoma esperava-se uma frequncia do dinucleotdeo em torno de 0,0441. Entretanto, a frequncia observada muito menor. Ocorre que os eucariotos metilam o DNA (para identificar a fita antiga da nova, na replicao e para regular a expresso gnica), e em geral o fazem no dinucleotdeo CpG. Assim, ele se transforma e mCpG. Mas o dinucleotdeo metilado mCpG converte-se ao longo de um tempo evolutivo considervel, em

TpG. Por isso a queda da proporo esperada de CpG. Contudo, em vrios trechos do DNA, eles so frequentes. So as chamadas ilhas CpG ou ilhas CG, e tm um importante papel no rearranjo da estrutura da cromatina e no controle de grandes blocos de genes. Por causa dos longos trechos repetidos, frequentes no DNA humano (e de outros eucariotos), a composio mdia de bases tambm pode variar bastante de trecho para trecho do genoma. Nas extremidades, por exemplo, os telmeros adicionados pela telomerase tm uma composio muito particular, com 50% GC. As regies com muitas repeties tm uma composio relativa de bases suficientemente distinta das reges no repetidas para terem uma densidade de flutuao distinta delas num gradiente de sacarose. Assim por ultracentrifugao de pedaos de DNA possvel separar regies repetidas do restante do DNA. A banda formada, chamada banda satlite, acabou denominando estar regies. Assim, as sequncias satlite ou DNAs satlite nada mais so do que sequncias com muitas repeties de bases, A densidade de distribuio dos genes nos cromossomos muitssimo varivel. As regies telomricas (extremidades dos cromossomos) so deprovidas de genes, assim como vrias outras regies especializadas dos cromossomos, como os centrmeros e grandes regies do cromossomo Y. Por outro lado, as regies sub-telomricas costumam ser ricas em genes. Uma visita ao cromossomo 1, facilitada nesta pgina (ver prximo item) mostra claramente este ponto. O nmero real de gene do genoma humano no conhecido ainda, apesar da sequncia de todo o genoma estar essencialmente completa. A causa deste desconhecimento est na base de nossa compreenso da estrutura de um gene humano. de fato, para a maior parte das sequncias que parecem ser genes, no temos a idia de qual seja a funo. Assim, pode acontecer que estejamos identificando como gene algo que no , em muitos casos. Por outro lado, como no conhecemos com clareza as estruturas de todas as regies promotoras, tambm no temos como afirmar que um determinado segmento de DNA ser transcrito algum dia. Pelas estimativas obtidas por outros sistemas de avaliao de genes (anlise de genes expressos por microarray e pela construo e sequenciamento de bibliotecas de cDNA, alm do uso do sistema ORESTES, desenvolvido pelos pesquisadore do Instituo Ludwig para a Pesquisa sobre o Cancer,de So Paulo), provavelmente no temos mais que 30.000 genes. A densidade de genes seria, assim, perto de um gene a cada 15 kb, se eles fossem homogeneamente distribudos pelos cromossomos, o que

definitivamente no o caso. Por isso, h reas onde os genes esto densamente agrupados, e outras relativamente vazias.