GFB apontamentos genómica

GFB (toda a matéria excepto Biologia Computacional e
Bioestatística)
NOTA IMPORTANTE: Os autores não tomam qualquer responsabilidade sobre eventuais

erros decorrentes destes apontamentos.
I - Genómica
Genómica Funcional: Descrição da função e interações dos genes (e das proteínas) a partir de
dados genómicos de sequenciação e alinhamento, com foco em aspectos dinâmicos do DNA
como a transcrição e a tradução.
Estratégias de sequenciação
Passos de sequenciação:
Estratégias de sequenciação: Clone-by-clone shotgun vs. Whole genome shotgun approaches
Clone-by-clone shotgun approach

 Envolve divisão e mapeamento dos cromossomas em várias secções. Cada secção do
genoma é cortada e introduzida num vector (BAC, YAC…), resultando num clone. Este
clone é mapeado de acordo com um mapa de digestão por enzimas de restrição,
resultando num fingerprint que permite inferir sobre os overlaps de DNA entre clones
– Genomic library.
P=probabilidade desejada de ter um gene na library (e.g. 95%)
N=nº bases do genoma/nº bases do insert
Podem-se usar endonucleases 8-cutter, que cortam em menos locais devido à menor
abundância de locais de reconhecimento (sequências de 8 nucleótidos), gerando
fragmentos infrequentes mas de maior tamanho.
 Vectores possíveis:
o BAC: estes vectores conseguem albergar de forma estável até 200kB.
o YAC: acomodam até 1000kB contém info. genética de bactéria e levedura.
Contém estruturas de cromossoma: origem de replicação, telómeros,
centrómero). Limitações: O tamanho de inserção acaba por ser 50-100 kB
devido a dificuldades em manipular fragmentos maiores, risco de degradação
e o facto de poderem albergar segmentos que não se encontram juntos no
genoma (quimeras). Além disso, a instabilidade dos YAC pode levar a delecção
das zonas internas dentro do DNA inserido.
 São selecionados os clones com sobreposição mínima, sendo que o seu DNA é
purificado e fragmentado em cadeias pequenas que serão subclonadas em
plasmídeos. Estes plasmídeos têm a vantagem de serem em cadeia dupla, resultando
na obtenção de mate pairs para cada read, permitindo a obtenção de duas sequências
a partir de um só plasmídeo purificado, o que facilita depois a montagem da
sequência.
 Os subclones são selecionados de forma aleatória, o seu DNA é sequenciado e efectua-
se o assembly. Verifica-se se há concordância com o mapa de fingerprints dos clones.
Whole shotgun approach
Envolve a montagem das várias reads geradas de forma aleatória. Não precisa de um
mapping baseado em clones, sendo a montagem feita computacionalmente. Esta estratégia
está limitada pelo tamanho do genoma a usar, e pela existência de sequências repetidas que
faciltem a montagem.
Next generation sequencing
Tem vindo a substituir as técnicas convencionais de sequenciação baseadas em Sanger

(Capilaridade, etc…). Baseiam-se em passos de análise de uma amostra densa de DNA
envolvendo passos enzimáticos e deteção visual. Envolve a preparação da library, a elaboração
da amostra (array de beads, chip…) e a sequenciação.
Por comparação com os métodos tradicionais, o NGS não necessita de amplificação in
vitro, uma vez que usa PCR, não surgindo problemas associados à transformação, escolha das
colónias e extracção de DNA. Ao mesmo tempo, o uso de amostras (arrays) de densidade
elevada reduz o gasto de químicos (nucleótidos, reagentes, solventes…) por read, e permite
um maior número de sequenciações e análises em paralelo.
No entanto, as técnicas de NGS são mais propensas a erros (base calls), tais como
indels e substituições, e o tamanho da sequência a obter é muito menor (30-300 bases por
NGS vs. 500-1000 bases por Sanger).
Preparação do template e amplificação
- 454 system
 Fragmentação do DNA por sonicação. Para variar o tamanho dos fragmentos, varia-se
a intensidade de sonicação.
 Adição de oligos (adaptadores nucleotídicos) de sequência conhecida, em cada ponta
do DNA, por ligases. Os fragmentos sem adaptadores não são amplificados. A ligação é
feita a 16ºC, temperatura que é desfavorável para a enzima mas favorece os
movimentos aleatórios (brownianos) do DNA.
 O DNA é, então, separado em cadeias simples e colocado numa emulsão contendo
microbeads. Estas contém, à superfície, um primer complementar ao adaptador, ao
qual este se liga. São produzidas condições que favorecem um fragmento único de
DNA por cada bead.
 Com recurso à DNA polimerase cria-se uma cadeia filha agarrada à bead, que será
amplificada por reacções de PCR. A cadeia original (template) é retirada por aumento
de temperatura e destruição da micela.
 Após PCR, as beads (amplicons) são imobilizadas num gel de poliacrilamida por cross
linking.
- Solexa/Ilumina
 Como suporte, usa-se um chip ligado a vários primers forward e reverse.
 O DNA genómico é fragmentado aleatoriamente e ligado a adaptadores (ligase) em
ambos os lados dos fragmentos. A cadeia dupla é separada em duas simples.
 Os adaptadores ligam-se aos primers à superfície. Dá-se a adição de dNTPs e
polimerase para iniciar o bridge PCR. A polimerase forma a cadeia reversa, que está
ligada covalentemente ao primer.
 Formam-se estruturas de dupla cadeia em ponte, que são desnaturadas em cadeias
simples, ligadas ao respectivo primer.
 Cada área no chip (cluster) corresponde a um único fragmento de DNA a sequenciar. A
maior parte do DNA será sequenciado, uma vez que cada chip poderá conter até vários
milhões de clusters à superfície.
Em ambas as técnicas, a cadeia está ligada ao suporte pela ponta 5’.

Sequenciação
Pirosequenciação 454
 Esta técnica faz uso de micropoços, cada um contendo uma única bead, num total de
até 1-2 milhões de beads.
 Lê sequências longas, até 400 bases. O processo requer polimerase, nucleótidos
marcados e não marcados, e o mesmo primer usado na amplificação.
 Cada vez que um nucleótido lançado no poço se liga à cadeia pela polimerase, um PPi
(pirofosfato) é libertado. Este é convertido a ATP pela sulfurilase, sendo o ATP
convertido a luz pela luciferase. A luz libertada é lida por um sensor.
 Para distinguir entre os nucleótidos, cada tipo é lançado em todos os poços ao mesmo
tempo de cada vez.
 Nucleótidos não ligados são lavados em cada passo pela apirase.
 A taxa de erro (indels) é elevada, uma vez que a intensidade de luz não é
suficientemente precisa para distinguir a quantidade de nucleótidos que se ligou à
cadeia (i(A) ~ i(AA)).
Solexa / Ilumina
 Lê aprox. 40 bp (short read lengths)
 Os quatro nucleótidos são inseridos no chip, cada um contendo uma cor diferente. O
grupo colorido contém um terminador, havendo a ligação de apenas um nucleótido à
cadeia de cada vez.
 Por acção da polimerase, um nucleótido é incorporado em todas as slots do chip ao
mesmo tempo. O equipamento lê a mesma posição da cadeia em todas as slots.
 Após lavagem para eliminar os nucleótidos e os grupos de bloqueio, é lançada uma
nova solução de nucleótidos, levado à síntese da segunda posição, e por aí fora.
SOLiD
 Sequencing by ligation
 Usa os amplicons obtidos a partir do PCR de emulsão das beads.
 A ligase liga uma cadeia oligo ao primer que está ligado à bead e à sequência a ler.
 Um octamer (sonda) com duas bases de interrogação associadas a um fluoróforo, e as
restantes degeneradas, é ligado à cadeia alvo. Se a sonda ligar, então lê-se a respectiva
cor, e desligam-se algumas das bases degeneradas terminais.
 Repete-se o ciclo ao longo da cadeia. Em cada ciclo, dá-se a leitura de duas bases de 4
em 4 posições (e.g. bases 5,6,10,11,15,16). Quando a cadeia tiver sido toda
questionada, o primer é reiniciado na base shift -1, dando origem a novos ciclos de
ligação no mesmo amplicon.
 Este procedimento resulta na medição dupla de cada nucleótido, o que evita base
miscalls – dual interrogation.
Ion torrent
 Ion semiconductor DNA sequencing
 Lê reads pequenas (30-40 bp).
 Usa micropoços num chip semicondutor, composto por uma camada sensível a iões.
Usa também dNTPs e polimerase.
 Cada vez que um nucleótido se complementa à cadeia, liberta-se um H+. Esta
libertação leva a diferenças na corrente, que podem ser medidas pelo semicondutor.
 Técnica barata com boa precisão, uma vez que a ligação de mais de duas bases resulta
numa diferença proporcional de corrente.
Montagem
O assembly consiste na criação de contigs a partir das reads por sobreposições

computacionais. O agrupamento dos contigs individuais resulta na obtenção de scaffols, que
podem corresponder a cromossomas. Este agrupamento é efectuado a partir das mate pairs
da cadeia complementar, que permitem estabelecer a posição e orientação relativa dos
scaffolds mesmo que não haja informação suficiente da sequência na cadeia principal. Os
scaffolds são, então, mapeados. O assembly irá dar origem a uma sequência consenso.
Um dos problemas pode ser causado por regiões repetidas no genoma, que ao serem
agrupadas a partir de reads individuais podem dar origem a contigs separados, um contendo a
sequência repetida de locais diferentes.
Após a montagem, podem persistir descontinuidades entre os contigs, áreas com

pouca qualidade, bases ambíguas na consenso e montagem errada de contigs. Estes
problemas podem ser resolvidos com recuso à anotação e à genómica comparativa.
Anotação
A anotação consiste na associação de informação biológica à sequência de DNA, o que

pode ser feito por previsão dos genes e com recurso à genómica comparativa com outros
organismos semelhantes.
 A previsão dos genes (gene finding) é uma tarefa bastante dificultada no caso de
eucariotas, devido à existência de grandes zonas não codificantes entre os exões. Em
termos gerais, faz-se a procura de open Reading frames, com simulação da tradução
em 6 frames (6 potenciais sequências proteicas). Neste processo, excluem-se frames
com menos de 60 aminoácidos. A frame correcta é tida como a que possuir a maior
sequência até ser interrompida por um codão STOP, o que resulta numa maior
probabilidade de ser um gene.
Primeiro, faz-se uma procura pelo codão de início, e sequências a montante deste
codão, tais como Tata box no caso de reconhecimento pela RNA polimerase, e RBS
(e.g. Shine Dalgarno) no caso de reconhecimento por ribossomas. O passo seguinte é a
procura de codões frequentes e enviesados para uma espécie, podendo haver no final
uma procura de homologia com outras ORF ortólogas já identificadas para verificar se
há de facto correspondência com um gene funcional.
Os genes ou regiões codificantes de proteínas encontrados podem ser falsos positivos,

uma vez que existe a possibilidade de o gene ter sido encontrado por chance.
 A genómica comparativa consiste na previsão da função de um gene com base em
informação estabelecida para um organismo suficientemente distantes entre si,
permitindo avaliar a semelhança funcional a nível de DNA (e.g. entre rato e humano).
Esta previsão baseia-se na existência de sequências conservadas entre os organismos.
Após especiação, as sequências codificantes estão sob pressão para se manterem
funcionais, mantendo por isso a sua identidade ao longo do tempo. As não
codificantes, por outro lado, não estão sujeitas a esta pressão, o que resulta na
acumulação de mutações e frame-shifts.
Pode ser efectuada por combinação entre algoritmos de alinhamento globais, ou

apenas locais com previsão de genes, ou apenas algoritmos evolucionários que
detectam a conservação das sequências. Não é possível comparar 3 ou mais espécies
entre si, devido ao aumento da complexidade computacional.
O alinhamento entre dois genomas inteiros permite comparar não só a presença como
também a ordem dos genes (sintenia). Esta última pode informar sobre translocações
e inversões que estão associadas a elementos móveis (transposões, sequências de
inserção…). Apesar de não conduzirem a mudanças no conteúdo genético da célula,
estes eventos podem estar associados a indels.
II Transcriptómica
Consiste na análise de expressão dos transcritos (mRNA).
Livrarias de mRNA: amplificação e sequenciação
Também conhecida por RNA-seq, faz uso da plataforma SOLiD para os passos de
sequenciação.
 A amostra de RNA total (excepto o rRNA) é fragmentada.

 Os fragmentos resultantes são ligados a adaptadores e retro-transcrito.
 O cDNA resultante é selecionado por tamanho (electroforese de gel).
 Dá-se a amplificação do cDNA por PCR de emulsão (um fragmento único de cDNA por
bead)
 Os amplicons resultantes são purificados e colocados em lâminas de vidro.
 Dá-se a sequenciação por ligação (SOLiD).
Análise por microarrays

Permite avaliar o perfil de transcritos entre condições diferentes. Para o efeito, são
usados chips de alta densidade (microarrays). Este chip contém sondas de 25 oligonucleótidos,
num total de 11 sondas por gene. Parte-se do princípio que a sequência de DNA é conhecida,
de forma a fazer os oligonucleótidos.
O mRNA é fragmentado, sendo cada fragmento verificado duas vezes no chip (perfect
match e mismatch – mudança numa única base, de entre 25). Isto significa que cada gene é
analisado 22 vezes.
As sondas de oligos são preparadas in situ numa superfície sólida, usando

fotolitografia. Os nucleótidos são dispostos ao longo do array, com adição sucessiva de bases
por recurso a uma máscara, que indica a localização de determinada base ao longo do array,
para uma dada posição da sonda. São, no total, usadas 100 máscaras, para produzir um array
com sondas de 25 bases.
 Preparação dos transcritos: o mRNA com cadeia poli-A num dos terminais é
retrotranscrito a cDNA com um promotor T7. Este promotor está associado à RNA
polimerase do fago T7, que faz a síntese de cRNA com moléculas de biotina. As cadeias
são então fragmentadas em bocados de 35-200 bp biotinilados.
 Hibridação e leitura: após hibridação ao array, a biotina é tingida com streptavidina,
resultando em fluorescência para λ=570 nm após emissão a 488 nm.
A nível de arrays, a maior parte tem-se focado nas zonas codificantes (exões) perto do
3’ (3’ IVT arrays), o que tem sido adequado para avaliar os níveis de expressão de grande parte
dos genes. Contudo, têm também surgido arrays de exões, que cobrem todo o transcrito
(exões e intrões), permitindo concluir sobre splicings alternativos. Estes arrays têm sondas
espalhadas ao longo do transcrito, e não apenas na zona próxima do 3’.
RNOmics
O controlo da expressão genética tem como objectivo promover a produção de uma
proteína pretendida, ou prevenir a síntese de proteínas desnecessárias. Este controlo pode ser
feito por factores de transcrição, ou small non-coding RNAs (sRNA).
Os factores de transcrição actuam no DNA. Dado que são proteínas, requerem passos
de transcrição e tradução prévios, o que consome ATP e leva tempo. Por outro lado, os sRNA
actuam apenas sobre o mRNA e requerem apenas transcrição, conduzindo a uma resposta
mais rápida e sem gasto elevado de energia.
O sRNA pode estar codificado entre genes, ou mesmo dentro de ORFs. Apresenta um
elevado grau de conservação entre espécies próximas. Em termos de estrutura, apresentam 3
ganchos, uma região promotora σ70 e um terminador independente de rho que forma um
gancho. Apresentam também uma cadeia de U no final.
Existem dois tipos de sRNA: cis-encoded e trans-encoded. O primeiro tipo está

codificado na cadeia complementar ao gene alvo, no DNA, e o segundo tipo está codificado na
mesma cadeia, numa posição diferente. A homologia entre este sRNA e o mRNA é mais baixa
que usando um cis sRNA. Tendo isto em conta, a acção do sRNA requer uma chaperona (Hfq),
que favorece a interacção por diminuição da energia do estado de transição do complexo
mRNA-sRNA, e previne também a sua degradação.
A ligação do sRNA conduz às seguintes situações: inibição do mRNA, por bloqueio do

seu RBS ou promoção da RNAse, que corta tanto o mRNA como o sRNA, ou activação do
mRNA, por eliminação de estruturas inibitórias nativas do mRNA que impedem a ligação do
ribossoma.
Sequenciação de sRNA:
 Obtém-se uma pool de sRNA por fracionamento de tamanho. Esta pool é incubada
com uma Hfq ligada a 6 histidinas.
 Os complexos são imunoprecipitados com um anticorpo anti-histidina numa coluna,
libertando os sRNA não ligados à Hfq.
 Os sRNA são então eluídos e separados da Hfq com solução tampão
 Ligação de adaptadores de RNA, PCR, sequenciação…
III Filogenia
Homologia: Similaridade resultante da herança de um ancestral comum.
Árvore filogenética: dá conta das relações evolucionárias entre indivíduos (genes, espécies…).
É composta por nodos terminais (folhas), que representam organismos dos quais se conhece
informação biológica, e nodos internos, que representam ancestrais hipotéticos. Cada nosso
interno pode ser representado por conjuntos de parênteses, p.ex:
Tipos de árvore:
-Cladograma: Os ancestrais comuns são representados de forma relativa entre os vários

indivíduos.
-Árvore aditiva: Dá conta do número de mudanças evolucionárias entre os vários ramos.
-Árvore ultramétrica: Dá conta dos tempos de divergência.
Existem vários padrões de evolução. Os divergentes partem do mesmo ancestral comum,

enquanto os convergentes e os paralelos apresentam homoplasia e ancestrais diferentes.
Homoplasia: Existência de estruturas análogas decorrentes de evolução independente.

Genes ortólogos: genes com ancestral comum, resultados de especiação. P.ex.: hemoglobina
humana vs. Hemoglobina de cão.
Genes parálogos: resultam da duplicação de um gene, e da divergência de um deles após

algumas gerações, dentro da mesma espécie. P. ex. : Hemoglobina vs. Mioglobina humanas.
Os quatro genes exemplificados são todos homólogos entre si.
A filogenia só se aplica a genes que não sofreram duplicação (genes ortólogos).
IV Proteómica
Estuda os eventos associados ao proteoma: regulação (reguloma),

compartimentalização e localização (localizoma), interacções físicas (interactoma) e expressão
(expressoma).
Proteómica de expressão
Consiste, em termos gerais, na extracção de amostras referentes a várias condições

experimentais, e posterior análise comparativa, estando associado a uma grande diversidade
de componentes e análises:
 Metabolitos
 Proteínas
 Actividade enzimática
 mRNA/transcriptoma
Porquê usar proteómica em vez de transcriptómica? Porque a concentração de

proteína nem sempre é proporcional à de mRNA; ao mesmo tempo, a acção e função proteica
é condicionada pelas modificações pós traducionais, ou por interacções com co-factores ou
outras proteínas.
Procedimento experimental
Selecciona-se a questão biológica a estudar. Faz-se a obtenção e o fracionamento dos

extractos, o que permite a visualização, a quantificação e a identificação das proteínas em
cada condição.
-Obtenção de extractos proteicos

São obtidos a partir da lise enzimática, ou por ciclos de cong/descongelamento,
sonicação das células, etc. É importante obter a solubilização da proteína num tampão
compatível. O tampão de lise deve ter inibidores de protéase, agentes redutores (para
contrariar a oxidação), detergentes, etc.
-Fraccionação das proteínas
Permte separar e quantificar misturas complexas de proteínas. Pode ser efetuado por
ultracentrifugação (como passo prévio) e por elecroforese em poliacrilamida.
Electroforese 1D: Separa proteínas com base no seu peso molecular. Técnica de baixa
resolução. Como obter melhor resolução para zonas de baixos ou altos pesos moleculares?
Aumentar ou diminuir a concentração de gel, respectivamente.
Electroforese 2D: Envolve separação preliminar com base no ponto isoeléctrico (isoelectric
focusing): consiste no uso de gradientes imobilizados de pH (IPG) ao longo de uma tira de
poliacrilamida. A proteína migra no gel até chegar a um pH=pI, onde pára. Na 2ª dimensão, dá-
se a separação com base no peso molecular num gel de SDS-page. Em suma: a técnica permite
alta resolução e razoável reprodutibilidade, permitindo também avaliar modificações pós-
traducionais (fosforilação, acetilação…)
Esta técnica permite analisar modificações pós-traducionais. A acetilação, glicosilação

e a hidrólise dos péptidos alteram o MW e o pI da proteína, sendo evidentes por electroforese
e também por MS uma vez que o peso molecular obtido fica diferente. A fosforilação permite
ver as proteínas que são sujeitas a cinase. Divide-se a amostra em duas alíquotas. Trata-se
uma delas com fosfatase, para remoção dos fosfatos. Da comparação entre os dois géis,
observa-se que a perda do grupo fosfato resulta na migração para zonas mais básicas do gel
durante a focagem.
Limitações da electroforese: Leva muito tempo (2-5 dias); o proteoma é demasiado complexo
para ser separado num só gel; proteínas pouco expressas, ou com pI / mw extremos são
difíceis de identificar e detectar, e proteínas membranares tendem a acumular-se juntas numa
zona do gel, sem se separarem.
-Detecção das proteínas

Pode-se usar coomassie blue, nitrato de prata, radioactividade. Todas estas técnicas
apresentam diferentes sensibilidades e gamas de linearidade.
-Análise comparativa dos géis

Primeiro obtém-se um standard, que é um gel obtido a partir de várias condições, com
expressão de todas as proteínas possíveis. Depois, compara-se este padrão com cada gel
correspondente a uma condição individual. Pode ser efectuada em software (Progenesis
SameSpots, etc.)
-Identificação das proteínas

Por electroblotting (Western blot) ou por espectroscopia de massa (MS). Nesta última
técnica, o primeiro passo é a obtenção de uma mistura peptídica a partir da digestão
enzimática das proteínas (com tripsina, por ex.). Esta mistura é, então, aplicada em solução ou
numa matriz sólida, e submetida a ionização e identificação da sua massa/carga (Peptide mass
fingerprinting). O PMF depende da existência de dados prévios sobre a sequência proteica ou
genómica, de forma a poder-se calcular e pesquisar qual a combinação de PMF que
corresponde a uma proteína conhecida.
Limitação da espectroscopia de massa: dois aminoácidos juntos podem ser considerados
como apenas um (GG-> N).
Ultrapassar algumas das limitações da análise 2D….

Várias técnicas permitem aumentar o tipo de análises a partir de um gel 2D:
-Análise de proteínas pouco abundantes:

Faz-se uma pré-fraccionação das misturas proteicas em duas fracções: uma com
proteínas solúveis, e outra com proteínas membranares.
-Análise fiável de duas condições… Differential Gel Electrophoresis

Aumenta a fiabilidade de identificação dos spots entre duas condições. Pega-se em
dois extractos, cada um etiquetado com um fluoróforo diferente. Misturam-se e aplicam-se
num gel SDS-page a 2D. Excita-se a cada comprimento de onda e obtém-se as imagens. Por
comparação das imagens, detectam-se os spots comuns. Por sobreposição das imagens,
detectam-se os spots diferentes (análise diferencial/quantitativa).
Vantagens desta técnica: elimina as variações entre géis, dado que só usa um; identifica as
diferenças mais pequenas; garante confiança estatística.
-Redox proteomics:
Permite detectar o perfil de oxidação do proteoma.
 Detecção de grupos carbonilo: Mistura-se o extracto com DNP (dinitrophenol-hydrazine).

Leva-se a gel SDS-page, e depois faz-se a transferência para membrana de nitrocelulose.
Por fim, faz-se imunodetecção Anti-DNP por Western.
 Detecção de grupo tiol: Faz-se o radiolabelling com compostos 35S, ou quimicamente com
maleimides. Após SDS-page, faz-se autoradiograma ou Western-blot, respectivamente.
 Ubiquitinação de proteínas: Usam-se anticorpos anti-ubiquitina no SDS-page ou no
Western blot.
Alternativas à electroforese para análise de proteómica de expressão
Shotgun proteomics
Faz uso de extractos completos e amostras complexas. Faz uso de Tandem MS (passos
consecutivos de MS com várias fragmentações pelo meio).
Isotope coded affinity tags (ICAT)

 Os péptidos são marcados com uma cadeia de ligação, que está marcada com H
(cadeia leve) ou Deutério (pesada), sendo a diferença nas massas (8 Da) tida como
mínima para efeitos de eluição (iguais tempos de retenção). A cadeia liga-se aos
resíduos de cisteína por acilação, e contém um tag de biotina, que será usado para
captura de afinidade.
 Após mistura e digestão dos péptidos com tripsina, a amostra é eluída numa coluna de
afinidade à biotina. O eluído é submetido a MS para obter a abundância relativa entre
a proteína leve (condição 1) e a pesada (condição 2).
 Um segundo passo de MS permite obter fragmentos de iões que conduzem à
identificação e reconstrução da sequência proteica.
Limitações: Só permite duas condições (2 proteomas). Assume que a diferença de 8 dalton não
altera a eluição. O grupo reactivo deixa de fora proteínas sem cisteína, que não são marcadas
nem identificadas.
Isobaric tags for relative and absolute quantification (iTRAQ)

 Permite distinção entre quatro proteomas. As proteínas são digeridas e depois
marcadas. São usadas 4 tags diferentes, que se ligam ao terminal N dos péptidos ou ao
grupo amina das lisinas.
 Permite análise de todos os péptidos (ao contrário do ICAT).
 Cada tag contém um grupo repórter e um grupo balance. O grupo balance permite
manter a massa total do grupo “repórter + balance + péptido” constante em todas as
amostras, apesar do peso do repórter ser variável em cada amostra.
 As amostras são submetidas a laser, que separa o repórter. Os grupos repórter são
submetidos a MS/MS), dando a abundância relativa da proteína em cada amostra,
uma vez que cada repórter tem massa/carga diferente.
Stable isotope labeling with aminoacids in cell culture (SILAC)

 Permite medir a produção proteica num dado instante, a partir de aminoácidos
radioactivos, em vez da medição proteica total, correspondente a vários tempos.
Em suma
A proteómica LC/MS é mais rápida que a electroforese 2D, e permite a identificação de
proteínas pouco abundantes, hidrofóbicas, ou com pI e MW extremos. Desvantagens: mais
cara e mais complexa.
A título de exemplo: existem padrões proteicos (proteínas de baixo MW provenientes

do soro do sangue) que diferem entre indivíduos saudáveis e com cancro. Estes padrões
permitem identificar o cancro na fase inicial, sem recorrer à análise e identificação das
proteínas individuais na amostra.
V – Metabolómica
Objectivo final: quantificação e identificação do metaboloma de um sistema biológico.

O metaboloma é composto por várias moléculas de baixo MW, tais como péptidos, coenzimas
(NADP, NAD+), nucleótidos, piruvato, citrato, fosfolípidos, mono ou dissacáridos….
A título de exemplo, o metaboloma de S. cerevisae tem aproximadamente 600

moléculas.
A análise comparativa do metaboloma é mais informativa para testar hipóteses

(diferentes condições, etc. )
Os metabolitos apresentam uma grande variedade de características (volatilidade,
solubilidade, polaridade…) e concentrações (mM,.. nM -> até 9 ordens de grandeza).
Profiling: Identificação e quantificação não analítica
Fingerprinting: Análise de metabolitos intracelulares para classificação rápida, sem

identificação nem quantificação.
Footprinting: O mesmo que fingerprinting, mas para os extracelulares.
Métodos analíticos e de tratamento da amostra

Preparação da amostra
A amostra pode sofrer paragem do metabolismo (quenching) ou não. O quenching
promove a inactivação enzimática in vivo, podendo-se usar metanol frio ou azoto líquido.
No passo de extracção dos metabolitos, pode-se usar etanol em ebulição ou água

quente, sendo que não há métodos ideais, e a escolha depende do organismo ou do que se
pretende estudar.
Técnicas analíticas
Nenhuma das técnicas consegue caracterizar todo o metaboloma de um sistema
biológico, apesar de permitirem resultados satisfatórios.
-Espectroscopia de massa
 Mede a massa/carga de partículas carregadas
 Técnica sensível e rápida
 A injecção directa dá análises muito rápidas (minutos), mas apresenta um poder de
resolução baixo.
 Diferentes instrumentos: fonte ionizadora (electrôes, electrospray, MALDI), analisador
de massa (TOF, FT-ICR) e detector de massa
 Normalmente é acompanhada por um passo de cromatografia (HPLC ou GC), o que
aumenta a resolução e permite identificar um maior número de metabolitos, em
prejuízo da rapidez de análise.
GC-MS:
 Está limitada a compostos voláteis.

 Maior eficiência na separação
 Tempos de retenção reprodutíveis
 Permite mass fingerprints padronizados para todos os metabolitos
 Permite procura dos resultados em várias bases de dados públicas.
FT-ICR/MS:
 A melhor técnica de MS para obter a massa exacta (grande resolução e precisão).

Adequada para estudos metabólicos não dirigidos.
No passo de identificação…
Calculam-se as combinações que se podem enquadrar na massa total do metabolito, com base
nos fragmentos. Outro parâmetro que pode ajudar é o tempo de retenção em GC ou HPLC.
-Ressonância Magnética Nuclear

 Altamente quantitativa e reprodutível, sem variações nos resultados devido a pKa ou
hidrofobicidade.
 Rápida, não invasiva e não destrutiva
 Aplicável in vivo e ex vivo
 Apresenta limitações de sensibilidade e resolução.
 Detecção de vários isótopos, dependendo do objectivo em estudo (1H, 13C, 15N…),
por alinhamento dos spins num campo de intensidade magnética constante
 O isótopo mais comum é o 1H, muito abundante na natureza. No entanto, conduz a
uma gama de espectro limitada, podendo levar à sobreposição de picos de diferentes
metabolitos
 Solução: NMR 2D (1H + 13C)
Análise de dados e processamento dos resultados

 Sem supervisão: Principal componente analysis (PCA)
 Com supervisão: O-PLS-DA
Interpretação biológica
Pode ser efectuada com ajuda da base de dados de vias metabólicas KEGG. Caso a
análise seja dirigida, o objectivo será testar uma hipótese formulada. Se a análise não tem
alvo, então o estudo servirá para estabelecer hipóteses sobre o metaboloma.
VI – Genómica funcional
A levedura tem sido usada para análise de dados a nível do genoma, dado que é fácil
de cultivar e manipular geneticamente, tendo sido usada como sistema modelo para células
eucarióticas.
Os genes podem ser agrupados:
 Com base na sua função, com recurso aos go terms – Function-based grouping (Go
Toolbox)
 Por identificação das vias metabólicas com o maior número de genes em análise –
Metabolic-based grouping (KEGG)
 Com base em associações de regulação entre os factores de transcrição e os genes-
alvo, e potenciais factores de transcrição de um dado gene – Regulation-based
grouping (Yeastract)
 A partir das interações proteína-proteína directas (físicas) e indirectas (funcionais),
derivadas do contexto genómico ou co-expressão, etc – Interaction-based grouping
(String)
Métodos experimentais para obtenção de dados genómicos globais
Análise do disruptoma
Faz-se a eliminação de um ou mais genes e análise do crescimento do organismo (ou
da expressão genética) sob condições de stress.
Competition assay: Pode-se criar um clone para gene removido. No lugar do gene, colocou-se
uma tag individual. Todos os clones foram colocados num reactor sob stress. Os clones
sobreviventes (cujo gene removido não está associado a resistência) podem ser determinados
num array de tags, e análise do respectivo fenótipo.
Synthetic genetic array

Avalia se as interações entre 2 genes resultam num novo fenótipo. São produzidos
clones haploides mutantes de levedura, cada clone apresenta delecção num gene. Estes dois
clones são juntos (mating), dando origem a uma geração diploide com dupla mutação (sem 2
genes). Dá-se a esporulação e selecção dos indivíduos de interesse. A análise do fenótipo é
efectuada num array com várias colónias. Se a delecção origina um fenótipo mais diferente (p.
ex. crescimento nulo da levedura) do que o produzido pela delecção isolada, então há
interacção genética.
Este método não se aplica a genes housekeeping, porque a delecção dupla parte
sempre de duas estirpes (clones) viáveis sem o gene individual.
Proteómica
Efectua-se electroforese 2D, a partir de dois extractos proteicos separados (1 controlo
e 1 stress, p.ex.) Avalia-se a intensidade relativa dos spots nas duas condições.
Localizómica
Localização sub-celular da proteína, numa escala a nível do proteoma.
 Após amplificação por PCR, faz-se a inserção do gene com um segmento codificante
para GFP. Após recombinação homóloga e tradução, dá-se a produção de proteínas de
fusão, cuja localização é visível a um microscópio de fluorescência.
Sistema 2-híbridos
Para proteínas do citosol, aplica-se o método 4Gal. 4Gal é um factor de transcrição,
composto por dois domínios: um activador da RNA polimerase, e o outro de ligação ao
promotor. O gene de Gal4 é dividido nestes domínios, sendo cada bocado introduzido em cada
gene que codifica para as duas proteínas a estudar.
Se houver interação entre as proteínas resultantes, então dá-se a transcrição de um

gene repórter (fluorescência, etc.)
Limitação: Não se aplica a proteínas membranares, porque não ocorre ligação ao gene
repóter, que está no núcleo. Solução: usar método split-ubiquitin.
Complementação de fluorescência
Não necessita de transcrição. Permite detectar a localização exacta onde se dá a
interacção entre as duas proteínas. A intensidade de fluorescência é proporcional à
intensidade da interacção. Cada proteína contém um fragmento de uma proteína repórter
fluorescente.
Proteome chips
Purificam-se as proteínas, previamente clonadas com uma cada GST e sobreexpressas.
As proteínas são postas em lâminas de vidro no chip. Coloca-se a proteína-alvo com marcador
no chip, e observam-se as interacções. Para verificar se as proteínas foram colocadas no chip,
usa-se um anticorpo anti-GST.
Este método não permite a quantificação da proteína, apenas avalia as interações.
Interacções proteína-DNA
-ChIP (chromatin immunoprecipitation)

Faz-se o crosslink entre o DNA e a proteína in vivo, por introdução da proteína (ligada a
cromatina) no meio. Depois, fragmenta-se e isola-se o complexo DNA-proteína por
imunoprecipitação. Desliga-se a proteína, e faz-se a amplificação do fragmento de DNA por
PCR e a sua sequenciação.
Esta técnica permite saber quais os segmentos do DNA que são alvos de um factor de
transcrição.
-ChIP on chip
Faz-se o isolamento de todos os complexos proteína-DNA por imunoprecipitação. Os
chips de DNA contém sondas para as regiões promotoras, dando-se a hibridação com as
regiões do DNA que ligaram à proteína.
Esta técnica permite saber quais os promotores activados por determinado factor de
transcrição, usando para isso TFs ligados a cromatina.
VII - Biologia de sistemas
Permite o entendimento dos sistemas vivos como resultado de fluxos de massa,

energia e informação, e as suas mudanças no tempo, no espaço, e a sua dependência do
ambiente, por alteração dos comportamentos e reacções em resposta ao meio envolvente.
Metodologia impulsionada pelo surgimento de estudos globais após a sequenciação de

genomas de muitos seres vivos (análises proteómicas…)
Com base nestas abordagens, conseguem-se avaliar os fluxos de massa, energia e

informação, tais como:
 Vias metabólicas
 Vias de regulação da expressão genética (envolve o DNA)
 Vias de transdução de sinal (não envolve o DNA)
É necessário modelar matematicamente, de forma a compreender melhor a natureza

e dinâmica dos processos, e fazer previsões fundamentadas do seu desenvolvimento e efeito
de factores externos ao sistema.
Análise de redes
Podem ser redes de regulação de expressão genética, interação proteica, sinalização,
etc, que têm de ser descritas de forma matemática. As primeiras podem ser descritas por
lógica booleana (on/off). As vias metabólicas, por modelos quantitativos com descrição das
reacções químicas, desde simples estequiométricas até complexas, com cinéticas enzimáticas
susceptíveis a efeitos inibidores ou repressores em relação a produtos ou substratos.
Modelação matemática de fenómenos biológicos

Modelo: simplificação da realidade, no entanto permitindo a elucidação das propriedades da
rede, e os princípios básicos do design de um ser vivo.
-Modelação determinística:
Uma causa produz um efeito, ou seja, o modelo resulta em efeitos previsíveis. Podem-
se usar equações diferenciais ordinárias, p. ex: concentração em função do tempo, ou parciais,
p.ex. concentração em função do espaço e do tempo.
-Modelação estocástica:
Existe uma probabilidade de um efeito seguir um decurso diferente. P. ex: número de
moléculas como variáveis aleatórias.
-Passos de descrição de uma operação matemática:

 Reconstrução do processo usando linguagem matemática
 Simulação do funcionamento da via por computador
 Teste e melhoramento do modelo por comparação com os dados experimentais
 Previsão do resultado de experiências planeadas
 Identificação das falhas do modelo
 Uso do modelo para estudar as propriedades do sistema
 Análise de sensibilidade e robustez
-Modelação estequiométrica de redes metabólicas

Modelos cinéticos : combinam dados sobre a cinética de determinados processos com a sua
estequiometria conhecia. Exige enormes quantidades de informação, que não está disponível
ao nível do genoma. Além disso, a maior parte dos dados é obtido in vitro, podendo não haver
correspondência in vivo, no contexto celular.
Modelos estequiométricos: Definem a rede metabólica como um sistema de equações

estequiométrico que representa as reacções bioquímicas. Não inclui info cinética nem
regulatória. É uma aproximação grosseira, porém engloba todo o metabolismo, permitindo
prever o funcionamento da célula.
 O modelo parte de reacções individuais:

 Faz-se uma matriz estequiométrica, onde cada coluna corresponde a um metabolito, e
cada linha, uma reacção.
 Quantifica-se o fluxo (velocidade de reacção) para cada ramo da via metabólica –

Fluxoma. Faz-se o sistema de equações em estado estacionário.
 A solução deste sistema devolve o vector de fluxos metabólicos.
Aplicações e perspectivas da biologia de sistemas
Previsão e compreensão dos seres vivos, o que permitirá a manipulação precisa de estirpes,
com melhor eficiência, ou mesmo o design de novas moléculas ou sistemas biológicos.
Biologia sintética: Nova área de pesquisa, que combina ciência e engenharia de forma a
desenhar novas funções e sistemas biológicos.
Em suma
Biologia tradicional: baseia-se na formulação de hipóteses inicial, seguida de testes,
acumulação de dados e corroboração.
Biologia de sistemas: baseia-se na obtenção e organização inicial dos dados por computação
intensiva, e consequente formulação de hipóteses a partir da modelação dos dados.

GFB apontamentos genómica

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

GFB apontamentos genómica

Enviado por

Direitos autorais:

Formatos disponíveis

GFB (toda a matéria excepto Biologia Computacional e

NOTA IMPORTANTE: Os autores não tomam qualquer responsabilidade sobre eventuais

Estratégias de sequenciação: Clone-by-clone shotgun vs. Whole genome shotgun approaches

Clone-by-clone shotgun approach

Whole shotgun approach

Next generation sequencing

Tem vindo a substituir as técnicas convencionais de sequenciação baseadas em Sanger

Preparação do template e amplificação

Em ambas as técnicas, a cadeia está ligada ao suporte pela ponta 5’.

O assembly consiste na criação de contigs a partir das reads por sobreposições

Após a montagem, podem persistir descontinuidades entre os contigs, áreas com

A anotação consiste na associação de informação biológica à sequência de DNA, o que

Os genes ou regiões codificantes de proteínas encontrados podem ser falsos positivos,

Pode ser efectuada por combinação entre algoritmos de alinhamento globais, ou

Consiste na análise de expressão dos transcritos (mRNA).

Livrarias de mRNA: amplificação e sequenciação

 A amostra de RNA total (excepto o rRNA) é fragmentada.

Análise por microarrays

As sondas de oligos são preparadas in situ numa superfície sólida, usando

Existem dois tipos de sRNA: cis-encoded e trans-encoded. O primeiro tipo está

A ligação do sRNA conduz às seguintes situações: inibição do mRNA, por bloqueio do

Homologia: Similaridade resultante da herança de um ancestral comum.

-Cladograma: Os ancestrais comuns são representados de forma relativa entre os vários

-Árvore aditiva: Dá conta do número de mudanças evolucionárias entre os vários ramos.

-Árvore ultramétrica: Dá conta dos tempos de divergência.

Existem vários padrões de evolução. Os divergentes partem do mesmo ancestral comum,

Homoplasia: Existência de estruturas análogas decorrentes de evolução independente.

Genes parálogos: resultam da duplicação de um gene, e da divergência de um deles após

Os quatro genes exemplificados são todos homólogos entre si.

A filogenia só se aplica a genes que não sofreram duplicação (genes ortólogos).

Estuda os eventos associados ao proteoma: regulação (reguloma),

Consiste, em termos gerais, na extracção de amostras referentes a várias condições

Porquê usar proteómica em vez de transcriptómica? Porque a concentração de

Selecciona-se a questão biológica a estudar. Faz-se a obtenção e o fracionamento dos

-Obtenção de extractos proteicos

Esta técnica permite analisar modificações pós-traducionais. A acetilação, glicosilação

-Detecção das proteínas

-Análise comparativa dos géis

-Identificação das proteínas

Ultrapassar algumas das limitações da análise 2D….

-Análise de proteínas pouco abundantes:

-Análise fiável de duas condições… Differential Gel Electrophoresis

 Detecção de grupos carbonilo: Mistura-se o extracto com DNP (dinitrophenol-hydrazine).

Alternativas à electroforese para análise de proteómica de expressão

Isotope coded affinity tags (ICAT)

Isobaric tags for relative and absolute quantification (iTRAQ)

Stable isotope labeling with aminoacids in cell culture (SILAC)

A título de exemplo: existem padrões proteicos (proteínas de baixo MW provenientes

Objectivo final: quantificação e identificação do metaboloma de um sistema biológico.

A título de exemplo, o metaboloma de S. cerevisae tem aproximadamente 600

A análise comparativa do metaboloma é mais informativa para testar hipóteses

Profiling: Identificação e quantificação não analítica

Fingerprinting: Análise de metabolitos intracelulares para classificação rápida, sem

Footprinting: O mesmo que fingerprinting, mas para os extracelulares.

Métodos analíticos e de tratamento da amostra

No passo de extracção dos metabolitos, pode-se usar etanol em ebulição ou água

 Está limitada a compostos voláteis.

 A melhor técnica de MS para obter a massa exacta (grande resolução e precisão).

-Ressonância Magnética Nuclear

Análise de dados e processamento dos resultados

Os genes podem ser agrupados:

Synthetic genetic array