Escolar Documentos
Profissional Documentos
Cultura Documentos
Bioestatística)
I - Genómica
Genómica Funcional: Descrição da função e interações dos genes (e das proteínas) a partir de
dados genómicos de sequenciação e alinhamento, com foco em aspectos dinâmicos do DNA
como a transcrição e a tradução.
Estratégias de sequenciação
Passos de sequenciação:
Podem-se usar endonucleases 8-cutter, que cortam em menos locais devido à menor
abundância de locais de reconhecimento (sequências de 8 nucleótidos), gerando
fragmentos infrequentes mas de maior tamanho.
Vectores possíveis:
o BAC: estes vectores conseguem albergar de forma estável até 200kB.
o YAC: acomodam até 1000kB contém info. genética de bactéria e levedura.
Contém estruturas de cromossoma: origem de replicação, telómeros,
centrómero). Limitações: O tamanho de inserção acaba por ser 50-100 kB
devido a dificuldades em manipular fragmentos maiores, risco de degradação
e o facto de poderem albergar segmentos que não se encontram juntos no
genoma (quimeras). Além disso, a instabilidade dos YAC pode levar a delecção
das zonas internas dentro do DNA inserido.
São selecionados os clones com sobreposição mínima, sendo que o seu DNA é
purificado e fragmentado em cadeias pequenas que serão subclonadas em
plasmídeos. Estes plasmídeos têm a vantagem de serem em cadeia dupla, resultando
na obtenção de mate pairs para cada read, permitindo a obtenção de duas sequências
a partir de um só plasmídeo purificado, o que facilita depois a montagem da
sequência.
Os subclones são selecionados de forma aleatória, o seu DNA é sequenciado e efectua-
se o assembly. Verifica-se se há concordância com o mapa de fingerprints dos clones.
Envolve a montagem das várias reads geradas de forma aleatória. Não precisa de um
mapping baseado em clones, sendo a montagem feita computacionalmente. Esta estratégia
está limitada pelo tamanho do genoma a usar, e pela existência de sequências repetidas que
faciltem a montagem.
No entanto, as técnicas de NGS são mais propensas a erros (base calls), tais como
indels e substituições, e o tamanho da sequência a obter é muito menor (30-300 bases por
NGS vs. 500-1000 bases por Sanger).
- 454 system
Fragmentação do DNA por sonicação. Para variar o tamanho dos fragmentos, varia-se
a intensidade de sonicação.
Adição de oligos (adaptadores nucleotídicos) de sequência conhecida, em cada ponta
do DNA, por ligases. Os fragmentos sem adaptadores não são amplificados. A ligação é
feita a 16ºC, temperatura que é desfavorável para a enzima mas favorece os
movimentos aleatórios (brownianos) do DNA.
O DNA é, então, separado em cadeias simples e colocado numa emulsão contendo
microbeads. Estas contém, à superfície, um primer complementar ao adaptador, ao
qual este se liga. São produzidas condições que favorecem um fragmento único de
DNA por cada bead.
Com recurso à DNA polimerase cria-se uma cadeia filha agarrada à bead, que será
amplificada por reacções de PCR. A cadeia original (template) é retirada por aumento
de temperatura e destruição da micela.
Após PCR, as beads (amplicons) são imobilizadas num gel de poliacrilamida por cross
linking.
- Solexa/Ilumina
Como suporte, usa-se um chip ligado a vários primers forward e reverse.
O DNA genómico é fragmentado aleatoriamente e ligado a adaptadores (ligase) em
ambos os lados dos fragmentos. A cadeia dupla é separada em duas simples.
Os adaptadores ligam-se aos primers à superfície. Dá-se a adição de dNTPs e
polimerase para iniciar o bridge PCR. A polimerase forma a cadeia reversa, que está
ligada covalentemente ao primer.
Formam-se estruturas de dupla cadeia em ponte, que são desnaturadas em cadeias
simples, ligadas ao respectivo primer.
Cada área no chip (cluster) corresponde a um único fragmento de DNA a sequenciar. A
maior parte do DNA será sequenciado, uma vez que cada chip poderá conter até vários
milhões de clusters à superfície.
Pirosequenciação 454
Esta técnica faz uso de micropoços, cada um contendo uma única bead, num total de
até 1-2 milhões de beads.
Lê sequências longas, até 400 bases. O processo requer polimerase, nucleótidos
marcados e não marcados, e o mesmo primer usado na amplificação.
Cada vez que um nucleótido lançado no poço se liga à cadeia pela polimerase, um PPi
(pirofosfato) é libertado. Este é convertido a ATP pela sulfurilase, sendo o ATP
convertido a luz pela luciferase. A luz libertada é lida por um sensor.
Para distinguir entre os nucleótidos, cada tipo é lançado em todos os poços ao mesmo
tempo de cada vez.
Nucleótidos não ligados são lavados em cada passo pela apirase.
A taxa de erro (indels) é elevada, uma vez que a intensidade de luz não é
suficientemente precisa para distinguir a quantidade de nucleótidos que se ligou à
cadeia (i(A) ~ i(AA)).
Solexa / Ilumina
Lê aprox. 40 bp (short read lengths)
Os quatro nucleótidos são inseridos no chip, cada um contendo uma cor diferente. O
grupo colorido contém um terminador, havendo a ligação de apenas um nucleótido à
cadeia de cada vez.
Por acção da polimerase, um nucleótido é incorporado em todas as slots do chip ao
mesmo tempo. O equipamento lê a mesma posição da cadeia em todas as slots.
Após lavagem para eliminar os nucleótidos e os grupos de bloqueio, é lançada uma
nova solução de nucleótidos, levado à síntese da segunda posição, e por aí fora.
SOLiD
Sequencing by ligation
Usa os amplicons obtidos a partir do PCR de emulsão das beads.
A ligase liga uma cadeia oligo ao primer que está ligado à bead e à sequência a ler.
Um octamer (sonda) com duas bases de interrogação associadas a um fluoróforo, e as
restantes degeneradas, é ligado à cadeia alvo. Se a sonda ligar, então lê-se a respectiva
cor, e desligam-se algumas das bases degeneradas terminais.
Repete-se o ciclo ao longo da cadeia. Em cada ciclo, dá-se a leitura de duas bases de 4
em 4 posições (e.g. bases 5,6,10,11,15,16). Quando a cadeia tiver sido toda
questionada, o primer é reiniciado na base shift -1, dando origem a novos ciclos de
ligação no mesmo amplicon.
Este procedimento resulta na medição dupla de cada nucleótido, o que evita base
miscalls – dual interrogation.
Ion torrent
Ion semiconductor DNA sequencing
Lê reads pequenas (30-40 bp).
Usa micropoços num chip semicondutor, composto por uma camada sensível a iões.
Usa também dNTPs e polimerase.
Cada vez que um nucleótido se complementa à cadeia, liberta-se um H+. Esta
libertação leva a diferenças na corrente, que podem ser medidas pelo semicondutor.
Técnica barata com boa precisão, uma vez que a ligação de mais de duas bases resulta
numa diferença proporcional de corrente.
Montagem
Um dos problemas pode ser causado por regiões repetidas no genoma, que ao serem
agrupadas a partir de reads individuais podem dar origem a contigs separados, um contendo a
sequência repetida de locais diferentes.
Anotação
A previsão dos genes (gene finding) é uma tarefa bastante dificultada no caso de
eucariotas, devido à existência de grandes zonas não codificantes entre os exões. Em
termos gerais, faz-se a procura de open Reading frames, com simulação da tradução
em 6 frames (6 potenciais sequências proteicas). Neste processo, excluem-se frames
com menos de 60 aminoácidos. A frame correcta é tida como a que possuir a maior
sequência até ser interrompida por um codão STOP, o que resulta numa maior
probabilidade de ser um gene.
Primeiro, faz-se uma procura pelo codão de início, e sequências a montante deste
codão, tais como Tata box no caso de reconhecimento pela RNA polimerase, e RBS
(e.g. Shine Dalgarno) no caso de reconhecimento por ribossomas. O passo seguinte é a
procura de codões frequentes e enviesados para uma espécie, podendo haver no final
uma procura de homologia com outras ORF ortólogas já identificadas para verificar se
há de facto correspondência com um gene funcional.
O alinhamento entre dois genomas inteiros permite comparar não só a presença como
também a ordem dos genes (sintenia). Esta última pode informar sobre translocações
e inversões que estão associadas a elementos móveis (transposões, sequências de
inserção…). Apesar de não conduzirem a mudanças no conteúdo genético da célula,
estes eventos podem estar associados a indels.
II Transcriptómica
Também conhecida por RNA-seq, faz uso da plataforma SOLiD para os passos de
sequenciação.
Preparação dos transcritos: o mRNA com cadeia poli-A num dos terminais é
retrotranscrito a cDNA com um promotor T7. Este promotor está associado à RNA
polimerase do fago T7, que faz a síntese de cRNA com moléculas de biotina. As cadeias
são então fragmentadas em bocados de 35-200 bp biotinilados.
Hibridação e leitura: após hibridação ao array, a biotina é tingida com streptavidina,
resultando em fluorescência para λ=570 nm após emissão a 488 nm.
A nível de arrays, a maior parte tem-se focado nas zonas codificantes (exões) perto do
3’ (3’ IVT arrays), o que tem sido adequado para avaliar os níveis de expressão de grande parte
dos genes. Contudo, têm também surgido arrays de exões, que cobrem todo o transcrito
(exões e intrões), permitindo concluir sobre splicings alternativos. Estes arrays têm sondas
espalhadas ao longo do transcrito, e não apenas na zona próxima do 3’.
RNOmics
O controlo da expressão genética tem como objectivo promover a produção de uma
proteína pretendida, ou prevenir a síntese de proteínas desnecessárias. Este controlo pode ser
feito por factores de transcrição, ou small non-coding RNAs (sRNA).
Os factores de transcrição actuam no DNA. Dado que são proteínas, requerem passos
de transcrição e tradução prévios, o que consome ATP e leva tempo. Por outro lado, os sRNA
actuam apenas sobre o mRNA e requerem apenas transcrição, conduzindo a uma resposta
mais rápida e sem gasto elevado de energia.
O sRNA pode estar codificado entre genes, ou mesmo dentro de ORFs. Apresenta um
elevado grau de conservação entre espécies próximas. Em termos de estrutura, apresentam 3
ganchos, uma região promotora σ70 e um terminador independente de rho que forma um
gancho. Apresentam também uma cadeia de U no final.
Sequenciação de sRNA:
Obtém-se uma pool de sRNA por fracionamento de tamanho. Esta pool é incubada
com uma Hfq ligada a 6 histidinas.
Os complexos são imunoprecipitados com um anticorpo anti-histidina numa coluna,
libertando os sRNA não ligados à Hfq.
Os sRNA são então eluídos e separados da Hfq com solução tampão
Ligação de adaptadores de RNA, PCR, sequenciação…
III Filogenia
Árvore filogenética: dá conta das relações evolucionárias entre indivíduos (genes, espécies…).
É composta por nodos terminais (folhas), que representam organismos dos quais se conhece
informação biológica, e nodos internos, que representam ancestrais hipotéticos. Cada nosso
interno pode ser representado por conjuntos de parênteses, p.ex:
Tipos de árvore:
IV Proteómica
Proteómica de expressão
Metabolitos
Proteínas
Actividade enzimática
mRNA/transcriptoma
Procedimento experimental
Electroforese 1D: Separa proteínas com base no seu peso molecular. Técnica de baixa
resolução. Como obter melhor resolução para zonas de baixos ou altos pesos moleculares?
Aumentar ou diminuir a concentração de gel, respectivamente.
Electroforese 2D: Envolve separação preliminar com base no ponto isoeléctrico (isoelectric
focusing): consiste no uso de gradientes imobilizados de pH (IPG) ao longo de uma tira de
poliacrilamida. A proteína migra no gel até chegar a um pH=pI, onde pára. Na 2ª dimensão, dá-
se a separação com base no peso molecular num gel de SDS-page. Em suma: a técnica permite
alta resolução e razoável reprodutibilidade, permitindo também avaliar modificações pós-
traducionais (fosforilação, acetilação…)
Limitações da electroforese: Leva muito tempo (2-5 dias); o proteoma é demasiado complexo
para ser separado num só gel; proteínas pouco expressas, ou com pI / mw extremos são
difíceis de identificar e detectar, e proteínas membranares tendem a acumular-se juntas numa
zona do gel, sem se separarem.
Vantagens desta técnica: elimina as variações entre géis, dado que só usa um; identifica as
diferenças mais pequenas; garante confiança estatística.
-Redox proteomics:
Permite detectar o perfil de oxidação do proteoma.
Shotgun proteomics
Faz uso de extractos completos e amostras complexas. Faz uso de Tandem MS (passos
consecutivos de MS com várias fragmentações pelo meio).
Limitações: Só permite duas condições (2 proteomas). Assume que a diferença de 8 dalton não
altera a eluição. O grupo reactivo deixa de fora proteínas sem cisteína, que não são marcadas
nem identificadas.
Em suma
A proteómica LC/MS é mais rápida que a electroforese 2D, e permite a identificação de
proteínas pouco abundantes, hidrofóbicas, ou com pI e MW extremos. Desvantagens: mais
cara e mais complexa.
V – Metabolómica
Técnicas analíticas
Nenhuma das técnicas consegue caracterizar todo o metaboloma de um sistema
biológico, apesar de permitirem resultados satisfatórios.
-Espectroscopia de massa
Mede a massa/carga de partículas carregadas
Técnica sensível e rápida
A injecção directa dá análises muito rápidas (minutos), mas apresenta um poder de
resolução baixo.
Diferentes instrumentos: fonte ionizadora (electrôes, electrospray, MALDI), analisador
de massa (TOF, FT-ICR) e detector de massa
Normalmente é acompanhada por um passo de cromatografia (HPLC ou GC), o que
aumenta a resolução e permite identificar um maior número de metabolitos, em
prejuízo da rapidez de análise.
GC-MS:
FT-ICR/MS:
Calculam-se as combinações que se podem enquadrar na massa total do metabolito, com base
nos fragmentos. Outro parâmetro que pode ajudar é o tempo de retenção em GC ou HPLC.
Interpretação biológica
Pode ser efectuada com ajuda da base de dados de vias metabólicas KEGG. Caso a
análise seja dirigida, o objectivo será testar uma hipótese formulada. Se a análise não tem
alvo, então o estudo servirá para estabelecer hipóteses sobre o metaboloma.
VI – Genómica funcional
A levedura tem sido usada para análise de dados a nível do genoma, dado que é fácil
de cultivar e manipular geneticamente, tendo sido usada como sistema modelo para células
eucarióticas.
Com base na sua função, com recurso aos go terms – Function-based grouping (Go
Toolbox)
Por identificação das vias metabólicas com o maior número de genes em análise –
Metabolic-based grouping (KEGG)
Com base em associações de regulação entre os factores de transcrição e os genes-
alvo, e potenciais factores de transcrição de um dado gene – Regulation-based
grouping (Yeastract)
A partir das interações proteína-proteína directas (físicas) e indirectas (funcionais),
derivadas do contexto genómico ou co-expressão, etc – Interaction-based grouping
(String)
Métodos experimentais para obtenção de dados genómicos globais
Análise do disruptoma
Faz-se a eliminação de um ou mais genes e análise do crescimento do organismo (ou
da expressão genética) sob condições de stress.
Competition assay: Pode-se criar um clone para gene removido. No lugar do gene, colocou-se
uma tag individual. Todos os clones foram colocados num reactor sob stress. Os clones
sobreviventes (cujo gene removido não está associado a resistência) podem ser determinados
num array de tags, e análise do respectivo fenótipo.
Este método não se aplica a genes housekeeping, porque a delecção dupla parte
sempre de duas estirpes (clones) viáveis sem o gene individual.
Proteómica
Efectua-se electroforese 2D, a partir de dois extractos proteicos separados (1 controlo
e 1 stress, p.ex.) Avalia-se a intensidade relativa dos spots nas duas condições.
Localizómica
Localização sub-celular da proteína, numa escala a nível do proteoma.
Após amplificação por PCR, faz-se a inserção do gene com um segmento codificante
para GFP. Após recombinação homóloga e tradução, dá-se a produção de proteínas de
fusão, cuja localização é visível a um microscópio de fluorescência.
Sistema 2-híbridos
Para proteínas do citosol, aplica-se o método 4Gal. 4Gal é um factor de transcrição,
composto por dois domínios: um activador da RNA polimerase, e o outro de ligação ao
promotor. O gene de Gal4 é dividido nestes domínios, sendo cada bocado introduzido em cada
gene que codifica para as duas proteínas a estudar.
Limitação: Não se aplica a proteínas membranares, porque não ocorre ligação ao gene
repóter, que está no núcleo. Solução: usar método split-ubiquitin.
Complementação de fluorescência
Não necessita de transcrição. Permite detectar a localização exacta onde se dá a
interacção entre as duas proteínas. A intensidade de fluorescência é proporcional à
intensidade da interacção. Cada proteína contém um fragmento de uma proteína repórter
fluorescente.
Proteome chips
Purificam-se as proteínas, previamente clonadas com uma cada GST e sobreexpressas.
As proteínas são postas em lâminas de vidro no chip. Coloca-se a proteína-alvo com marcador
no chip, e observam-se as interacções. Para verificar se as proteínas foram colocadas no chip,
usa-se um anticorpo anti-GST.
Interacções proteína-DNA
Esta técnica permite saber quais os segmentos do DNA que são alvos de um factor de
transcrição.
-ChIP on chip
Faz-se o isolamento de todos os complexos proteína-DNA por imunoprecipitação. Os
chips de DNA contém sondas para as regiões promotoras, dando-se a hibridação com as
regiões do DNA que ligaram à proteína.
Esta técnica permite saber quais os promotores activados por determinado factor de
transcrição, usando para isso TFs ligados a cromatina.
Vias metabólicas
Vias de regulação da expressão genética (envolve o DNA)
Vias de transdução de sinal (não envolve o DNA)
Análise de redes
Podem ser redes de regulação de expressão genética, interação proteica, sinalização,
etc, que têm de ser descritas de forma matemática. As primeiras podem ser descritas por
lógica booleana (on/off). As vias metabólicas, por modelos quantitativos com descrição das
reacções químicas, desde simples estequiométricas até complexas, com cinéticas enzimáticas
susceptíveis a efeitos inibidores ou repressores em relação a produtos ou substratos.
-Modelação determinística:
Uma causa produz um efeito, ou seja, o modelo resulta em efeitos previsíveis. Podem-
se usar equações diferenciais ordinárias, p. ex: concentração em função do tempo, ou parciais,
p.ex. concentração em função do espaço e do tempo.
-Modelação estocástica:
Existe uma probabilidade de um efeito seguir um decurso diferente. P. ex: número de
moléculas como variáveis aleatórias.
Previsão e compreensão dos seres vivos, o que permitirá a manipulação precisa de estirpes,
com melhor eficiência, ou mesmo o design de novas moléculas ou sistemas biológicos.
Biologia sintética: Nova área de pesquisa, que combina ciência e engenharia de forma a
desenhar novas funções e sistemas biológicos.
Em suma
Biologia tradicional: baseia-se na formulação de hipóteses inicial, seguida de testes,
acumulação de dados e corroboração.
Biologia de sistemas: baseia-se na obtenção e organização inicial dos dados por computação
intensiva, e consequente formulação de hipóteses a partir da modelação dos dados.