Matrizes de correspondência: servem p/ ver qual o melhor alinhamento
através do uso de scores. usada para AN e depende do valor que damos a
cada match, mismatch e gap. Feita de forma empírica através da simulação de sequências aleatórias de igual comprimento e composição seguida pela análise do alinhamento entre elas tabelas baseadas nas frequências de troca, de um aa por outro, que se observam realmente na natureza entre proteínas com a mesma função. Valores de penalidade- Estes valores deveriam quantificar a probabilidade evolutiva de uma base ser mutada, deletada ou inserida: dessa forma serviriam para escolher qual é a maneira melhor (a > probabilidade) de alinhar duas seqs. →Identidade e similaridades são factos, medíveis e incontrovertíveis. Um alinhamento qualquer entre duas sequências quaisquer dá sempre um valor de identidade (+ um de similaridade se forem proteínas). Homologia é um conceito diferente: quer dizer q 2 genes/ proteínas têm um antepassado comum. Nunca há certeza, mas pd ser uma hipótese com algum grau de confiança baseada na id/simil. que eles mostram. A homologia não é quantificável, dois genes (ou proteínas) ou são homól. ou não o são. → exaustivos mt precisos e óptimos para alinhar 2 sequências, mas são mt lentos qd queremos comparar a nossa sequência com a Bds. Ocupa mt memoria. heurísticos sacrificam a precisão em nome da rapidez; procuram rapidamente zonas de emparelhamento, mesmo que não 100% perfeito, e tentam estender o emparelhamento para os lados dessas zonas – FASTA, BLAST-busca semelhanças locais da query com as sequencias da BD. com isto é possível identificar relações entre seq que compartilham regiões curtas de similaridade. A seq que estamos a utilizar (query) pode ser de ácidos nucleicos ou proteína e podemos querer comparar com BDs de ác. Nucleicos ou de proteínas. heuristicos-alinhando as seqs duas a duas, criando uma seq consenso e alinhando esta seq consenso com a próxima -dividindo as seqs em segmentos pequenos e tentando encontrar segmentos similares e sem interrupções. revtrans- Alinha sequências de genes, mas respeitando o alinhamento entre proteínas codificadas por esse gene. Nos alinhamentos não faz sentido que os codões fiquem interrompidos por gaps, mas os programas de alinhamento de ácidos nucleicos não têm isso em conta. Os alinhamentos entre proteínas são muito mais uteis porque a sequência proteica é muito mais conservada. Pesquisa de homologias -Estes programas baseiam-se na procura de ORFs/ proteínas similares ou de dados de cDNA / EST1 nas BD. Assentam na existência de seqs homólogas (não podem encontrar genes novos!) e na exatidão dos dados de cDNA/EST, que nem sempre são fidedignos. Ab initio - procuram codões de iniciação seguidos por frames com um número mínimo de codões (50-60 - ex. orffinder do NCBI) e precedidos por ribosome binding site (RBS). No fim da ORF procuram seqs terminadoras (intrínsecas ou Rho-dependentes). usam informação sobre promotoresconhecidos para procurar padrões parecidos E-value- nº de alinhamentos que podemos esperar devido ao acaso numa base de dados de um tamanho particular. Quanto menor(mais prox de zero), mais "significativo". No entanto, os alinh. curtos praticamente idênticos possuem valores E altos pq o cálculo do valor E leva em consideração o comprimento da seqüência. Esses valores E elevados fazem sentido porque seqüências mais curtas têm maior probabilidade de ocorrer no banco de dados puramente por acaso. RNA-seq- Northern blot; qRT-PCR- Transcreve-se o RNA em reverso (produz cDNA) e faz-se PCR com um par de primers específicos para um gene num termociclador que mede a formação de produto em tempo real. Compara-se os resultados com curvas de calibração. Microarrays- Cria-se cDNA marcado com cor microarrays fluorescente a partir do RNA das 2 condições a comparar e aplicase ao microarray: cores diferentes = expressão diferente. ( cores intermédias expressão do gene nas 2 condições) BIOINF: serve para interpretar os elementos funcionais do genoma. RNA-Seq revela a localização precisa dos limites da transcrição → Identidade entre 2 sequências de ácidos nucleicos apenas se pode falar em grau de identidade, uma base ou é igual a outra ou é diferente Similaridade quando se fala em proteínas pode existir similaridade, existem classes de aminoácidos com características similares (aminoácidos parecidos) Empirica- (melhor) baseada nas frequências de troca, de um aa por outro, que se observam realmente na natureza entre proteínas com a mesma função. Estas, chamadas tabelas empíricas, são as tabelas +usadas: ex. PAM, BLOSUM. Pontuação/similidaridade- para correspondências entre aa. Considera-se a identidade, mas pode também considerar-se a semelhança (similaridade) entre os resíduos e a facilidade em passar do codão que codifica o 1º aa para o codão que codifica o 2º. BLASTN: compara a nossa seq de ANs com as BDs de AN BLASTP: compara a nossa seq prot c/ as BDs de proteínas BLASTX: traduz a nossa seq de ANs nas 6 frames possíveis e compara esta tradução com as BDs de proteínas (na prática permite a comparação (indireta) de uma seq de ANs com uma BD de proteínas, que direta/ seria impossível) TBLASTN: compara a nossa seq proteica com as BDs de ANs traduzidas (nas 6 frames) TBLASTX: compara a tradução (nas 6 frames) a nossa seq de ANs com as BDs de ANs traduzidas (nas 6 frames) CLUSTAL: utilizado para alinh. múltiplos de seq. Progressivo: 1. alinha todas as seqs 2 a 2 usando um programa exaustivo; 2. constrói uma árvore- guia a partir da pontuação de cada alinhamento – é um programa “hierárquico”; 3.alinhamento dos pares + próximos e cria seqs consenso; 4.alinha estas seqs consenso entre elas, sempre 2 a 2, seguindo a árvore-guia, até alinhar todas as seqs. Vantagens: é flexível. - Utiliza diferentes matrizes de substituição, conforme o grau de similaridade; - Atribui penalidades diferentes aos gaps: penaliza mais domínios conservados que zonas mais variáveis. Limitações: - Não funciona bem se as seq tiverem comprimentos mto diferentes entre si.- Penaliza muito gaps muito compridos pelo que às vezes alinha mal seqs que necessitariam de interrupções grandes. - O resultado final pode ser afectado pela ordem em que as sequências são analisadas. - Gaps introduzidos no alinhamento dos 1ºs pares não podem ser removidos a seguir uma má escolha feita no princípio ficará até ao fim do alinhamento. T-Coffee alinha as seqs tanto globalmente (com o Clustal) como localmente (usando o algoritmo Lalign): obtém um alinhamento optimizado, mas é mais lento que o Clustal; Poa (partial order alignments) não faz uma árvore-guia, analisa as seqs na ordem fornecida. É mais rápido e mais acurado que Clustal; PRALINE é um programa online que analisa cada sequência (apenas proteínas) com o PSI-BLAST primeiro e depois compara os perfis de cada proteína. Incorpora também a informação sobre a estrutura secundária da proteína: programa muito sofisticado, complexo e portanto lento; Como funciona o BLAST- O blast procura “palavras” idênticas ou muito parecidas com a nossa sequência na BD escolhida. O comprimento das palavras usadas na pesquisa é tipicamente 3 aminoácidos para as proteínas e 11 nucleótidos para os ácidos nucleicos. Cada alinhamento assim encontrado é estendido para os lados e o score é calculado de forma contínua.
GAPS-as sequências que queremos comparar nem sempre têm o
mesmo comprimento e às vezes sofreram indels, pelo q não se podem alinhar simplesm/ do principio ao fim, mas é preciso introduzir espaços (gaps) para o alinhamento ser mais ajustado.-na penalidade atribuída aos gaps: em domínios conservados penaliza mais que em zonas mais variáveis / de ligação entre domínios. STS- seq-tagged sites: segmentos de sequência utilizados como referência (alvo para RT-PCR) para os mRNAs deste gene. (= EST, expressed sequence tags) Sig_peptide indica o destino da proteína Mat_peptide polipéptido que fica depois de removerem as partes que têm que ser clivadas. Pairwise alignment alinhamento de 2 seq; gera todos os alinhamentos possíveis e escolhe o que dá uma pontuação mais alta. CAP força o alinhamento perfeito; pode trabalhar com 2 ou mais sequências, pode trabalhar com sequências “viradas do avesso” e privilegia resultados de zonas com boa identidade distance based- Estes métodos baseiam-se em matrizes de distância calculadas anteriorm/ e constroem a árvore começando pelo par de sequências mais similares.- clustal). CARACTER BASED- bootstrapping- Cria pseudoréplicas do alinhamento substituindo colunas com outras colunas do próprio alinhamento. Em seguida utiliza-se outro programa que compara os 100 resultados e sintetiza-os numa árvore consenso. As pseudorréplicas têm todas o mesmo comprimento do alinhamento originário pq em cada réplica algumas colunas são perdidas enquanto outras são duplicadas. BDs secundárias: contêm informação derivadas das BDs primárias por análise ou anotação (ex. a RefSeq nr; a SWISS-Prot ou PIR que contêm sequências de proteínas obtidas por tradução das sequências nucleotídicas). Análise filogenética-Comparação de seqs homólogas de espécies diferentes (rRNA ou proteínas específicas) para reconstruir as relações entre os grupos: evolução e classificação. similaridade entre sequências é fundamental para inferir a estrutura e as funções duma proteína nova; reconstruir um fragmento genómico, encontrar genes e reguladores numa sequência nova. T é o score mínimo que o alinhamento das palavras iniciais tem de ter para o programa começar a estender alinhamento múltiplo: -permite revelar padrões e motivos conservados num grupo / família de seqs -permite detetar os resíduos indispensáveis para o funcionamento de proteínas -permite proceder para a comparação filogenética entre seqs -permite desenhar primers para PCR (eventualmente degenerados) que amplifiquem todos os genes do grupo.
BLOSUM62 ou a PAM120. Quando está a lidar com seqs mais distantes,
utiliza a BLOSUM45 ou a PAM250
PRRN alinha as seqs repetindo a análise muitas vezes até o score do
alinhamento não melhorar mais; DIALIGN2 divide as seqs em segmentos (blocks) e depois produz o alinhamento baseado nas regiões que alinham melhor; Match-Box também divide as seqs (apenas proteínas) em segmentos de 9 resíduos e usa os segmentos que alinham melhor como “âncoras” para alinhar o resto das seqs;
relações entre espécies muito distantes temos de utilizar seqs muito
conservadas porque, se não, as diferenças entre elas são demasiado numerosas. Modelo evolutivo_ O mais simples é considerar apenas as identidades como positivas, mas este é um modelo simplista pq cada base igual pode ser fruto de mutação + reversão e os mismatches podem ser fruto de mais que uma mutação. Isto quer dizer que a distância entre seqs na realidade é maior do que parece a primeira vista: a este efeito dá-se o nome de homoplasia, que os modelos tentam corrigir.
Optimaly based methods -Fitch-Margoliash e o Minimum Evolution
(ME).- lentos Clustering-based methods- UPGMA e NJ- rápidos mas às vezes errados. O ideal: NJ generalizado
Maximum Parsimony (MP)- Este método analisa as seqs caráter por
caráter, hipotisando seqs ancestrais que permitam produzir as seqs em análise através do menor número possível de mutações. A(s) árvore(s) que no seu conjunto têm o menor número de mutações (parcimoniosas) são as escolhidas como resultados. Maximum Likelihood (ML) Este método calcula a probabilidade associada aos eventos (mutações ou conservação) que dão origem a cada uma das árvore possíveis e escolhe aquela com maior probabilidade.rigoroso, rubosto mas lento. O jackknifing tb produz pseudorréplicas mas elimina em cada réplica metade das colunas ao acaso. Por isso é + rápido,mas perde metade da informação. Não duplica.