Você está na página 1de 2

Matrizes de correspondência: servem p/ ver qual o melhor alinhamento

através do uso de scores. usada para AN e depende do valor que damos a


cada match, mismatch e gap. Feita de forma empírica através da simulação
de sequências aleatórias de igual comprimento e composição seguida pela
análise do alinhamento entre elas tabelas baseadas nas frequências de troca,
de um aa por outro, que se observam realmente na natureza entre proteínas
com a mesma função.
Valores de penalidade- Estes valores deveriam quantificar a probabilidade
evolutiva de uma base ser mutada, deletada ou inserida: dessa forma
serviriam para escolher qual é a maneira melhor (a > probabilidade) de
alinhar duas seqs. →Identidade e similaridades são factos, medíveis e
incontrovertíveis. Um alinhamento qualquer entre duas sequências quaisquer
dá sempre um valor de identidade (+ um de similaridade se forem proteínas).
Homologia é um conceito diferente: quer dizer q 2 genes/ proteínas têm um
antepassado comum. Nunca há certeza, mas pd ser uma hipótese com algum
grau de confiança baseada na id/simil. que eles mostram. A homologia não é
quantificável, dois genes (ou proteínas) ou são homól. ou não o são.
→ exaustivos mt precisos e óptimos para alinhar 2 sequências, mas são mt
lentos qd queremos comparar a nossa sequência com a Bds. Ocupa mt
memoria. heurísticos sacrificam a precisão em nome da rapidez; procuram
rapidamente zonas de emparelhamento, mesmo que não 100% perfeito, e
tentam estender o emparelhamento para os lados dessas zonas – FASTA,
BLAST-busca semelhanças locais da query com as sequencias da BD. com
isto é possível identificar relações entre seq que compartilham regiões curtas
de similaridade. A seq que estamos a utilizar (query) pode ser de ácidos
nucleicos ou proteína e podemos querer comparar com BDs de ác. Nucleicos
ou de proteínas.
heuristicos-alinhando as seqs duas a duas, criando uma seq consenso e
alinhando esta seq consenso com a próxima -dividindo as seqs em segmentos
pequenos e tentando encontrar segmentos similares e sem interrupções.
revtrans- Alinha sequências de genes, mas respeitando o alinhamento entre
proteínas codificadas por esse gene. Nos alinhamentos não faz sentido que
os codões fiquem interrompidos por gaps, mas os programas de alinhamento
de ácidos nucleicos não têm isso em conta. Os alinhamentos entre proteínas
são muito mais uteis porque a sequência proteica é muito mais conservada.
Pesquisa de homologias -Estes programas baseiam-se na procura de ORFs/
proteínas similares ou de dados de cDNA / EST1 nas BD. Assentam na
existência de seqs homólogas (não podem encontrar genes novos!) e na
exatidão dos dados de cDNA/EST, que nem sempre são fidedignos.
Ab initio - procuram codões de iniciação seguidos por frames com um
número mínimo de codões (50-60 - ex. orffinder do NCBI) e precedidos por
ribosome binding site (RBS). No fim da ORF procuram seqs terminadoras
(intrínsecas ou Rho-dependentes). usam informação sobre
promotoresconhecidos para procurar padrões parecidos
E-value- nº de alinhamentos que podemos esperar devido ao acaso numa
base de dados de um tamanho particular. Quanto menor(mais prox de zero),
mais "significativo". No entanto, os alinh. curtos praticamente idênticos
possuem valores E altos pq o cálculo do valor E leva em consideração o
comprimento da seqüência. Esses valores E elevados fazem sentido porque
seqüências mais curtas têm maior probabilidade de ocorrer no banco de
dados puramente por acaso.
RNA-seq- Northern blot; qRT-PCR- Transcreve-se o RNA em reverso
(produz cDNA) e faz-se PCR com um par de primers específicos para um
gene num termociclador que mede a formação de produto em tempo real.
Compara-se os resultados com curvas de calibração. Microarrays- Cria-se
cDNA marcado com cor microarrays fluorescente a partir do RNA das 2
condições a comparar e aplicase ao microarray: cores diferentes = expressão
diferente. ( cores intermédias expressão do gene nas 2 condições) BIOINF:
serve para interpretar os elementos funcionais do genoma. RNA-Seq revela a
localização precisa dos limites da transcrição
→ Identidade entre 2 sequências de ácidos nucleicos apenas se pode falar
em grau de identidade, uma base ou é igual a outra ou é diferente
Similaridade quando se fala em proteínas pode existir similaridade, existem
classes de aminoácidos com características similares (aminoácidos
parecidos)
Empirica- (melhor) baseada nas frequências de troca, de um aa por outro,
que se observam realmente na natureza entre proteínas com a mesma função.
Estas, chamadas tabelas empíricas, são as tabelas +usadas: ex. PAM,
BLOSUM. Pontuação/similidaridade- para correspondências entre aa.
Considera-se a identidade, mas pode também considerar-se a semelhança
(similaridade) entre os resíduos e a facilidade em passar do codão que
codifica o 1º aa para o codão que codifica o 2º.
BLASTN: compara a nossa seq de ANs com as BDs de AN BLASTP:
compara a nossa seq prot c/ as BDs de proteínas BLASTX: traduz a nossa
seq de ANs nas 6 frames possíveis e compara esta tradução com as BDs de
proteínas (na prática permite a comparação (indireta) de uma seq de ANs
com uma BD de proteínas, que direta/ seria impossível) TBLASTN:
compara a nossa seq proteica com as BDs de ANs traduzidas (nas 6 frames)
TBLASTX: compara a tradução (nas 6 frames) a nossa seq de ANs com as
BDs de ANs traduzidas (nas 6 frames)
CLUSTAL: utilizado para alinh. múltiplos de seq. Progressivo: 1. alinha
todas as seqs 2 a 2 usando um programa exaustivo; 2. constrói uma árvore-
guia a partir da pontuação de cada alinhamento – é um programa
“hierárquico”; 3.alinhamento dos pares + próximos e cria seqs consenso;
4.alinha estas seqs consenso entre elas, sempre 2 a 2, seguindo a árvore-guia,
até alinhar todas as seqs. Vantagens: é flexível. - Utiliza diferentes matrizes
de substituição, conforme o grau de similaridade; - Atribui penalidades
diferentes aos gaps: penaliza mais domínios conservados que zonas mais
variáveis. Limitações: - Não funciona bem se as seq tiverem comprimentos
mto diferentes entre si.- Penaliza muito gaps muito compridos pelo que às
vezes alinha mal seqs que necessitariam de interrupções grandes. - O
resultado final pode ser afectado pela ordem em que as sequências são
analisadas. - Gaps introduzidos no alinhamento dos 1ºs pares não podem ser
removidos a seguir uma má escolha feita no princípio ficará até ao fim do
alinhamento. T-Coffee alinha as seqs tanto globalmente (com o Clustal)
como localmente (usando o algoritmo Lalign): obtém um alinhamento
optimizado, mas é mais lento que o Clustal; Poa (partial order alignments)
não faz uma árvore-guia, analisa as seqs na ordem fornecida. É mais rápido e
mais acurado que Clustal; PRALINE é um programa online que analisa
cada sequência (apenas proteínas) com o PSI-BLAST primeiro e depois
compara os perfis de cada proteína. Incorpora também a informação sobre a
estrutura secundária da proteína: programa muito sofisticado, complexo e
portanto lento; Como funciona o BLAST- O blast procura “palavras”
idênticas ou muito parecidas com a nossa sequência na BD escolhida. O
comprimento das palavras usadas na pesquisa é tipicamente 3 aminoácidos
para as proteínas e 11 nucleótidos para os ácidos nucleicos. Cada
alinhamento assim encontrado é estendido para os lados e o score é
calculado de forma contínua.

GAPS-as sequências que queremos comparar nem sempre têm o


mesmo comprimento e às vezes sofreram indels, pelo q não se podem
alinhar simplesm/ do principio ao fim, mas é preciso introduzir
espaços (gaps) para o alinhamento ser mais ajustado.-na penalidade
atribuída aos gaps: em domínios conservados penaliza mais que em
zonas mais variáveis / de ligação entre domínios.
STS- seq-tagged sites: segmentos de sequência utilizados como
referência (alvo para RT-PCR) para os mRNAs deste gene. (= EST,
expressed sequence tags) Sig_peptide indica o destino da proteína
Mat_peptide polipéptido que fica depois de removerem as partes que
têm que ser clivadas.
Pairwise alignment alinhamento de 2 seq; gera todos os alinhamentos
possíveis e escolhe o que dá uma pontuação mais alta.
CAP força o alinhamento perfeito; pode trabalhar com 2 ou mais
sequências, pode trabalhar com sequências “viradas do avesso” e
privilegia resultados de zonas com boa identidade
distance based- Estes métodos baseiam-se em matrizes de distância
calculadas anteriorm/ e constroem a árvore começando pelo par de
sequências mais similares.- clustal). CARACTER BASED-
bootstrapping- Cria pseudoréplicas do alinhamento substituindo
colunas com outras colunas do próprio alinhamento. Em seguida
utiliza-se outro programa que compara os 100 resultados e sintetiza-os
numa árvore consenso. As pseudorréplicas têm todas o mesmo
comprimento do alinhamento originário pq em cada réplica algumas
colunas são perdidas enquanto outras são duplicadas.
BDs secundárias: contêm informação derivadas das BDs primárias
por análise ou anotação (ex. a RefSeq nr; a SWISS-Prot ou PIR que
contêm sequências de proteínas obtidas por tradução das sequências
nucleotídicas). Análise filogenética-Comparação de seqs homólogas
de espécies diferentes (rRNA ou proteínas específicas) para
reconstruir as relações entre os grupos: evolução e classificação.
similaridade entre sequências é fundamental para inferir a estrutura e
as funções duma proteína nova; reconstruir um fragmento genómico,
encontrar genes e reguladores numa sequência nova.
T é o score mínimo que o alinhamento das palavras iniciais tem de ter
para o programa começar a estender
alinhamento múltiplo: -permite revelar padrões e motivos
conservados num grupo / família de seqs
-permite detetar os resíduos indispensáveis para o funcionamento de
proteínas -permite proceder para a comparação filogenética entre seqs
-permite desenhar primers para PCR (eventualmente degenerados) que
amplifiquem todos os genes do grupo.

BLOSUM62 ou a PAM120. Quando está a lidar com seqs mais distantes,


utiliza a BLOSUM45 ou a PAM250

PRRN alinha as seqs repetindo a análise muitas vezes até o score do


alinhamento não melhorar mais; DIALIGN2 divide as seqs em
segmentos (blocks) e depois produz o alinhamento baseado nas
regiões que alinham melhor; Match-Box também divide as seqs
(apenas proteínas) em segmentos de 9 resíduos e usa os segmentos
que alinham melhor como “âncoras” para alinhar o resto das seqs;

relações entre espécies muito distantes temos de utilizar seqs muito


conservadas porque, se não, as diferenças entre elas são demasiado
numerosas.
Modelo evolutivo_ O mais simples é considerar apenas as identidades
como positivas, mas este é um modelo simplista pq cada base igual
pode ser fruto de mutação + reversão e os mismatches podem ser fruto
de mais que uma mutação. Isto quer dizer que a distância entre seqs na
realidade é maior do que parece a primeira vista: a este efeito dá-se o
nome de homoplasia, que os modelos tentam corrigir.

Optimaly based methods -Fitch-Margoliash e o Minimum Evolution


(ME).- lentos Clustering-based methods- UPGMA e NJ- rápidos
mas às vezes errados. O ideal: NJ generalizado

Maximum Parsimony (MP)- Este método analisa as seqs caráter por


caráter, hipotisando seqs ancestrais que permitam produzir as seqs em
análise através do menor número possível de mutações. A(s) árvore(s)
que no seu conjunto têm o menor número de mutações
(parcimoniosas) são as escolhidas como resultados. Maximum
Likelihood (ML) Este método calcula a probabilidade associada aos
eventos (mutações ou conservação) que dão origem a cada uma das
árvore possíveis e escolhe aquela com maior probabilidade.rigoroso,
rubosto mas lento.
O jackknifing tb produz pseudorréplicas mas elimina em cada réplica
metade das colunas ao acaso. Por isso é + rápido,mas perde metade da
informação. Não duplica.

Você também pode gostar