Escolar Documentos
Profissional Documentos
Cultura Documentos
Figura 1. Resultado obtido em uma busca no programa BLAT. O melhor score apresenta e
a melhor identidade indica o melhor resultado encontrado. A sequência em questão é
encontrada no cromossomo 11 do ser humano com sequências similares presentes em outros
cromossomos.
Alinhamento múltiplo
Após encontrar sequências homólogas pro gene de estudo, um próximo passo pode
ser inferir a relação evolucionária entre as sequências através de alinhamento múltiplo
(discutido anteriormente). Além de inferir evolução das sequências, o alinhamento múltiplo
também pode ser utilizado para a detecção de mutações em sequências de um mesmo gene
em diferentes indivíduos. Diferentes programas são utilizados no alinhamento múltiplo,
como o Clustal, T-Coffee, MUSCLE, MAFFT e ProbCons. Muitos programas utilizam o
algoritmo do alinhamento progressivo (descrito anteriormente).
Figura 2. A fase de leitura aberta (open reading frame) é a sequência do gene que codifica
a proteína e se estende desde o códon de início até o códon de parada. As outras regiões de
um gene, como promotores e reguladores, não fazem parte da fase de leitura aberta.
ESTUDO DA PROTEÍNA
Classificação de domínios proteicos
Domínios proteicos são porções conservadas em uma sequência e estrutura que
pode evoluir, funcionar e existir independente do resto da proteína. Ou seja, se o domínio
for retirado da proteína, ele mantém sua forma e função. Um domínio consiste em, pelo
menos, 50 aminoácidos e uma proteína comumente tem dois a três domínios. Cada domínio
pode realizar uma função específica da proteína. Pode interagir com outras proteínas, se ligar
a um íon como cálcio ou zinco, ou pode conter um sítio ativo. Existem coleções de domínios
que podem ser utilizados para busca de domínios em sequências proteicas de interesse.
O estudo dos domínios proteicos de uma sequência pode fornecer uma visão
aproximada da função da proteína, além de facilitar o estudo da evolução entre proteínas que
apresentam domínios semelhantes. Entre os algoritmos utilizados para classificar domínios
estão algoritmos de agrupamento de domínios, a maioria utilizando alinhamento aos pares
para encontrar regiões similares entre sequencias proteicas. Após o alinhamento, o algoritmo
agrupa os fragmentos de acordo com sua similaridade e pode repetir isso várias vezes com
várias sequências para encontrar os melhores resultados. Entre programas que realizam
agrupamento automático de domínios estão o ADDA, o CDD e o EVEREST.
Embora úteis, alinhamento aos pares capturam apenas um número limitado de
relações evolucionárias entre domínios proteicos. Para tentar contornar esse problema, o uso
de alinhamento múltiplo é necessário, uma vez que essa abordagem é mais precisa para
revelar resíduos altamente conservados em domínios. Sendo assim, características únicas de
cada família e domínio podem ser capturadas em forma de padrões ou perfis. Programas que
utilizam alinhamento múltiplo para criar bancos de dados sobre domínios geralmente
utilizam matrizes de pontuação de posição específica (PSSM) ou modelos ocultos de
Markov, sendo métodos que utilizam esse último altamente discriminatórios.
Diferentes coleções de domínios proteicos estão disponíveis. O projeto InterPro
(Integrated domain Family resource) foi criado para realizar a busca de domínios em
diferentes bancos de dados simultaneamente. Entre as coleções utilizadas pelo InterPro etão
o PROSITE-Profile, PfamA, PRINTs, PRODOM, SMART e BLOCKs. O InterProScan
(https://www.ebi.ac.uk/interpro/search/sequence-search) é uma ferramenta que permite o
pesquisador comparar a sequência proteica em estudo com o banco de dados InterPro.
InterProScan pode ser utilizado para classificar proteínas em famílias e prever domínios e
sítios importantes. Além do InterProScan, outros programas de busca podem ser utilizados
para aumentar as chances de encontrar um bom resultado, como o CD-Search e o Motif-
Scan.
O InterProScan gera uma grande quantidade de informação e os resultados devem
ser interpretados corretamente. Na Figura 4 está descrito uma interpretação dos resultados
obtidos na busca por domínios utilizando InterProScan.
Figura 4. Resultado obtido utilizando o InterProScan. A primeira informação obtida é a
família a qual possivelmente a proteína alvo pertence. Alguns domínios e assinaturas são
específicos de uma família proteica ou domínio proteico. Quando vários domínios ou
assinaturas de diferentes bancos de dados descrevem a mesma coisa, o InterPro agrupa em
uma mesma caixa. O link IPR##### aponta para os documentos no banco da InterPro. As
barras coloridas apontam as áreas de similaridades com os domínios nos bancos de dados.
Além desses resultados, dados do Gene Ontology também são mostrados no final da página
(não inclusos nesse imagem).