Você está na página 1de 12

Caracterização Molecular de um Gene por Bioinformática

Muitos genes que codificam proteína, de humanos e de outros organismos, já foram


identificados e sequenciados. Entretanto, a determinação da função dos produtos proteicos
de muitos desses genes ainda é necessária para entender seu papel nas células. No
laboratório, podemos determinar onde uma proteína codificada se localiza na célula, em
quais momentos o gene é ativado, sua função na célula ou em organismos modelos, dentre
tantas outras técnicas. Entretanto, esses experimentos são dispendiosos e demorados, sendo
que muitos genes e seus produtos ainda não têm seu papel e atividade bem elucidados. Para
contornar essa situação, pesquisadores tendem a recorrer a ferramentas de bioinformática
para um estudo prévio de uma sequência de um gene de estudo, a fim de tentar compreender
seu papel na célula sem a necessidade de estudos laboratoriais mais robustos.
Para o estudo por bioinformática de um gene de interesse, é necessário a
comparação dessa sequência com sequências conhecidas e já estudadas. Informações sobre
genes e seus produtos estão disponíveis em uma variedade de fontes, como no Entrez Gene,
SwissProt, Protein Data Bank e outros, provendo informações acuradas e compreensivas. A
descoberta e a predição de função de um gene ainda não caracterizado e o papel da proteína
codificada por ele só é possível com a comparação de dados em bancos de dados, como
anotação funcional, literatura, microarranjo, domínios proteicos, interação proteína-proteína
e similaridade entre sequências.

Alinhamento aos pares (parwise)


Após o isolamento e sequenciamento do gene que se quer estudar, o primeiro passo
para a análise é a busca por sequências similares ao gene de interesse em bancos de dados
através de alinhamento aos pares. O programa mais utilizado para realizar uma busca em
bancos de dados é o BLAST (discutido anteriormente). O BLAST é uma ferramenta de
alinhamento que utiliza um algoritmo heurístico que se baseia em palavras. Ao encontrar
sequências homólogas, pode-se inferir função do gene de interesse, além de poder utilizar as
sequências encontradas para estudar filogenia evolutiva.
Além de ferramentas como o BLAST e o FASTA, outros programas também
utilizam o princípio do alinhamento de sequências. O programa BLAT (BLAST Like
Alignment Tool), embora baseado no BLAST, é estruturalmente diferente. Esse programa
foi criado no início dos anos 2000 para auxiliar a montagem e anotação do genoma humano.
Ele diminui o tempo de busca, sendo mais rápido que a grande maioria dos algoritmos de
alinhamento de sequências, trabalhando melhor com sequências que apresentam alta
similaridade.
O BLAT (Fig. 1) pode ser utilizado para alinhar sequências de mRNA em uma
montagem de genoma para inferir as coordenadas dessas sequências no genoma; determinar
homologia entre sequências de duas espécies; determinação da distribuição de regiões
exônicas e intrônicas de um gene, entre outras funções. BLAT indexa o banco de dados
genoma/proteína, retém o índice na memória e, em seguida, e busca por correspondências
(matches) com a sequência query (diferente do BLAST, que consulta diretamente o banco
de dados). BLAST só aceita sequências no formato FASTA (não aceita números de acessos)
e é menos sensível que o BLAST.

Figura 1. Resultado obtido em uma busca no programa BLAT. O melhor score apresenta e
a melhor identidade indica o melhor resultado encontrado. A sequência em questão é
encontrada no cromossomo 11 do ser humano com sequências similares presentes em outros
cromossomos.

Alinhamento múltiplo
Após encontrar sequências homólogas pro gene de estudo, um próximo passo pode
ser inferir a relação evolucionária entre as sequências através de alinhamento múltiplo
(discutido anteriormente). Além de inferir evolução das sequências, o alinhamento múltiplo
também pode ser utilizado para a detecção de mutações em sequências de um mesmo gene
em diferentes indivíduos. Diferentes programas são utilizados no alinhamento múltiplo,
como o Clustal, T-Coffee, MUSCLE, MAFFT e ProbCons. Muitos programas utilizam o
algoritmo do alinhamento progressivo (descrito anteriormente).

Fase de leitura aberta (ORF)


Quando analisando uma sequência desconhecida, um passo fundamental é tentar
encontrar a região que codifica uma proteína. Para tanto, deve ser realizada uma busca pelas
possíveis fases de leitura aberta (do inglês, open reading frames, ORF) (Fig. 2). A ORF é
uma região contínua de códons da sequência de DNA que se inicia em um códon de início
(geralmente AUG) e termina em um códon de parada (geramente UAA, UAG ou UGA). Em
células eucarióticas, cujos genes contém múltiplos éxons e íntrons, o início e fim da ORF se
aplica apenas ao mRNA após splicing, não ao DNA genômico.

Figura 2. A fase de leitura aberta (open reading frame) é a sequência do gene que codifica
a proteína e se estende desde o códon de início até o códon de parada. As outras regiões de
um gene, como promotores e reguladores, não fazem parte da fase de leitura aberta.

Ferramentas de bioinformática estão disponíveis para encontrar ORF em sequências


de DNA. Esses programas devem conseguir discriminar regiões entre ORFs codificantes e
regiões não-codificantes e identificar corretamente o códon de início (que pode variar
dependendo do organismo de origem). Esses programas podem utilizar diferentes algoritmos
para realizar sua função, como modelos ocultos de Markov (HMM), máquina de suporte de
vetores e mapas auto-organizáveis. Além disso, o programa para encontrar sequências
codificantes deve ser escolhido dependendo da origem da sequência estudada. Por exemplo,
o programa EasyGene é utilizado para genes bacterianos e de arqueias, o MetaGUN para
sequências obtidas de estudos metagenômicos e o CONRAD é utilizado para genes de
eucariotos.
O ORFfinder (https://www.ncbi.nlm.nih.gov/orffinder/) (Fig. 3) é um programa de
análise que busca por ORFs e retorna o intervalo de cada ORF, junto com sua tradução da
proteína. Esta ferramenta identifica as fases de leitura aberta usando os códigos genéticos
padrão ou alternativos. Assim, esse programa pode ser utilizado para pesquisar o DNA recém
sequenciado quanto a possíveis segmentos que codificam proteínas e verificar a proteína
prevista usando o SMART BLAST recém-desenvolvido ou o BLASTP regular.
Figura 3. Resultado obtido utilizando o ORFfinder. Aqui, foi analisado uma sequência de
um plasmídio de Salmonella enterica. As ORFs encontradas são marcadas em vermelho e a
seta indica a direção da leitura (senso ou antissenso). As várias leituras encontradas estão
dispostas no quadro a direita inferior. Ao selecionar uma ORF, é possível ver sua sequência
traduzida (quadro inferior esquerdo). Essa sequência proteica traduzida pode ser utilizada
para buscar sequências similares no BLAST e encontrar a possível proteína codificada.

Tradução da sequência de DNA


Caso a sequência estudada seja uma sequência sabidamente codificante (p. ex., a
partir de mRNA), a tradução para a possível sequência proteica que essa sequência codifica
deve ser encontrada. A possível proteína pode ser, então, estudada. Para tanto, uma atenção
deve ser dada ao código genético utilizado para realizar a tradução. Dependendo do
organismo ou da origem do DNA, o código adequado deve ser escolhido, por exemplo se a
sequência é oriunda de DNA mitocondrial de vertebrados, se de bactéria, arqueia ou
plastídios de planta ou se um fungo. Ferramentas como o translate tool do ExPASy
(https://web.expasy.org/translate/) podem ser utilizadas para essa finalidade.

ESTUDO DA PROTEÍNA
Classificação de domínios proteicos
Domínios proteicos são porções conservadas em uma sequência e estrutura que
pode evoluir, funcionar e existir independente do resto da proteína. Ou seja, se o domínio
for retirado da proteína, ele mantém sua forma e função. Um domínio consiste em, pelo
menos, 50 aminoácidos e uma proteína comumente tem dois a três domínios. Cada domínio
pode realizar uma função específica da proteína. Pode interagir com outras proteínas, se ligar
a um íon como cálcio ou zinco, ou pode conter um sítio ativo. Existem coleções de domínios
que podem ser utilizados para busca de domínios em sequências proteicas de interesse.
O estudo dos domínios proteicos de uma sequência pode fornecer uma visão
aproximada da função da proteína, além de facilitar o estudo da evolução entre proteínas que
apresentam domínios semelhantes. Entre os algoritmos utilizados para classificar domínios
estão algoritmos de agrupamento de domínios, a maioria utilizando alinhamento aos pares
para encontrar regiões similares entre sequencias proteicas. Após o alinhamento, o algoritmo
agrupa os fragmentos de acordo com sua similaridade e pode repetir isso várias vezes com
várias sequências para encontrar os melhores resultados. Entre programas que realizam
agrupamento automático de domínios estão o ADDA, o CDD e o EVEREST.
Embora úteis, alinhamento aos pares capturam apenas um número limitado de
relações evolucionárias entre domínios proteicos. Para tentar contornar esse problema, o uso
de alinhamento múltiplo é necessário, uma vez que essa abordagem é mais precisa para
revelar resíduos altamente conservados em domínios. Sendo assim, características únicas de
cada família e domínio podem ser capturadas em forma de padrões ou perfis. Programas que
utilizam alinhamento múltiplo para criar bancos de dados sobre domínios geralmente
utilizam matrizes de pontuação de posição específica (PSSM) ou modelos ocultos de
Markov, sendo métodos que utilizam esse último altamente discriminatórios.
Diferentes coleções de domínios proteicos estão disponíveis. O projeto InterPro
(Integrated domain Family resource) foi criado para realizar a busca de domínios em
diferentes bancos de dados simultaneamente. Entre as coleções utilizadas pelo InterPro etão
o PROSITE-Profile, PfamA, PRINTs, PRODOM, SMART e BLOCKs. O InterProScan
(https://www.ebi.ac.uk/interpro/search/sequence-search) é uma ferramenta que permite o
pesquisador comparar a sequência proteica em estudo com o banco de dados InterPro.
InterProScan pode ser utilizado para classificar proteínas em famílias e prever domínios e
sítios importantes. Além do InterProScan, outros programas de busca podem ser utilizados
para aumentar as chances de encontrar um bom resultado, como o CD-Search e o Motif-
Scan.
O InterProScan gera uma grande quantidade de informação e os resultados devem
ser interpretados corretamente. Na Figura 4 está descrito uma interpretação dos resultados
obtidos na busca por domínios utilizando InterProScan.
Figura 4. Resultado obtido utilizando o InterProScan. A primeira informação obtida é a
família a qual possivelmente a proteína alvo pertence. Alguns domínios e assinaturas são
específicos de uma família proteica ou domínio proteico. Quando vários domínios ou
assinaturas de diferentes bancos de dados descrevem a mesma coisa, o InterPro agrupa em
uma mesma caixa. O link IPR##### aponta para os documentos no banco da InterPro. As
barras coloridas apontam as áreas de similaridades com os domínios nos bancos de dados.
Além desses resultados, dados do Gene Ontology também são mostrados no final da página
(não inclusos nesse imagem).

Predição de estrutura secundária da proteína


Para compreender a função da proteína, sua estrutura deve ser analisada. Na
biologia, a sequência proteica (sequência de aminoácidos) é chamada de estrutura primária,
sendo a estrutura terciária, ou 3-D, a forma final de uma proteína. A estrutura intermediária
é denominada estrutura secundária. Essa estrutura é a dobra primária de uma cadeia
polipeptídica e a base da estrutura espacial da proteína
Quando os primeiros cristalógrafos começaram a olhar para as estruturas de
proteínas, eles descobriram (e previram) que havia uma hierarquia na maneira pela qual as
sequências de aminoácidos se dobram sobre si mesmas para se tornarem uma molécula
biologicamente ativa. Os aminoácidos olham primeiro para os seus vizinhos imediatos na
sequência para formar regiões de conformação periódica e regular (formas do esqueleto).
Depois, a cadeia colapsa ainda mais, dobrando as regiões pré-moldadas umas sobre as outras
(ou em regiões não estruturadas), levando à estrutura 3-D final na qual os resíduos que estão
distantes na sequência entram em contato direto um com o outro.
Existem três tipos de segmentos locais que formam as estruturas secundárias de
uma proteína: (1) hélices, onde os resíduos parecem estar seguindo a forma de uma mola,
sendo os mais comuns são os chamados hélices alfa; (2) folhas beta ou extendidas, onde os
resíduos estão alinhados e os resíduos sucessivos se viram de costas um para o outro; (3) e
random coils (“espiral aleatória”), quando a cadeia de aminoácidos não é nem helicoidal
nem em folha estendida. Dentro da última categoria (coils), biólogos gostam de distinguir os
casos em que a cadeia faz uma curva acentuada (90° ou mais), chamando essas curvas de
loop (volta ou laço).
Prever a estrutura secundária das proteínas foi um dos principais objetivos nos anos
1990. É justo dizer que este é um dos grandes sucessos dessa década. Atualmente, existem
servidores razoavelmente bons que usam modelos ocultos de Markov e redes neurais
artificiais (RNAs) para prever com precisão a estrutura secundária de qualquer proteína que
possa lhe interessar. Se sua proteína tiver homólogos suficientes nos bancos de dados atuais,
a previsão da estrutura secundária pode chegar próxima dos 80% de precisão. No entanto,
tenha em mente que isso é apenas uma previsão; como com todas as previsões, pode ser mais
ou menos imprecisa.
Durante a previsão da estrutura secundária da proteína, os algoritmos utilizados
podem tanto realizar alinhamento e comparação com sequências homólogas com estruturas
conhecidas como análise das características físico-químicas dos aminoácidos da sequência.
Entre os programas para predição de estruturas secundárias estão o PSIPRED
(http://bioinf.cs.ucl.ac.uk/psipred/), que utiliza redes neurais que realizam uma análise da
sequência de saída obtida no PSI-BLAST, o SOPMA (Self OPtmised Prediction Method for
multiple Alignments) e o Jpred (http://www.compbio.dundee.ac.uk/jpred/).
O Jpred é um programa que se utiliza de redes neurais artificiais para atribuir
estrutura secundária a uma sequência a partir de perfis proteicos encontrados no PSI-BLAST
e no HMMMER. A Figura 5 mostra um resultado de predição obtido utilizando o Jpred.
Figura 5. Resultado obtido utilizando o Jpred. Aa primeira linha mostra a sequência de
aminoácidos. Lupas indicam as previsões de coiled-coil para a sequência, sendo previsões
binárias para cada local. JnetPRED indica a predição consenso, sendo hélices marcadas
como tubos vermelhos e folhas como setas verdes. Jnet Burial (não mostrado na imagem)
indica a previsão de acessibilidade do solvente. Os outros dados são análises de predições
baseados em diferentes bancos de dados ou técnicas (alinhamento, modelos ocultos de
Markov, PSSM).

Predição de estrutura 3-D da proteína


A predição da estrutura proteica é a inferência da estrutura tridimensional (3-D)
de uma proteína a partir de uma sequência de aminoácidos. Muitas informações sobre
estruturas proteicas 3-D obtidas em experimentação estão disponíveis em bancos de dados
graças a técnicas como cristalografia de raios-X e ressonância nuclear magnética de
proteínas. Como foi o caso quando os biólogos moleculares do mundo concordaram em
centralizar seus dados de sequência no banco de dados do GenBank/EMBL/DDBJ, todos os
biólogos estruturais concordaram em depositar suas coordenadas de estrutura 3-D em um
único banco de dados: o Protein Data Bank. Todo mundo se refere a este banco de dados
por sua sigla: PDB.
Como outros repositórios de dados, o Protein Data Bank (PDB) oferece uma
interface bastante assustadora que não foi especialmente projetada para os não-especialistas
na área. No entanto, nos raros casos em que você sabe exatamente o que está procurando
você pode querer recuperar um conjunto de dados de estrutura de proteína 3-D diretamente
de um dos sites do PDB. Antes de consultar o PDB, certifique-se de coletar algumas
informações precisas sobre a estrutura que está procurando, como o nome exato da proteína
ou seu identificador do PDB (o equivalente ao número de acesso no GenBank). Geralmente,
você pode obter esse identificador de fontes de fácil utilização, como o servidor
ExPASy/Swiss-Prot ou usando as várias ferramentas de consulta NCBI.
A previsão da estrutura computacional de proteínas fornece estruturas
tridimensionais de proteínas que são previstas por técnicas in silico. Essa modelagem de
proteínas baseia-se em princípios de estruturas de proteínas conhecidas obtidas por meio de
cristalografia de raios X, ressonância nuclear magnética, bem como de funções de energia
física. Os principais métodos de modelagem computacional de proteínas são a modelagem
por homologia, o reconhecimento de dobras e a modelagem ab initio.
Métodos de modelagem de novo ou ab initio tentam predizer a estrutura da proteína
a partir somente da sequência, quando uma estrutura similar não é disponível. As estruturas
de proteínas são construídas a partir do zero, calculando as conformações de energia mais
favoráveis e baseia-se em princípios físicos e coevolução observado em várias proteínas
diferentes. Este método só deve ser usado como último recurso. No método de
reconhecimento de encadeamento/dobras (Threading/Fold Recognition) pode-se prever
as estruturas de proteínas de sua proteína alvo usando dobras de proteínas conhecidas de
proteínas similares encontradas em diferentes bancos de dados. Esse método é uma variação
da modelagem por homologia. O programa HHPred é um exemplo de programa que utiliza
reconhecimento de dobras.
A modelagem por homologia (ou modelagem comparativa) só é utilizada
quando se tem uma sequência proteica estruturalmente desconhecida e uma proteína
semelhante estruturalmente conhecida (mais de 30% de identidade). Este método baseia-se
em programas como o BLAST para procurar proteínas similares em bancos de dados
estruturais de proteínas, como o PDB. Sendo assim, você compara a sequência de proteínas
com estruturas de modelo conhecidas. Essa técnica assume que a proteína em questão possua
uma forma semelhante a uma outra proteína homóloga.
A modelagem por homologia envolve vários passos, cada qual crucial para a
produção de uma proteína 3-D. Programas que realizam esse tipo de modelagem geralmente
seguem os passos principais descritos a seguir:
1. Após a escolha da sequência alvo (a sequência de proteína que você quer modelar), a
busca por proteínas templates (moldes) é realizada. A “proteína modelo” é a estrutura
da proteína de referência. Neste caso, a proteína alvo é alinhada com todas as sequências
de proteínas de estruturas conhecidas que estão presentes nos bancos de dados de
estruturas proteicas. As proteínas com identidade mais alta para a sequência alvo como
proteínas modelos são selecionadas.
2. Em seguida, as sequências de proteína alvo e modelo são alinhadas usando um algoritmo
de alinhamento de sequência. Este é um passo muito importante na modelagem de
proteínas. O uso de um algoritmo de alinhamento apropriado é um requisito para o
modelo correto da proteína. O alinhamento compara as proteínas e apresenta as áreas
idênticas nas proteínas.
3. As estruturas secundárias das proteínas são modeladas através de ferramentas de
previsão de estrutura secundária (por exemplo, ferramentas presentes no Portal
ExPASy). Compara as estruturas secundárias de proteínas alvo e modelo e as analisa.
4. Com uma proteína modelo, pode-se agora construir um modelo da proteína alvo.
Esses modelos, após construção, serão analisados e sua estrutura 3-D verificada. Em
seguida, se houver loops (alças ou laços) presentes na estrutura, você poderá otimizá-
los ainda mais com a modelagem de loop.
5. Para otimizar loops presentes na proteína modelo, use o software de modelagem de loop,
como o servidor OMIC, Modloop ou outros. Isso irá melhorar a precisão da estrutura.
6. Finalmente, uma vez que você tenha um modelo provisório, precisará melhorá-lo - até
sua estrutura nativa próxima, via minimização de energia. Você pode fazer isso com
ferramentas de validação de modelo de proteína e servidores de verificação.
Consequentemente, esses testes de validação mostram se o seu modelo de proteína é
energeticamente satisfatório.
Um exemplo de programa de modelagem por homologia é o SWISS-MODEL
(https://swissmodel.expasy.org/interactive). O SWISS-MODEL é um servidor de
modelagem de homologia de estrutura proteica totalmente automatizado baseado em
semelhança local das sequências proteicas e montagem de fragmentos. Esse programa segue
os principais passos descritos acima (busca por sequências similares, alinhamento de
sequências, analisar estruturas secundárias, construção de um modelo). A Figura 6 mostra
um resultado obtido utilizando modelagem no SWISS-MODEL.

Figura 6. Resultado obtido utilizando o SWISS-MODEL. Note o alinhamento entre a


sequência alvo e a proteína modelo abaixo. Alfa hélices e folhas betas são apontadas na
sequência.
Predição de interações
Após a predição da possível estrutura 3-D da proteína estudada, um pesquisador
pode analisar a proteína quanto sua interação com outras proteínas ou com a proteína e
pequenas moléculas. Essas técnicas são chamadas de docagem molecular (molecular
docking). A predição da interação proteína-proteína busca identificar e catalogar
interações físicas entre pares ou grupos de proteínas. A predição de interação entre proteínas
é importante na investigação de vias de sinalização intracelular, na modelagem de estruturas
complexas (as estruturas quaternárias), bem como compreender complexos bioquímicos
que ocorrem entre uma ou mais proteínas. Programas e bancos de dados para a predição de
interação proteína-proteína estão disponíveis, como o STRING (Search Tool for the
Retrieval of Interacting Genes/Proteins), o Struct2Net e o PSOPIA (Predction Server of
Protein-Protein Interaction).
A docagem molecular tradicional (também conhecida como ancoragem molecular)
visa observar a interação entre uma proteína e uma molécula menor (denominada ligante)
(Fig. 7). A docagem pode ser usada para modelar a interação entre uma molécula pequena e
uma proteína a nível atômico, o que nos permite caracterizar o comportamento de moléculas
pequenas no sítio de ligação de proteínas alvo, bem como elucidar processos bioquímicos
fundamentais. O processo de acoplamento envolve duas etapas básicas: predição da
conformação do ligante, bem como sua posição e orientação dentro desses locais (geralmente
referida como posição) e avaliação da afinidade de ligação. Essas duas etapas estão
relacionadas aos métodos de amostragem e esquemas de pontuação, respectivamente. A
docagem molecular é muito utilizada no estudo de possíveis novas drogas. Programas como
o AutoDock, o FlexX e o FTDock podem ser utilizados para avaliar a interação proteína-
ligante.

Figura 7. Exemplos de resultados obtidos através de docagem molecular (docking) entre


proteína e ligante. Esse tipo de abordagem é bastante utilizado no estudo de interação entre
fármacos e alvos proteicos.
Referências
Cleverie, J. M, Notredame, C. (2007) Bioinformatics for Dummies, 2nd edittion. Wiley
Publishing, Indiana, EUA.
Meng, X. Y., Zhang, H. X., Mezei, M., Cui, M. (2011). Molecular Docking: A powerful
approach for structure-based drug Discovery. Curr Comput Aided Drug Des, 7(2): 146-
157.
https://bitesizebio.com/38005/computation-protein-modeling/

Você também pode gostar