Escolar Documentos
Profissional Documentos
Cultura Documentos
II Curso de Bioinformática
Análise de Dados Moleculares
Guia do Usuário:
Aulas Práticas
Recife
2011
CURSO BIOINFORMÁTICA: ANÁLISE DE DADOS MOLECULARES
INTRODUÇÃO
Esta apostila foi criada, como parte integrante do curso Bioinformática: Análise
de Dados Moleculares, com o objetivo de auxiliar os profissionais da área das Ciências
da Vida na utilização de diferentes ferramentas de análise de dados que a
Bioinformática oferece. Este documento foi gerado para ser utilizado como um roteiro
em diversos tipos de análise de dados biológicos revelados a seguir.
http://www.bioinformatics.nl/cgi-bin/primer3plus/primer3plus.cgi
2. Colar a sequência de referência a qual se deseja obter primers e sondas.
Degenerando primers
http://www.idtdna.com/analyzer/applications/oligoanalyzer/
ANÁLISE DE CROMATOGRAMAS
O Pregap4 cria vários arquivos na pasta onde estão os dados dos cromatrgramas.
Desses arquivos, devemos dar destaque aos que tenham a extensão .exp, que são os
cromatogramas individuais com as análises do Pregap4, e um arquivo .aux que será o
input do Gap4.
Os arquivos EXP podem ser abertos no Trev para uma inspeção mais detalhada
(imagem abaixo). Para acessar o Trev, siga Iniciar > Programas > Staden Package >
Trev e use o menu “File” (1) para abrir o arquivo desejado. Na figura podem ser vistas a
extremidade mascarada por apresentar baixa qualidade (cinza escura) e os valores de
Phred para cada base (azul claro). No menu “Edit” (2) podemos alterar as regiões
mascaradas, e no menu “View” (3) podemos alterar as características de visualização.
Para continuar as análises devemos acessar o Gap4 em Iniciar > Programas >
Staden Package > Gap4, e usar o menu “File” para abrir o arquivo AUX. No primeiro
momento temos uma janela intitulada “Contig Selector” (destaque da figura abaixo) que
nos mostra os contigs gerados em nossa análise anterior, nesse caso há apenas um
contig representado (linha preta). Clicando com o botão direito na representação do
contig e acessando a opção “Contig Editor” podemos visualizar como o contig se
formou a partir dos reads.
A figura abaixo mostra “Contig Editor” com as sequencias dos reads, e do
consenso entre os reads (seta).
O menu “Settings” pode ser utilizado para alterar a forma de visualização, como
a adição dos cormatogramas para cada read (figura abaixo).
A opção “Save Consensus” em “File” nos permite salvar os consensos em
formato FASTA (figura abaixo).
As consultas, na maioria dos bancos de dados, também podem ser feitas através
de busca de similaridade entre sequências. O banco CDD (Conserved Domains
Database), através da ferramenta CD-Search
(http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi), nos possibilita a identificação
de domínios conservados em uma sequência de proteínas. A figura seguinte mostra a
entrada da ferramenta CD-Search com a área para a inserção da sequência protéica alvo
e, acima desta, link para a Batch CD-search, ferramenta utilizada para buscar várias
sequências protéicas contra o CDD. O botão “submit” inicia a análise do CD-search.
Como resultado, o CD-search elenca os domínios identificados na nossa proteína
alvo. A figura abaixo mostra o resultado de uma busca contra o CDD evidenciando o
domínio protéico identificado (acima) e o detalhamento do alinhamento entre a query e
a sequência do CDD.
Outro banco de dados do NCBI que pode ser utilizado para agregar informações
à sequências protéicas é o COG (Cluster of Orthologous Groups), disponível em
http://www.ncbi.nlm.nih.gov/COG/ (figura). O COG é formado por vários clusters
protéicos, que foram delineados comparando sequências de proteínas codificadas em
genomas completos, representando as principais linhagens filogenéticas. Cada COG
consiste em proteínas individuais ou grupos de parálogos de pelo menos três linhagens
e, assim, corresponde a um domínio antigo e conservado.
A ferramenta KOGnitor
(http://www.ncbi.nlm.nih.gov/COG/grace/kognitor.html) é utilizada para busca de
similaridade contra o KOG, versão do COG para eucariotos (figura abaixo).
O resultado de uma busca com o AmiGO, utilizando o termo acyl-CoA, pode ser
visto na próxima figura. Os termos que apresentam a palavra-chave são relatados, assim
como, seus respectivos identificadores e classes de ontologia.
Antes de uma análise ser iniciada no BLAST, nós temos a opção de alterar
alguns parâmetros, como tamanho da palavra seed, valores para match e mismatch e a
aplicação de determinados filtros. Estas opções são acessíveis através da opção
“Algotithm parameters” na página inicial do BLASTn (próxima figura).
A página de resultado do BLAST-NCBI pode ser subdividida em três partes. A
primeira é um sumário gráfico dos alinhamentos, onde as barras coloridas indicam
regiões com similaridade das sequências subjects e cada cor corresponde a uma
determinada faixa de score dos alinhamentos (figura abaixo).
ANÁLISE DE SNPs
Os SNPs estão distribuídos de forma não aleatória por todo genoma e ocorrem a
uma frequência de aproximadamente um em cada 1200 pares de bases, representando
assim as variáveis mais comuns no genoma humano (Sachidanandam et al., 2001;
Sherry et al., 2001; Venter, 2001). Um SNP se origina quando uma mutação pontual
ocorre no genoma, convertendo um determinado nucleotídeo em outro qualquer, e
forças evolutivas como: seleção natural, deriva genética e migração modulam a fixação
ou desaparecimento dessa mutação ao longo de gerações em uma população (Brown,
2002).
PedID SubID PaID MaID Sex Trait M1A1 M1A2 M2A1 M2A2
M1A1 e M1A2 são os dois alelos para o primeiro marcador. Estes devem ser numéricos
e podem ter qualquer valor, mas os alelos ausentes são codificados como 0.
M2A1 e M2A2 são os dois alelos para o segundo marcador, e assim por diante.
2. Selecionar File
3. Selecionar Marker
5. Selecionar Options
7. Selecionar Run
2. Selecionar File
3. Selecionar Marker
4. Selecionar Options
6. Selecionar Run
7. Selecionar File
Nesta janela selecione apenas as opções que estão presentes no seu arquivo de
entrada. Se no seu arquivo estiver presente uma linha com o nome dos lócus então a
opção 12 deve ser marcada. A opção 13 deve ser marcada se no arquivo contiver uma
linha sinalizando os alelos recessivos. Já a opção 14 deverá ser marcada apenas se você
obtiver a informação acerca da posição cromossômica dos seus lócus e se esta
informação estiver presente no formato de uma linha acima dos lócus. Se nenhuma
informação dessas está disponível não marque nenhuma dessas opções. Para seguir a
diante clique no botão “Next”, opção 15.
Nessa janela, assim como na anterior, apenas devem ser marcadas as opções que
têm a informação contida do arquivo de entrada. Por exemplo: a opção 16 deve ser
marcada se forem fornecidos os nomes de cada indivíduo no arquivo de entrada, assim
como as opções 17 e 18 devem ser marcadas se as informações sobre a população
geográfica de origem e informações fenotípicas são conhecidas, respectivamente. Para
finalizar clique no botão “Finish” marcado aqui com o número 19.
Irá aparecer uma nova janela para confirmação, para continuar clique em
“Proceed”. Após confirmar, outra janela aparecerá, como mostrado na figura abaixo:
Para isso, clique em “Parameter Set”, marcado aqui com o número 20 e depois
crie um novo parâmetro clicando em “New”, opção 21.
A nova janela apresentará 4 abas superiores, na primeira aba “22” deverá ser
indicado o tamanho da corrida da análise. A opção 25 “Length of Burnin Period” indica
o número de interações que serão descartadas, no chamado período de aquecimento. Os
valores obtidos nesse período não irão participar na estimativa final. O campo marcado
pelo número 26 representa o número de interações que o pesquisador deseja utilizar nas
suas análises.
Aparecerá um quadro como esse acima, onde deverá ser nomeado esse novo
parâmetro criado. Para concluir a criação do parâmetro, basta clicar em “OK”.
Após a criação do parâmetro o usuário deve iniciar as simulações baseadas no
parâmetro recém-criado. Para isso, deve-se clicar em “Project”, numerado aqui como
27, depois clique na opção representada pelo número 28 “Start a Job”, logo em seguida
aparecerá uma janela como segue abaixo:
Nessa janela o usuário deve selecionar o parâmetro, indicado aqui pelo número
29. Logo após, o usuário tem que ajustar o número de populações que devem ser
testadas com o parâmetro criado. Para ajustar o número de populações o programa pede
um intervalo, indicado aqui pelo número 30 para o limite inferior e pelo número 31 para
o limite superior. O número 32 indica o quadro com o número de repetições que o
usuário deseja fazer essa análise. Após todos os quadros preenchidos, basta clicar em
“Start” na opção 33 para enfim iniciar a análise.
Uma vez tendo em mãos tais valores é fácil calcular o ∆K. Primeiro, obtenha as
médias dos logaritmos para cada número de populações, vamos chamar esse valor de
L(K), onde K é o número de populações. Por exemplo: a média para o número de
populações dois será chamado de L(2). Segundo, calculamos as diferenças entre as
médias dos valores de populações consecutivas, chamaremos esse valor de L’(K). Esse
valor será L’(K) = L(K) - L(K-1). Por exemplo: L’(3) = L(3) - L(2). Terceiro,
calculamos o valor absoluto das diferenças entre os L’(K), chamaremos esse valor de
L’’(K) e será representado como │L’’(K)│ =│L’(K+1) – L’(K)│. Finalmente, a quarta
etapa é a estimação do ∆K que é definido como o valor absoluto médio de L’’(K) para o
número de simulações dividido pelo desvio padrão de L(K), ∆K = m│L’’(K)│/s [L(K)].
Após esses cálculos, para cada número de populações haverá um valor de ∆K.
Então esses valores devem ser distribuídos para uma melhor visualização deste guia. O
número de populações indicado pelo programa é aquele que possuir o valor modal desta
distribuição de ∆K. Agora que o usuário já sabe o número de populações inferido pelo
Structure, é hora de visualizar essa estruturação em gráfico de barras como mostrado na
figura abaixo:
O software é capaz de lidar com dados genéticos sob muitas formas diferentes, e
tentar realizar os mesmos tipos de análises independentemente do formato dos dados.
Devido ao rico conjunto de recursos e muitas opções que o Arlequin dispõe, isto implica
que o usuário pode levar algum tempo para aprendê-las. São vários os tipos de formato
suportados que podem ser dados haplotípico (mtDNA, Cromossomo Y, procariotos) ou
genotípicos, dentre eles destacam-se as sequências de DNA, marcadores RFLPs,
microssatélites e frequências alélicas. As análises realizadas aqui se enquadram nas duas
principais categorias metodológicas da genética de populações: métodos intra-
populacionais (sítios polimórficos, diversidade gênica, diversidade nucleotídica,
diversidade haplotípica, distribuição de mismatch, equilíbrio de Hardy-Weinberg,
desequilíbrio de ligação, teste de neutralidade de Tajima, etc) e inter-populacionais
(busca de haplótipos compartilhados entre populações, análise de variância molecular,
distâncias genéticas pareadas, detecção de lócus sob seleção, teste de Mantel, etc).
Ao abrir o arquivo, surgirá uma aba denominada “Project”, marcada abaixo com
o número 1. Esta aba mostrará os nomes das populações presentes no conjunto de dados
(número 2) e também os grupos as quais as populações pertencem (número 3).
Para editar a estrutura do conjunto de dados o usuário deve clicar na aba
“Structure Editor” (retângulo 4). Nesta aba o usuário terá a opção de atribuir as
populações a determinados grupos, para isso basta clicar duas vezes sobre o número
grupo (retângulo 5) e digitar o número desejado para o grupo, após as alterações será
possível observá-las abaixo de “Resulting structure” (retângulo 6). Se o usuário desejar
salvar as alterações basta clicar na opção “Update Project” (retângulo 7).
O próximo passo é ajustar quais análises o usuário deseja fazer, para isso basta
clicar na aba “Settings” (retângulo 8 da figura abaixo). Ao clicar aparecerão várias
opções de análise, enumeradas aqui de 9 a 20. Para selecionar uma análise o usuário
deve clicar na análise escolhida (retângulo 9), surgindo assim uma janela no meio da
tela com os ajustes da análise. Nesta janela o usuário deve marcar as opções desejadas
para a análise escolhida (retângulo 21).
Ao clicar na opção “Manual” aparecerá uma janela como na figura acima, nessa
janela o usuário tem que especificar qual tipo de dado ele está trabalhando (retângulo), e
para prosseguir clicar em “Continue”.
Uma vez criado o conjunto de dados, é hora de realizar as análises. Para isso o
usuário deve clicar em “Calculate Network” (retângulo 11 da figura acima), ao clicar
outras abas aparecerão. Se o usuário desejar fazer um pré-processamento dos dados, ele
pode clicar na opção “Optional Pre-Processing” (retângulo 12). Nesta opção os seus
dados serão contraídos em formato de estrela antes da análise.
Após escolher esta opção uma janela se abrirá e nela clique em “File” (figura
acima) e “Open” para abrir o arquivo de entrada.
Antes de rodar a análise de Median Joining o usuário pode ajustar os parâmetros
no algoritmo, para isso ele deve clicar em “Parameters” (retângulo 17 da figura acima).
Nesta opção serão disponibilizados alguns parâmetros com mudança no peso do lócus,
mudança no Epsilon (estimativa de distância genética ponderada), escolher os
haplótipos com frequência maior que um, entre outras opções. Após os ajustes dos
parâmetros, o usuário deve clicar em “Calculate Network” (retângulo 18).
Agora que os cálculos foram realizados, o usuário já pode desenhar a sua rede de
haplótipos clicando em “Draw network” (marcado na figura acima).
Uma nova janela abrirá e nela o usuário deve clicar em “File” (retângulo 19) e
“Open” (retângulo 20) para abrir o arquivo recém-gerado.
Para editar a rede de haplótipos, o usuário tem de clicar com o botão direito do
mouse sobre o nó desejado (haplótipo). Ao clicar, se abrirá uma janela com opções para
alterar a configuração dos haplótipos (figura abaixo). Nesta janela o usuário pode
atribuir fatias ao seu haplótipo, número de indivíduos por fatia e cor das fatias para
representar os indivíduos que possuem aquele haplótipo.
Depois de alterar as configurações dos haplótipos, a imagem pode ser salva da
seguinte forma: clicando em “File” (retângulo 21 da figura abaixo) e “Save” (retângulo
22). O arquivo de saída deve ser salvo primeiramente no formato .fdi e também pode ser
salvo como figura em dois formatos opcionais: .pdf e .bmp.
Após abrir o arquivo com extensão .fdi, o usuário tem a opção de calibrar a taxa
de mutação para o seu marcador utilizado (retângulo 25 da figura abaixo), depois ele
deve clicar em “Specify ancestral node” (retângulo 26) e clicar no nó ancestral, em
seguida ele clica em “Specify descendent nodes” (retângulo 27) e clica sobre o nó
descendente. Posteriormente o usuário clicará em “Calculate time” (retângulo 28) e os
resultados aparecerão num quadro (retângulo 29), os resultados indicarão o tempo de
divergência entre os dois nós em mutações e em anos.
SELEÇÃO DE MODELOS EVOLUTIVOS
Note que as topologias obtidas pelo método de UPGMA não possui a função de
enraizamento, e esta é uma limitação do método, entretanto NJ e ME permitem que se
escolha o grupo externo através do botão 11.
Máxima Parcimônia
4. Digite M, até achar o modelo evolutivo para seu conjunto de dados, sugerido pelo
JModelTest.
10. Abra o programa MEGA5 para visualizar a topologia. Clique em “User tree”, em
seguida “Display Newick trees”.
Note que, ao visualizar a topologia, os valores de bootstrap irão variar de 1 a
1000, logo, antes de visualizar a topologia, edite o arquivo da árvore em um documento
de texto.