Você está na página 1de 92

Curso de Atualização

II Curso de Bioinformática
Análise de Dados Moleculares

Guia do Usuário:
Aulas Práticas

Recife
2011
CURSO BIOINFORMÁTICA: ANÁLISE DE DADOS MOLECULARES

INTRODUÇÃO

Com a realização de pesquisas envolvendo geneticistas e químicos surgiu à


conclusão que o DNA era a molécula que armazenava a informação genética, e em 1953
sua estrutura ficou conhecida pelo trabalho desenvolvido por Watson e Crick.
Posteriormente surgiram métodos de sequenciamento de DNA, permitindo o estudo
mais aprofundado dos genes. Por volta da década de 90, começaram a surgir
sequenciadores automáticos de DNA aumentando consideravelmente a quantidade de
sequências genéticas a serem analisadas e armazenadas, consequentemente exigindo
cada vez mais recursos computacionais como armazenamento e interpretação dos
resultados obtidos - surgia assim à Bioinformática. Essa nova ciência envolve diversas
áreas do conhecimento, tais como a engenharia de softwares, matemática, estatística,
ciência da computação, biologia molecular, etc.

A Bioinformática entrou em grande evidência devido aos projetos genoma, mas


já era uma poderosa ferramenta em estudos de evolução molecular, biologia estrutural,
dinâmica molecular, entre outros. É em essência multidisciplinar, comportando
pesquisadores de várias áreas diferentes. A dificuldade de comunicação dos
profissionais dessas diferentes áreas criou a necessidade de um novo profissional que
possuísse conhecimento para fazer a ligação dessas ciências, o Bioinformata.

Esta apostila foi criada, como parte integrante do curso Bioinformática: Análise
de Dados Moleculares, com o objetivo de auxiliar os profissionais da área das Ciências
da Vida na utilização de diferentes ferramentas de análise de dados que a
Bioinformática oferece. Este documento foi gerado para ser utilizado como um roteiro
em diversos tipos de análise de dados biológicos revelados a seguir.

DESENHO DE PRIMERS E SONDAS

O desenho de iniciadores (primers) e sondas tem um papel determinante para o


sucesso do experimento a ser realizado. Os primers são fragmentos de ácidos nucléicos
que possuem uma extremidade 3’ livre e exercem a função de servir de “âncora” para a
DNA polimerase começar a replicação. As sondas são “tecnicamente” primers
marcados com flurocromos que são moléculas que emitem tipos de fluorescências
fornecendo à sonda a habilidade de emitir um sinal quando houver a replicação de
fragmento alvo específico.

O desenho de primers e sondas é uma etapa importante no experimento de PCR,


pois, a maioria destes experimentos tem por finalidade a amplificação de fragmentos
específicos de ácidos nucléicos. Ao desenhar primers é necessário estar atento para
alguns parâmetros, são eles: tamanho do primer, temperatura de anelamento (Ta),
temperatura de melting (Tm), formação de dímeros e formação de alças.

O tamanho destes fragmentos influencia diretamente os demais parâmetros que


interferem no sucesso do experimento, eles podem variar entre 14 a 30 nucleotídeos e
quanto maior o tamanho dos iniciadores e sondas, maior sua especificidade. A
temperatura de anelamento é a temperatura na qual os primers se pareiam ao DNA
molde. Ela pode ser calculada subtraindo 4 graus da Tm. Temperatura de melting é a
temperatura na qual metade das fitas de DNA está na forma de fitas simples e a outra
metade na forma de dupla hélice. Tm é dependente da composição do DNA, de modo
que o aumento do conteúdo de G+C no DNA gera um incremento na Tm ocasionado
pelo maior número de ligações de H.

Quando os primers pareiam com eles mesmos (dímeros de primers e alças), ou


parearem um com o outro mais facilmente (dímeros de primers) do que com o DNA
molde, então a eficiência do PCR irá ser reduzida significativamente. Primers com estas
características devem ser evitados. Entretanto, às vezes, estas estruturas não são
problemáticas, uma vez que a ocorrência destas pode ser restringida através da
determinação da temperatura de anelamento. Por exemplo, alguns dímeros ou grampos
são formados a 30 °C, enquanto que durante o ciclo do PCR a temperatura mais baixa
seria de 60 °C.

Existem várias ferramentas computacionais que auxiliam na tarefa de projeto de


primers. Exemplos de ferramentas disponíveis na internet são o Web Primer, Primer3,
Primer-BLAST, entre outras.

Desenhando primers e sondas com a ferramenta da WEB Primer3 Plus.

1. Digitar o seguinte endereço no Navegador:

http://www.bioinformatics.nl/cgi-bin/primer3plus/primer3plus.cgi
2. Colar a sequência de referência a qual se deseja obter primers e sondas.

3, 4 e 5. São as opções para desenhar o primer foward, sonda, e o primer reverse.

6. Para ajustar os parâmetros dos iniciadores e sondas clique em “General


Settings”.
7, 8 e 9. São os parâmetros: tamanho do produto, tamanho do oligo a ser desenhado,
temperaura de melting e conteúdo de GC.

10. Para obter os oligos desejados clique em “Pick Primers”.

A ferramenta Primer3 Plus irá mostrar os melhores iniciadores seguindo as


regras padrão para todos os parâmetros. Quando se fizer alterações nestes itens, é
necessário que se conheça o marcador de referência.

Abaixo segue o resultado e as sugestões de inicadores obtidos pelo Primer3 Plus.


A sequência do primer forward é mostrada em 11, em que além da sequência é
mostrado também qual sua posição, tamanho, Tm, e conteúdo de GC. Os números 12 e
13 mostram os mesmos dados para a sonda e o primer reverse. Em 14, é mostrado o
tamanho final do produto.

Degenerando primers

Quando não se tem a sequência de referência do organismo a ser estudado é


necessário desenhar primers degenerado. Primers degenerados são iniciadores que em
determinada posição pode ter dois ou mais tipos de nucleotídeos. O jeito mais simples
de se obter primers degenerados é partindo de um alinhamento.
1. Monte um banco de dados para o marcador a ser estudado com sequências de
outros organismos que sejam mais próximos evolutivamente.

2. Realize um alinhamento múltiplo das sequências.

3. Escolha uma sequência de um organismo que seja, de preferência, do mesmo


gênero do organismo a ser estudado.

4. Em seguida, utilize a sequência de referência no Primer3 Plus como nos passos


acima.

5. Salve os primers como arquivo FASTA e insira-os no alinhamento.

6. Realize um novo alinhamento múltiplo.

7. Localize o primer no alinhamento e altere as bases do primer seguindo as


normas da IUPAC para bases nitrogenadas.
8. Repita o procedimento para o outro primer.

9. Em seguida copie o primer e cole na página do Oligo Analyzer do IDT

http://www.idtdna.com/analyzer/applications/oligoanalyzer/

10. Ao clicar em “Analyze”, a ferramenta OligoAnalyzer fornece a temperatura de


melting para o primer degenerado (11).

ANÁLISE DE CROMATOGRAMAS

O sequenciamento de DNA é um processo que determina a ordem dos


nucleotídeos em uma amostra. O resultado de um sequenciamento (cromatograma) é
gravado em um arquivo que contem os picos referentes à emissão de fluorescência de
cada uma das bases.

O pacote de softwares STADEN 1.6 é um conjunto de ferramentas com


importantes funções para visualização, análise e edição de cromatogramas, podendo ser
adquirido gratuitamente em http://staden.sourceforge.net/ para diferentes sistemas
operacionais. Das ferramentas disponíveis no pacote STADEN nós iremos utilizar:
Pregap4, Trev e Gap4.
O programa Pregap4 tem como principal função fazer uma análise automática
dos cromatogramas e gerar o arquivo de entrada do Gap4. Para utilizar o Pregap4
acessamos Iniciar > Programas > Staden Package > Pregap4. O Pregap4 tem três abas
principais. Na primeira aba, “Files to Process”, devemos adicionar os arquivos dos
cromatogramas a serem analisados, utilizando o botão “Add files” (destaque da figura
abaixo). Os cromatogramas podem estar em diferentes formatos, como SCF, ABI ou
EXP.

Na segunda aba, “Configure Modules”, devemos marcar as opções de análise do


Pregap4 (retângulo na próxima figura). Para o nosso exercício devemos marcar as
opções: “Estimate Base Accuracies”, que nos revela o valor Phred para cada base;
“Initialise Experiment Files” e “Augment Experiment Files”, responsáveis por criar os
arquivos de saída do Pregap4; “Quality clip”, que esconde as regiões de baixa qualidade
nas extremidades 5’ e 3’ dos cromatogramas; “Gap4 shotgun assembly”, responsável
por criar os contigs e o arquivo que será lido pelo Gap4. Na opção “Gap4 shotgun
assembly” devemos inserir o nome do arquivo que será criado para o Gap4 (1) e marcar
a opção “Create new database” (2). Devemos lembrar que o Pregap4 apresenta outras
funções como mascaramento de vetores e da cauda poli-A, por exemplo.
Ao clicar no botão “Run” (3), você será direcionada para a aba “Textual Output”
que apresenta mensagens sobre o andamento das análises. A mensagem “***
Processing finished ***” (destaque da figura abaixo), irá indicar o fim do
processamento das amostras.

O Pregap4 cria vários arquivos na pasta onde estão os dados dos cromatrgramas.
Desses arquivos, devemos dar destaque aos que tenham a extensão .exp, que são os
cromatogramas individuais com as análises do Pregap4, e um arquivo .aux que será o
input do Gap4.
Os arquivos EXP podem ser abertos no Trev para uma inspeção mais detalhada
(imagem abaixo). Para acessar o Trev, siga Iniciar > Programas > Staden Package >
Trev e use o menu “File” (1) para abrir o arquivo desejado. Na figura podem ser vistas a
extremidade mascarada por apresentar baixa qualidade (cinza escura) e os valores de
Phred para cada base (azul claro). No menu “Edit” (2) podemos alterar as regiões
mascaradas, e no menu “View” (3) podemos alterar as características de visualização.

Para continuar as análises devemos acessar o Gap4 em Iniciar > Programas >
Staden Package > Gap4, e usar o menu “File” para abrir o arquivo AUX. No primeiro
momento temos uma janela intitulada “Contig Selector” (destaque da figura abaixo) que
nos mostra os contigs gerados em nossa análise anterior, nesse caso há apenas um
contig representado (linha preta). Clicando com o botão direito na representação do
contig e acessando a opção “Contig Editor” podemos visualizar como o contig se
formou a partir dos reads.
A figura abaixo mostra “Contig Editor” com as sequencias dos reads, e do
consenso entre os reads (seta).

O menu “Settings” pode ser utilizado para alterar a forma de visualização, como
a adição dos cormatogramas para cada read (figura abaixo).
A opção “Save Consensus” em “File” nos permite salvar os consensos em
formato FASTA (figura abaixo).

A opção “SNP candidates” no menu “View” elenca possíveis SNPs calculados a


partir dos cromatogramas (próxima figura).
CLUSTERIZAÇÃO

Com a quantidade crescente de sequências contidas em repositórios online,


ferramentas que podem agrupar sequências relacionadas em conjuntos significativos
fornecem uma maneira eficiente para que os pesquisadores possam classificar e dar
sentido a esta montanha de dados. Muitos pesquisadores estão interessados em
agrupamento de Expressed Sequence Tag (EST), na esperança de identificar os genes
que as ESTs representam por completo. Outra aplicação da clusterização é a
identificação de polimorfismos de base única (SNPs). A clusterização é muitas vezes
utilizada para reduzir a redundância de um conjunto de dados.

Algoritmos de clusterização tipicamente tomam como entrada um conjunto de


reads a serem classificadas e parâmetros de entrada especificando o grau de semelhança
necessário para os reads serem agrupados. A saída é um agrupamento das reads que
correspondam a esses critérios. Uma das ferramentas de clusterização mais utilizada é o
CAP3, disponível em http://pbil.univ-lyon1.fr/cap3.php. A figura abaixo mostra a
página principal do CAP3. Devemos inserir as sequência que serão clusterizadas na
janela no formato FASTA e clicar em “SUBMIT” para iniciar.
Após a análise o usuário é direcionado para uma página com quatro links de
resultados (figura). Em “Contigs” nós podemos acessar as sequências dos contigs
resultantes do consenso entre os reads; “Single sequences” elenca os reads que não
formaram contigs; “Assembly details” nos mostra os detalhes da formação de cada
contig; “Your sequence file” retorna os reads que foram usados como input do CAP3.

O detalhamento da formação dos contigs é mostrado na figura abaixo, onde no


início da página podemos observar quais sequências formaram cada contig, com as
relações de inclusão e complementaridade entre os reads. Na figura seguinte, é
evidenciado como os contigs foram formados através do alinhamento das sequências.
BANCO DE DADOS

Os bancos de dados biológicos são repositórios que disponibilizam as sequências


biológicas e agregam informações a tais sequências. O maior dos repositórios de
sequência de DNA é o International Nucleotide Sequence Database Collaboration
(INSDC), composto pelos dados de DNA do Data Bank of Japan (DDBJ) no The
National Institute of Genetics, em Mishima no Japão, do GenBank no National Center
of Biotechnology Information (NCBI), em Bethesda nos EUA, e do European
Molecular Biology Laboratory (EMBL) Nucleotide Sequence Database, mantida no
European Bioinformatics Institute (EBI), no Reino Unido. Trocas diárias coordenadas
entre esses grupos garantem uma cobertura internacional da informação. O Institute of
Genomics Research (TIGR), baseado em Rockville, Maryland, EUA também mantém
vários tipos de dados, incluindo sequências genômicas e de anotação.

O NCBI, disponível em http://www.ncbi.nlm.nih.gov/, é um dos bancos de


dados mais utilizados nas pesquisas em Bioinformática e será onde iremos coletar
nossas sequências de trabalho. A figura abaixo mostra a página inicial do NCBI: 1)
Menu para seleção de um determinado banco de dados do NCBI e janela para a adição
das palavras-chave que irão compor a busca no banco. Ao selecionar “All Databases” a
busca será direcionada para o gerenciador ENTREZ.

O ENTREZ (próxima figura) elenca 38 bancos de dados, de sequências à


literatura, presentes no NCBI. Os valores ao lado dos símbolos indicam o numero de
entradas, disponível para os respectivos bancos de dados, que apresentam as palavras-
chave utilizadas.
O banco de dados “Taxonomy” possibilita a identificação da informação
baseada na divisão taxonômica. A figura abaixo mostra as entradas para a busca pelo
termo “Arthropoda”, indicando os links estruturados segundo a taxonomia atual do
grupo.

Ao clicar em um dos links, somos direcionados para a entrada referente ao táxon


escolhido. A próxima figura apresenta entrada para “Arthropoda”. 1) Informações
taxonômicas referentes ao grupo. 2) Tabela com links para outros bancos do NCBI com
o respectivo numero de entradas para o grupo em questão.
Para o levantamento de sequências nucleotídicas, utilizamos o banco
“Nucleotide” do NCBI, mostrado abaixo, onde: 1) Links para todas as entradas
referentes à busca, com opção para seleção de cada uma das entradas individualmente;
2) Listagem dos organismos mais frequentes no resultado atual.

O menu “Display Settings” possibilita alterar como as entradas são apresentadas


para o usuário. Enquanto que o menu “Send to” possibilita o download das entradas que
foram marcadas. Se nenhuma entrada for selecionada todas as entradas resultante da
busca serão selecionadas para o download (próximas duas imagens).
Ao clicar em uma entrada, somos direcionados para a página da entrada do
banco “Nucleotide” no formato GenBank (no exemplo abaixo) com a opção da
observação apenas do FASTA no topo.
Também podemos utilizar o dbSNP do NCBI para o levantamento de SNPs, já
descritos, em determinado gene ou organismo. A imagem seguinte mostra o resultado
de uma busca no dbSNP onde as entradas são apresentadas com as possibilidades dos
nucleotídeos em colchetes, para a posição do SNP.
Acessando uma das entradas, temos uma descrição detalhada do SNP.
Primeiramente são apresentadas informações referentes ao SNP, como posicionamento
no cromossomo, grupo que sequenciou e se tem aplicação clínica.

Em seguida temos uma visualização gráfica do posicionamento do SNP no


cromossomo.
E por último, nos é apresentada a sequência em formato FASTA para as regiões
flanqueadoras do SNP, com destaque para a posição polimórfica representada pelo
código IUPAC.

As consultas, na maioria dos bancos de dados, também podem ser feitas através
de busca de similaridade entre sequências. O banco CDD (Conserved Domains
Database), através da ferramenta CD-Search
(http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi), nos possibilita a identificação
de domínios conservados em uma sequência de proteínas. A figura seguinte mostra a
entrada da ferramenta CD-Search com a área para a inserção da sequência protéica alvo
e, acima desta, link para a Batch CD-search, ferramenta utilizada para buscar várias
sequências protéicas contra o CDD. O botão “submit” inicia a análise do CD-search.
Como resultado, o CD-search elenca os domínios identificados na nossa proteína
alvo. A figura abaixo mostra o resultado de uma busca contra o CDD evidenciando o
domínio protéico identificado (acima) e o detalhamento do alinhamento entre a query e
a sequência do CDD.

Outro banco de dados do NCBI que pode ser utilizado para agregar informações
à sequências protéicas é o COG (Cluster of Orthologous Groups), disponível em
http://www.ncbi.nlm.nih.gov/COG/ (figura). O COG é formado por vários clusters
protéicos, que foram delineados comparando sequências de proteínas codificadas em
genomas completos, representando as principais linhagens filogenéticas. Cada COG
consiste em proteínas individuais ou grupos de parálogos de pelo menos três linhagens
e, assim, corresponde a um domínio antigo e conservado.

A ferramenta KOGnitor
(http://www.ncbi.nlm.nih.gov/COG/grace/kognitor.html) é utilizada para busca de
similaridade contra o KOG, versão do COG para eucariotos (figura abaixo).

O resultado de uma busca pelo KOGnitor indica o nome da proteína identificada,


o identificador do cluster e o código de uma letra para as classes do KOG. Ao se clicar
no identificador do cluster temos um detalhamento do mesmo (figura, lado esquerdo).
Legenda para os códigos das classes do KOG (figura, lado direita).

A figura abaixo mostra o detalhamento de um cluster do KOG, apresentando as


espécies formadoras do cluster, os identificadores das proteínas e uma árvore de
distância entre elas.

O GO (Gene Ontology) é um banco de dados que tem como objetivo a


construção de um vocabulário padronizado para a representação de genes e produtos
gênicos. Além de disponibilizar informações de hierarquia entre as definições. A figura
seguinte mostra a página inicial do GO (http://www.geneontology.org/), com o link para
a ferramenta AmiGO a direita.
A aplicação AmiGO é a principal ferramenta de busca no GO, pode ser utilizado
com palavras-chave ou com o BLAST (link na barra acima na figura).

O resultado de uma busca com o AmiGO, utilizando o termo acyl-CoA, pode ser
visto na próxima figura. Os termos que apresentam a palavra-chave são relatados, assim
como, seus respectivos identificadores e classes de ontologia.

A figura abaixo mostra a página inicial do BLAST para busca no GO.


No resultado do BLAST para busca no GO (próxima imagem), podemos
observar cada resultado mais detalhadamente acessando “view associations”.

Entradas do GO relacionados à busca do BLAST são mostradas em seguida. Ao


se acessar o link “view in tree” podemos visualizar os resultados em forma de árvore
relacional entre os termos do GO.
As próximas imagens mostram a árvore relacional entre os termos do GO e a
visualização em modo gráfico (aba “Graph View”) das relações entre os registros do
GO respectivamente.
BLAST

BLAST (Basic Local Alignment Search Tool) é um pacote de softwares


sofisticado que se tornou a ferramenta mais importante na área da Bioinformática.
Há várias razões para isso. Primeiro, a similaridade entre sequência é uma
poderosa forma de se identificar padrões em sequências não caracterizadas. Segundo,
o BLAST é rápido. A quantidade de sequências disponíveis é grande e cresce
rapidamente, assim a velocidade de análise é essencial. Terceiro, o BLAST é
confiável, tanto em um ponto de vista estatístico e quanto em um ponto de vista de
desenvolvimento de software. Quarto, o BLAST é flexível e pode ser adaptado a
vários cenários de análise de sequência. E finalmente, o BLAST está enraizado na
cultura da Bioinformática ao ponto em que a palavra "blast" é frequentemente
utilizada como um verbo.

O BLAST é a ferramenta mais utilizada para a busca de similaridade entre


determinada sequências biológica e um banco de dados. O BLAST, para buscas contra
os bancos de dados do NCBI, pode ser encontrado em: http://blast.ncbi.nlm.nih.gov/.
A imagem abaixo mostra a página principal do BLAST-NCBI destacando (1) os links
para as principais variedades do BLAST: BLASTn, BLASTp, BLASTx, tBLASTn e
tBLASTx.
Ao clicar em um dos links das variedades do BLAST o usuário é direcionado
para a página de entrada da variedade escolhida, neste caso o BLASTn, que compara
sequência de nucleotídeos contra um banco também de nucleotídeos, veja figura abaixo
onde 1) caixa de texto para inserção da sequência query; 2) área para escolha dos
parâmetros do banco de dados; e 3) botão par iniciar a análise do BLAST.

Antes de uma análise ser iniciada no BLAST, nós temos a opção de alterar
alguns parâmetros, como tamanho da palavra seed, valores para match e mismatch e a
aplicação de determinados filtros. Estas opções são acessíveis através da opção
“Algotithm parameters” na página inicial do BLASTn (próxima figura).
A página de resultado do BLAST-NCBI pode ser subdividida em três partes. A
primeira é um sumário gráfico dos alinhamentos, onde as barras coloridas indicam
regiões com similaridade das sequências subjects e cada cor corresponde a uma
determinada faixa de score dos alinhamentos (figura abaixo).

A segunda parte do resultado do BLAST é uma listagem com as descrições dos


subjects e valores de score, cobertura, E-value e identidade para cada alinhamento
(próxima figura).
A terceira parte do resultado do BLAST é uma demonstração dos primeiros
alinhamentos. A figura abaixo mostra o alinhamento para um dos subjects, onde 1)
quadrado para seleção da sequência subject; 2) link para recuperação das sequências
selecionadas; e 3) opção para construção de uma árvore filogenética com as sequências.

Existem versões do BLAST especializados em determinado tipo de busca ou


banco de dados, como BLAST contra banco de dados de SNPs ou para o desenho de
primers, disponível na página principal do BLAST-NCBI, http://blast.ncbi.nlm.nih.gov/
(figura abaixo).
O BLAST contra o banco de dados SNP flanks pode ser utilizado para a
identificação de SNPs já descritos para um determinado gene. A próxima figura
demonstra o resultado do BLAST para busca de SNPs, onde o alinhamento é
apresentado com o SNP presente no subject em destaque, representado no código
IUPAC.

O PRIMER-BLAST é uma versão desenvolvida para o desenho de primers. Ele


apresenta uma página inicial um pouco diferente, pois aqui nós temos opções de alterar
os parâmetros para o desenho dos primers (figura abaixo).
A próxima figura demonstra o resultado do PRIMER-BLAST com o sumário
gráfico das regiões amplificadas pelos primers desenhados, e descrição das
características do primeiro par de primers.
ALINHAMENTO MÚLTIPLO DE SEQUÊNCIAS BIOLÓGICAS

O alinhamento de sequências tem como objetivo organizar sequências de DNA,


RNA ou proteína para facilitar a identificação de regiões similares que podem ser
decorrentes de relações estruturais, funcionais ou evolutivas entre elas. Logo, para se
realizar inferências evolutivas entre as sequências, primeiramente é necessária a
comparação de sequências. Entretanto, só podemos comparar coisas que são homólogas,
ou seja, aquelas que estão associadas a um ancestral comum. Assim, é preciso encontrar
e relacionar as regiões que são verdadeiramente homólogas para fazermos as devidas
inferências.

É importante ressaltar que sequências semelhantes muito provavelmente


apresentam funções semelhantes. Com isso, a partir dos alinhamentos de sequências
biológicas podemos inferir função de uma proteína, classificar genes, inferir a estrutura
tridimensional de uma proteína, assim como inferir as relações filogenéticas de um
grupo de táxons, entre outras aplicações.

Quando tratamos de alinhamentos com mais de duas sequências, estamos


lidando com alinhamentos múltiplos de sequências biológicas. A partir deles podemos
encontrar padrões de conservação entre um grupo de sequências, que podem estar
relacionados com domínios funcionais de uma proteína.

Para a realização de um alinhamento múltiplo de sequências iremos utilizar uma


versão do programa ClustalW, incorporado no software MEGA5. O programa pode ser
encontrado no site http://www.megasoftware.net/. Depois de baixado e instalado,
iremos abrir o programa. Clicando no botão “File” e em seguida “Open a file/session...”
podemos importar o conjunto de sequências a ser alinhado. As sequências são lidas no
formato FASTA. Neste exemplo são apresentadas oito sequências de DNA numeradas e
nomeadas com a sequência de nucleotídeos à direita.

Clicando em “Alignment” aparece uma aba com dois algoritmos para a


realização de alinhamento múltiplo de sequências, o ClustalW e o Muscle. Neste tutorial
iremos utilizar a primeira opção. Se as sequências forem completamente codificantes,
então poderemos utilizar a opção “Align by ClustalW (codons)”. Caso contrário deve
ser utilizada a opção “Align by ClustalW”, que é o caso aqui.
Em seguida, alguns parâmetros são solicitados para a realização do alinhamento.
Por exemplo, penalidades para abertura e extensão de gaps no alinhamento pareado e
também no alinhamento múltiplo e a matriz a ser utilizada para pontuação do
alinhamento, entre outros. O default do programa já vem com os parâmetros mais
utilizados, sendo apenas recomendada a modificação destes parâmetros se você souber
exatamente o que está sendo modificado. Podemos manter os parâmetros default. Após
isso é só clicar em “Ok” para o programa iniciar o processo de alinhamento.
Terminado o alinhamento, é possível observar que os nucleotídeos estão
organizados nas posições certas, ou homólogas, podendo assim ser realizada qualquer
tipo de inferência a partir daí.

No programa MEGA5, quando todas as sequências apresentam o mesmo


nucleotídeo em um determinado sítio, é possível observar um “*” em cima deste sítio. A
existência de uma mutação ou de um evento de indel faz com que esse sítio não
apresente o asterisco. Os gaps são representados por um “-“ e cada nucleotídeo
apresenta uma cor diferente.
É possível salvar e exportar este alinhamento em alguns formatos para ser
utilizados em outros programas, incluindo o próprio MEGA5. Para isso, é só clicar em
“Data” e depois em “Export Alignment” para escolher o formato. Aqui vamos salvar o
alinhamento nos três formatos, que vamos utilizar a seguir.
VARIABILIDADE GENÉTICA

Com o objetivo de avaliar o quanto seu conjunto de dados é variável ou não,


após a realização de um alinhamento múltiplo de sequências é importante verificar o
quanto e como essas sequências variam. A variabilidade genética, que é fruto das
mutações, é um importante fator evolutivo que pode indicar a resposta de um organismo
a uma mudança ambiental, assim como ela é necessária para entendermos as relações
evolutivas entre um grupo de táxons.

Dentre outros, dois programas são particularmente importantes na avaliação da


variabilidade genética observada em sequências de DNA, o MEGA5 e o DnaSP.
Primeiramente, iremos utilizar o MEGA5. Partindo do alinhamento gerado na seção
anterior, iremos utilizar o arquivo salvo no formato MEGA (.meg). Ao abrir o
programa, clicando no botão “File” e em seguida “Open a file/session...” podemos
importar o alinhamento. Uma primeira observação importante a se fazer é como está
distribuído, ao longo do alinhamento, os sítios conservados e os sítios polimórficos.
Clicando em “Highlight” podemos marcar no alinhamento os sítios conservados,
variáveis, sítios parsimônio-informativos, singletons e sítios degenerados 0-fold, 2-fold
e 4- fold.
Outro ponto importante de avaliação presente no programa MEGA5 está
presente na aba “Statistics”. Com ela é possível computar composição dos nucleotídeos;
frequência pareada dos nucleotídeos, tanto direcional quanto não-direcional; assim
como é possível calcular frequências do uso de códons.

Na janela principal do programa, é possível calcular outros parâmetros de


variabilidade genética importantes. Clicando no botão “Distance” podemos computar a
distância genética pareada entre todas as sequências do conjunto de dados; podemos
computar a distância genética média total; a distância média dentro de grupos (como
populações, se especificado anteriormente); e a distância média entre grupos (se
especificado).

Ao selecionar qualquer uma destas distâncias, uma nova janela se abrirá


solicitando informações para o cálculo das mesmas. Lá é possível selecionar o método
de variância da distância; os tipos de substituições a ser analisados; o modelo de
substituição para o cálculo da distância; os tipos de substituições a ser levados em conta;
o tratamento dos gaps; e as posições do códon a ser utilizadas.
Por fim, clicando no botão “Diversity” podemos ainda computar diversidade
genética média dentro de subpopulações (se especificado); diversidade genética média
em uma população inteira (se especificado); diversidade genética média
interpopulacional (se especificado); assim como o coeficiente de diferenciação (se
especificado).

Outro programa bastante utilizado para a avaliação de variabilidade genética em


sequências de DNA é o DnaSP, que pode ser encontrado no endereço
http://www.ub.edu/dnasp/.
Para iniciar, abrimos o programa, clicamos em “File” e em seguida em “Open
Data File...” com o objetivo de carregar o alinhamento no programa. O DnaSP pode
utilizar como input arquivos tipo NEXUS (.nex), que é um dos três tipos de arquivo que
exportamos nosso alinhamento. Ao abrir o alinhamento, algumas informações sobre o
conjunto de dados aparecem na tela, como o número de sítios e de sequências, formato
do arquivo, código genético, tipo de genoma, entre outras.

Para observar o alinhamento, é preciso clicar na aba “Display” e depois em


“View Data”.
Nesta tela é possível selecionar qualquer posição do alinhamento e observar
algumas informações como nucleotídeo, sítio, sequência a que pertence o nucleotídeo,
informações do genoma ou da espécie, e o estado do sítio. Além disso, é possível
marcar, no alinhamento, os códons, os sítios conservados, os sítios variáveis, etc.

Antes de calcular os diversos parâmetros para analisar os polimorfismos


encontrados no conjunto de dados, é necessário configurar o programa com as
características do seu alinhamento. Para isso, basta clicar em “Data” e iniciar a
configuração. Nesta seção é possível indicar como tratar os gaps; indicar como serão
consideradas as substituições nucleotídicas; determinar as regiões codificantes e o
código genético; definir domínios e conjuntos de sequências; remover posições; e
incluir ou excluir sequências.

Após a configuração, para iniciar as análises é só clicar em “Analysis”. O


arsenal de análises disponível pelo DnaSP está nesta seção, basta selecionar que o
programa irá calculá-la para você. Aqui é possível computar dados de variabilidade
genética como sítios polimórficos, conservador, informativos, etc.; índices de
diversidade nucleotídica; polimorfismos de indels; divergência entre populações;
delimitar regiões conservadas; associação de polimorfismos e divergência entre grupos
ou regiões funcionais; avaliação do tipo de substituição que está ocorrendo; viés de uso
de códons; preferência de substituições; diferenciação genética; desequilíbrio de
ligação; recombinação; mudanças no tamanho populacional; além de vários testes de
neutralidade.

ANÁLISE DE SNPs

Os SNPs estão distribuídos de forma não aleatória por todo genoma e ocorrem a
uma frequência de aproximadamente um em cada 1200 pares de bases, representando
assim as variáveis mais comuns no genoma humano (Sachidanandam et al., 2001;
Sherry et al., 2001; Venter, 2001). Um SNP se origina quando uma mutação pontual
ocorre no genoma, convertendo um determinado nucleotídeo em outro qualquer, e
forças evolutivas como: seleção natural, deriva genética e migração modulam a fixação
ou desaparecimento dessa mutação ao longo de gerações em uma população (Brown,
2002).

A partir do resultado da genotipagem das amostras em estudo, são realizadas as


associações alélicas, genotípicas e haplotípicas para o conjunto de SNPs, utilizando o
programa Unphased, disponível em http://www.mrc-
bsu.cam.ac.uk/personal/frank/software/unphased/. Geralmente, nas pesquisas que são
realizadas, encontram-se alguns problemas, tais como a não genotipagem de todos os
indivíduos e a variação de estruturas familiares que são conseguidas e que não podem
ser descartadas. Devido a isso, utiliza-se o Unphased, um conjunto de programas para
análise de associação dos haplótipos multilocus a partir de dados da genotipagem, que
realiza um cálculo elaborado de Teste de Transmissão de Desequilíbrio de Ligação
(Transmission Disequilibrium Test – TDT) baseado em famílias. Por ser construído em
plataforma Java, este programa é fácil de ser usado, utilizando uma boa interface
gráfica. O Unphased foi desenvolvido por Frank Dudbridge no MRC – Cambridge.

O arquivo de pedigree contém informações sobre as relações familiares entre os


indivíduos do estudo, e todos os genótipos e os dados covariáveis. O Unphased usa o
formato de ligação (linkage), que na sua forma mais simples consiste de uma linha para
cada individuo, com colunas organizadas da seguinte forma:

PedID SubID PaID MaID Sex Trait M1A1 M1A2 M2A1 M2A2

PedID é o identificador do pedigree, que pode ser composto de letras e números.

SubID é o identificador do indivíduo, que pode ser composto de letras e números.

PaID é o identificador do pai do indivíduo (coloca-se 0 se o pai não está no estudo).

MaID é o identificador da mãe do indivíduo (coloca-se 0 se a mãe não está no estudo).

Sex é o identificador do sexo masculino (coloca-se 1) e do sexo feminino (coloca-se 2).

Trait é o identificador da característica do indivíduo (coloca-se 1 se não está afetado


por uma doença – controle, 2 se está afetado – caso, e 0 se não sabe – desconhecido).

M1A1 e M1A2 são os dois alelos para o primeiro marcador. Estes devem ser numéricos
e podem ter qualquer valor, mas os alelos ausentes são codificados como 0.

M2A1 e M2A2 são os dois alelos para o segundo marcador, e assim por diante.

Para indivíduos não relacionados, incluindo os dados de caso/controle, cada


indivíduo é considerado como um único pedigree. O PedID deve ser único, o SubID
pode ter qualquer valor, PaID e MaID devem ser 0.
 Protocolo - Análise Haplotípica:

1. Abrir o programa Unphased

2. Selecionar File

2.1. Selecionar Open pedigree file

2.2. Selecionar o arquivo no formato .txt

3. Selecionar Marker

3.1. Selecionar All marker combinations

3.2. Selecionar All window sizes


4. Selecionar Analysis

4.1. Selecionar Test individual haplotypes

5. Selecionar Options

5.1. Em Missing data, selecionar Uncertain haplotypes and missing genotypes


6. Selecionar Output

6.1. Selecionar Brief output

7. Selecionar Run

7.1. Selecionar Start


8. Selecionar File

8.1. Selecionar Save output

9. Selecionar a pasta de destino


10. Editar o nome do arquivo da seguinte forma: RESULTADO DA ANÁLISE
HAPLOTÍPICA DO GENE_DATA
 Protocolo - Análise Genotípica:

1. Abrir o programa Unphased

2. Selecionar File

2.1. Selecionar Open pedigree file

2.2. Selecionar o arquivo no formato .txt

3. Selecionar Marker

3.1. Selecionar All marker combinations

3.2. Selecionar All window sizes

4. Selecionar Options

4.1. Em Missing data, selecionar Uncertain haplotypes and missing genotypes

4.2. Em Genetic, selecionar Genotype tests


5. Selecionar Output
5.1. Selecionar Brief output

6. Selecionar Run

6.1. Selecionar Start

7. Selecionar File

7.1. Selecionar Save output

8. Selecionar a pasta de destino

9. Editar o nome do arquivo da seguinte forma: RESULTADO DA ANÁLISE


GENOTÍPICA DO GENE_DATA
ANÁLISE DA ESTRUTURA POPULACIONAL
O Structure, disponível em http://pritch.bsd.uchicago.edu/software.html, é um
software que implementa métodos de agrupamentos para inferir estruturação
populacional utilizando dados genotípicos. Aplicações deste método incluem
demonstração da presença de estrutura de populações, identificação de populações
genéticas distintas, atribuições de indivíduos às populações e identificação de migrantes.
O modelo assumido pelo programa é de que existam K populações (esse número de
populações pode ser desconhecido), cada população é caracterizada por um conjunto de
frequências alélicas em cada um dos lócus. Os indivíduos amostrados são atribuídos
(probabilisticamente) às populações, ou a duas ou mais populações, se os seus genótipos
indicam que eles são misturados. O algoritmo assume que dentro das populações os
lócus obedecem ao equilíbrio de Hardy-Weinberg e ao equilíbrio de ligação. O
programa não assume um processo mutacional particular, e pode ser aplicada à maioria
dos marcadores genéticos mais utilizados incluindo microssatélites, SNPs e RFLPs.

Abaixo segue um passo a passo ensinando a utilizar o software:

Ao abrir o programa selecione a opção “File” mostrado na figura acima com o


número 1. Para criar um novo projeto selecione a opção 2: “New Project”. Ao
selecionar essa opção abrirá uma nova janela.
Na opção de número 3 você deverá nomear o seu novo projeto. Na opção 4 ao
clicar no “Browse”, você selecionará o diretório onde o seu arquivo de entrada está
salvo. No campo de baixo, o de número 5, o botão “Browse” te permite escolher o
arquivo de entrada. Após nomear o projeto e selecionar o arquivo de entrada você deve
ir ao próximo passo clicando na opção “Next”, marcada aqui com o número 6.

Na próxima janela aparecerão 4 campos para serem preenchidos, o primeiro


campo o de número 7 é para indicar o número de indivíduos presentes no seu conjunto
de dados. O campo abaixo, representado aqui pelo número 8 é o que indica a ploidia dos
seus dados, por exemplo: se você obteve os dois alelos para cada organismo diplóide,
marque esta opção com o número 2. O campo de número 9 deve ser preenchido com o
número de lócus presentes no arquivo de entrada. No campo de número 10 você deve
sinalizar com qual número você representará os dados perdidos no seu conjunto de
dados. Ao clicar o botão “Next”, opção de número 11, outra janela aparecerá.

Nesta janela selecione apenas as opções que estão presentes no seu arquivo de
entrada. Se no seu arquivo estiver presente uma linha com o nome dos lócus então a
opção 12 deve ser marcada. A opção 13 deve ser marcada se no arquivo contiver uma
linha sinalizando os alelos recessivos. Já a opção 14 deverá ser marcada apenas se você
obtiver a informação acerca da posição cromossômica dos seus lócus e se esta
informação estiver presente no formato de uma linha acima dos lócus. Se nenhuma
informação dessas está disponível não marque nenhuma dessas opções. Para seguir a
diante clique no botão “Next”, opção 15.
Nessa janela, assim como na anterior, apenas devem ser marcadas as opções que
têm a informação contida do arquivo de entrada. Por exemplo: a opção 16 deve ser
marcada se forem fornecidos os nomes de cada indivíduo no arquivo de entrada, assim
como as opções 17 e 18 devem ser marcadas se as informações sobre a população
geográfica de origem e informações fenotípicas são conhecidas, respectivamente. Para
finalizar clique no botão “Finish” marcado aqui com o número 19.
Irá aparecer uma nova janela para confirmação, para continuar clique em
“Proceed”. Após confirmar, outra janela aparecerá, como mostrado na figura abaixo:

Agora criado um projeto, você pode realizar as análises.

Para isso, clique em “Parameter Set”, marcado aqui com o número 20 e depois
crie um novo parâmetro clicando em “New”, opção 21.
A nova janela apresentará 4 abas superiores, na primeira aba “22” deverá ser
indicado o tamanho da corrida da análise. A opção 25 “Length of Burnin Period” indica
o número de interações que serão descartadas, no chamado período de aquecimento. Os
valores obtidos nesse período não irão participar na estimativa final. O campo marcado
pelo número 26 representa o número de interações que o pesquisador deseja utilizar nas
suas análises.

As abas superiores marcadas com os números 23 e 24, quando clicadas,


permitem ao usuário escolher o modelo de ancestralidade e modelo de frequência alélica
que devem ser adotados na análise. Após as escolhas realizadas pelo usuário, clique em
“OK” para continuar.

Aparecerá um quadro como esse acima, onde deverá ser nomeado esse novo
parâmetro criado. Para concluir a criação do parâmetro, basta clicar em “OK”.
Após a criação do parâmetro o usuário deve iniciar as simulações baseadas no
parâmetro recém-criado. Para isso, deve-se clicar em “Project”, numerado aqui como
27, depois clique na opção representada pelo número 28 “Start a Job”, logo em seguida
aparecerá uma janela como segue abaixo:

Nessa janela o usuário deve selecionar o parâmetro, indicado aqui pelo número
29. Logo após, o usuário tem que ajustar o número de populações que devem ser
testadas com o parâmetro criado. Para ajustar o número de populações o programa pede
um intervalo, indicado aqui pelo número 30 para o limite inferior e pelo número 31 para
o limite superior. O número 32 indica o quadro com o número de repetições que o
usuário deseja fazer essa análise. Após todos os quadros preenchidos, basta clicar em
“Start” na opção 33 para enfim iniciar a análise.

Após o fim das interações, o usuário deve interpretar os seus resultados.


Portanto, deseja-se saber o número de populações indicado pelo software, para isso é
necessário calcular um guia ad hoc denominado ∆K. Este valor não é calculado pelo
software e sim pelo pesquisador. Antes de calcular o ∆K é necessário ter os valores das
probabilidades para cada número de populações e suas variâncias. O usuário obtém
estes valores da seguinte forma: clicando na opção “View”, item 34 da figura abaixo.
Logo após deverá clicar no item 35 “Simulation Summary”, em seguida aparecerão os
valores dos logaritmos das probabilidades e variâncias para cada número de populações
(item 36).

Uma vez tendo em mãos tais valores é fácil calcular o ∆K. Primeiro, obtenha as
médias dos logaritmos para cada número de populações, vamos chamar esse valor de
L(K), onde K é o número de populações. Por exemplo: a média para o número de
populações dois será chamado de L(2). Segundo, calculamos as diferenças entre as
médias dos valores de populações consecutivas, chamaremos esse valor de L’(K). Esse
valor será L’(K) = L(K) - L(K-1). Por exemplo: L’(3) = L(3) - L(2). Terceiro,
calculamos o valor absoluto das diferenças entre os L’(K), chamaremos esse valor de
L’’(K) e será representado como │L’’(K)│ =│L’(K+1) – L’(K)│. Finalmente, a quarta
etapa é a estimação do ∆K que é definido como o valor absoluto médio de L’’(K) para o
número de simulações dividido pelo desvio padrão de L(K), ∆K = m│L’’(K)│/s [L(K)].

Após esses cálculos, para cada número de populações haverá um valor de ∆K.
Então esses valores devem ser distribuídos para uma melhor visualização deste guia. O
número de populações indicado pelo programa é aquele que possuir o valor modal desta
distribuição de ∆K. Agora que o usuário já sabe o número de populações inferido pelo
Structure, é hora de visualizar essa estruturação em gráfico de barras como mostrado na
figura abaixo:

Para visualizar o resultado da análise primeiramente o usuário deve clicar na


opção “Parameter Sets”, indicada pelo número 36 da figura acima, depois deve clicar no
parâmetro criado anteriormente pelo usuário, neste exemplo indicado pelo número 37.
Em seguida, o usuário deve clicar em “Results”, marcado aqui com o número 38 e
escolher o número de populações indicado pelo ∆K, aqui o resultado são duas
populações (marcado pelo número 39). Ao clicar no número inferido de populações
uma janela se abrirá, o usuário deve clicar em “Bar plot”, marcado pelo número 40 e
logo após clicar em “Show”, indicado como o item 41. Em seguida aparecerá uma
janela com resultado gráfico da análise, como mostrado na figura abaixo.
ANÁLISES DE GENÉTICA DE POPULAÇÕES USANDO O ARLEQUIN

O Arlequin, disponível em http://cmpg.unibe.ch/software/arlequin3/, é um


software disponibilizado gratuitamente que tem como objetivo fornecer ao usuário um
grande conjunto de métodos básicos e testes estatísticos presentes na genética de
populações, a fim de extrair informações genéticas e demográficas de uma coleção de
amostras populacionais. A interface gráfica do programa foi desenvolvida para permitir
ao usuário selecionar facilmente diferentes análises que eles desejam realizar com seus
dados. Os desenvolvedores deste software pensaram no quanto é importante explorar os
dados, para analisar várias vezes o mesmo conjunto de dados sob perspectivas
diferentes, com diferentes opções selecionadas. Os testes estatísticos implementados no
Arlequin foram escolhidos de forma a minimizar os pressupostos ocultos e serem tão
poderosos quanto possível. Assim, tais testes levam o formato de testes de permutação
ou testes exatos, com poucas exceções.

O software é capaz de lidar com dados genéticos sob muitas formas diferentes, e
tentar realizar os mesmos tipos de análises independentemente do formato dos dados.
Devido ao rico conjunto de recursos e muitas opções que o Arlequin dispõe, isto implica
que o usuário pode levar algum tempo para aprendê-las. São vários os tipos de formato
suportados que podem ser dados haplotípico (mtDNA, Cromossomo Y, procariotos) ou
genotípicos, dentre eles destacam-se as sequências de DNA, marcadores RFLPs,
microssatélites e frequências alélicas. As análises realizadas aqui se enquadram nas duas
principais categorias metodológicas da genética de populações: métodos intra-
populacionais (sítios polimórficos, diversidade gênica, diversidade nucleotídica,
diversidade haplotípica, distribuição de mismatch, equilíbrio de Hardy-Weinberg,
desequilíbrio de ligação, teste de neutralidade de Tajima, etc) e inter-populacionais
(busca de haplótipos compartilhados entre populações, análise de variância molecular,
distâncias genéticas pareadas, detecção de lócus sob seleção, teste de Mantel, etc).

Abaixo segue um passo a passo mostrando as principais funções do Arlequin.

Um exemplo do arquivo de entrada é mostrado abaixo, o arquivo pode ser


alterado manualmente ou confeccionado em txt, mas deve ser salvo no formato .arp. O
exemplo abaixo é para dados de sequência de DNA.
Primeiro, para importar o arquivo de entrada basta clicar em “Open Project”
marcado na figura abaixo. Depois basta escolher o arquivo com extensão .arp e abri-lo.

Ao abrir o arquivo, surgirá uma aba denominada “Project”, marcada abaixo com
o número 1. Esta aba mostrará os nomes das populações presentes no conjunto de dados
(número 2) e também os grupos as quais as populações pertencem (número 3).
Para editar a estrutura do conjunto de dados o usuário deve clicar na aba
“Structure Editor” (retângulo 4). Nesta aba o usuário terá a opção de atribuir as
populações a determinados grupos, para isso basta clicar duas vezes sobre o número
grupo (retângulo 5) e digitar o número desejado para o grupo, após as alterações será
possível observá-las abaixo de “Resulting structure” (retângulo 6). Se o usuário desejar
salvar as alterações basta clicar na opção “Update Project” (retângulo 7).
O próximo passo é ajustar quais análises o usuário deseja fazer, para isso basta
clicar na aba “Settings” (retângulo 8 da figura abaixo). Ao clicar aparecerão várias
opções de análise, enumeradas aqui de 9 a 20. Para selecionar uma análise o usuário
deve clicar na análise escolhida (retângulo 9), surgindo assim uma janela no meio da
tela com os ajustes da análise. Nesta janela o usuário deve marcar as opções desejadas
para a análise escolhida (retângulo 21).

As análises enumeradas abaixo são: 9 – Análise de variância molecular, 10 –


Detecção de loci sob seleção, 11 – Fst pareado, 12 – Teste exato de diferenciação, 13 –
Atribuição de genótipos à populações, 14 – Inferência haplotípica, 15 – Equilíbrio de
Hardy-Weinberg, 16 – Desequilíbrio de ligação, 17 – Teste de Mantel, 18 – Distribuição
de mismatch, 19 – Índices de diversidade molecular e 20 – Testes de Neutralidade.

Após selecionar todas as análises desejadas é chegada a hora de fazer tais


análises, para iniciar as análises o usuário deve clicar no botão “Start”, marcado com um
retângulo na figura abaixo.
Os resultados são gerados no mesmo diretório onde o executável do software
Arlequin se encontra. O software cria uma pasta com o mesmo nome do arquivo de
entrada com extensão .res, onde está contido os resultados. Para visualizar os resultados
é preciso clicar no arquivo que tem o mesmo nome do arquivo de entrada com
terminação _main.htm. Agora é só abrir esse arquivo e interpretar os resultados.

Abaixo segue uma figura com os resultados gerados pelo Arlequin.


ANÁLISE DE REDES DE HAPLÓTIPOS

O software Network, disponível em http://www.fluxus-


engineering.com/network_terms.htm, é usado para reconstruir árvores filogenéticas e
redes de haplótipos, inferir tipos ancestrais, ramificações evolutivas e estimar datações.
Os algoritmos são desenhados para biomoléculas não recombinantes. Aplicações bem
sucedidas incluem mtDNA, Y-STR, sequências de aminoácidos, RNA, DNA
autossômico não recombinante, etc. O uso de biomoléculas recombinantes trará redes
de grande dimensão as quais são difíceis de interpretar. Este software foi desenvolvido
para reconstruir todas as possíveis árvores filogenéticas de menor comprimento (todas
as árvores de máxima parcimônia) a partir de um conjunto de dados. Duas opções
diferentes de construção de network estão inclusas, que podem ser usadas
independentemente. O algoritmo Reduced Median ou RM que requer dados binários
(por exemplo: um nucleotídeo numa determinada posição para cada táxon deve ser T ou
C). O algoritmo Median Joining ou MJ permite dados multi-estados (por exemplo: um
nucleotídeo num determinado sítio pode ser A, C, G, T e ambiguidades como N).
Recomenda-se MJ para uso geral como primeira escolha. Se os resultados do algoritmo
MJ forem uma questão, recomenda-se utilizar o algoritmo RM para confrontar os
resultados.

Abaixo segue um breve passo a passo mostrando como utilizar o software


Network.
Ao abrir o programa, o usuário tem a opção de criar um novo conjunto de dados
ou importar um arquivo de entrada já existente. Para ambas as opções o usuário deve
primeiramente clicar em “Data Entry” (retângulo 1 da figura acima), depois ele pode
clicar na opção “Manual” (retângulo 2) ou importar um arquivo pré-existente “Import
rdf file” (retângulo 3). No nosso exemplo vamos demonstrar a criação de um novo
arquivo.

Ao clicar na opção “Manual” aparecerá uma janela como na figura acima, nessa
janela o usuário tem que especificar qual tipo de dado ele está trabalhando (retângulo), e
para prosseguir clicar em “Continue”.

Em seguida surgirá uma janela onde o usuário determina o número de haplótipos


(retângulo 4, figura acima), número de marcadores (retângulo 5) e peso para cada lócus
(retângulo 6). Para dar continuidade clique em “Create”.
A próxima janela que abrirá será semelhante a esta figura acima. Nela, o usuário
tem a opção de escolher o nome dos haplótipos (retângulo 7), determinar o estado dos
loci (retângulo 8), a frequência do haplótipo (retângulo 9) e determinar o peso para cada
lócus (retângulo 10). Todas essas modificações podem ser feitas clicando sobre o item e
digitando a nova informação desejada. O novo trabalho deve ser salvo e para fazê-lo
clique em “Save”.

Uma vez criado o conjunto de dados, é hora de realizar as análises. Para isso o
usuário deve clicar em “Calculate Network” (retângulo 11 da figura acima), ao clicar
outras abas aparecerão. Se o usuário desejar fazer um pré-processamento dos dados, ele
pode clicar na opção “Optional Pre-Processing” (retângulo 12). Nesta opção os seus
dados serão contraídos em formato de estrela antes da análise.

Os cálculos do Network são realizados ao optar a aba “Network Calculations”


(retângulo 13), nesta opção o software disponibiliza ao usuário dois algoritmos para
reconstrução da rede de haplótipos, são eles: Reduced Median (retângulo 15) e Media
Joining (retângulo 16). Os autores do software recomendam utilizar a segunda opção,
por ser um algoritmo que permite dados multi-estados. A aba marcada com o número 14
é uma análise opcional assim como a opção de número 12. Nesta opção o usuário faz
um processamento dos seus dados após os cálculos da Network, o pós-processamento é
uma análise de Máxima Parcimônia que faz uma limpeza retirando os nós ancestrais e
links que não são necessários na rede de haplótipos.

Para prosseguir no nosso exemplo, vamos escolher a opção “Median Joining”.

Após escolher esta opção uma janela se abrirá e nela clique em “File” (figura
acima) e “Open” para abrir o arquivo de entrada.
Antes de rodar a análise de Median Joining o usuário pode ajustar os parâmetros
no algoritmo, para isso ele deve clicar em “Parameters” (retângulo 17 da figura acima).
Nesta opção serão disponibilizados alguns parâmetros com mudança no peso do lócus,
mudança no Epsilon (estimativa de distância genética ponderada), escolher os
haplótipos com frequência maior que um, entre outras opções. Após os ajustes dos
parâmetros, o usuário deve clicar em “Calculate Network” (retângulo 18).

Ao rodar o algoritmo de cálculos de network o software vai gerar um arquivo de


saída com extensão .out para ser salvo pelo usuário.

Agora que os cálculos foram realizados, o usuário já pode desenhar a sua rede de
haplótipos clicando em “Draw network” (marcado na figura acima).
Uma nova janela abrirá e nela o usuário deve clicar em “File” (retângulo 19) e
“Open” (retângulo 20) para abrir o arquivo recém-gerado.

Após abrir o arquivo, a rede de haplótipos começará a ser desenhada. Surgirão


duas janelas de aviso, como estas mostradas na figura acima, o usuário deve clicar em
“OK” na primeira janela e “Yes” na segunda.
Depois de clicar na segunda janela aparecerá uma opção “Continue” que deve
ser apertada (figura acima). Logo após virá uma opção “Finalize” que também deve ser
clicada. No final a sua rede de haplótipos aparecerá desenhada como na figura abaixo.

Para editar a rede de haplótipos, o usuário tem de clicar com o botão direito do
mouse sobre o nó desejado (haplótipo). Ao clicar, se abrirá uma janela com opções para
alterar a configuração dos haplótipos (figura abaixo). Nesta janela o usuário pode
atribuir fatias ao seu haplótipo, número de indivíduos por fatia e cor das fatias para
representar os indivíduos que possuem aquele haplótipo.
Depois de alterar as configurações dos haplótipos, a imagem pode ser salva da
seguinte forma: clicando em “File” (retângulo 21 da figura abaixo) e “Save” (retângulo
22). O arquivo de saída deve ser salvo primeiramente no formato .fdi e também pode ser
salvo como figura em dois formatos opcionais: .pdf e .bmp.

Outra análise que é possível de ser realizada com o software Network é a


estimativa de datação que pode ser realizada após o desenho da rede de haplótipos. O
usuário deve clicar em “Time estimates” como mostrado na figura abaixo.
E logo após clicar em “File” (retângulo 23 da figura abaixo) e “Open” (retângulo
24), o arquivo que serve de entrada para esta análise é aquele com extensão .fdi, recém
criado pelo usuário.

Após abrir o arquivo com extensão .fdi, o usuário tem a opção de calibrar a taxa
de mutação para o seu marcador utilizado (retângulo 25 da figura abaixo), depois ele
deve clicar em “Specify ancestral node” (retângulo 26) e clicar no nó ancestral, em
seguida ele clica em “Specify descendent nodes” (retângulo 27) e clica sobre o nó
descendente. Posteriormente o usuário clicará em “Calculate time” (retângulo 28) e os
resultados aparecerão num quadro (retângulo 29), os resultados indicarão o tempo de
divergência entre os dois nós em mutações e em anos.
SELEÇÃO DE MODELOS EVOLUTIVOS

Os modelos evolutivos são a representação quantitativa dos aspectos evolutivos


de determinado conjunto de sequências (e.g. Conteúdo de GC, frequência das bases
nitrogenadas, transições e transversões). Estes modelos são avaliados quanto a sua
probabilidade de explicar um conjunto de dados de forma que reflita a história evolutiva
mais verossímil.

O modelo que apresentar o melhor valor de verossimilhança, que, por questões


operacionais, é dado em forma logarítmica, será o escolhido como base para a
reconstrução da árvore filogenética. Para a escolha do modelo evolutivo é necessário
que se tenha o alinhamento do conjunto de dados e a utilização do programa
JModelTest elaborado pelo grupo do pesquisador David Posada.

1. Ao abrir o JModelTest clique em “File” (2) e em seguida “Load sequence” (3)


para abrir o alinhamento em formato FASTA ou PHYLIP.

4. Em seguida no botão “Analysis”, clique em “Scores”. É importante que só


realize as alterações nos parâmetros quando se houver conhecimento, caso não haja,
o padrão deve ser utilizado. Após checar os parâmetros, clique em “Compute
likelihoods” (4).
Neste momento o programa calculará todos os valores de verossimilhança para
todos os modelos conhecidos.

5. Ao término deste procedimento, retorne ao botão “Analysis” e escolha a


estatística que irá escolher o modelo evolutivo. O JModelTest oferece 4 tipos de
estatística (5) com a finalidade de escolher o modelo evolutivo apropriado para o
conjunto de dados, iremos utilizar o AKAIKE INFORMATION CRITERION
(AIC).
6. Salve o resultado para análises posteriores.

ÁRVORES FILOGENÉTICAS: DISTÂNCIA E MÁXIMA PARSIMÔNIA

Os métodos de distância genética foram os primeiros utilizados para a obtenção


de dendrogramas e árvores filogenéticas. Estes métodos são baseados em matrizes de
distância simples, que são calculadas a partir das diferenças entre os dados a serem
analisados (dados morfológicos, disposição de bandas na PCR e sequências DNA ou
aminoácidos). Os métodos de distância mais utilizados são UPGMA, Neighbor-Joining
(NJ) e Evolução Mínima (ME). Para estes métodos, utilizaremos o programa MEGA5
desenvolvido pelo grupo dos pesquisadores Nei, Kumar e Tamura.

O método mais simples é o de UPGMA que foi desenvolvido para a construção


de fenogramas, apresentando as similaridades fenotípicas entre as OTUs (Operational
Taxonomic Units, unidades taxonômicas que se deseja comparar), mas pode também ser
utilizado para construir árvores filogenéticas se as taxas de evolução são
aproximadamente constantes entre diferentes linhagens (relação mais ou menos linear
entre a distância evolutiva e o tempo de divergência). Este método fornece um
dendrograma já enraizado, refletindo as diferenças entre os OTUs.

O método NJ utiliza uma árvore em formato de estrela e agrupa dois táxons


estreitamente relacionados (menor distância) transformando-o em um grupo, que será
tratado como uma única unidade, e repete até que todos os táxons formem o
dendrograma, baseado na relação dos ramos mais próximos (vizinhos). Já no método de
Evolução Mínima, pode-se começar a partir de uma árvore de NJ e escolhe topologia
cujo somatório dos ramos seja o menor.

A Máxima Parcimônia (MP) tem como principal fundamento escolher a


topologia que requer o menor número de passos. Deste modo, este tipo de agrupamento
não se baseia em distância genética e sim nos aspectos qualitativos das mudanças dos
caracteres e, assim como os métodos de distância, pode ser empregado para diferentes
tipos de dados (dados morfológicos, disposição de bandas na PCR e sequências DNA
ou aminoácidos). No método de parcimônia existem dois índices importantes que
verificam a qualidade do conjunto de dados utilizado. Para este método, também será
utilizado o programa MEGA5.

O índice de homoplasia (HI) e o índice de consistência rescalonado (RC)


indicam o quanto de homoplasias o conjunto de dados possui. Quanto menor for o HI
menor é a probabilidade de se ter homoplasias dentro dos dados, já o RC é inversamente
proporcional ao HI, logo, quanto maior for o RC menor é a quantidade de homoplasias
que o conjunto de dados possui.

Para todos os métodos de obtenção de dendrogramas é necessário um teste de


confiabilidade que é baseado em pseudo-replicações do conjunto de dados, a fim de
validar a consistência dos agrupamentos obtidos. Nestes casos utilizaremos o algoritmo
de bootstrap, também implementado no MEGA5.

1. Abra o arquivo FASTA do alinhamento no programa MEGA5.

2. Clique em “File” e em seguida “Phylogenetic Analysis” para carregar o conjunto


de dados no programa.
3. Após carregar o alinhamento no MEGA5, clique no botão “Phylogeny”. Neste
botão aparecerão as opções de distância (UPGMA, NJ e ME) e Máxima
Parcimônia (MP).

As opções assinaladas por 3, 4 e 5 correspondem aos métodos de distância


UPGMA, NJ e ME, respectivamente. Ao selecionar qualquer tipo de método, a mesma
caixa de parâmetros aparecerá, onde 7 é o tipo de método escolhido, 8 é método de
consistência dos ramos e validação dos agrupamentos (sempre > 1000), e 9 é o tipo de
correção para o modelo, neste caso, é imprescindível o conhecimento do modelo
evolutivo. Em 10, está o comando para realizar a obtenção da topologia.

Note que as topologias obtidas pelo método de UPGMA não possui a função de
enraizamento, e esta é uma limitação do método, entretanto NJ e ME permitem que se
escolha o grupo externo através do botão 11.

Máxima Parcimônia

No MEGA5, os passos para se obter um dendrograma são os mesmos passos


para se obter topologias baseadas em métodos de distância, entretanto, na caixa de
parâmetros surge uma nova variável que é o método de busca. Os métodos de busca
(12) podem ser branch and baund ou heurística.
Finalizando, para se obter os índices das topologias de máxima parcimônia (HI e
RC) basta clicar no botão “Caption” (13) quando o programa terminar o cálculo do
dendrograma.

MÁXIMA VEROSSIMILHANÇA E INFERÊNCIA BAYESIANA

A Máxima Verossimilhança (MV) é um método probabilístico a priori em que a


obtenção dos dendrogramas é realizada a partir dos modelos evolutivos em que a
probabilidade de MV é calculada para cada sítio. Para este método é recomendado o
programa PhyML 3.0, disponibilizado no home page: http://www.atgcmontpellier.fr/
phyml/binaries.php, do grupo do David Posada.

O teste de confiabilidade da topologia é o bootstrap com no mínimo 1000


pseudo-réplicas.

1. Copie um alinhamento no formato PHYLIP na pasta do PhyML 3.0.

2. Execute o programa Phyml.exe, coloque o nome do arquivo copiado e aperte


ENTER para abrir o menu.

3. Digite “+” e ENTER para abrir o sub-menu de análises.

4. Digite M, até achar o modelo evolutivo para seu conjunto de dados, sugerido pelo
JModelTest.

5. Digite T, para alterar a taxa de transição e transversão, V para alterar a taxa de


proporção dos sítios invariáveis e A para alterar a proporção Gama.
6. Após alterar estes parâmetros, digite “–“ duas vezes para chegar ao teste de
bootstrap.

7. Digite B, para ativar o bootstrap, logo após digite o número de pseudo-réplicas e


aperte ENTER.

8. Confirme o número de bootstrap digitando Y, e novamente Y para começar a


análise.
9. Ao término da análise, na pasta do programa PhyML será adicionado um arquivo
com a terminação phyml_tree.

10. Abra o programa MEGA5 para visualizar a topologia. Clique em “User tree”, em
seguida “Display Newick trees”.
Note que, ao visualizar a topologia, os valores de bootstrap irão variar de 1 a
1000, logo, antes de visualizar a topologia, edite o arquivo da árvore em um documento
de texto.

A inferência filogenética utilizando a análise Bayesiana é fundamentada na


probabilidade a posteriori, também utiliza os modelos evolutivos, e para os cálculos das
probabilidades é utilizado o algoritmo Monte Carlo Cadeia de Marcov (MCMC). Para
esta análise é utilizado o programa MrBayes.

1. A partir do alinhamento, obtenha um arquivo no formato NEXUS.

2. Abra o arquivo NEXUS no wordpad e acrescente o seguinte script:

Em que 1 é a frequência de cada base nitrogenada (obtido no JModelTest). O


número 2 é a frequência de cada substituição (obtido no JModelTest), 3 é o comando
para estimar a taxa gama e 4 é a proporção de sítios invariáveis (I), ambos obtidos junto
com o modelo evolutivo. O número 5 são os parâmetros da Cadeia de Marcov, 6 e 7
local onde insere o nome do experimento e 8 é o período de aquecimento da MCMC.
3. Após copiar este script no arquivo NEXUS, salve-o na pasta do MrBayes.

4. Execute o programa MrBayes, digite o nome do arquivo a ser executado e em


seguida aperte a tecla ENTER.

5. O programa será fechado automaticamente após o término da análise.

6. O programa criará vários arquivos com o nome do experimento.

7. Com ajuda do programa TreeView disponível no site


http://taxonomy.zoology.gla.ac.uk/rod/treeview.html, abra o arquivo com a
terminação .con, para visualizar a topologia obtida.

Você também pode gostar