Escolar Documentos
Profissional Documentos
Cultura Documentos
Bioinformática
BIOLOGIA COMPUTAÇÃO
“O livro da vida”
• 3 a 4 milhões de pb
• 30 X - sobreposição
COMPUTADOR
hardware software
SISTEMA OPERACIONAL
(baseados em Linux)
Programação (PERL):
- Dados de sequência
de nt e aa
-Evolutiva
-Genômica
-Estrutural
-Funcional
GenBank SWISS-PROT
Pfam
EMBL DDBJ
PIR
PBD
56.037.734.462
52.016.762
http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html (2006)
Seqüências
Genômicas (projeto genoma)
Fragmentar pedaços pequenos - 1000
EST (projeto transcriptoma)
(binfo.ym.edu.tw/yang/talks/gen_ann/sld007.htm)
INTERFACE
Relação pré-existente
gene
artigo cromossomo
(PubMed)
SNP
nucleotídeos proteína
estrutura 3D
domínio conservado
Busca no NCBI
Nome de uma proteína
Seqüência de aa
Seqüência de nt
Seqüência de seu mRNA
Domínios conservados
Estrutura tridimensional
Busca através de uma seqüência
Arquivo em FASTA
>Código de acesso| Descrição da sequência
TCATGTTGCCGTACATTGTCCTAGTATTGGGGTGTTGGAGCGTCTTGTCCCAGGCTGCTCAAACAGATGA
TGAAGAACGCGCAGGTAATCGTCGGCCTATATGGATCATGGGGCACATGGTAAATGCCATCGGTCAGATA
GACGAGTTCGTGAACCTTGGAGCAAACTCCATCGAAACAGACGTGTCTTTCGATGACAATGCCAATCCTG
AGTATACTTATCACGGCATTCCATGTGATTGTGGAAGGAATTGCAAGAAATATGAGAATTTTAACGATTT
TCTGAAAGGTCTCCGAAGCGCCACAACACCTGGTAATTCAAAGTATCAGGAAAAACTGGTCTTAGTCGTG
TTCGACTTAAAGACAGGTAGCCTCTACGATAATCAAGCCAACGACGCCGGAAAGAAATTGGCGAAGAATC
TCTTACAACATTACTGGAACAATGGCAATAATGGTGGAAGAGCATACATAGTGTTATCGATCCCAGACCT
TAATCATTATCCACTGATTAAAGGATTCAAAGACCAGCTTACAAAGGACGGACACCCAGAGTTGATGGAC
AAAGTTGGACACGACTTCTCCGGAAACGACGACATCGGCGACGTTGGAAAAGCTTACAAGAAAGCAGGAA
TAACTGGCCATATTTGGCAGAGCGATGGTATCACCAACTGTTTACCACGTGGCCTTAGTCGTGTGAACGC
AGCTGTGGCAAACAGAGATTCCGCAAACGGATTCATTAACAAAGTGTACTACTGGACAGTGGACAAGCGC
TCAACGACCAGAGATGCACTTGATGCTGGAGTTGACGGCATAATGACCAACTACCCGGATGTTATCACTG
ATGTTCTCAACGAAGCCGCATACAAGAAGAAATTCCGAGTTGCCACATACGACGAAAATCCATGGGTGAC
ATTCAAGAAATAAATTCTGCAGGTTGATTGTGGAAAAACACATGGCAATCTGGATTTCACGATTTTCATT
GAACTTTGTTGAAAAACCAATTTGATGCGAAAAACTAAAAACTATGCACTATGGAAGCTTTGTTCAAAAT
ATTGTTTGTTATTATTGTAAACATGTTTGAAAAAGTATTTTTCAGAAATAAATTTTGATCCATGTAAAAA
AAAAAAAAAAAAAAAAAAA
Busca através de uma
seqüência
Comparação de duas ou mais sequências
por meio de buscas de uma série de
caracteres ou padrões de caracteres que
estão na mesma ordem.
Gap, match e mismatch
A L IG N M E N T
| | | | | | |
- L I G A M E N T
Busca através de uma
seqüência
Alinhamento global e local
Global
o alinhamento se extende por toda sequência
Local
o alinhamento localiza fragmentos de sequências que
são mais similares
Busca através de uma
seqüência
Definindo 3 termos importantes:
identidade -> refere-se à presença do mesmo ac.
nucléico (nt) ou aminoácido (aa) na mesma posição
em 2 seqs. alinhadas.
similaridade -> porcentagem de nt idênticos ou de
aa com propriedades químicas semelhantes. (medida
de qualidade do alinhamento)
homologia -> refere-se a relação evolutiva entre as
seqs. Duas sequências homólogas derivam da
mesma seq. ancentral.
Alinhamento é muito útil na predição de função,
estrutura e inferência filogenética.
HOMOLOGIA
Softwares
Clustaw (alinhamento múltiplo)
BLAST (alinhamento local)
BLAST2 (alinhamento global entre 2
seqüências)
FASTA
formato padrão de seqüências aceito nos
softwares
BLAST
Basic Local Aligment Search Tool
Alinhamentos
Score - pontuação dos alinhamentos
E-value – significância estatística
(alinhamento biologicamente provável)
Quanto > score > identidades
Quanto < e-value > identidades