Você está na página 1de 24

BIOINFORMÁTICA

Bioinformática

BIOLOGIA COMPUTAÇÃO

Casamento entre a ciência da computação e a biologia molecular


Ciência da computação como ferramenta para um maior
entendimento do mundo biológico
Histórico

“O livro da vida”

• 3 a 4 milhões de pb
• 30 X - sobreposição
COMPUTADOR
hardware software

SISTEMA OPERACIONAL
(baseados em Linux)

Programação (PERL):
- Dados de sequência
de nt e aa

Grande volume de informação “Um Banco de dados biológico constitui um


grande conjunto de dados persistentes, geralmente
SGBD (MySQL) associado a um software projetado para atualizar,
consultar e recuperar componentes dos dados
BANCO DE DADOS armazenados no sistema”.
Bioinformatics FactSheet (2004).

-Evolutiva
-Genômica
-Estrutural
-Funcional
GenBank SWISS-PROT

Pfam
EMBL DDBJ
PIR
PBD
56.037.734.462

52.016.762

http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html (2006)
Seqüências
 Genômicas (projeto genoma)
 Fragmentar pedaços pequenos - 1000
 EST (projeto transcriptoma)

Biblioteca – Vetor plasmidial

(binfo.ym.edu.tw/yang/talks/gen_ann/sld007.htm)
INTERFACE
Relação pré-existente

gene
artigo cromossomo
(PubMed)
SNP

nucleotídeos proteína

estrutura 3D
domínio conservado
Busca no NCBI
 Nome de uma proteína
 Seqüência de aa
 Seqüência de nt
 Seqüência de seu mRNA
 Domínios conservados
 Estrutura tridimensional
Busca através de uma seqüência

 Arquivo em FASTA
>Código de acesso| Descrição da sequência
TCATGTTGCCGTACATTGTCCTAGTATTGGGGTGTTGGAGCGTCTTGTCCCAGGCTGCTCAAACAGATGA
TGAAGAACGCGCAGGTAATCGTCGGCCTATATGGATCATGGGGCACATGGTAAATGCCATCGGTCAGATA
GACGAGTTCGTGAACCTTGGAGCAAACTCCATCGAAACAGACGTGTCTTTCGATGACAATGCCAATCCTG
AGTATACTTATCACGGCATTCCATGTGATTGTGGAAGGAATTGCAAGAAATATGAGAATTTTAACGATTT
TCTGAAAGGTCTCCGAAGCGCCACAACACCTGGTAATTCAAAGTATCAGGAAAAACTGGTCTTAGTCGTG
TTCGACTTAAAGACAGGTAGCCTCTACGATAATCAAGCCAACGACGCCGGAAAGAAATTGGCGAAGAATC
TCTTACAACATTACTGGAACAATGGCAATAATGGTGGAAGAGCATACATAGTGTTATCGATCCCAGACCT
TAATCATTATCCACTGATTAAAGGATTCAAAGACCAGCTTACAAAGGACGGACACCCAGAGTTGATGGAC
AAAGTTGGACACGACTTCTCCGGAAACGACGACATCGGCGACGTTGGAAAAGCTTACAAGAAAGCAGGAA
TAACTGGCCATATTTGGCAGAGCGATGGTATCACCAACTGTTTACCACGTGGCCTTAGTCGTGTGAACGC
AGCTGTGGCAAACAGAGATTCCGCAAACGGATTCATTAACAAAGTGTACTACTGGACAGTGGACAAGCGC
TCAACGACCAGAGATGCACTTGATGCTGGAGTTGACGGCATAATGACCAACTACCCGGATGTTATCACTG
ATGTTCTCAACGAAGCCGCATACAAGAAGAAATTCCGAGTTGCCACATACGACGAAAATCCATGGGTGAC
ATTCAAGAAATAAATTCTGCAGGTTGATTGTGGAAAAACACATGGCAATCTGGATTTCACGATTTTCATT
GAACTTTGTTGAAAAACCAATTTGATGCGAAAAACTAAAAACTATGCACTATGGAAGCTTTGTTCAAAAT
ATTGTTTGTTATTATTGTAAACATGTTTGAAAAAGTATTTTTCAGAAATAAATTTTGATCCATGTAAAAA
AAAAAAAAAAAAAAAAAAA
Busca através de uma
seqüência
 Comparação de duas ou mais sequências
por meio de buscas de uma série de
caracteres ou padrões de caracteres que
estão na mesma ordem.
 Gap, match e mismatch
A L IG N M E N T
| | | | | | |
- L I G A M E N T
Busca através de uma
seqüência
 Alinhamento global e local
 Global
 o alinhamento se extende por toda sequência
 Local
 o alinhamento localiza fragmentos de sequências que
são mais similares
Busca através de uma
seqüência
 Definindo 3 termos importantes:
 identidade -> refere-se à presença do mesmo ac.
nucléico (nt) ou aminoácido (aa) na mesma posição
em 2 seqs. alinhadas.
 similaridade -> porcentagem de nt idênticos ou de
aa com propriedades químicas semelhantes. (medida
de qualidade do alinhamento)
 homologia -> refere-se a relação evolutiva entre as
seqs. Duas sequências homólogas derivam da
mesma seq. ancentral.
 Alinhamento é muito útil na predição de função,
estrutura e inferência filogenética.
HOMOLOGIA
Softwares
 Clustaw (alinhamento múltiplo)
 BLAST (alinhamento local)
 BLAST2 (alinhamento global entre 2
seqüências)

 FASTA
 formato padrão de seqüências aceito nos
softwares
BLAST
 Basic Local Aligment Search Tool
Alinhamentos
 Score - pontuação dos alinhamentos
 E-value – significância estatística
(alinhamento biologicamente provável)
 Quanto > score > identidades
 Quanto < e-value > identidades

Você também pode gostar