Você está na página 1de 99

SEQUENCIAMENTO E BANCO DE DADOS

BIOLGICOS

Gabriel Dequigiovanni
Departamento de Gentica
gabriel.dequi@gmail.com

1866

Gregor Mendel Leis da Hereditariedade

1903

Walter Sutton Cromossomos, unidades hereditrias

1913

Thomas Morgan Cromossomos, arranjos lineares

1944

DNA material gentico em todos os seres vivos - Avery,


McCarty, McLeaod, Griffiths

1945

Um gene codifica uma protena, Beadle, Tatum

1953

Dupla hlice do DNA (Watson & Crick)

1960s

Elucidao do cdigo gentico

1977

Sequenciamento do DNA (Fred Sanger)

1983

PCR Kary Mullis

1995

Primeiro genoma de bactria sequenciado (Haemophilus


influenza)

1998
1999

Primeiro cromossomo humano sequenciado


(cromossomo 22)

2000

Genomas Drosophia / Arabidopsis / Xylella

2001

Genomas humano e camundongo

2003

99% genoma humano

2004

Metagenmica (Environmental genomics)

2005

Sequenciar um genoma de procarioto por US$1 000.

2007

DNA de James Watson sequenciado

2009

Sequenciar seu prprio genoma por US$ 50 000.

LOUSA

Animao!
http:/www.dnalc.org/ddnalc/resources/sangerseq.html

LASER

Deteco
a laser

Animao!
http:/www.dnalc.org/ddnalc/resources/cycseq.html

ABI 3700 Applied Biosystems - ~150.000 bases/dia

3730 Applied Biosystems ~1.000.000 bases/dia

454 Roche ~100 M bases/7,5 h

SOLiD Applied Biosystems


~3 000 M bases/corrida/ 6 dias (3 bilhes)

Solexa Illumina ~2 000 M bases/corrida /6,5 dia (2 bilhes)

NGS (Next-Generation Sequencing)


Plataformas modernas para sequenciamento

HiSeq 2500 Illumina

Ion Torrent Life


Technologies

454 Roche

NGS (Next-Generation Sequencing)

Transio para NGS

De uma pequena quantidade de sequncias maiores para muitas sequncias

pequenas massively parallel sequencing


Maior capacidade geral de sequenciamento
Aumento da complexidade computacional
Sequncias curtas
Resulta em bilhes de bases sequenciadas em centenas de milhes de

fragmentos

Um nico equipamento de nova gerao faz o mesmo trabalho que 30 mil


sequenciadores do modelo usado em 2000!
Por outro lado, essas milhes de bases lidas esto em fragmentos muito pequenos
que, para a montagem de um genoma completo, tm de ser concatenados como em
um quebra-cabea gigantesco.

ETAPAS DO SEQUENCIAMENTO DE DNA


Preparao do DNA

Reao de sequenciamento

Eletroforese capilar

Anlise computacional

FRAGMENTOS DE DNA SEQUENCIADOS

FRAGMENTOS COMPLETOS

Biblioteca de insertos pequenos

Montagem dos fragmentos

Fechamento dos gaps


Anlise

E porque no usamos s o PAC BIO?

BIOINFORMTICA
A bioinformtica consiste no desenvolvimento de
mtodos computacionais, matemticos e estatsticos
para organizar e analisar informaes biolgicas em
grande escala e de maneira integrada.

Organizao
e Armazenamento
Visualizao
e Anlise

- Bancos de Dados Biolgicos

- Ferramentas computacionais
- Compreenso do significado biolgico

Voc toparia?

Neanthertal

Desmond Mpilo Tutu (1931-) arcebispo e


ativista dos direitos humanos. Nobel da paz em
1994.

James Watson

Craig Venter

430.000 anos

2019

Arroz

Soja

Arabdopsis

Milho
Tomate
Poplar Genome Sequenced and Published;
Model Crop for Biofuels

BANCO DE DADOS BIOLGICOS


Nucleotdeos :
International Collaboration
NCBI(EUA), EMBL(Europa), DDBJ (Japo)

Organismo-especfico

http://flybase.org/
http://poultry.mph.msu.edu/
http://www.maizegdb.org/
http://rice.plantbiology.msu.edu/
http://www.yeastgenome.org/
http://soybeangenome.siu.edu/
http://www.ornl.gov/sci/techresources/Human_Genome/ho
me.shtml

Sequenciamento de genomas:

BANCOS DE DADOS MUNDIAIS


Japan
CIB/NIG

> 300,000 species;


whole genome of over 1,500 organisms.

http://www.insdc.org/

INSDC
USA
NCBI/NLM

Europe
EBI/EMBL

Public Collections of DNA and RNA Sequences: Alcanou 100 Gigabases!!!!


(August, 2005)

Public Collections of DNA and RNA Sequences: Alcanou 300 Gigabases!!!!


(August, 2011) -199,575,971 entries

BANCOS DE DADOS MUNDIAIS

Atualizaes dirias

Troca de informaes

National Center for Biotechnology Information (NCBI)


http://www.ncbi.nlm.nih.gov/

FERRAMENTAS
ENTREZ: ferramenta
de busca do banco de
dados do NCBI

PubMed: artigos
cientficos

Taxonomy Browser: classificao


taxonmica de organismos

ESTRUTURA DO GENBANK

http://www.ncbi.nlm.nih.gov/Database/index.html

S o NCBI no seria suficiente?


Porque existe outros bancos?

Homo sapiens BRCA1


http://www.ncbi.nlm.nih.gov/Database/index.html

https://www.ncbi.nlm.nih.gov/nuccore/AH003701.2

Formato FASTA: formato universalmente aceito para ser processado


Identificador
>gi|226347322|gb|FJ830553.1| Anabaena planctonica CENA210 ribulose-1,5bisphosphate carboxylase/oxygenase large subunit (rbcL) gene, partial cds
CCGGCGAAATTAAAGGTCACTACCTCAACGTTACCGCTCCTACCTGCGAAGAAATGTTGAAACGGGCTGA
GTACGCTAAAGAACTCAAAATGCCCATCATCATGCACGACTACCTAACCGCAGGTTTCACCGCTAACACC
ACATTGGCTCGTTGGTGTCGTGATAACGGTATTTTATTGCACATTCACCGTGCTATGCACGCTGTAATTG
ACCGTCAAAAAAATCACGGTATCCACTTCCGCGTATTAGCTAAAGCCCTCCGCTTGTCCGGTGGTGATCA
CATCCACACTGGTACAGTTGTTGGTAAGTTAGAAGGTGAACGCGGTATTACCATGGGCTTCGTTGACTTA
TTACGTGAAAACTACGTTGAGCAAGACAAGTCTCGCGGTATTTACTTTACCCAAGATTGGGCGTCTCTAC
CTGGTGTAATGGCCGTTGCTTCTGGTGGTATCCACGTATGGCATATGCCCGCGTTGGTTGAGATCTTCGG
TGATGACTCCGTATTACAATTCGGTGGTGGTACACTCGGACATCCTTGGGGTAACGCTCCTGGTGCTACA
GCTAACCGCGTAGCTCTAAAAGCAGTTGTTCAAGCTCGTAACGAAGGCCGTAACTTAGCTCGTGAAGGTA
ACGATATTATCCGCGAAGCTGCTAAGTGGTCTCCTGAGTTGGCTGTTGCTTGCGAACTG

>gi|226347323|gb|ACO50079.1| ribulose-1,5-bisphosphate
carboxylase/oxygenase large subunit [Anabaena planctonica CENA210]
GEIKGHYLNVTAPTCEEMLKRAEYAKELKMPIIMHDYLTAGFTANTTLARWCRDNGILLHIHRAMHAVID
RQKNHGIHFRVLAKALRLSGGDHIHTGTVVGKLEGERGITMGFVDLLRENYVEQDKSRGIYFTQDWASLP
GVMAVASGGIHVWHMPALVEIFGDDSVLQFGGGTLGHPWGNAPGATANRVALKAVVQARNEGRNLAREGN
DIIREAAKWSPELAVACEL

BUSCA EM BLAST
BLAST: Basic Local Alignment Search Tool
Por sequncia de nucleotdeos ou de aminocidos (protenas)
Comparao de sequncias a fim de identificar similaridade de
DNA ou protena para inferir origem, funo, filogenia
Realiza comparaes entre pares de sequncias, buscando
regies com similaridade local
Alinhamento local (segmentos) a base da busca por BLAST
Usa algoritmos para gerar alinhamento de sequncias

BUSCA EM BLAST

BUSCA EM BLAST

Mais utilizados blastn e blastp!!

BUSCA EM BLAST
Algoritmos em Blast:
No avaliam homologia

A anlise de sequncias objetiva


encontrar similaridades importantes
que permitam inferir sobre homologia

Medem similaridade e identidade de seqncias

Exemplos:
rgos homlogos asas de morcego e mos de humanos (mesma origem)
rgos similares asas de morcego e asas de borboleta (mesma funo)

BUSCA EM BLAST
Identidade x Similaridade x Homologia
Identidade = ocorrncia do mesmo nucleotdeo
aminocido na mesma posio nas seqncias alinhadas

ou

Similaridade = considera combinaes prximas e avaliada por


medidas de diferena/igualdade
Homologia = dividem mesma ancestralidade, com significado
evolutivo
Homologia => conceito central de Evoluo

BUSCA EM BLAST
Nossa sequncia query (consulta),
O resultado da busca em BLAST pode ser um ou mais hits em
sequncias-sujeito (subject)

Os melhores resultados de escores so relatados,


usar valor E
valor E <0.01
Quanto menor o e-value, mais

significativo o alinhamento!!!

Nucleotdeos
GGCTCTTTAGCTTCTTAGGACAGCACTTCCTGATT
TTGTTTTCAACTTCTAATCCTTTGAGTGTTTTTCA
TTCTGCAGATGCTGAGTTTGTGTGTGAACGGACAC
TGAAATATTTTCTAGGTGCGGGAGGAAAATGGGTA
GTTAGCTATTTCTGTAAGTATAATACTATTTCTCC
CCTCCTCCCTTTAACACCTCAGAATTGCATTTTTA
CACCTAACGTTTAACACCTAAGGTTTTTGCTGATG
CTGAGTCTGAGTTACCAAAAGGTCTTTAATTGTAA
TACTAAACTACTTTTATCTTTAATATCACTTTGTT
CAGATAAGCTGGTGATGCTGGGAAAATGGGTCTC

Z96068.1

Protena
>EAX11622.1 lactase [Homo sapiens]
MELSWHVVFIALLSFSCWGSDWESDRNFISTAGPLTNDLLHNLSGLLGDQSSNFVAGDKDMYVCHQPLPT
FLPEYFSSLHASQITHYKVFLSWAQLLPAGSTQNPDEKTVQCYRRLLKALKTARLQPMVILHHQTLPAST
LRRTEAFADLFADYATFAFHSFGDLVGIWFTFSDLEEVIKELPHQESRASQLQTLSDAHRKAYEIYHESY
AFQGGKLSVVLRAEDIPELLLEPPISALAQDTVDFLSLDLSYECQNEASLRQKLSKLQTIEPKVKVFIFN
LKLPDCPSTMKNPASLLFSLFEAINKDQVLTIGFDINEFLSCSSSSKKSMSCSLTGSLALQPDQQQDHET
TDSSPASAYQRVWEAFANQSRAERDAFLQDTFPEGFLWGASTGAFNVEGGWAEGGRGVSIWDPRRPLNTT
EGQATLEVASDSYHKVASDVALLCGLRAQVYKFSISWSRIFPMGHGSSPSLPGVAYYNKLIDRLQDAGIE
PMATLFHWDLPQALQDHGGWQNESVVDAFLDYAAFCFSTFGDRVKLWVTFHEPWVMSYAGYGTGQHPPGI
SDPGVASFKVAHLVLKAHARTWHHYNSHHRPQQQGHVGIVLNSDWAEPLSPERPEDLRASERFLHFMLGW
FAHPVFVDGDYPATLRTQIQQMNRQCSHPVAQLPEFTEAEKQLLKGSADFLGLSHYTSRLISNAPQNTCI
PSYDTIGGFSQHVNHVWPQTSSSWIRVVPWGIRRLLQFVSLEYTRGKVPIYLAGNGMPIGESENLFDDSL
RVDYFNQYINEVLKAIKEDSVDVRSYIARSLIDGFEGPSGYSQRFGLHHVNFSDSSKSRTPRKSAYFFTS
IIEKNGFLTKGAKRLLPPNTVNLPSKVRAFTFPSEVPSKAKVVWEKFSSQPKFERDLFYHGTFRDDFLWG
VSSSAYQIEGAWDADGKGPSIWDNFTHTPGSNVKDNATGDIACDSYHQLDADLNMLRALKVKAYRFSISW
SRIFPTGRNSSINSHGVDYYNRLINGLVASNIFPMVTLFHWDLPQALQDIGGWENPALIDLFDSYADFCF
QTFGDRVKFWMTFNEPMYLAWLGYGSGEFPPGVKDPGWAPYRIAHAVIKAHARVYHTYDEKYRQEQKGVI
SLSLSTHWAEPKSPGVPRDVEAADRMLQFSLGWFAHPIFRNGDYPDTMKWKVGNRSELQHLATSRLPSFT
EEEKRFIRATADVFCLNTYYSRIVQHKTPRLNPPSYEDDQEMAEEEDPSWPSTAMNRAAPWGTRRLLNWI
KEEYGDIPIYITENGVGLTNPNTEDTDRIFYHKTYINEALKAYRLDGIDLRGYVAWSLMDNFEWLNGYTV
KFGLYHVDFNNTNRPRTARASARYYTEVITNNGMPLAREDEFLYGRFPEGFIWSAASAAYQIEGAWRADG
KGLSIWDTFSHTPLRVENDAIGDVACDSYHKIAEDLVTLQNLGVSHYRFSISWSRILPDGTTRYINEAGL
NYYVRLIDTLLAASIQPQVTIYHWDLPQTLQDVGGWENETIVQRFKEYADVLFQRLGDKVKFWITLNEPF
VIAYQGYGYGTAAPGVSNRPGTAPYIVGHNLIKAHAEAWHLYNDVYRASQGGVISITISSDWAEPRDPSN
QEDVEAARRYVQFMGGWFAHPIFKNGDYNEVMKTRIRDRSLAAGLNKSRLPEFTESEKRRINGTYDFFGF
NHYTTVLAYNLNYATAISSFDADRGVASIADRSWPDSGSFWLKMTPFGFRRILNWLKEEYNDPPIYVTEN
GVSQREETDLNDTARIYYLRTYINEALKAVQDKVDLRGYTVWSAMDNFEWATGFSERFGLHFVNYSDPSL
PRIPKASAKFYASVVRCNGFPDPATGPHACLHQPDAGPTISPVRQEEVQFLGLMLGTTEAQTALYVLFSL
VLLGVCGLAFLSYKYCKRSKQGKTQRSQQELSPVSSF

EAX11622.1

BLASTn

BLASTp

Colar a sequncia que deseja analisar

Barra = Identidade

BUSCA EM BLAST
PROTENAS
FORMATO FASTA
>gi|47933334|gb|AAQ63935.1| cellulose synthase [Pinus radiata]
MEARTNTAAGSNKRNVRVSVRDDGELGPKPPQHINSHICQICGEDV
GLAADGEFFVACNECAFPVCRPCYEYEWKDGNQSCPQCKTRYKWH
KGSPQVDGDKEDECADDLDHDFNSTQGNRNEKQQIAEAMLHWQM
AYGRGEDVGPSRSESQELPQLQVPLITNGQAISGELPAGSSEYRRIA
APPTGGGSGKRVHPLPFPDSTQTGQVRA

>LINHA DO NOME

MXIMA DE 80 CARACTERES POR LINHA

AY751548.1
L03637.1
AJ005984.1
NM_001246552.1
G24983.1
BK000460
NM_001045493.1
NM_001114949.1
BC037526.1
AB081072.1
AY136463.1
BC009121.1
AB052957.1