Você está na página 1de 136

BIOLOGIA/MEDICINA

A Revoluo da
Genmica/Bioinformtica
A Verdadeira Revoluo

Incio do sc. 20: Mendel e as leis da hereditariedade.

1944: DNA como elemento carreador da


informao gentica (Avery)

1953: Watson/Crick e aestrutura do DNA.

Anos 70 e 80: Biologia Molecular/Biotecnologia

Anos 90 e sc. 21: Genmica/Bioinformtica


Histria da Biologia Molecular
1951 Fred Sanger, Amino Acid Sequence of Insulin
1953 Watson/Crick, Estrutura do DNA
1957 Francis Crick, Central Dogma, DNA RNA Protein
1960s Nirenberg, Matthaei, The Genetic Code
1967 Shapiro and Beckwith, First gene cloned, LacZ
1972 Paul Berg, First recombinant DNA molecule
1973 Cohen/Boyer, First recombinant organism
1977 Maxam/Gilbert and Fred Sanger, DNA sequencing
1977 Fred Sanger, Complete sequence of phage X174
1978 David Botstein, Restriction Fragment Length
Polymorphisms (RFLP)
1980 Kerry Mullis, PCR
1983 Lee Hood, First Automated DNA Sequencer
Sequenciamento
do DNA
Sanger, Gilbert (Nobel 1980)
Sequenciamento Automtico

Leroy Hood

30kb por corrida


A era genmica
376 Genomas Concludos! 251 como
rascunho! 342 em andamento
327 Bacterial, 27 Archeal, 22 Eukaryotic
1995, Haemophilus influenzae
1996, Methanococcus jannaschii
1997, Saccharomyces cerevisiae
1997, Escherichia coli
1998, Caenorhabditis elegans
2000, Drosophila melanogaster
2000, Arabidopsis thaliana
2001, Homo sapiens
2002, Schizosaccharomyces
pombe
2002, Oryza sativa
2002, Mus musculus
http://www.ncbi.nlm.nih.gov
2005, Pan troglodites 09/07/2006
Um modelo gentico
Genoma Humano
2001

International Consortium
Grupos acadmicos

Celera Genomics
Companhia Privada
A nova revoluo da Genmica

454 Solexa - Illumina SOLiD - ABI

~120 MB de DNA ~01 GB de DNA ~03 GB de DNA


por corrida por corrida por corrida

12KB/US$ 100KB/US$ 300KB/US$

Tecnologia de Capilar = 0.5KB/US$


Nova tecnologia

Dispensa clonagem dos fragmentos em


sistemas bacterianos
Dispensa a preparao de DNA molde
para sequenciamento
Reaes feitas em paralelo em volume
extremamente pequeno -
nanotecnologia
Aplicaes

Sequenciamento de Genomas
sequenciamento de novo
re-sequenciamento - variabilidade SNPs e
mutaes

Sequenciamento de Transcriptomas
variabilidade- splicing, poliadenilao
quantificao de expresso gnica
Sequenciamento de novo
Re-sequenciamento
Transcriptoma
Projeto 454

Participantes: LICR-SP, LICR-NY, Venter Institute

Objetivo: Sequenciamento extensivo dos genes


expressos na linhagem celular HCC1954 (tumor de
mama) buscando conhecer, com um nico set de
dados, alteraes genticas e epi-genticas neste tipo
de cncer.

Sequenciador: 454
Fapesp/LICR
Genoma Humano do Cncer Projeto 454 Venter/LICR

# sequncias 1.2 milhes 520 mil

# sequenciadores 05 MegaBaces 01 454

# corridas ~15,000 01

Custo (US$)* 12 milhes 10 mil

* Excluindo o preo dos aparelhos


Um objetivo a curto prazo
Os sequenciadores de nova gerao
promovem uma mudana no
paradigma

Gerao de dados
deixa de ser o fator
Com os bilhes de
limitante
datapoints gerados em
horas, o processamento
e anlise dos dados
tornou-se o maior
gargalo das pesquisas
biomdicas.
Bioinformtica

Computao
Matemtica
Biologia
O que Bioinformtica?
Bioinformtica - Histria
1970, Needleman/Wunch, Alinhamento Global.
1972, Margaret Dayhoff, Matrizes de
Comparao.
1979, Walter Goad, GenBank.
1981, Smith/Waterman, Alinhamento Local.
1989, NHGRI, Projeto Genoma Humano.
1990, Altschul/Gish/Miller/Myers/Lipman, BLAST.
1994, Eddy/Krogh/Durbin, Hidden Markov
Models (HMMs).
Bioinformtica - Importncia
Poucas pessoas adequadamente treinadas em
Biologia e Computao.

Biologia em larga-escala. Produo de dados


em massa gera uma demanda para anlises
computacionais.

Economiza tempo e dinheiro.


Bioinformtica

Desenvolvimento de ferramentas.
Forma de explorar novos dados.
Processamento de dados gerados por
projetos em larga-escala.
Uma nova forma de se fazer cincia
dirigida por hipteses.
Bioinformtica

O Bioinformata O Usurio
- Manipula a informao. - Recursos da Web.
- Desenvolve ferramentas - Local ou remoto.
- Bancos de dados locais. - nada de programao.
- Local. - pouca habilidade de TI.
- Mta programao.
- Habilidades de TI.
Cinco websites que todos devem
conhecer
NCBI (The National Center for Biotechnology Information;
http://www.ncbi.nlm.nih.gov/
EBI (The European Bioinformatics Institute)
http://www.ebi.ac.uk/
The UCSC Genome Browser
http://genome.ucsc.edu/
SwissProt/ExPASy (Swiss Bioinformatics Resource)
http://expasy.cbr.nrc.ca/sprot/
PDB (The Protein Databank)
http://www.rcsb.org/PDB/
NCBI
(http://www.ncbi.nlm.nih.gov/)
Acesso aos bancos de dados via Entrez
Medline/OMIM
Genbank/Genpept/Structures

Servidor de BLAST
Todos os tipos de Blast
Portal do Genoma Humano
Muito, muito mais..
EBI (http://www.ebi.ac.uk/)

Acesso a bancos de dados via SRS


EMBL, SwissProt,
Muitas outras ferramentas
ClustalW, DALI,
UCSC Genome Browser
(http://genome.ucsc.edu/)
Banco de dados e Browser para genomas
de diferentes espcies
Humano, camundongo, rato, zebrafish, etc.
Muitas outras ferramentas
SNPs,domnios prticos, genmica
comparativa, etc.
SwissProt
(http://www.expasy.ch/sprot/)
Checagem manual.
O nmero de entradas errneas bastante
reduzido.
Cross-link extensivo com outros bancos
SwissProt o gold-standard em termos
de bancos de dados e o melhor lugar
para se comear uma anlise se vc
procura info para uma ou poucas
Protein Data Bank PDB
(http://www.rcsb.org/pdb/)
Armazena a estrutura tri-dimensional para
milhares de protenas

Acesso a vrios servios relacionados a


biologia estrutural
Bancos de
Sequncia Primrios

GenBank (USA)
http://www.ncbi.nlm.nih.gov/Genbank

EMBL (Europa)
http://www.ebi.ac.uk/embl/

DDBJ (Japo)
http://www.ddbj.nig.ac.jp/
Homologia

- Ortologia

- Paralogia
Dois conceitos importantes
Paralogia: O evento que originou s duas
sequncias um evento de duplicao
gnica! FUNES SIMILARES!

Orthologia: O evento que deu origem s


duas sequncias um evento de
especiao! FUNES IDNTICAS!
Como definir funo?

Alinhamento de sequncias
Motivos (padres consensuais)
Blocos, perfis, etc....
Hidden Markov Models - HMM
Similarity Searches on Sequence Databases, EMBnet Course, October 2003
Alinhamento

0 1 2 3 4 5 6 7 8 9 10
G A A - G G A T TA G
G A T C G G A - -A G

Identidade - MATCH

Semelhana / divergncia - MISMATCH

Lacunas - GAPS

Insero/Deleo - INDELS
Alinhamento

Qual o melhor alinhamento ?

Alinhamento 1:
ACGGACT
| | | - ||
ATCGGATCT

Alinhamento 2:
ATCGGATCT
| ||| -||
ACGGACT
Pontuao
Esquema de pontuao

match: +2
mismatch: +1
indel: 2

Alinhamento 1: (5 *2) + (1*1) + (4*-2) = 10 + 1 8 = 3

Alinhamento 2: (6 *2) + (1*1) + (2*-2) = 12 + 1 4 = 9

Escore final = soma dos escores para cada posio


Favorece os matches, penaliza os gaps
Matriz de Substituio

Tabela de comparao

Reflete a probabilidade ou frequncia de determinada substituio


em sequncias biologicamente relacionadas

p(A B) = p(B A)

Construdas pelo estudo do alinhamento de diversas sequncias


relacionadas

AA ou nucleotdeos
Percent Accepted Mutation
(PAM - Dayhoff)
Margaret Dayhoff (1978)

Probabilidade de substituio de aa em alinhamentos globais de sequncias


homlogas

Cada matriz reflete as mutaes entre sequncias que divergiram por


determinado perodo de tempo

Mutaes aceitas => no afetam negativamente a viabilidade da protena

Primeira matriz
71 grupos de protenas, 85% de similaridade
1572 substituties de aminocidos

Expanso do nmero de protenas => 1991 database


Matrizes PAM

Premissa => cada mutao independente das mutaes anteriores

Consequncia => as substituies observadas em curtos perodos podem ser


extrapoladas para longos perodos

PAM 1 => sequncias com 1% ou menos de divergncia =>1 mutao aceita a


cada 100 aminocidos

PAM N mutaes = (PAM 1)N

PAM 250 => 250 mutaes por 100 aa => 250% mutaes em 2500 milhes anos

PAM 250: 20% similar - PAM 120: 40% - PAM 80: 50% - PAM 60: 60%
http://www.blc.arizona.edu/courses/bioinformatics/dayhoff.html
Blocks Substitution Matrix
(BLOSUM)
Kenikoff & Henikoff (1992)

Frequncia de substituio de aa em um conjunto de ~2000 padres (blocos)

Maior nmero de sequncias consideradas => mais de 500 famlias

Alinhamentos locais de sequncias relacionadas e no geradas a partir de


extrapolaes

BLOSUM 62 o padro para BLAST 2.0 => sequncias moderadamente distantes


ou mais prximas

Sequncias Consenso
60% idnticas: BLOSUM 60
80% idnticas : BLOSUM 80
http://www.blc.arizona.edu/courses/bioinformatics/blosum.html

GAVCTKI
GVVCYRE

6+0+4+9+(-2)+2+(-3)= 16
Relao ente BLOSUM e PAM

http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Scoring2.html

PAM => origens evolutivas de protenas


BLOSUM => domnios conservados
Global vs. Local
Global
Alinhamento de toda a sequncia utilizado o maior nmero de
caracteres possveis
Sequncias similares e de tamanho aproximado

Local
Segmentos com o maior nmero de identidades
Regies alinhadas e no alinhadas ( mismatch)
Sequncias similares em algumas regies, que diferem em
tamanho ou que compartilham domnios conservados
Aplicaes

Global
Deduzir histrias evolutivas entre membros da mesma famlia
Estabelecer a existncia de um ancestral comum (homologia)

Local
Inferir funes biolgicas
Identificar regies conservadas e de alta similaridade (stio ativo,
domnios) entre outras pouco conservadas
Reconstruir sequncias de DNA a partir de seus fragmentos
Comparar sequncias de mRNA (sem ntrons) sequncia genmica
Mtodos de Anlise

Diagramas - DOT PLOT

Algoritmo de Programao Dinmica

Algoritmos Heursticos - Word-Based ou K-tuples


Dot Plot
Inseres & Delees
Repeties & Inverses
Programas
Disponveis

Dotter (http://www.cgr.ki.se/cgr/groups/sonnhammer/Dotter.html)

COMPARE & DOTPLOT (Genetics Computer Group)

PLALIGN (http://fasta.bioch.virginia.edu/fasta/fasta_list.html)

Web browser (http://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html)


Programao
Dinmica
Needleman & Wunsch (1970)

Compara cada par de caracteres nas duas sequncias

Posiciona os gaps de forma a obter o maior nmero de


alinhamentos idnticos ou similares

Gera uma matriz de nmeros que representa todos os possveis


alinhamentos de acordo com um sistema de escore

Alinhamento timo => maior escore


Limitaes

Computacionalmente lento

Nmero de alinhamentos cresce exponencialmente com a


mdia dos comprimentos das sequncias (n)

Nmero de clculos => proporcional a n2 ou n3

Memria => capacidade da ordem de n2


Needleman-Wunsch
As sequncias
abcdefghajklm
abbdhijk
So alinhadas e scores so dados
a b c d e f g h a j k l m
| | | | | |
a b b d . . . h i j k
match 4 4 4 4 4 4
mismatch -3 -3
gap_open -2
gap_extend -1-1-1
Score total de 24-6-2-3 = 13.
Needleman-Wunsch

O alinhamento de maior score entre as duas


sequncias considerado o mais provvel.
Needleman-Wunsch
Sada tpica:

Global: HBA_HUMAN vs HBB_HUMAN


Score: 290.50

HBA_HUMAN 1 VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFP 44
|:| :|: | | |||| : | | ||| |: : :| |: :|
HBB_HUMAN 1 VHLTPEEKSAVTALWGKV..NVDEVGGEALGRLLVVYPWTQRFFE 43

HBA_HUMAN 45 HF.DLS.....HGSAQVKGHGKKVADALTNAVAHVDDMPNALSAL 83
| ||| |: :|| ||||| | :: :||:|:: : |
HBB_HUMAN 44 SFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATL 88

HBA_HUMAN 84 SDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKF 128


|:|| || ||| ||:|| : |: || | |||| | |: |
HBB_HUMAN 89 SELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKV 133

HBA_HUMAN 129 LASVSTVLTSKYR 141


:| |: | ||
HBB_HUMAN 134 VAGVANALAHKYH 146

%id = 45.32 %similarity = 63.31


Overall %id = 43.15 Overall %similarity = 60.27
Razes para se usar um banco de sequncias

Eu acabei de obter uma sequncia. O que sabido respeito desta


sequncia? Ela nica?

Eu tenho uma sequncia nica. Ela tem similaridade com alguma


outra sequncia de funo conhecida?

Eu encontrei uma nova protena em um determinado organismo.


Existe um ortlogo conhecido?

Eu decidi trabalhar com um gene novo. Eu no tenho como obter um


clone contendo a sequncia deste gene. Eu preciso da sequncia
do cDNA para fazer uma PCR.
O que envolve uma busca ?

Algoritmos de busca (BLAST, FASTA)

Matrizes de comparao (PAM vs. BLOSUM)

Banco de dados (nr, dbEST)

Parmetros de busca (filtros on/off, threshold, etc)


Basic Local Alignment Search Tool

Mtodo heurstico => mtodo emprico, que utiliza a frmula tentativa e


erro para encontrar as solues

Significado estatstico => determina se um alinhamento ocorre


aleatoriamente ou no

Vantagem => pelo menos 50 vezes mais rpido que os algoritmos de


programao dinmica e mais apropriados para busca em bancos de
dados

Desvantagem => no garante uma soluo com um alinhamento timo


como os algoritmos de programao dinmica
Aplicaes

Identificar sequncias ortlogas e parlogas

Descobrir novos genes ou protenas

Descobrir variantes de genes e protenas

Investigar Expressed Sequence Tags - ESTs

Explorar a estrutura e funo de protenas


BLAST WEB Pages

BLAST (NCBI National Center for Biotechnology Information):


http://www.ncbi.nlm.nih.gov/BLAST/

BLAST2 (Swiss EMBnet server - European Molecular Biology


network??): http://www.ebi.ac.uk/blastall/

WU-BLAST (Washington University): http://blast.wustl.edu/


Blast Heurstico

1) Tabela de busca com todas as palavras (words) de comprimento W (3 aa ou11


nucleot.) mais as palavras vizinhas semelhantes, que aparecem pelo menos T
vezes na sequncia query.

2) Busca de sementes (hits, hot spots) na sequncia do banco de dados que


alinhem com as palavras previamente estabelecidas.

3) Extenso das sementes em ambas as direes, produzindo alinhamentos locais


mximos (HSP - high scoring pair) com ou sem lacunas, de acordo com os
parmetros estabelecidos.

4) Registro da informao em um arquivo SeqAlign (ASN.1).

5) A informao utilizada para buscar sequncias similares. Os resultados podem


ser reformatados sem a necessidade de refazer a busca.
Sensibilidade vs. Seletividade

Sensibilidade
Habilidade de encontrar a maior parte dos membros relacionados famlia da
sequncia query

Seletividade
Habilidade de no identificar sequncias de outras famlias como falso-
positivos

Grau de cobertura dos membros da famlia dado um nvel de falso-positivos


Escores e Estatstica
Bit Score

Indica quo bom o alinhamento. Quanto maior o escore, melhor o alinhamento

Considera o nmero de resduos idnticos ou similares e a quantidade de gaps

Influenciado pela Matriz de Substituio (padro: BLOSUM 62 )

Exceo: blastn and MegaBLAST

Normalizao: bit scores de diferentes alinhamentos podem ser comparados


Escores e Estatstica
E-value

Significado estatstico do alinhamento

Quanto menor o escore, mais significativo o alinhamento

E-value = 0.05. Significa que existem 5 chances em 100 (1 em 20) da


similaridade entre as sequncias ocorrer aleatoriamente

Influenciado pelo tamanho do banco de dados e o sistema de escore


utilizado
Etapas de Busca

1) Selecionar a sequncia (query)

2) Selecionar o banco de dados

3) Selecionar o programa

4) Definir os parmetros
Passo 1: Escolha da sequncia
Natureza

Tamanho

Formatos : Identificadores (ID), FASTA (>seq name), sequncias puras (txt?)


Passo 2: Seleo do Banco de Dados

Protenas
GenBank, PDB, SWISSPROT, PIR, REPBASE68 e BDGP

Nucleotdeos
GenBank, EMBL, DDBJ, PDB, REPBASE, BDGP, EST69, STS70, vetores, sequncias de
mitocndrias, GSS71, sequncias HTGS72

Contedo
no-redundncia,
periodicidade de atualizao
organismos ou espcies
sequncias patenteadas
interesse imunolgico
elementos repetitivos, etc.
http://www.ncbi.nlm.nih.gov/blast/BLAST_guide.pdf
Passo 3: Seleo do Programa

Natureza da sequncia

Finalidade da busca

Banco de dados
DNA codifica 6 protenas potenciais

5 CAT CAA
5 ATC AAC
5 TCA ACT

5 CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3
3 GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5

5 GTG GGT
5 TGG GTA
5 GGG TAG
Tipos de Programas

programa entrada banco de dados


1
blastn DNA DNA
1
blastp protein protein
6
blastx DNA protein
6
tblastn protein DNA
36
tblastx DNA DNA
Passo 4: Seleo dos parmetros
Tamanho da palavra (w-er)
Filtros
E value
Matriz de substituio & penalidades para gap

Sensibilidade e velocidade => W, T e X


Seletividade => cutoff score
Entrez

Filter
Expect
organism

Word size

Scoring matrix
Filtro
Report Header

Tipo de programa (BLASTP), verso (2.2.1) e data da verso


Artigo que descreve o BLAST, request ID (issued by QBLAST), a definio da sequncia e
resumo do banco de dados
Taxonomy reports: mostra o resultado deste BLAST na base de informao do banco de
dados Taxonomy
Taxonomy Report
Graphical Overview

query

database hits

Quanto mais prximas da query, mais semelhantes


Barras em rosa: lower-scoring matches que alinham em 2 regies (resduos 3-60 e 220-
500)
Segmento rachurado: as duas regies de similaridade esto na mesma protena mas esta
regio no alinha
Outras barras: lower-scoring matches
One-line Descriptions

(a) gi number, designao do banco de dados, nmero de acesso e o nome do locus para as
sequncias encontradas, separados por barras verticais
(b) Definio da sequncia
(c) Escore de alinhamento ( bits)
(d) E-value
Pairwise Sequence Alignment
Famlias de Elementos
Repetitivos

Alu
L1
L2
Tais sequncias podem gerar
alinhamentos esprios.
Alu
Constitutes about 5% of the human
genome.
Short interspersed repeats.
Found in primate genomes.
ALU elements often found in 3 regions or
introns.
Blast usando uma sequncia
de Alu
Como identificar e remover
elementos repetitivos
Filter para elementos repetitivos no
servidor de Blast do NCBI
Repeat Masker:
http://ftp.genome.washington.edu/cgi-
bin/RepeatMasker
Nair & Rost, 2002
Way out!

- psi-Blast

- pattern (phi-Blast)

- Hidden Markov Models (HMMs)


Position Specific Interactive (PSI)-
BLAST
Detecta protenas fracamente relacionadas ou novos membros de uma famlia
protica (mais sensvel)

Utilizado quando o BLAST padro falha em encontrar hits significativos ou


retorna hits com decries do tipo "hypothetical protein" ou "similar to... "

Busca iterativa => comparam-se as sequncias de alto escore com a sequncia de


busca para determinar quais delas so altamente conservadas

Sequncias resultantes => construo de um modelo de escore especfico por


posio (consenso) => Position-Specific Scoring Matrix (PSSM ou profile)
PSI-BLAST - Algoritmo

Busca com BLASTp normal

Construo de um consenso a partir das regies alinhadas com E


values menores que o limite estabelecido (padro = 0.005)

Utilizando este consenso, procede a uma nova pesquisa sobre a base


de dados

Quaisquer novos hits abaixo do limite so includos em um novo


PSSM

Fim do processo (convergncia) : nenhuma nova sequncia


adicionada ao consenso em iteraes subsequentes
Pattern-Hit Initiated (PHI)-BLAST

Busca protenas que contm padro especificado pelo usurio E similar sequncia query
em relao in the vicinity ao padro

Reduz o nmero de hits que contm o padro no banco de dados mas pode tambm
apresentar nenhuma homologia ao query

Exemplo de sequncia query e um padro no formato ProSite:

>gi|4758958|ref|NP_004148.1| Human cAMP-dependent protein kinase


MSHIQIPPGLTELLQGYTVEVLRQQPPDLVEFAVEYFTRLREARAPASVLPAATPRQSLGHPPPEPGPDR
VADAKGDSESEEDEDLEVPVPSRFNRRVSVCAETYNPDEEEEDTDPRVIHPKTDEQRCRLQEACKDILLF
KNLDQEQLSQVLDAMFERIVKADEHVIDQGDDGDNFYVIERGTYDILVTKDNQTRSVGQYDNRGSFGELA
LMYNTPRAATIVATSEGSLWGLDRVTFRRIIVKNNAKKRKMFESFIESVPLLKSLEVSERMKIVDVIGEK
IYKDGERIITQGEKADSFYIIESGEVSILIRSRTKSNKDGGNQEVEIARCHKGQYFGELALVTNKPRAAS
AYAVGDVKCLVMDVQAFERLLGPCMDIMKRNISHYEEQLVKMFGSSVDLGNLGQ

Padro encontrado:
[LIVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]-A-x-[LIVMA]-x-[STACV]
Hidden Markov Models
An approach based on statistical sampling
theory
Previously used with success for natural
language processing
Model sequence as a Markov model that is not
known (hidden)
Observed sequence is a noisy representation of
the hidden true model
A HMM for a DNA sequence

T A C C

T (prob 0.8) G (prob 0.1)


or A (prob 0.2) or C (prob 0.9)
A (prob 0.7) G (prob 0.1)
or T (prob 0.3) or C (prob 0.9)
Idea of HMM
Since multiple alignment of k sequences
take O(Nk) time, instead estimate a
statistical model of the sequences
Align the multiple sequences to this model
This is equivalent to aligning the
sequences to one another
Protein Family Classification
Pfam
large collection of multiple sequence
alignments and hidden Markov models
covers many common protein domains
and families
Over 73% of all known protein sequences
have at least one match
5,193 different protein families
Pfam
Initial multiple alignment of seeds using a
program such as Clustal

Alignment hand scrutinized and adjusted


Pfam
Links to the Pfam software:

http://pfam.wustl.edu/
http://www.sanger.ac.uk/Software/Pfam/index.shtml

View some examples:


http://pfam.wustl.edu/
Locating ORFs
Simplest method of predicting coding regions is
to search for open reading frames (ORFs)

open reading frames begin with a start (AUG)


codon, and ends with one of three stop codons

Six total reading frames


Locating ORFs
Prokaryotes: DNA sequences coding for proteins
generally transcribed into mRNA which is translated into
protein with very little modification

Locating an open reading frame from a start codon to a


stop codon can give a strong suggestion into protein
coding regions

Longer ORFs are more likely to predict protein-coding


regions than shorter ORFs.
Locating ORFs
Eukaryotes: mRNA undergoes processing to
remove introns before the protein is translated

ORF corresponding to a gene may contain


regions with stop codons found within intronic
regions

Posttranscriptional modification makes gene


prediction more difficult
Filogenia
Problema de determinao de rvores
filogenticas
Encontrar a rvore que melhor descreve a
relao entre um conjunto de objetos
(espcies ou txons)

Cenoura Baleia Chimpanz Humano


Filogenia
Txons e Complexidade
3 rvores possveis para 4 txons
Filogenia
Txons e Exploso Combinatorial
Mtodos para reconstruo
filogentica

03 mtodos principais: :
Parsimnia
Mtodos baseados em distncia
Verossimilhana mxima
Parsimnia

D preferncia topologia que requer o menor nmero


de mudanas .
Filogenia
Mtodos de Distncia
A distncia evolutiva calculada para todos
os pares de txons
Matriz de Distncias
A rvore filogentica construda
considerando a relao entre esses valores
de distncias
O mtodo de evoluo mnima

Para todas as topologias possveis :


Calcula o comprimento de todos os ramos, S
Mantm a rvore com menos S.

Problema: computacionalmente intenso. No


usado com mais de 25 sequncias.
Filogenia
Mtodos com Critrio de timo
Mxima Verossimilhana
Determina-se a probabilidade de um modelo evolutivo
gerar um certo dado
Considera todos os stios e todas as possibilidades
de mutaes em todos os ns internos da rvore
proposta
Multiplica-se a probabilidade de cada stio

Probabilidade da rvore

Pode ser utilizado para anlises de caractersticas e de


valores
Mais consistente e com estimativas com menor varincia

No simples e intuitivo

Computacionalmente intenso
Bootstrap procedure

O suporte para cada ramo interno expresso em


termos the % de rplicas.
"bootstrapped tree
0.02 Gallus

Rattus
91

46 Mus

Bos
97

Homo

Xenopus
Bootstrap

Ramos internos suportados por 90%


das rplicas so considerados
estatisticamente significativos.
O procedimento de bootstrap no
define se um programa bom. Uma
rvore errada pode ter 100% de
suporte de bootstrap em seus ramos
internos.
Tempo de processamento para vrios programas

distance < parsimony ~ PHYML << Bayesian < classical ML


NJ DNAPARS PHYML MrBayes fastDNAml,PAUP
Recursos de Web para filogenia

Compilaes
Uma lista de web sites
http://www.ucmp.berkeley.edu/subway/phylogen.htm
l
Uma lista grande de programas
http://evolution.genetics.washington.edu/
phylip/software.html
Recursos de Web para filogenia
Editor de alinhamento
SEAVIEW : para windows e unix
http://pbil.univ-lyon1.fr/software/seaview.html

Programas para filogenia molecular


PHYLIP :
http://evolution.genetics.washington.edu/phylip.html
PAUP :
http://paup.csit.fsu.edu/index.html
PHYLO_WIN :
http://pbil.univ-lyon1.fr/software/phylowin.html
MrBayes :
http://morphbank.ebc.uu.se/mrbayes/
PHYML :
http://www.lirmm.fr/~guindon/phyml.htm
Recursos de Web para filogenia

Desenho de rvores
NJPLOT (para todas as plataformas)
http://pbil.univ-lyon1.fr/software/njplot.html

Aulas de filogenia
http://www.bioinf.org/molsys/lectures.html
sandro@ludwig.org.br
Ontologia

Fornecer um vocabulrio estruturado


e controlado para representar
o conhecimento biolgico nos bancos
de dados.for the
Gene Onthology (GO)

Biological Process
Objetivo dentro da clula, tecido

Molecular Function
Funo bsica ou tarefa

Cellular Component

Compartimento ou complexo
Busca com a palavra collagenase
Contedo do GO

molecular function 7422 termos


biological process 8972 termos
cellular component 1472 termos

all 17,866 terms

Você também pode gostar