Você está na página 1de 49

MODELOS DE

MARKOV
Dilvan Moreira (Baseado em material do
prof. Andr Carvalho)

Leitura

Introduction to Computational Genomics:


A Case Studies Approach

Captulo 4

Tpicos
3

Introduo
Receptores de odor
Cadeias de Markov Escondidas
Aplicaes em Bioinformtica
Estudo de caso
Algoritmos

Andr de Carvalho - ICMC/USP

18/04/15

Introduo
4

Em 2004, Richard Axel and Linda Buck


receberam o prmio Nobel

Elucidao do sistema olfativo


Inclui uma grande famlia de protenas

Receptores de odor (OR)

Odorantes ou olfativos
Combinao permite sentir mais de 10.000 odores diferentes
Localizados na superfcie de clulas da passagem nasal
Detectam molculas de odores quando so inaladas e passam
informao para o crebro

Andr de Carvalho - ICMC/USP

18/04/15

Receptores Olfativos
5

Devem ser capaz de atravessar membrana


celular para levar informao ao crebro
Contm 7 domnios transmembranas

Trechos de AAs altamente hidrofbicos que


interagem com a gordura da membrana

Protena tem trechos alternados de AAs hidrofbicos e


hidroflicos

Descoberta permitiu descrio de


receptores similares

Deteco de sabor e de feromnio

Andr de Carvalho - ICMC/USP

18/04/15

Receptores Olfativos
6

Maior famlia de genes do genoma


humano

1000 genes, 40% deles funcionais


600

so chamados de pseudogenes
Genes funcionais inativos ou com defeito
Resultado da seleo natural
Predominncia de outro sentido (viso)
Geralmente semelhantes aos genes
funcionais
Cachorros (1500 genes) e ratos (1000
genes) tm 80% de seus genes funcionais
Andr de Carvalho - ICMC/USP

18/04/15

Receptores Olfativos
7

Anlise de OR requer ferramentas


computacionais mais sofisticadas

Similaridade entre vrios genes ORs


baixa para detectar com alinhamento
de pares
Sinais

importantes podem ser detectados


com alinhamento mltiplo de todos os ORs

Genoma tem muito rudo


Ex.:

regies com elevada quantidade de GC


podem ter trechos longos de As e Ts
Andr de Carvalho - ICMC/USP

18/04/15

Modelagem de Seqncias
8

Modelos Multinomiais

Nucleotdeos so independentes e
identicamente distribudos
p = (pA, pC, pG, pT)

Modelos de Markov

Probabilidade de um smbolo depende dos


smbolos anteriores

Andr de Carvalho - ICMC/USP

18/04/15

Cadeias de Markov Ocultas


9

Modelos multinomiais e de Markov

No conseguem capturar isoladamente


muitas das propriedades de seqncias

Cadeias de Markov ocultas (HMM)

Hidden Markov Models


Um dos principais algoritmos da
Bioinformtica
Combinam

modelos de sequncias
multinomiais e de Markov

Andr de Carvalho - ICMC/USP

18/04/15

Cadeias de Markov Ocultas


10

Muito usadas para reconhecimento de voz


Utilizadas em 1989 para segmentao de
sequncias de DNA

Churchill segmentou sequncias de DNA em


regies com usos similares de nucleotdeos
Posteriormente usado para outras aplicaes:

Identificao (reconhecimento) de genes


Predio da estrutura de protenas

Permite identificar padres que no tm uma


estrutura rigidamente definida
Andr de Carvalho - ICMC/USP

18/04/15

Cadeias de Markov Ocultas


11

Modela uma seq. como sendo


indiretamente gerada por uma cadeia de
Markov

Cada posio na sequncia tem um estado


oculto

A sequncia modelada como um processo


duplamente aleatrio

Gerar a HMM
Transformar a cadeia oculta na sequncia
observada

Usando uma distribuio multinomial diferente para


cada estado da cadeia de Markov
Andr de Carvalho - ICMC/USP

18/04/15

Cadeias de Markov Ocultas


12

Autmatos finitos

Conjunto de N estados, H (alfabeto oculto)


Um alfabeto de M smbolos observveis, S
Probabilidades de transio entre os
estados, T
Probabilidades de emisso dos smbolos em
cada estado, E

Andr de Carvalho - ICMC/USP

18/04/15

Cadeias de Markov Ocultas


13

Idias centrais:

Uma cadeia de caracteres representada


por um sistema
Um sistema pode ter estados distintos
Um sistema pode mudar entre estados com
probabilidade de transio T
Em cada estado, o sistema emite smbolos
para uma cadeia com probabilidade de
emisso E

Andr de Carvalho - ICMC/USP

18/04/15

Modelos Ocultos de Markov


14

Parmetros do
modelo:

Probabilidades de
transio: definem as
probabilidades com as quais
a cadeia de Markov muda de
estado

Andr de Carvalho - ICMC/USP

18/04/15

Modelos Ocultos de
Markov

Parmetros do
modelo:

Matriz de Transio

Probabilidades de
transio: definem as
probabilidades com as quais
a cadeia de Markov muda de
estado

h1 h2 ... hN
h1

h2

...
hN

T (k , l ) P (hi l | hi 1 k )
18/04/15

Andr de Carvalho - ICMC/USP

15

Modelos Ocultos de
Markov

Parmetros do modelo:
Probabilidades de
transio: definem as
probabilidades com as quais
a cadeia de Markov muda de
estado
Probabilidades de emisso:
probabilidades com as quais
os smbolos da seqncia
observvel so produzidos
em cada um dos estados

18/04/15

Andr de Carvalho - ICMC/USP

16

Modelos Ocultos de
Markov

Parmetros do modelo:
Probabilidades de
transio: definem as
probabilidades com as quais
a cadeia de Markov muda de
estado
Probabilidades de emisso:
probabilidades com as quais
os smbolos da seqncia
observvel so produzidos
em cada um dos estados

Matriz de Emisso

s1 s2 ... sM
h1

h2

...
hN

E (k , b) P ( si b | hi k )
18/04/15

Andr de Carvalho - ICMC/USP

17

Modelos Ocultos de Markov


18

h: seqncia de estados ocultos


s: seqncia de smbolos
Probabilidade inicial para os estados:

T (0, k ) P (h1 k )

As probabilidades dos smbolos em cada estado e


das transies entre estados devem somar 1.

Andr de Carvalho - ICMC/USP

18/04/15

Modelos Ocultos de Markov


19

Os parmetros do modelo podem ser


estimados usando o algoritmo
Expectation-Maximization (EM), com
base em dados conhecidos

Andr de Carvalho - ICMC/USP

18/04/15

Exemplo
20

Dois dados: um justo e outro viciado


Dada uma sequncia de lanamentos,
possvel adivinhar qual dos dados
originou cada valor da sequncia?

Andr de Carvalho - ICMC/USP

18/04/15

Exemplo
21

0.9

0.1

Justo

Viciado

h1

h2

0.9

0.1

1: 0.1667
2: 0.1667
3: 0.1667
4: 0.1667
5: 0.1667
6: 0.1667

1: 0.1000
2: 0.1000
3: 0.1000
4: 0.1000
5: 0.1000
6: 0.5000

Maior freqncia de 6

oculta:h=1111111111111111111122221111111222222222
visvel:s=4553653163363555133362665132141636651666
Andr de Carvalho - ICMC/USP

18/04/15

Modelos Ocultos de Markov


22

Probabilidade de uma sequncia oculta h:


n

i 2

i 2

P(h) P (h1 ) P (hi hi 1 ) T (0, h1 ) T (hi 1 , hi )

Probabilidade de gerar uma sequncia de


smbolos s dada uma sequncia de
estados ocultos h:
n

i 1

i 1

P (s | h) P ( si | hi ) E (hi , si )
Andr de Carvalho - ICMC/USP

18/04/15

Modelos Ocultos de Markov


23

Se h conhecida (raro), probabilidade


conjunta de s e h:

P (s, h) P (s | h) P (h)

Andr de Carvalho - ICMC/USP

18/04/15

Modelos Ocultos de Markov


24

Se h desconhecida (frequente), pode-se


usar o teorema da probabilidade total
para calcular a probabilidade de s:
P (s)

P(s, h

h j H n

P(s | h

h j H n

) P (h j )

Todas as cadeias
ocultas de tamanho n

Cresce exponencialmente com n


Andr de Carvalho - ICMC/USP

18/04/15

Modelos Ocultos de Markov


25

Sequncia mais provvel

h* arg maxn P(s, h)


hH

Determinada com o algoritmo Viterbi


(programao dinmica)
Andr de Carvalho - ICMC/USP

18/04/15

26

HMM Aplicaes em
Bioinformtica

Gary Churchill foi o primeiro a usar HMM em genmica,


em 1989

Segmentao de seqncias de DNA em regies de uso similar


dos nucleotdeos

Hoje:

Segmentao
Alinhamentos mltiplos
Predio da funo de protenas
Descoberta de genes

Andr de Carvalho - ICMC/USP

18/04/15

Segmentao
27

Tarefa mais comum


As seqncias (genes ou protenas) podem
conter regies com propriedades distintas
Inferir os estados escondidos que
representam essas regies, bem como
determinar seus limites na seqncia
para:

melhor anotao
entender melhor a dinmica da seqncia
Andr de Carvalho - ICMC/USP

18/04/15

Segmentao - exemplo
28

Genoma do bacterifago lambda


Tem longos trechos da seqncia que
so:

ricos em GC
ricos em AT

HMM para segmentar o genoma em


regies com essas caractersticas

Andr de Carvalho - ICMC/USP

18/04/15

Segmentao - exemplo
29

Estados ocultos: rico em GC e rico em


AT
Smbolos observveis: A, C, G e T
Estima os parmetros:

Algoritmo EM
Matrizes de transio e emisso iniciais
aleatrias
Assumindo 2 estados ocultos e 4 smbolos
visveis
Andr de Carvalho - ICMC/USP

18/04/15

Segmentao - exemplo
30

0.9998

0.0002

Rico
em GC

0.9998

Rico
em AT
0.0002

A: 0.2462
C: 0.2476
G: 0.2985
T: 0.2077

A: 0.2700
C: 0.2084
G: 0.1981
T: 0.3236

Andr de Carvalho - ICMC/USP

18/04/15

Segmentao - exemplo
31

Transies so raras
0.9998

0.0002

Rico
em GC

0.9998

Rico
em AT
0.0002

Maior probabilidade
de gerar G e C

A: 0.2462
C: 0.2476
G: 0.2985
T: 0.2077

A: 0.2700
C: 0.2084
G: 0.1981
T: 0.3236

Andr de Carvalho - ICMC/USP

Maior probabilidade
de gerar A e T

18/04/15

Segmentao - exemplo
32

Usando o algoritmo Viterbi e o modelo


estimado, obtm-se a segmentao da
sequncia nos pontos mostrados:

Andr de Carvalho - ICMC/USP

18/04/15

33

Alinhamentos mltiplos
Predio da funo de protenas

Usa profile HMM (pHMM)


pHMMs podem ser vistos como:

Descries abstratas de uma famlia de


protenas
Resumos estatsticos de um alinhamento
mltiplo

Andr de Carvalho - ICMC/USP

18/04/15

Profile HMM
34

Codifica informaes sobre a frequncia dos resduos


e tambm das inseres e delees em cada coluna
do alinhamento mltiplo
Criado a partir do alinhamento mltiplo de
sequncias homlogas
Para cada coluna no alinhamento, o modelo tem:

Estado de equiparao (match) distribuio dos resduos


Estado de insero
Estado de deleo

Cada estado de equiparao e insero tem uma


Matriz de Emisses com as probabilidades de emisso
de cada resduo (aminocidos ou nucleotdeos)
Resduos no so emitidos nos estados de deleo
Andr de Carvalho - ICMC/USP

18/04/15

Exemplo
35

Estados em que smbolos so emitidos


Estados em que smbolos extras so emitidos

VIVALASVEGAS

Estados em que gaps so emitidos (deleo)


Transies com alta probabilidade
Transies com baixa probabilidade

VIVADA-VI--S
VIVADALL--AS

Cada caminho representa uma possvel sequncia


i
b

G/A

L/D

S/L

V/L

E/I

Andr de Carvalho - ICMC/USP

18/04/15

Exemplo
36

pHMM permite calcular o grau com que uma


seqncia se ajusta ao modelo:

Para cada sequncia que passa pelo modelo,


pode ser atribuda uma probabilidade ou
pontuao
Pontuao alta significa ajuste ao modelo

Usado para procurar em uma base de dados


por outros membros da famlia de protena:

Existem repositrios de pHMMs de muitas famlias


de protenas: Pfam
Andr de Carvalho - ICMC/USP

18/04/15

Exemplo
37

Como feito?

Usa Blast para separar uma base de dados de protenas em


famlias de protenas relacionadas
Constri um alinhamento mltiplo para cada famlia
Constri um profile HMM e otimiza seus parmetros para cada
um dos alinhamentos mltiplos
Alinha a seqncia alvo com cada um dos pHMM para encontrar
o melhor ajuste entre a seqncia alvo e um dos pHMM
A famlia da sequncia alvo aquela usada no pHMM com
melhor ajuste (maior probabilidade)

Algoritmo de Viterbi: calcula o melhor caminho atravs


do modelo
Algoritmo Forward: calcula a soma das probabilidades
de todos os alinhamentos possveis
Andr de Carvalho - ICMC/USP

18/04/15

Descoberta de genes
38

HMM permite integrar vrios sinais


diferentes, que so de natureza
probabilstica, na busca de genes

Stios de ligao de fatores de transcrio


ORFs
Stios de splice
Cdons de incio e parada

Com o modelo construdo, usa-se o


algoritmo de Viterbi para encontrar os
genes (sequncia de nucleotdeos que
compem o gene)
Andr de Carvalho - ICMC/USP

18/04/15

Estudo de caso
39

Receptores olfativos (OR)


Pertencem famlia de protenas receptores
7-TM
Para perceber as molculas fora da clula e
sinalizar sua descoberta dentro da clula os
OR precisam atravessar a membrana da clula
Para isso, OR tem 7 trechos com aminocidos
altamente hidrofbicos alternando com
regies hidroflicas, que caracterizam a funo
dessas protenas
Andr de Carvalho - ICMC/USP

18/04/15

Estudo de caso
40

Como identificar se uma protena X


pertence a uma determinada famlia
conhecida?

Comparao de pares de seqncias no


suficiente para identificar os membros da
famlia dos receptores 7-TM
O alinhamento com o pHMM da famlia mais
adequado

Andr de Carvalho - ICMC/USP

18/04/15

Estudo de caso
41

Comparao da protena X

Com uma seqncia tpica da famlia


receptores 7-TM usando alinhamento global

Com o pHMM construdo usando milhares de


seqncias alinhadas

Score: 54.8

Score: 154.6

O sinal indicando que a protena pertence


famlia receptores 7-TM muito mais
forte usando o pHMM
Andr de Carvalho - ICMC/USP

18/04/15

Estudo de caso
42

Segmentando os OR em regies
hidrofbicas e hidroflicas
HMM com 2 estados: dentro da
membrana e fora da membrana

Andr de Carvalho - ICMC/USP

18/04/15

Estudo de caso
43

p1

p2

Dentro

p4

Fora
p3

A: 15
R: 11
...
V: 31

A: 15
R: 11
...
V: 31

Com os valores conhecidos ou estimados pelo EM, aplica o


algoritmo Viterbi para segmentar a protena nas regies de interesse
Andr de Carvalho - ICMC/USP

18/04/15

Estudo de caso
44

Andr de Carvalho - ICMC/USP

18/04/15

Algoritmo Viterbi
45

Dada uma sequncia s de tamanho n e um HMM com parmetros


T e E, acha a sequncia escondida mais provvel

Cria uma tabela V de tamanho |H|x(n+1);


Inicializa i = 0; V(0,0) = 1; V(k,0) = 0 para k > 0;
Para i = 1:n, calcula cada entrada usando a relao
recursiva
V(j,i) = E(j,s(i)) * maxk {V(k, i-1) * T(k, j) }
pointer(i, j) = arg maxk {V(k, i-1)*T(k, j) }
Sada: P(s,h*) = maxk {V(k,n)}
Trace-back: i = n:1, using: h*i-1 = pointer(i, h*i)
Andr de Carvalho - ICMC/USP
Sada: h*(n) = arg max
k {V(k,n)}

18/04/15

Algoritmo Forward
46

Dada uma sequncia s de tamanho n e um HMM com


parmetros T e E, calcula a probabilidade de uma sequncia
Cria uma tabela F de tamanho |H|x(n+1);
Inicializa i = 0; F(0, 0) = 1; F(k, 0) = 0 para k > 0;
Para i = 1:n, calcula cada entrada usando a relao
recursiva
F(j,i) = E(j,s(i)) * k {F(k, i-1) * T(k, j) }
Sada: P(s) = k F(k, n)
Andr de Carvalho - ICMC/USP

18/04/15

47

Algoritmo EM
Expectation Maximization
Dada uma sequncia s de tamanho n e um HMM com
parmetros T e E desconhecidos, estima os parmetros
1. Inicializa h, E and T;
2. Dado s e h, estima E e T apenas contando os smbolos;
3. Dado s, E e T, estima h com o algoritmo de Viterbi, p. ex;
4. Repete os passos 2 e 3 at que algum critrio de parada
seja satisfeito

Andr de Carvalho - ICMC/USP

18/04/15

Concluso
48

Importncia do alinhamento de
seqncias

Andr de Carvalho - ICMC/USP

18/04/15

Perguntas?

Você também pode gostar