Escolar Documentos
Profissional Documentos
Cultura Documentos
MARKOV
Dilvan Moreira (Baseado em material do
prof. Andr Carvalho)
Leitura
Captulo 4
Tpicos
3
Introduo
Receptores de odor
Cadeias de Markov Escondidas
Aplicaes em Bioinformtica
Estudo de caso
Algoritmos
18/04/15
Introduo
4
Odorantes ou olfativos
Combinao permite sentir mais de 10.000 odores diferentes
Localizados na superfcie de clulas da passagem nasal
Detectam molculas de odores quando so inaladas e passam
informao para o crebro
18/04/15
Receptores Olfativos
5
18/04/15
Receptores Olfativos
6
so chamados de pseudogenes
Genes funcionais inativos ou com defeito
Resultado da seleo natural
Predominncia de outro sentido (viso)
Geralmente semelhantes aos genes
funcionais
Cachorros (1500 genes) e ratos (1000
genes) tm 80% de seus genes funcionais
Andr de Carvalho - ICMC/USP
18/04/15
Receptores Olfativos
7
18/04/15
Modelagem de Seqncias
8
Modelos Multinomiais
Nucleotdeos so independentes e
identicamente distribudos
p = (pA, pC, pG, pT)
Modelos de Markov
18/04/15
modelos de sequncias
multinomiais e de Markov
18/04/15
18/04/15
Gerar a HMM
Transformar a cadeia oculta na sequncia
observada
18/04/15
Autmatos finitos
18/04/15
Idias centrais:
18/04/15
Parmetros do
modelo:
Probabilidades de
transio: definem as
probabilidades com as quais
a cadeia de Markov muda de
estado
18/04/15
Modelos Ocultos de
Markov
Parmetros do
modelo:
Matriz de Transio
Probabilidades de
transio: definem as
probabilidades com as quais
a cadeia de Markov muda de
estado
h1 h2 ... hN
h1
h2
...
hN
T (k , l ) P (hi l | hi 1 k )
18/04/15
15
Modelos Ocultos de
Markov
Parmetros do modelo:
Probabilidades de
transio: definem as
probabilidades com as quais
a cadeia de Markov muda de
estado
Probabilidades de emisso:
probabilidades com as quais
os smbolos da seqncia
observvel so produzidos
em cada um dos estados
18/04/15
16
Modelos Ocultos de
Markov
Parmetros do modelo:
Probabilidades de
transio: definem as
probabilidades com as quais
a cadeia de Markov muda de
estado
Probabilidades de emisso:
probabilidades com as quais
os smbolos da seqncia
observvel so produzidos
em cada um dos estados
Matriz de Emisso
s1 s2 ... sM
h1
h2
...
hN
E (k , b) P ( si b | hi k )
18/04/15
17
T (0, k ) P (h1 k )
18/04/15
18/04/15
Exemplo
20
18/04/15
Exemplo
21
0.9
0.1
Justo
Viciado
h1
h2
0.9
0.1
1: 0.1667
2: 0.1667
3: 0.1667
4: 0.1667
5: 0.1667
6: 0.1667
1: 0.1000
2: 0.1000
3: 0.1000
4: 0.1000
5: 0.1000
6: 0.5000
Maior freqncia de 6
oculta:h=1111111111111111111122221111111222222222
visvel:s=4553653163363555133362665132141636651666
Andr de Carvalho - ICMC/USP
18/04/15
i 2
i 2
i 1
i 1
P (s | h) P ( si | hi ) E (hi , si )
Andr de Carvalho - ICMC/USP
18/04/15
P (s, h) P (s | h) P (h)
18/04/15
P(s, h
h j H n
P(s | h
h j H n
) P (h j )
Todas as cadeias
ocultas de tamanho n
18/04/15
18/04/15
26
HMM Aplicaes em
Bioinformtica
Hoje:
Segmentao
Alinhamentos mltiplos
Predio da funo de protenas
Descoberta de genes
18/04/15
Segmentao
27
melhor anotao
entender melhor a dinmica da seqncia
Andr de Carvalho - ICMC/USP
18/04/15
Segmentao - exemplo
28
ricos em GC
ricos em AT
18/04/15
Segmentao - exemplo
29
Algoritmo EM
Matrizes de transio e emisso iniciais
aleatrias
Assumindo 2 estados ocultos e 4 smbolos
visveis
Andr de Carvalho - ICMC/USP
18/04/15
Segmentao - exemplo
30
0.9998
0.0002
Rico
em GC
0.9998
Rico
em AT
0.0002
A: 0.2462
C: 0.2476
G: 0.2985
T: 0.2077
A: 0.2700
C: 0.2084
G: 0.1981
T: 0.3236
18/04/15
Segmentao - exemplo
31
Transies so raras
0.9998
0.0002
Rico
em GC
0.9998
Rico
em AT
0.0002
Maior probabilidade
de gerar G e C
A: 0.2462
C: 0.2476
G: 0.2985
T: 0.2077
A: 0.2700
C: 0.2084
G: 0.1981
T: 0.3236
Maior probabilidade
de gerar A e T
18/04/15
Segmentao - exemplo
32
18/04/15
33
Alinhamentos mltiplos
Predio da funo de protenas
18/04/15
Profile HMM
34
18/04/15
Exemplo
35
VIVALASVEGAS
VIVADA-VI--S
VIVADALL--AS
G/A
L/D
S/L
V/L
E/I
18/04/15
Exemplo
36
18/04/15
Exemplo
37
Como feito?
18/04/15
Descoberta de genes
38
18/04/15
Estudo de caso
39
18/04/15
Estudo de caso
40
18/04/15
Estudo de caso
41
Comparao da protena X
Score: 54.8
Score: 154.6
18/04/15
Estudo de caso
42
Segmentando os OR em regies
hidrofbicas e hidroflicas
HMM com 2 estados: dentro da
membrana e fora da membrana
18/04/15
Estudo de caso
43
p1
p2
Dentro
p4
Fora
p3
A: 15
R: 11
...
V: 31
A: 15
R: 11
...
V: 31
18/04/15
Estudo de caso
44
18/04/15
Algoritmo Viterbi
45
18/04/15
Algoritmo Forward
46
18/04/15
47
Algoritmo EM
Expectation Maximization
Dada uma sequncia s de tamanho n e um HMM com
parmetros T e E desconhecidos, estima os parmetros
1. Inicializa h, E and T;
2. Dado s e h, estima E e T apenas contando os smbolos;
3. Dado s, E e T, estima h com o algoritmo de Viterbi, p. ex;
4. Repete os passos 2 e 3 at que algum critrio de parada
seja satisfeito
18/04/15
Concluso
48
Importncia do alinhamento de
seqncias
18/04/15
Perguntas?