Escolar Documentos
Profissional Documentos
Cultura Documentos
i, j N. Como os valores a
ij
so probabilidades, tambm devemos ter:
1
0
1
=
=
N
j
ij
ij
a
a
O modelo de Markov descrito pelos valores acima pode ser considerado um modelo de
Markov observvel. Sabemos a todo instante o estado atual do sistema. Abaixo temos um
exemplo concreto de tal sistema. Imagine um sistema simples para modelar uma rodada de
dado. Os seis possveis estados so os possveis valores do dado: 1, 2, 3, 4, 5 e 6. A taxa de
transio entre os estados tambm fcil de definir: 1/6 para todas as transies de estado.
Abaixo temos uma imagem do modelo.
Exemplo de uma cadeia de Markov para modelar o rolar de um dado.
Em muitos sistemas que encontramos habitualmente, no temos como saber o estado
atual do sistema. Esses sistemas apresentam apenas evidncias do estado atual. O MOM busca
modelar sistemas esses sistemas no observveis.
mplo simples, podemos imaginar uma pessoa que remove bolas de urnas
atrs de uma cortina. A cada rodada, essa pessoa escolhe uma urna aleatoriamente e remove
uma bola colorida da urna, tambm aleatoriamente. A pessoa que remove as bolas diz a cor da
a coloca novamente na urna de onde a tirou. No podemos enxergar o que ocorre atrs
da cortina, mas gostaramos de poder modelar esse sistema para ter uma boa estimativa do
que est ocorrendo. Podemos descrever esse sistema atravs de MOM.
4
Considerando que as transies de estado so independentes do tempo, temos que:
acima pode ser considerado um modelo de
Markov observvel. Sabemos a todo instante o estado atual do sistema. Abaixo temos um
exemplo concreto de tal sistema. Imagine um sistema simples para modelar uma rodada de
veis valores do dado: 1, 2, 3, 4, 5 e 6. A taxa de
transio entre os estados tambm fcil de definir: 1/6 para todas as transies de estado.
Em muitos sistemas que encontramos habitualmente, no temos como saber o estado
atual do sistema. Esses sistemas apresentam apenas evidncias do estado atual. O MOM busca
mplo simples, podemos imaginar uma pessoa que remove bolas de urnas
atrs de uma cortina. A cada rodada, essa pessoa escolhe uma urna aleatoriamente e remove
uma bola colorida da urna, tambm aleatoriamente. A pessoa que remove as bolas diz a cor da
a coloca novamente na urna de onde a tirou. No podemos enxergar o que ocorre atrs
da cortina, mas gostaramos de poder modelar esse sistema para ter uma boa estimativa do
Por simplicidade, vamos considerar que existem duas urnas (Urna 1 e Urna 2) com
bolas de duas cores diferentes (pretas e brancas). Vamos supor que a probabilidade de uma
bola branca ser retirada da Urna 1 de 0,8 e a de uma bola preta ser retirada de 0,2. Na
Urna 2, a probabilidade de se retira uma bola branca de 0,6 e de se retirar uma bola preta
de 0,4. A probabilidade de se escolher as urnas a mesma.
Esse sistema pode ser modelo por um MOM com dois estado
a urna de qual a bola foi tirada. Assim se a bola for tirada da Urna 1, significa que foi realizada
uma transio para o estado 1. Se uma bola foi retirada da Urna 2, uma transio feita para o
estado 2. importante lembrar que
apenas a cor da bola retirada. A taxa de transio entre os estados tambm conhecida. Dado
que a escolha das urnas eqiprovvel, a taxa de transio do estado um para o estado 2 de
0,5, e a taxa de transio do estado 2 para o estado 1 tambm de 0,5. Como no
conhecemos o estado do sistema, tambm devemos definir uma probabilidade para o estado
inicial. Novamente, como a seleo das urnas eqiprovvel, podemos definir a probabilidade
do estado inicial ser o estado 1, que igual ao do estado 2, como 0,5.
Resta definir mais uma probabilidade. Para cada estado (urna), temos uma
probabilidade de uma bola branca ou preta ser retirada. Essa probabilidade chamada de
distribuio de probabilidade do
de observao: bolas brancas e bolas pretas. No estado 1, a probabilidade de se observar uma
bola preta de 0,2 e de se observar uma bola branca de 0,8. J no estado 2, a probabilidade de
se observar uma bola branca de 0,6 e a de se observar uma bola preta, de 0,4. Na figura
abaixo temos um diagrama do MOM descrito acima.
e, vamos considerar que existem duas urnas (Urna 1 e Urna 2) com
bolas de duas cores diferentes (pretas e brancas). Vamos supor que a probabilidade de uma
bola branca ser retirada da Urna 1 de 0,8 e a de uma bola preta ser retirada de 0,2. Na
probabilidade de se retira uma bola branca de 0,6 e de se retirar uma bola preta
de 0,4. A probabilidade de se escolher as urnas a mesma.
Figura 2: Exemplo das urnas.
Esse sistema pode ser modelo por um MOM com dois estados. Cada estado representa
a urna de qual a bola foi tirada. Assim se a bola for tirada da Urna 1, significa que foi realizada
uma transio para o estado 1. Se uma bola foi retirada da Urna 2, uma transio feita para o
estado 2. importante lembrar que no sabemos de qual urna a bola foi retirada, sabemos
apenas a cor da bola retirada. A taxa de transio entre os estados tambm conhecida. Dado
que a escolha das urnas eqiprovvel, a taxa de transio do estado um para o estado 2 de
de transio do estado 2 para o estado 1 tambm de 0,5. Como no
conhecemos o estado do sistema, tambm devemos definir uma probabilidade para o estado
inicial. Novamente, como a seleo das urnas eqiprovvel, podemos definir a probabilidade
inicial ser o estado 1, que igual ao do estado 2, como 0,5.
Resta definir mais uma probabilidade. Para cada estado (urna), temos uma
probabilidade de uma bola branca ou preta ser retirada. Essa probabilidade chamada de
distribuio de probabilidade dos smbolos de observao. No caso acima, temos dois smbolos
de observao: bolas brancas e bolas pretas. No estado 1, a probabilidade de se observar uma
bola preta de 0,2 e de se observar uma bola branca de 0,8. J no estado 2, a probabilidade de
ervar uma bola branca de 0,6 e a de se observar uma bola preta, de 0,4. Na figura
abaixo temos um diagrama do MOM descrito acima.
5
e, vamos considerar que existem duas urnas (Urna 1 e Urna 2) com
bolas de duas cores diferentes (pretas e brancas). Vamos supor que a probabilidade de uma
bola branca ser retirada da Urna 1 de 0,8 e a de uma bola preta ser retirada de 0,2. Na
probabilidade de se retira uma bola branca de 0,6 e de se retirar uma bola preta
s. Cada estado representa
a urna de qual a bola foi tirada. Assim se a bola for tirada da Urna 1, significa que foi realizada
uma transio para o estado 1. Se uma bola foi retirada da Urna 2, uma transio feita para o
no sabemos de qual urna a bola foi retirada, sabemos
apenas a cor da bola retirada. A taxa de transio entre os estados tambm conhecida. Dado
que a escolha das urnas eqiprovvel, a taxa de transio do estado um para o estado 2 de
conhecemos o estado do sistema, tambm devemos definir uma probabilidade para o estado
inicial. Novamente, como a seleo das urnas eqiprovvel, podemos definir a probabilidade
probabilidade de uma bola branca ou preta ser retirada. Essa probabilidade chamada de
s smbolos de observao. No caso acima, temos dois smbolos
de observao: bolas brancas e bolas pretas. No estado 1, a probabilidade de se observar uma
bola preta de 0,2 e de se observar uma bola branca de 0,8. J no estado 2, a probabilidade de
ervar uma bola branca de 0,6 e a de se observar uma bola preta, de 0,4. Na figura
Figura
Com o diagrama acima, podemos calcular, por exemplo,
observao O = preta, preta, branca, branca, branca, preta, preta. Talvez at mais interessante,
podemos tentar definir a seqncia de estados que tem a maior probabilidade de gerar a
observao acima. Poderamos tambm tentar
nosso modelo de tal maneira que a probabilidade da observao acima ocorrer seja mxima.
Esses trs problemas esto relacionados com os trs problemas bsicos para um MOM.
No contexto do reconhecimento da fala, a seg
termos gerais, os estados so como as letras das palavras. As transies entre os estados
refletem a probabilidade de se encontrar uma letra aps a outra em uma palavra da lngua
sendo reconhecida, i.e. a taxa de tra
representa t est ligado probabilidade de se encontrar palavras onde existe uma letra e
seguida de t, como deter. A taxa de gerao de smbolos est ligada probabilidade de uma
letra gerar um determinado som. Dependendo da palavra ou at da posio da letra em uma
palavra, o seu som muda. Essa probabilidade reflete a probabilidade da letra ter aquele som
na lngua.
Para definir formalmente um MOM, precisamos dos seguintes valores:
Um nmero N de estados representados aqui por S = {S
Um nmero M de smbolos distintos de observao, que sero representados por V =
{v
1
, v
2
, v
3
, ..., v
M
}.
As probabilidades de transio de estado A = {a
[
1 t j t ij
S q S q P a = = =
, formada por
palavras em seqncia. A probabilidade de essa sentena ocorrer dada pela regra da cadeia:
Considerando que os termos acima so difceis de calcular, surge a necessidade de
realizar aproximaes, como o modelo do bigrama e o modelo do trigrama.
O modelo do bigrama determi
sentena condicionada apenas palavra anterior (modelo de Markov de primeira ordem):
Esse modelo fcil de ser treinado, bastando uma contagem do nmero de palavras
em uma base textos reais. Por exemplo, se a palavra eu aparecer 1000 vezes em um texto,
mas for seguida da palavra tenho em apenas 37 ocorrncias, ento a probabilidade de que
tenho aparea aps eu vale 37/1000.
Uma aproximao mais complexa o
probabilidade de uma palavra dentro da sentena condicionada s duas palavras anteriores
(modelo de Markov de segunda ordem):
|
Tal modelo capaz de realizar julgamentos
ainda no possui a flexibilidade de modelos que consideram a gramtica. Assim, o modelo do
trigrama seria capaz de avaliar que o homem tenho uma sentena improvvel (erro
gramatical), mas seria incapaz de fazer
chapu amarelo tenho.
Na discusso a seguir, ser considerado apenas o modelo do bigrama.
Modelo Oculto de Markov Combinado
Para que o sistema reconhea sentenas corretamente, necessrio combinar os
modelos de palavra (modelos de pronncia e de fones) com o modelo de linguagem. Para isso,
ser construdo um modelo oculto de Markov combinado, em que cada estado rotulado com
trs informaes:
1. Fone atual;
2. Estado do fone (incio, meio ou fim);
3. Palavra atual.
Figura 7: Exemplo de um estado no modelo de Markov combinado.
Nesse modelo, trs tipos de transio so possveis:
1. Entre estados de um mesmo fone;
2. Entre fones de uma mesma palavra;
3. Entre palavras (probabilidade dada pelo
Se houver palavras possveis, cada uma com uma mdia de
fonema for modelado com trs estados, ento o modelo de Markov combinado possuir
estados.
determina que a probabilidade de uma palavra dentro da
sentena condicionada apenas palavra anterior (modelo de Markov de primeira ordem):
Esse modelo fcil de ser treinado, bastando uma contagem do nmero de palavras
em uma base textos reais. Por exemplo, se a palavra eu aparecer 1000 vezes em um texto,
mas for seguida da palavra tenho em apenas 37 ocorrncias, ento a probabilidade de que
tenho aparea aps eu vale 37/1000.
Uma aproximao mais complexa o modelo do trigrama, que determina que a
probabilidade de uma palavra dentro da sentena condicionada s duas palavras anteriores
(modelo de Markov de segunda ordem):
|
Tal modelo capaz de realizar julgamentos de probabilidade mais sofisticados, mas
ainda no possui a flexibilidade de modelos que consideram a gramtica. Assim, o modelo do
trigrama seria capaz de avaliar que o homem tenho uma sentena improvvel (erro
gramatical), mas seria incapaz de fazer um julgamento semelhante para a frase o homem de
Na discusso a seguir, ser considerado apenas o modelo do bigrama.
Modelo Oculto de Markov Combinado
Para que o sistema reconhea sentenas corretamente, necessrio combinar os
odelos de palavra (modelos de pronncia e de fones) com o modelo de linguagem. Para isso,
ser construdo um modelo oculto de Markov combinado, em que cada estado rotulado com
Estado do fone (incio, meio ou fim);
: Exemplo de um estado no modelo de Markov combinado.
Nesse modelo, trs tipos de transio so possveis:
Entre estados de um mesmo fone;
Entre fones de uma mesma palavra;
Entre palavras (probabilidade dada pelo modelo do bigrama).
palavras possveis, cada uma com uma mdia de fonemas, e cada
fonema for modelado com trs estados, ento o modelo de Markov combinado possuir
13
na que a probabilidade de uma palavra dentro da
sentena condicionada apenas palavra anterior (modelo de Markov de primeira ordem):
Esse modelo fcil de ser treinado, bastando uma contagem do nmero de palavras
em uma base textos reais. Por exemplo, se a palavra eu aparecer 1000 vezes em um texto,
mas for seguida da palavra tenho em apenas 37 ocorrncias, ento a probabilidade de que
, que determina que a
probabilidade de uma palavra dentro da sentena condicionada s duas palavras anteriores
de probabilidade mais sofisticados, mas
ainda no possui a flexibilidade de modelos que consideram a gramtica. Assim, o modelo do
trigrama seria capaz de avaliar que o homem tenho uma sentena improvvel (erro
um julgamento semelhante para a frase o homem de
Para que o sistema reconhea sentenas corretamente, necessrio combinar os
odelos de palavra (modelos de pronncia e de fones) com o modelo de linguagem. Para isso,
ser construdo um modelo oculto de Markov combinado, em que cada estado rotulado com
fonemas, e cada
fonema for modelado com trs estados, ento o modelo de Markov combinado possuir 3
14
Algoritmo de Viterbi (soluo para o segundo problema)
Depois de construdo o modelo de Markov combinado, basta utilizar o algoritmo de
Viterbi para determinar a seqncia de estados mais provveis. Quando essa seqncia for
conhecida, basta ler as palavras nos rtulos dos estados para determinar a sentena.
Considerando que o algoritmo de Viterbi leva em conta todas as seqncias de palavras
possveis e todas as fronteiras possveis entre palavras, soluciona-se o problema se
segmentao (segundo problema apresentado).
Genericamente, o algoritmo de Viterbi depende de algumas consideraes
importantes, todas condizentes com um modelo de Markov de primeira ordem:
Os eventos observveis e ocultos devem estar em seqncia do ponto de vista
temporal.
As seqncias de eventos observveis e ocultos devem estar sincronizadas, de forma
que um evento observado deve corresponder a um nico evento oculto.
O clculo da seqncia oculta mais provvel at o instante deve depender apenas do
evento observado no instante e da seqncia mais provvel no instante 1.
O algoritmo executa as seguintes etapas:
Processa os ns no sentido crescente de seqncia, calculando a probabilidade do
caminho mais provvel a cada etapa. Notar que as probabilidades na etapa
dependem apenas das probabilidades da etapa 1.
Ao final do processamento, tero sido encontradas as seqncias mais provveis
chegando a cada um dos ns finais.
Atravs da anlise das probabilidades, imediato escolher qual das seqncias a
mais provvel de forma global.
Por fim, tal seqencia pode ser reconstruda percorrendo, a partir do estado final, os
apontadores que indicam o estado anterior na seqencia mais provvel. Esses
apontadores so atualizados pelo algoritmo durante o processamento.
Decodificador A* (soluo para o primeiro problema)
Na prtica, a probabilidade de uma seqncia de palavras a soma das probabilidades
de todas as seqncias de estados que so consistentes com a seqncia de palavras. Assim,
possvel que a expresso a back seja reconhecida por 10 seqncias diferentes de estados
(variaes de pronncia, por exemplo), cada uma com probabilidade 0,03. Por outro lado,
possvel que a expresso aback seja reconhecida por apenas uma seqncia de estados
(pronncia nica), cuja probabilidade 0,20. O algoritmo de Viterbi escolheria aback, j que
0,20 maior do que 0,03. Entretanto, a back mais provvel, j que a soma das
probabilidades de todas as seqncias de estados que reconhecem a expresso 0,30.
Para solucionar essa questo (segundo problema apresentado), utiliza-se um
decodificador A*, que realiza uma busca A* para encontrar a seqncia mais provvel de
palavras. Considera-se um grafo em que cada n representa uma palavra. Assim, os sucessores
de um n so todas as palavras possveis que podem seguir a palavra rotulada nesse n.
15
Considere que se deseja encontrar o caminho mais provvel entre os ns
. No
momento da anlise de um n genrico
, em que:
= log
.
Com a definio apresentada, o problema de encontrar o caminho mais curto torna-se
exatamente equivalente ao problema de encontrar a seqncia mais provvel de palavras.
Uma inconvenincia do mtodo apresentado a dificuldade de se encontrar uma heurstica