Intr Rec Voz

Curso sobre Tecnologas del Habla
Jos B. Mario Acebal
Introduccin al
reconocimiento de voz
Jos B. Mario Acebal
Indice
9Perspectiva histrica del estado del
arte
9Reconocimiento de palabras aisladas
9Modelos de Markov
9Algoritmo de Viterbi.
9Entrenamiento discriminativo
9Verificacin
Jos B. Mario Acebal
Perspectiva histrica
9Ambiente/canal
9Conjunto de usuarios
Factores de dificultad 9Modo de elocucin
9Vocabulario
9Complejidad de la tarea
Jos B. Mario Acebal
Reconocimiento de
palabras aisladas
Ssamo
Jos B. Mario Acebal
Reconocimiento de
palabras aisladas
Modelos
o patrones
voz
Procesador
acstico
Algoritmo
de reconocimiento
texto
f = popt
Reconocimiento de
palabras aisladas
Modelos
o patrones
Hz
voz
Procesador
acstico
Algoritmo
de reconocimiento
texto
f = popt
Jos B. Mario Acebal
Reconocimiento de
palabras aisladas
Modelos
o patrones
voz
Procesador
acstico
texto
Algoritmo
de reconocimiento
f = popt
Regla de decisin MAP: popt = argmax { P( p / x ) }

pL
Modelos de Markov
9Modelo probabilstico de secuencias
Jos B. Mario Acebal
Modelos de Markov
a22
a11
a12
a21
a13
a23
a33
a32
Observaciones: n n o p p n o n r
Estados:
1 1 1 2 2 2 3 3 3
1 2 1 1 2 1 1 1 3
Modelos de Markov
9 Elementos de un modelo (I)
el nmero de estados: N
el alfabeto de observaciones en los estados
finito (M): modelos discretos
infinito: modelos continuos
las probabilidades de transicin entre estados
aij = P[qt+1 = Sj / qt = Si]
1 i,j N
Jos B. Mario Acebal
Modelos de Markov
9Elementos de un modelo (II)
...
probabilidades de los smbolos en cada estado
bj (k) = P[vk a t / qt = Sj]
1jN
1kM
la probabilidad de los estados iniciales

i = P[q1 = Si]
1iN
Modelos de Markov
9Los tres problemas bsicos
Dada la secuencia de observaciones O = O1 O2 ... OT
y el modelo = (A, B, ):
calcular eficientemente P(O/)
determinar la secuencia de estados Q = q1 q2 ... qT
ptima en algn sentido
ajustar los parmetros del modelo de forma que se
maximice P(O/)
Jos B. Mario Acebal
Modelos de Markov
9Clculo de P(O/)
Coste computacional
(2T-1) NT
P(O/ Q, ) = q1 bq1 (O1)aq1q2 bq2 (O2 )...aqT1qT bqT (OT )
P(O/ ) =
q bq (O1)aq q bq (O2 )...aq
todoQ
1 2
T1qT
bqT (OT )
Algoritmo adelante / atrs

9Probabilidades hacia adelante
t(i) = P(O1 O2 ... Ot , qt = Si / )
S1
S2
..
.
Sj
1 (i ) = i b i (O1 )
Induccin:
t+1 ( j) = t (i)a ij b j (Ot+1 )
i=1
N
SN
t
t(i)
Inicio:
t+1
t+1(j)
Final: P(O / ) = T (i )
i =1
Jos B. Mario Acebal

9Probabilidades hacia adelante
t(i) = P(O1 O2 ... Ot , qt = Si / )
S1
S2
..
.
SN
t
t(i)
Inicio:
Sj
Induccin:
Coste computacional
N2 T t+1
t+1(j)
1 (i ) = i b i (O1 )
N
t+1 ( j) = t (i)a ij b j (Ot+1 )
i=1
N
Final: P(O / ) = T (i )
i =1

9Probabilidades hacia atrs
S1
S2
Si
Inicio:
..
.
T (i ) = 1
Induccin:
SN
t
t(i)
t(i) = P(Ot+1 Ot+2 ... OT / qt = Si , )
t+1
t+1(j)
t (i) = a ijb j (Ot+1 )t+1 ( j)

j=1
Jos B. Mario Acebal
Algoritmo de Baum-Welch
9Estimacin de los parmetros (I)
Si
..
.
t(i)
t-1
Sj
t+1(j)
t+1
t(i,j) = P(qt = Si, qt+1 = Sj / O, ) =

= P(qt = Si, qt+1 = Sj, O / ) /
..
P(O/) =
.
= t(i) aij bj(Ot+1) t+1(j) / P(O/)
t+2
t (i ) = P(q t = Si / O, ) = t (i, j)
j=1
9Estimacin de los parmetros (II)
i
aij
probabilidad de comenzar
en el estado i-simo
transiciones del estado Si al Sj /
transiciones desde el estado Si
1 (i )
T 1
t (i, j)
t =1
T 1
t (i )
t =1
T
observaciones de vk en el estado Sj /
bj(k)
permanencias en el estado Sj
t (Ot =vk ) ( j)
t =1
t ( j)
t =1
10
Jos B. Mario Acebal
9Estimacin de los parmetros (III)
x, p, hmm0
Determinacin de
un modelo inicial
Escalado de las
probabilidades
Clculo y
Estimacin HMM
NO
SI
hmm
Algoritmo de Viterbi
Estado
3
2
1
1
Inicializacin 1(i) = i bi(O1)

1(i) = 0
trama
1iN
11
Jos B. Mario Acebal
Estado
3
aij (j)
t
2
1
1
Recursin
t-1(i)
trama
t(j) = max [t-1(i) aij] bj(Ot)
2tT
t(j) = arg max [t-1(i) aij]
1jN
1iN
1iN
Estado
3
2
1
1
Secuencia
trama
P* = max [T(i)]
1iN
qT*=arg max [T(i)]

1iN
qt* = t+1( qt+1*)
t = T-1, T-2, ...1
12
Jos B. Mario Acebal
Inicializacin 1(i) = i bi(O1)

1(i) = 0
Recursin
1iN
t(j) = max [t-1(i) aij] bj(Ot)
2tT
t(j) = arg max [t-1(i) aij]
1jN
1iN
1iN
Secuencia
P* = max [T(i)]
1iN
qT*=arg max [T(i)]

1iN
qt* = t+1( qt+1*)
t = T-1, T-2, ...1
9Estimacin de los modelos
x, f, hmm0
Segmentacin
Estimacin HMM
NO
hmm
?
SI
[l]
[a]
< La >
[T]
[e]
[r]
[a]
< cera >
13
Jos B. Mario Acebal
Tipos de modelos
Discretos: Las observaciones han pasado por
un VQ
bj(Ot) = Pj(Et) Pj(Ct) Pj(Ct)
Semicontinuos: Cada observacin es una

combinacin de gaussianas
bj(Ot) = cjkN(O,k,k)
Continuos: Idem dependiente del estado

bj(Ot) = cjkN(O,jk,jk)
Entrenamiento discriminativo
9Motivacin
El entrenamiento que optimiza la verosimilitud
no est orientado directamente a realizar la
mejor clasificacin.
Interesa un entrenamiento que minimice los
errores de reconocimiento.
14
Jos B. Mario Acebal
9Entrenamiento correctivo
wj
On
Palabras
aisladas
wk
p(On/wk) > max p(On/wi)

ik
Se produce un error si k j
En este caso se corrigen las probabilidades de
emisin de smbolo
wj
On
Palabras
aisladas
wk

ik
Se produce
un error si k j
Correccin:
n/w , n) +
n+1) =las
En este caso
sen/w
corrigen
de
p(O
p(Oprobabilidades
j,j
j j
n/w , n+1) = p(On/w , n) -
k k
k k
emisin dep(O
smbolo
15
Jos B. Mario Acebal
Ilustracin del funcionamiento
+
a reconocer
reconocido
Su eficacia depende de la medida en que el
entrenamiento sea significativo del test.
No est garantizada la convergencia.
Dado de que aprende de los errores de
reconocimiento, requiere mayores bases de
datos que el entrenamiento que optimiza la
verosimilitud.
16
Jos B. Mario Acebal
9Minimizacin del error de clasificacin
wj
On
wk
Palabras
aisladas

ik
error si j k
Se minimiza la funcin que da cuenta de los

errores de clasificacin.
9Minimizacin del error de clasificacin
wj
On
wk
Palabras
aisladas

ik
error si j k
Se minimiza
n cuenta
U =lafuncin
e (On) que
1(Oda
w ) de los
n k k
errores de clasificacin. n
0 si p(O /wk) > max p(On/wi)
n
ik
ek(O ) =
1
en otro caso
17
Jos B. Mario Acebal
9Minimizacin mediante el gradiente
U = ek(On) 1(On wk)
n k
dk(On) = -log p(On/wk ) + log

ek(On) =
1+e
1
p(On/wi )
V-1
i
n+1
C k= Cn -
1 U
nn
1/
- dk(O )
9Minimizacin mediante el gradiente
U = ek(On) 1(On wk)
n k
Bsqueda del gradiente
dk(On) = -log p(On/wk ) + log

ek
(On)
1+e
1
p(On/wi ) 1/
V-1
i
n+1
n+1
CC =k=CCnn-- U
1 U
nn
nn
- dk(O )
18
Jos B. Mario Acebal
Verificacin
9Medicin de la confianza en la certeza de
un reconocimiento
Ha de basarse en parmetros cuyo valor est
fuertemente correlado con la correccin (H0) o
incorreccin (H1) del reconocimiento.
test:
p
-
H1
H0
x
x>U
H0
x<U
H1
Verificacin
9Medidas de confianza
probabilidad del reconocimiento
probabilidad a posteriori
voz
Reconocedor
p(w,O)
Alternativa:
red de fonemas
p(w/O)
p(O)
19
Jos B. Mario Acebal
Verificacin
probabilidad
del reconocimiento
Pd
word spotting
probabilidad a Probabilidad
posteriori
voz
voz
a posteriori
Reconocedor
Reconocedor
O
p(w,O)
p(w,O) p(w/O)
/
Probabilidad
p(w/O)
del
reconocimiento
Alternativa:
/
O
red de fonemas
Alternativa:
red de fonemas
p(O)
p(O)
fa
Verificacin
Verosimilitud: H0 es representada por el reconocedor
H1 es representada por antimodelos
voz
Reconocedor
O, w
Alternativa:
antimodelos
antimodelo
p(O/w)
/
p(O/w)
v(w)
Modelo entrenado
con seal que
el modelo ha
reconocido
errneamente
20
Jos B. Mario Acebal
Verificacin
Fiabilidad del entrenamiento
Coincidencia entre el reconocedor y la
alternativa
La persistencia en las N mejores hiptesis
La probabilidad del modelo del lenguaje
Composicin de medidas sencillas
Verificacin
9Aplicacin de la verificacin
postprocesado de la salida de un reconocedor
de palabras aisladas o del word spotting para
eliminar falsas alarmas.
en sistemas de comprensin del habla (para
dilogo, por ejemplo) para basar la
interpretacin en aquellas palabras cuyo
reconocimiento sea ms fiable o solicitar
confirmacin.
21
Jos B. Mario Acebal
Lecturas
9L.R. Rabiner, A tutorial on hidden
Markov models and selected applications
in speech recognition, Proc. IEEE (feb.
89).
22

Intr Rec Voz

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Intr Rec Voz

Enviado por

Direitos autorais:

Formatos disponíveis

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Regla de decisin MAP: popt = argmax { P( p / x ) }

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

las probabilidades de transicin entre estados

aij = P[qt+1 = Sj / qt = Si]

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

la probabilidad de los estados iniciales

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

P(O/ Q, ) = q1 bq1 (O1)aq1q2 bq2 (O2 )...aqT1qT bqT (OT )

q bq (O1)aq q bq (O2 )...aq

Algoritmo adelante / atrs

t+1 ( j) = t (i)a ij b j (Ot+1 )

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Algoritmo adelante / atrs

Algoritmo adelante / atrs

t(i) = P(Ot+1 Ot+2 ... OT / qt = Si , )

t (i) = a ijb j (Ot+1 )t+1 ( j)

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

t(i,j) = P(qt = Si, qt+1 = Sj / O, ) =

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Inicializacin 1(i) = i bi(O1)

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

t(j) = max [t-1(i) aij] bj(Ot)

t(j) = arg max [t-1(i) aij]

qT*=arg max [T(i)]

qt* = t+1( qt+1*)

t = T-1, T-2, ...1

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Inicializacin 1(i) = i bi(O1)

t(j) = max [t-1(i) aij] bj(Ot)

t(j) = arg max [t-1(i) aij]

qT*=arg max [T(i)]

qt* = t+1( qt+1*)

t = T-1, T-2, ...1

< cera >

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Semicontinuos: Cada observacin es una

Continuos: Idem dependiente del estado

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

p(On/wk) > max p(On/wi)

p(On/wk) > max p(On/wi)

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal