Escolar Documentos
Profissional Documentos
Cultura Documentos
Introduccin al
reconocimiento de voz
Jos B. Mario Acebal
Indice
9Perspectiva histrica del estado del
arte
9Reconocimiento de palabras aisladas
9Modelos de Markov
9Algoritmo de Viterbi.
9Entrenamiento discriminativo
9Verificacin
Perspectiva histrica
9Ambiente/canal
9Conjunto de usuarios
Factores de dificultad 9Modo de elocucin
9Vocabulario
9Complejidad de la tarea
Perspectiva histrica
Perspectiva histrica
Reconocimiento de
palabras aisladas
Ssamo
Reconocimiento de
palabras aisladas
Modelos
o patrones
voz
Procesador
acstico
Algoritmo
de reconocimiento
texto
f = popt
Reconocimiento de
palabras aisladas
Modelos
o patrones
Hz
voz
Procesador
acstico
Algoritmo
de reconocimiento
texto
f = popt
Reconocimiento de
palabras aisladas
Modelos
o patrones
voz
Procesador
acstico
texto
Algoritmo
de reconocimiento
f = popt
Modelos de Markov
9Modelo probabilstico de secuencias
Modelos de Markov
a22
a11
a12
a21
a13
a23
a33
a32
Observaciones: n n o p p n o n r
Estados:
1 1 1 2 2 2 3 3 3
1 2 1 1 2 1 1 1 3
Modelos de Markov
9 Elementos de un modelo (I)
el nmero de estados: N
el alfabeto de observaciones en los estados
finito (M): modelos discretos
infinito: modelos continuos
1 i,j N
Modelos de Markov
9Elementos de un modelo (II)
...
probabilidades de los smbolos en cada estado
bj (k) = P[vk a t / qt = Sj]
1jN
1kM
1iN
Modelos de Markov
9Los tres problemas bsicos
Dada la secuencia de observaciones O = O1 O2 ... OT
y el modelo = (A, B, ):
calcular eficientemente P(O/)
determinar la secuencia de estados Q = q1 q2 ... qT
ptima en algn sentido
ajustar los parmetros del modelo de forma que se
maximice P(O/)
Modelos de Markov
9Clculo de P(O/)
Coste computacional
(2T-1) NT
P(O/ ) =
todoQ
1 2
T1qT
bqT (OT )
S1
S2
..
.
Sj
1 (i ) = i b i (O1 )
Induccin:
i=1
N
SN
t
t(i)
Inicio:
t+1
t+1(j)
Final: P(O / ) = T (i )
i =1
S1
S2
..
.
SN
t
t(i)
Inicio:
Sj
Induccin:
Coste computacional
N2 T t+1
t+1(j)
1 (i ) = i b i (O1 )
N
t+1 ( j) = t (i)a ij b j (Ot+1 )
i=1
N
Final: P(O / ) = T (i )
i =1
Inicio:
..
.
T (i ) = 1
Induccin:
SN
t
t(i)
t+1
t+1(j)
Algoritmo de Baum-Welch
9Estimacin de los parmetros (I)
Si
..
.
t(i)
t-1
Sj
t+1(j)
t+1
t (i ) = P(q t = Si / O, ) = t (i, j)
j=1
Algoritmo de Baum-Welch
9Estimacin de los parmetros (II)
i
aij
probabilidad de comenzar
en el estado i-simo
transiciones del estado Si al Sj /
transiciones desde el estado Si
1 (i )
T 1
t (i, j)
t =1
T 1
t (i )
t =1
T
observaciones de vk en el estado Sj /
bj(k)
permanencias en el estado Sj
t (Ot =vk ) ( j)
t =1
t ( j)
t =1
10
Algoritmo de Baum-Welch
9Estimacin de los parmetros (III)
x, p, hmm0
Determinacin de
un modelo inicial
Escalado de las
probabilidades
Clculo y
Estimacin HMM
NO
SI
hmm
Algoritmo de Viterbi
Estado
3
2
1
1
trama
1iN
11
Algoritmo de Viterbi
Estado
3
aij (j)
t
2
1
1
Recursin
t-1(i)
trama
2tT
1jN
1iN
1iN
Algoritmo de Viterbi
Estado
3
2
1
1
Secuencia
trama
P* = max [T(i)]
1iN
12
Algoritmo de Viterbi
1iN
2tT
1jN
1iN
1iN
Secuencia
P* = max [T(i)]
1iN
Algoritmo de Viterbi
9Estimacin de los modelos
x, f, hmm0
Segmentacin
Estimacin HMM
NO
hmm
?
SI
[l]
[a]
< La >
[T]
[e]
[r]
[a]
13
Tipos de modelos
Discretos: Las observaciones han pasado por
un VQ
bj(Ot) = Pj(Et) Pj(Ct) Pj(Ct)
Entrenamiento discriminativo
9Motivacin
El entrenamiento que optimiza la verosimilitud
no est orientado directamente a realizar la
mejor clasificacin.
Interesa un entrenamiento que minimice los
errores de reconocimiento.
14
Entrenamiento discriminativo
9Entrenamiento correctivo
wj
On
Palabras
aisladas
wk
Se produce un error si k j
En este caso se corrigen las probabilidades de
emisin de smbolo
Entrenamiento discriminativo
9Entrenamiento correctivo
wj
On
Palabras
aisladas
wk
Se produce
un error si k j
Correccin:
n/w , n) +
n+1) =las
En este caso
sen/w
corrigen
de
p(O
p(Oprobabilidades
j,j
j j
n/w , n+1) = p(On/w , n) -
k k
k k
emisin dep(O
smbolo
15
Entrenamiento discriminativo
9Entrenamiento correctivo
Ilustracin del funcionamiento
+
a reconocer
reconocido
Entrenamiento discriminativo
9Entrenamiento correctivo
Su eficacia depende de la medida en que el
entrenamiento sea significativo del test.
No est garantizada la convergencia.
Dado de que aprende de los errores de
reconocimiento, requiere mayores bases de
datos que el entrenamiento que optimiza la
verosimilitud.
16
Entrenamiento discriminativo
9Minimizacin del error de clasificacin
wj
On
wk
Palabras
aisladas
error si j k
Entrenamiento discriminativo
9Minimizacin del error de clasificacin
wj
On
wk
Palabras
aisladas
error si j k
Se minimiza
n cuenta
U =lafuncin
e (On) que
1(Oda
w ) de los
n k k
errores de clasificacin. n
0 si p(O /wk) > max p(On/wi)
n
ik
ek(O ) =
1
en otro caso
17
Entrenamiento discriminativo
9Minimizacin mediante el gradiente
U = ek(On) 1(On wk)
n k
1+e
1
p(On/wi )
V-1
i
n+1
C k= Cn -
1 U
nn
1/
- dk(O )
Entrenamiento discriminativo
9Minimizacin mediante el gradiente
U = ek(On) 1(On wk)
n k
(On)
1+e
1
p(On/wi ) 1/
V-1
i
n+1
n+1
CC =k=CCnn-- U
1 U
nn
nn
- dk(O )
18
Verificacin
9Medicin de la confianza en la certeza de
un reconocimiento
Ha de basarse en parmetros cuyo valor est
fuertemente correlado con la correccin (H0) o
incorreccin (H1) del reconocimiento.
test:
p
-
H1
H0
x
x>U
H0
x<U
H1
Verificacin
9Medidas de confianza
probabilidad del reconocimiento
probabilidad a posteriori
voz
Reconocedor
p(w,O)
Alternativa:
red de fonemas
p(w/O)
p(O)
19
Verificacin
9Medidas de confianza
probabilidad
del reconocimiento
Pd
word spotting
probabilidad a Probabilidad
posteriori
voz
voz
a posteriori
Reconocedor
Reconocedor
O
p(w,O)
p(w,O) p(w/O)
/
Probabilidad
p(w/O)
del
reconocimiento
Alternativa:
/
O
red de fonemas
Alternativa:
red de fonemas
p(O)
p(O)
fa
Verificacin
9Medidas de confianza
Verosimilitud: H0 es representada por el reconocedor
H1 es representada por antimodelos
voz
Reconocedor
O, w
Alternativa:
antimodelos
antimodelo
p(O/w)
/
p(O/w)
v(w)
Modelo entrenado
con seal que
el modelo ha
reconocido
errneamente
20
Verificacin
9Medidas de confianza
Fiabilidad del entrenamiento
Coincidencia entre el reconocedor y la
alternativa
La persistencia en las N mejores hiptesis
La probabilidad del modelo del lenguaje
Composicin de medidas sencillas
Verificacin
9Aplicacin de la verificacin
postprocesado de la salida de un reconocedor
de palabras aisladas o del word spotting para
eliminar falsas alarmas.
en sistemas de comprensin del habla (para
dilogo, por ejemplo) para basar la
interpretacin en aquellas palabras cuyo
reconocimiento sea ms fiable o solicitar
confirmacin.
21
Lecturas
9L.R. Rabiner, A tutorial on hidden
Markov models and selected applications
in speech recognition, Proc. IEEE (feb.
89).
22