Você está na página 1de 22

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Introduccin al
reconocimiento de voz
Jos B. Mario Acebal

Indice
9Perspectiva histrica del estado del
arte
9Reconocimiento de palabras aisladas
9Modelos de Markov
9Algoritmo de Viterbi.
9Entrenamiento discriminativo
9Verificacin

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Perspectiva histrica

9Ambiente/canal
9Conjunto de usuarios
Factores de dificultad 9Modo de elocucin
9Vocabulario
9Complejidad de la tarea

Perspectiva histrica

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Perspectiva histrica

Reconocimiento de
palabras aisladas

Ssamo

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Reconocimiento de
palabras aisladas

Modelos
o patrones

voz

Procesador
acstico

Algoritmo
de reconocimiento

texto
f = popt

Reconocimiento de
palabras aisladas

Modelos
o patrones

Hz

voz

Procesador
acstico

Algoritmo
de reconocimiento

texto
f = popt

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Reconocimiento de
palabras aisladas

Modelos
o patrones

voz

Procesador
acstico

texto

Algoritmo
de reconocimiento

f = popt

Regla de decisin MAP: popt = argmax { P( p / x ) }


pL

Modelos de Markov
9Modelo probabilstico de secuencias

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Modelos de Markov
a22
a11

a12

a21

a13
a23

a33

a32

Observaciones: n n o p p n o n r
Estados:
1 1 1 2 2 2 3 3 3
1 2 1 1 2 1 1 1 3

Modelos de Markov
9 Elementos de un modelo (I)
el nmero de estados: N
el alfabeto de observaciones en los estados
finito (M): modelos discretos
infinito: modelos continuos

las probabilidades de transicin entre estados

aij = P[qt+1 = Sj / qt = Si]

1 i,j N

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Modelos de Markov
9Elementos de un modelo (II)
...
probabilidades de los smbolos en cada estado
bj (k) = P[vk a t / qt = Sj]

1jN

1kM

la probabilidad de los estados iniciales


i = P[q1 = Si]

1iN

Modelos de Markov
9Los tres problemas bsicos
Dada la secuencia de observaciones O = O1 O2 ... OT
y el modelo = (A, B, ):
calcular eficientemente P(O/)
determinar la secuencia de estados Q = q1 q2 ... qT
ptima en algn sentido
ajustar los parmetros del modelo de forma que se
maximice P(O/)

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Modelos de Markov
9Clculo de P(O/)
Coste computacional
(2T-1) NT

P(O/ Q, ) = q1 bq1 (O1)aq1q2 bq2 (O2 )...aqT1qT bqT (OT )

P(O/ ) =

q bq (O1)aq q bq (O2 )...aq

todoQ

1 2

T1qT

bqT (OT )

Algoritmo adelante / atrs


9Probabilidades hacia adelante
t(i) = P(O1 O2 ... Ot , qt = Si / )

S1
S2

..
.

Sj

1 (i ) = i b i (O1 )

Induccin:

t+1 ( j) = t (i)a ij b j (Ot+1 )

i=1
N

SN
t
t(i)

Inicio:

t+1
t+1(j)

Final: P(O / ) = T (i )
i =1

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Algoritmo adelante / atrs


9Probabilidades hacia adelante
t(i) = P(O1 O2 ... Ot , qt = Si / )

S1
S2

..
.
SN
t
t(i)

Inicio:

Sj

Induccin:

Coste computacional
N2 T t+1
t+1(j)

1 (i ) = i b i (O1 )

N
t+1 ( j) = t (i)a ij b j (Ot+1 )

i=1
N

Final: P(O / ) = T (i )
i =1

Algoritmo adelante / atrs


9Probabilidades hacia atrs
S1
S2
Si

Inicio:

..
.

T (i ) = 1

Induccin:
SN

t
t(i)

t(i) = P(Ot+1 Ot+2 ... OT / qt = Si , )

t+1
t+1(j)

t (i) = a ijb j (Ot+1 )t+1 ( j)


j=1

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Algoritmo de Baum-Welch
9Estimacin de los parmetros (I)

Si

..
.

t(i)
t-1

Sj

t+1(j)
t+1

t(i,j) = P(qt = Si, qt+1 = Sj / O, ) =


= P(qt = Si, qt+1 = Sj, O / ) /
..
P(O/) =
.
= t(i) aij bj(Ot+1) t+1(j) / P(O/)
t+2

t (i ) = P(q t = Si / O, ) = t (i, j)
j=1

Algoritmo de Baum-Welch
9Estimacin de los parmetros (II)
i
aij

probabilidad de comenzar
en el estado i-simo
transiciones del estado Si al Sj /
transiciones desde el estado Si

1 (i )
T 1

t (i, j)
t =1
T 1

t (i )

t =1
T

observaciones de vk en el estado Sj /
bj(k)
permanencias en el estado Sj

t (Ot =vk ) ( j)
t =1

t ( j)
t =1

10

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Algoritmo de Baum-Welch
9Estimacin de los parmetros (III)
x, p, hmm0

Determinacin de
un modelo inicial
Escalado de las
probabilidades

Clculo y

Estimacin HMM
NO

SI

hmm

Algoritmo de Viterbi

Estado
3
2
1
1

Inicializacin 1(i) = i bi(O1)


1(i) = 0

trama

1iN

11

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Algoritmo de Viterbi

Estado
3

aij (j)
t

2
1
1
Recursin

t-1(i)

trama

t(j) = max [t-1(i) aij] bj(Ot)

2tT

t(j) = arg max [t-1(i) aij]

1jN

1iN

1iN

Algoritmo de Viterbi

Estado
3
2
1
1
Secuencia

trama

P* = max [T(i)]
1iN

qT*=arg max [T(i)]


1iN

qt* = t+1( qt+1*)

t = T-1, T-2, ...1

12

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Algoritmo de Viterbi

Inicializacin 1(i) = i bi(O1)


1(i) = 0
Recursin

1iN

t(j) = max [t-1(i) aij] bj(Ot)

2tT

t(j) = arg max [t-1(i) aij]

1jN

1iN

1iN

Secuencia

P* = max [T(i)]
1iN

qT*=arg max [T(i)]


1iN

qt* = t+1( qt+1*)

t = T-1, T-2, ...1

Algoritmo de Viterbi
9Estimacin de los modelos

x, f, hmm0
Segmentacin

Estimacin HMM
NO

hmm

?
SI

[l]

[a]

< La >

[T]

[e]

[r]

[a]

< cera >

13

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Tipos de modelos
Discretos: Las observaciones han pasado por
un VQ
bj(Ot) = Pj(Et) Pj(Ct) Pj(Ct)

Semicontinuos: Cada observacin es una


combinacin de gaussianas
bj(Ot) = cjkN(O,k,k)

Continuos: Idem dependiente del estado


bj(Ot) = cjkN(O,jk,jk)

Entrenamiento discriminativo
9Motivacin
El entrenamiento que optimiza la verosimilitud
no est orientado directamente a realizar la
mejor clasificacin.
Interesa un entrenamiento que minimice los
errores de reconocimiento.

14

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Entrenamiento discriminativo
9Entrenamiento correctivo
wj

On

Palabras
aisladas

wk

p(On/wk) > max p(On/wi)


ik

Se produce un error si k j
En este caso se corrigen las probabilidades de
emisin de smbolo

Entrenamiento discriminativo
9Entrenamiento correctivo
wj

On

Palabras
aisladas

wk

p(On/wk) > max p(On/wi)


ik

Se produce
un error si k j
Correccin:
n/w , n) +
n+1) =las
En este caso
sen/w
corrigen
de
p(O
p(Oprobabilidades
j,j
j j
n/w , n+1) = p(On/w , n) -
k k
k k
emisin dep(O
smbolo

15

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Entrenamiento discriminativo
9Entrenamiento correctivo
Ilustracin del funcionamiento
+

a reconocer

reconocido

Entrenamiento discriminativo
9Entrenamiento correctivo
Su eficacia depende de la medida en que el
entrenamiento sea significativo del test.
No est garantizada la convergencia.
Dado de que aprende de los errores de
reconocimiento, requiere mayores bases de
datos que el entrenamiento que optimiza la
verosimilitud.

16

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Entrenamiento discriminativo
9Minimizacin del error de clasificacin
wj

On

wk

Palabras
aisladas

p(On/wk) > max p(On/wi)


ik

error si j k

Se minimiza la funcin que da cuenta de los


errores de clasificacin.

Entrenamiento discriminativo
9Minimizacin del error de clasificacin
wj

On

wk

Palabras
aisladas

p(On/wk) > max p(On/wi)


ik

error si j k

Se minimiza
n cuenta
U =lafuncin
e (On) que
1(Oda
w ) de los
n k k

errores de clasificacin. n
0 si p(O /wk) > max p(On/wi)
n
ik
ek(O ) =
1

en otro caso

17

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Entrenamiento discriminativo
9Minimizacin mediante el gradiente
U = ek(On) 1(On wk)
n k

dk(On) = -log p(On/wk ) + log


ek(On) =

1+e

1
p(On/wi )
V-1
i
n+1
C k= Cn -

1 U
nn

1/

- dk(O )

Entrenamiento discriminativo
9Minimizacin mediante el gradiente
U = ek(On) 1(On wk)
n k

Bsqueda del gradiente

dk(On) = -log p(On/wk ) + log


ek

(On)

1+e

1
p(On/wi ) 1/
V-1
i
n+1
n+1
CC =k=CCnn-- U

1 U
nn

nn

- dk(O )

18

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Verificacin
9Medicin de la confianza en la certeza de
un reconocimiento
Ha de basarse en parmetros cuyo valor est
fuertemente correlado con la correccin (H0) o
incorreccin (H1) del reconocimiento.
test:

p
-

H1

H0
x

x>U

H0

x<U

H1

Verificacin
9Medidas de confianza
probabilidad del reconocimiento
probabilidad a posteriori
voz

Reconocedor

p(w,O)

Alternativa:
red de fonemas

p(w/O)

p(O)

19

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Verificacin
9Medidas de confianza
probabilidad
del reconocimiento
Pd
word spotting
probabilidad a Probabilidad
posteriori
voz
voz

a posteriori

Reconocedor
Reconocedor
O

p(w,O)
p(w,O) p(w/O)

/
Probabilidad
p(w/O)
del
reconocimiento
Alternativa:
/
O

red de fonemas
Alternativa:
red de fonemas

p(O)

p(O)

fa

Verificacin
9Medidas de confianza
Verosimilitud: H0 es representada por el reconocedor
H1 es representada por antimodelos
voz

Reconocedor
O, w

Alternativa:
antimodelos

antimodelo

p(O/w)
/

p(O/w)

v(w)

Modelo entrenado
con seal que
el modelo ha
reconocido
errneamente

20

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Verificacin
9Medidas de confianza
Fiabilidad del entrenamiento
Coincidencia entre el reconocedor y la
alternativa
La persistencia en las N mejores hiptesis
La probabilidad del modelo del lenguaje
Composicin de medidas sencillas

Verificacin
9Aplicacin de la verificacin
postprocesado de la salida de un reconocedor
de palabras aisladas o del word spotting para
eliminar falsas alarmas.
en sistemas de comprensin del habla (para
dilogo, por ejemplo) para basar la
interpretacin en aquellas palabras cuyo
reconocimiento sea ms fiable o solicitar
confirmacin.

21

Curso sobre Tecnologas del Habla

Jos B. Mario Acebal

Lecturas
9L.R. Rabiner, A tutorial on hidden
Markov models and selected applications
in speech recognition, Proc. IEEE (feb.
89).

22

Você também pode gostar