TDVTema 6 A

Tratamiento Digital de Voz
Prof. Luis A. Hernndez Gmez

ftp.gaps.ssr.upm.es/pub/TDV/DOC/
Tema6a.ppt
Dpto. Seales, Sistemas y
Radiocomunicaciones
Tema 6: Reconocimiento de Voz

Principios de Reconocimiento de Habla y de Locutor
Tecnologa de Reconocimiento de Locutor
Tecnologa de Reconocimiento de Habla

Reconocimiento de Voz

Reconocimiento de Habla: qu se dice?

La variedad de locutores (quin lo dice?): ruido
(Acentos, variedades dialectales, etc.)

Reconocimiento de Locutor: quin lo dice?

La variedad de mensajes hablados (qu se dice?): ruido

variacin intra-locutor variacin inter-locutores


Reconocimiento de Habla: Caractersticas
Dependiente / Independiente de Locutor
Tamao del Vocabulario
Tipos de Reconocimiento:
Habla aislada, palabras en contexto (word spotting), habla
natural, lenguaje natural, habla espontnea, ...
Otros:
Entorno de Ruido: mviles, cabinas, automvil, ...
Sistema de comunicacin: GSM, manos-libres, VoIP, ...
Prestaciones


Reconocimiento de Habla: Dependiente/Independiente
del Locutor
Dependiente de Locutor: por ejemplo, sistemas de dictado.
Independiente de Locutor: aplicaciones telefnicas.
Cada vez mayor importancia de las Tcnicas de Adaptacin
al Locutor
Reduccin de la cantidad de voz para la adaptacin.
Adaptacin supervisada / no-supervisada.
Adaptacin tambin al entorno de ruido.
Adaptacin a habla espontnea.

Reconocimiento de Habla: Tamao del Vocabulario
El vocabulario DEBE estar pre-fijado (en muchas ocasiones es
muy importante la gestin dinmica de vocabularios : entradas
variables)
El diseo del vocabulario puede olvidar palabras: palabras
fuera del vocabulario (OOV out-of-vocabulary). Cmo detectar e
incorporar esas palabras es de gran importancia.
Las prestaciones del Reconocedor son dependientes del
tamao del vocabulario:
Pequeo (< 100), medio (<1000), grande (>1000 -- 1M)
PERO es muy importante (muchas veces ms que el nmero
de palabras):
o El grado de similitud acstica entre palabras (ej.: telfonos)
o La GRAMTICA de reconocimiento. La gramtica restringe
la secuencia de palabras a reconocer.
Reconocimiento de Habla: Tipo de Reconocimiento
(terminologa imprecisa)
Habla aislada: lista de palabras (directorio de nombres)
Palabras en contexto (word spotting): con Juan Prez por
favor
Habla natural: dictado natural, u rdenes naturales
(quiero que me digas qu pelculas ponen hoy)
Lenguaje natural: suele asociarse a la identificacin de
entidades semnticas:
<solicitud de informacin>quiero que me digas qu
<tipo de informacin>pelculas</tipo de informacin>
ponen<tiempo>hoy</tiempo>
</solicitud de informacin>
Habla espontnea: disfluencias : ..eh quiero que me des,
que me diga.. digas qu... pone... las pelculas de hoy

Reconocimiento de Habla: Caractersticas
Ms otros....
Entorno de Ruido: mviles, cabinas, automvil, ...
Sistema de comunicacin: GSM, manos-libres, VoIP, ...
DIFICULTAD de medir realmente las prestaciones de un
sistema de reconocimiento (en laboratorio en aplicaciones)
Errores de Reconocimiento: Tasa de Error (Sustituciones /
Inserciones / Elisiones (borrados))
Rechazo: Falsa Aceptacin / Falso Rechazo => INFLUYE en la
Tasa de Error.
Ruidos
Palabras OOV (fuera del vocabulario)
Medidas de Confianza: seguridad del resultado de
reconocimiento (ejemplo: Adaptacin no-supervisada)


Reconocimiento de Locutor: Caractersticas
Dependiente / Independiente de Texto
Poblacin cerrada / abierta
Modos de Funcionamiento:
VERIFICACIN
IDENTIFICACIN
(Deteccin; Autenticacin)
Otros:
Entorno de Ruido..., Sistema de comunicaciones, ...
VARIABILIDAD ENTRE SESIONES
Prestaciones

Rec. de Locutor: Dependiente/Independiente de Texto
Dependiente Texto:
Texto fijo: locucin pre-establecida (clave de acceso)
Texto variable (vocabulario fijo): se pide que el locutor pronuncie
una clave generada aleatoriamente (text prompted); objetivos: evitar
grabaciones y clave en voz alta
Independiente de Texto: el locutor puede emplear cualquier
locucin, sin restricciones (duracin, riqueza fontica ?
Imaginacin ? => tipo de aplicacin: Acstica Forense)

Importancia de la estrategia de dilogo (factores humanos):
preguntas sucesivas (nombre, apellidos, fecha de nacimiento, ...)
Reconocimiento de Locutor Sistemas de Verificacin de
Informacin Verbal (complementarios? Fases diferentes ?)


Reconocimiento de Locutor: Poblacin cerrada/abierta
Poblacin cerrada: reconocimiento entre un conjunto cerrado
de usuarios; el impostor est en casa.

Poblacin abierta: reconocimiento abierto a impostores
externos a los locutores reconocibles


Reconocimiento de Locutor: Modos de funcionamiento
VERIFICACIN: decidir si una persona es quien dice ser
utilizando su huella vocal (ej.: tecleo mi password y el sistema
me pide que hable para comprobar que soy yo: se contrasta la voz
dubitada contra una sola huella vocal la del password-)

IDENTIFICACIN: decidir si la voz de una persona
pertenece a algun locutor de una poblacin de locutores
identificados. (se compara la voz dubitada con todas las huellas
vocales de la poblacin indubitada)

(DETECCIN: localizacin de un locutor en una grabacin de
audio AUTENTICACIN: mediante
verificacin/identificacin)

Reconocimiento de Locutor: Prestaciones
Otros:
Entorno de Ruido... Sistema de comunicacin...
VARIABILIDAD ENTRE SESIONES
Errores de Reconocimiento: tasas de:
Falsa Aceptacin FA: un impostor vulnera el sistema
Falso Rechazo FR: un usuario no es reconocido
Aciertos de Reconocimiento:
Rechazo correcta: un impostor es rechazado
Aceptacin correcta: un usuario es reconocido
El coste de cada tipo de error depende de la aplicacin (por
ejemplo: mayor, menor seguridad)
TAMBIN en aplicaciones reales: FTE Fail-to-enroll;
imposibilidad de entrenarse en el sistema

Four conditional probabilities
in speaker verification
0012-09
Input utterance
Decision condition
condition

s n
(customer) (impostor)

S (accept)

N (reject)

P(S | s) P(S | n)

P(N | s) P(N | n)
Relationship between error rate and decision
criterion (threshold) in speaker verification
0012-10
E
r
r
o
r

r
a
t
e

Decision criterion (Threshold)
1
0
FR= P (N | s)
FA= P (S | n)
a c b
Equal
Error
Rate
EER
Receiver operating characteristic (ROC) curves; performance
examples of three speaker verification systems: A, B, and D
0012-11
1
1
0
P (S | n)
P

(
S

|

s
)

A
B
D
a
b
(http://www.nist.gov/speech)
Curvas ROC Curvas DEC
(http://www.nist.gov/speech)
We have found it useful in speech applications to use
a variant of this which we call the DET (Detection
Error Tradeoff) Curve, described below.

In the DET curve we plot error rates on both axes,
giving uniform treatment to both types of error, and
use a scale for both axes which spreads out the plot
and better distinguishes different well performing
systems and usually produces plots that are close to
linear.

Recognition error rates as a function of population
size in speaker identification and verification
0103-23
20
10
5
2
1
0.5
0.2
0.1
2 5 10 20 50 100
Male Female
Identification
Verification
R
e
c
o
g
n
i
t
i
o
n

e
r
r
o
r

r
a
t
e

(
%
)

Size of population
Reconocimiento de Locutor: Prestaciones (La Granja)

SHEEP, GOATS, LAMBS and WOLVES
A Statistical Analysis of Speaker Performance
in the NIST 1998 Speaker Recognition Evaluation

George Doddington
1,2,3,5
, Walter Liggett
1
, Alvin Martin
1
, Mark Przybocki
1
, Douglas
Reynolds
3,4
,
1
National Institute of Standards and Technology,
2
The Johns Hopkins University
3
U.S. Department of Defense,
4
MIT Lincoln Laboratory,
5
SRI International

Reconocimiento de Locutor: Prestaciones (La Granja)

Sheep (ovejas) Sheep comprise our default speaker
type. In our model, sheep dominate the population and
systems perform nominally well for them.

Goats (cabras) Goats, in our model, are those
speakers who are particularly difficult to recognize.
Goats tend to adversely affect the performance of
systems by accounting for a disproportionate share of
the missed detections. The goat population can be an
especially important problem for entry control systems,
where it is important that all users be reliably accepted.

Lambs (corderos) Lambs, in our model, are those
speakers who are particularly easy to imitate. That is, a
randomly chosen speaker is exceptionally likely to be
accepted as a lamb. Lambs tend to adversely affect the
performance of systems by accounting for a
disproportionate share of the false alarms. This
represents a potential system weakness, if lambs can
be identified, either through trial and error or through
correlation with other directly observable
characteristics.
Wolves (lobos) Wolves, in our model, are those
speakers who are particularly successful at imitating
other speakers. That is, their speech is exceptionally
likely to be accepted as that of another speaker. Wolves
tend to adversely affect the performance of systems by
accounting for a disproportionate share of the false
alarms. This represents a potential system weakness, if
wolves can be identified and recruited to defeat
systems.
Estructura de un Sistema de Reconocimiento de Locutor

Resultado
Reconocimiento
Seal
de Voz
Entrenamiento
Reconocimiento
Extraccin
De
Caractersticas
Modelos/Patrones
de referencia
para cada Locutor
Comparacin
(Distancia)
Speech Recognition Technology in the
Ubiquitous/Wearable Computing Environment Sadaoki Furui
http://www.furui.cs.titech.ac.jp/
Otros aspectos importantes:

Resultado
Reconocimiento
Seal
de Voz
Extraccin
De
Caractersticas
Modelos/Patrones
de referencia
para cada Locutor
Comparacin
(Distancia)
Detector de
Actividad
Cancelador
De
Ecos
Compensacin
De
Ruido
Identificacin

Similarity
Similarity
Similarity
Reference
template or model
(Speaker #N)
Reference
template or model
(Speaker #2)
Reference
template or model
(Speaker #1)
Feature
extraction
Maximum
selection
Speech
wave
Identification
result
(Speaker ID)
Verificacin
Speech
wave
Identification
result
(Accept / Reject)
Speaker ID
(#M)
Similarity
Reference
template or model
(Speaker #M)
Feature
extraction
Decision
Threshold
Decisin
Distance
Intra-speaker distance
Inter-speaker distance

DB
o
DB
D
i
s
t
r
i
b
u
t
i
o
n

Objetivo: obtener un modelo del locutor
Para discriminacin, no para codificacin ni sntesis
Marco de Trabajo: Reconocimiento de Patrones
El clasificador ptimo es el clasificador de Bayes

{ } { }
=
> = =
=
> <
contrario caso en (rechazo)
) / ( y ) /
( max ) / ( si
: in Clasificac
,...... , ,.... ,
Clases - - - - - - - nes Observacio
o
i
i i
L 2 1 2

|

O O O
o o o O
1
p p p
T
Todo lo necesario es conocer la funcin de
probabilidad
O
) / (
1
O p
) / (
2
O p
) / (
3
O p
Rechazo Clase 1 Clase 2 Clase 3 Clase 2 Rechazo
|
Todo lo necesario es conocer la funcin de
probabilidad
O
) / (
1
O p
) / (
2
O p
) / ( O
L
p
|
.
.
.
.
.
.
Max Rechazo
PERO: la funcin de probabilidad nunca se

conoce: forma paramtrica desconocida y cantidad de
datos de estima (entrenamiento) limitados
O
) / (
1
O p
) / (
2
O p
) / ( O
L
p
|
.
.
.
.
.
.
Max Rechazo
NO UN CLASIFICADOR NICO
Funciones de
Discriminacin
De una forma simplificada podemos considerar:
Por la tcnica de clasificacin:
Clasificadores no-paramtricos
Clasificadores paramtricos
(Discriminativos)

Atendiendo al tipo de informacin empleada:
Clasificadores a partir de informacin a largo plazo
Clasificadores a partir de informacin a corto plazo
0012-13
(b) short-term information based method
Input
speech
Speaker
identity
Paterns
Feature
extraction
Decision Accumulation
Parametric or
Non-Parametric
(a) Long-term-statistics-based method
Input
speech
Speaker
identity
Reference templates
or models
Feature
extraction
Decision
Distance
or
similarity
Long-term
statistics

Average, variance,
correlation, MAR

Por la tcnica de clasificacin...
Clasificadores no-paramtricos:

No hacen ninguna hiptesis sobre el modelo de distribucin de
la voz del locutor

Se basan completamente en los datos de entrenamiento

Un ejemplo tpico seran los sistemas de Reconocimiento
Independientes del Locutor basados en Cuantificacin Vectorial
Vector quantization (VQ)-based text-independent speaker
recognition
0103-19
Spectral envelopes Speaker-specific codebook
Cuantificador Vectorial
Representa el conjunto de vectores de
ENTRENAMIENTO X={x
1
,x
2
, ... x
N
} por un
nmero pequeo de representantes (centroides)
Y={y
1
, y
2
, ... y
M
} (M<N)
Fase 1. Determinacin de los representantes
Medida de distancia d(x
i,
y
j
)
Entrenamiento: Codebook Y
Fase 2. Asignacin del centroide ms prximo
Cuantificacin de una observacin o
| | j k y o d y o d y o Q
k j j
= < = ) , ( ) , (
Entrenamiento CV algoritmo LBG
Primer centroide
D? N?
Duplicacin
Asignacin de vectores
Clculo de centroides
SI SI
NO
NO
Cuantificacin
Asuncin Moreno
Universidad Politcnica de Catalua
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Cuantificacin
x
y
VQ Performance on Unseen Data
Ramachandran &
Mamone (eds)
Modern Methods of
Speech Processing
Kluer Academic, 1995

TDVTema 6 A

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

TDVTema 6 A

Enviado por

Direitos autorais:

Formatos disponíveis

Tratamiento Digital de Voz

Prof. Luis A. Hernndez Gmez

PERO: la funcin de probabilidad nunca se

Você também pode gostar