Escolar Documentos
Profissional Documentos
Cultura Documentos
Incorporacin de Informacin
Suprasegmental en el Proceso de
Reconocimiento Automtico del
Habla
Diego Alexis Evin: Incorporacin de Informacin Suprasegmental en el Proceso de Reconocimiento Automtico del Habla,
Tesis Doctoral
Director: Jorge Alberto Gurlekian
Coordinadora de Estudios: Ana Ruedin
Abril de 2011.
website:
http://www.lis.secyt.gov.ar/
e-mail:
diegoevin@gmail.com
iii
Adems se argumenta que en la tarea de reconocimiento e interpretacin del habla los seres humanos emplean e integran varios niveles
de conocimiento lingstico, muchos de los cuales an no han sido
incorporados o aprovechados eficientemente en el RAH.
A partir de esas evidencias resulta interesante investigar cul es el
aporte que puede brindar la informacin suprasegmental o prosdica
para mejorar el desempeo de los sistemas de RAH estndar.
En esta Tesis se investiga el empleo de informacin suprasegmental
como factor de mejora en el desempeo, as como alternativas para su
integracin en sistemas de RAH estndar.
En el Captulo 1 se exponen argumentos que muestran la necesidad
de mejorar los sistemas de RAH actuales a la luz del desempeo mostrado en esta tarea por los seres humanos. Se presentan las bases de los
mecanismos de produccin, percepcin y reconocimiento humano, as
como un resumen de las principales aproximaciones al reconocimiento
automtico. Posteriormente se introducen los aspectos generales de la
informacin suprasegmental y su rol en el mecanismo de comunicacin oral. Seguidamente se hace una revisin de los antecedentes en
el empleo de informacin suprasegmental dentro del proceso de RAH.
Finalmente se delinean los objetivos de esta tesis.
Debido a que en esta tesis se analiza la utilizacin de informacin
suprasegmental en distintos mdulos de los sistemas de RAH convencionales, en el Captulo 2 se presenta la arquitectura y componentes
principales de los reconocedores del habla actuales. Se detalla la arquitectura y forma de funcionamiento de estos sistemas, los fundamentos
tericos de los modelos de Markov, as como la forma de medir sus
desempeos.
El Captulo 3 profundiza los aspectos de la informacin suprasegmental introducidos en el Captulo 1. Hace principal hincapi en las
caractersticas prosdicas del espaol de Argentina, y presenta las tcnicas computacionales empleadas en la tesis para la extraccin automtica de sus atributos a partir de la seal de habla.
El Captulo 4 contiene una serie de estudios en que se busca vincular
patrones de los atributos suprasegmentales con informacin lingstica
til para el proceso de RAH. En el primero de estos estudios se analiza la posibilidad de establecer agrupamientos de frases entonativas
a partir de semejanzas en sus atributos suprasegmentales. El segundo
experimento indaga la posibilidad de obtener informacin del nmero
de palabras de contenido presentes en una frase, a partir de la morfologa de sus curvas de F0. Finalmente el tercer estudio explora la
viabilidad de establecer la tipologa acentual de las palabras finales de
frase utilizando rasgos suprasegmentales.
En el Captulo 5 se presenta una metodologa para utilizar informacin suprasegmental a nivel de los modelos acsticos de un sistema de
RAH. Especficamente se realiza una distincin entre modelos acsticos correspondientes a sonidos voclicos acentuados y no acentuados.
La metodologa propuesta se evala y contrasta con distintas versiones
de sistemas de RAH convencionales, empleando un corpus de habla
continua.
iv
En el Captulo 6 se expone una alternativa para emplear informacin suprasegmental durante la seleccin de hiptesis de reconocimiento. Esta alternativa contempla la definicin de un ndice de semejanza entonativa entre la curva de F0 correspondiente a la frase a
reconocer, y las posibles curvas de F0 correspondientes a las hiptesis
de reconocimiento y obtenidas mediante un proceso de prediccin. Se
propone y desarrolla un modelo para su implementacin y se realizan
comparaciones de desempeo con respecto a un sistema de RAH de
referencia.
Finalmente en el Captulo 7 se presentan las conclusiones y aportes
de la tesis, juntamente con posibles lneas de investigacin futura.
Palabras Clave:
Prosodia Entonacin Acentuacin Modelos
Ocultos de Markov Reconocimiento Automtico del
Habla.
ABSTRACT
The development of computational systems which are able to interact
with users in both natural and efficient modes, as much as it is possible,
is one of the key requirements for the integration of the technological
world into the society.
Speech accomplishes with those requirements. Indeed speech stands
out as one of the most natural and efficient communication mechanism available for the human being. For that reason, since the very
beginning of the computer sciences research, the developing of humanmachine interfaces through voice have generated great interest.
One of the elements that compose such oral interfaces is the Automatic Speech Recognition (ASR), field of Artificial Intelligence which
searches for the development of computational systems that can transform a piece of speech into its textual transcription.
ASR is a very complex problem, which can be atributed mainly to a
twofold reason: first, the huge variability of the speech signal, depending on multiple factors such as the speaker, the acoustic environment,
linguistic context, speech rate, emotional states, locution styles, and
many others; and second to the requirement of isolate and recognize
words from an acoustic continuum, wich means solvig segmentation
and classiffication problems simultaneously.
Even when significative advances on ASR performance have taken
place over the last years, still remains a significative room for improvements when human speech recognition capabilities are taken as the
gold standard. Several hypotheses triying to explain that performance
gap can be found, between them: insufficient or unsuitable representation of the information available for the recognition in the automatic
systems, problems with the modelling of the recognition system, insufficiency of reliable data to reach similar recognition rates, etc.
Regarding the first of these points, current ASR systems does not
use all of the acoustic information available in the speech signal. Standard systems conceive the speech signal as sequences of units whose
durations spans in a segmental (phonetic) level. Therefore, they process the acoustical information at the segmental domain to obtain the
hypothesis for the sequences of uttered units.
Neverless, psychoacoustic as well as psycholinguistic research emphasize the essential role of information at a higher temporal level for
the human speech perception, that is: the suprasegmental information.
Any information whose duration spans over several phonetic units can
be thought as suprasegmental, and its properties are given mainly by
the prosody of an utterance.
Furthermore, it is argued that during speech recognition and interpretation, humans can use and integrate several levels of linguistic
vi
vii
Chapter 6 exposes an alternative for using suprasegmental information in the posprocessing of ASR. This alternative defines an intonative
similarity index, measured between the F0 of the utterance to recognize an the corresponding to the alternative recognition hypotheses,
obtained through a prediction process. This idea is implemented and
analyzed against the performance of a reference standard ASR system.
Finallly Chapter 7 concludes the Thesis. It presents an overview of
the main findings and contributions, and its future research lines.
Key Words:
Prosody Intonation Stress Patterns Hidden
Markov Models Automatic Speech Recognition.
viii
AGRADECIMIENTOS
Llegar al final de esta tesis no hubiese sido posible sin el apoyo y
aliento de una gran cantidad de personas.
En primer lugar, quiero dedicar la tesis a Yami por su amor y paciencia.
Adems deseo agradecer a mis padres por brindarme las posibilidades de estudiar, as como por su apoyo incondicional. A mis hermanas por el afecto y la confianza.
Respecto al aspecto tcnico, quisiera decir gracias a Jorge por su gua
y soporte, a los miembros del Laboratiorio de Investigaciones Sensoriales:
Miguelina, Humberto, Natalia, Eduardo, Amalia, Pedro, Alejandro,
Reina, Agustn, Christian y Miguel por su fraternidad, y conformar
un grupo en el que trabajar result placentero.
Adems quisiera reconocer a Diego Milone, del grupo de Seales,
Sistemas e Inteligencia Computacional, de la Universidad Nacional del
Litoral, por brindarme su valiosa referencia, criterio y ayuda.
Tambin al grupo de Inteligencia Artificial Aplicada de la Univeridad
Nacional de Entre Ros: Bartolom, Alejandro, Rubn, Guille, por
haberme permitido iniciar el apasionante camino de la investigacin.
Finalmente a Dios, por darme salud y sustento en este proceso.
ix
NDICE GENERAL
1
introduccin
1.1 Reconocimiento del Habla en Humanos y Mquinas . .
1.2 Reconocimiento Humano del Habla . . . . . . . . . . . .
1.2.1 Organizacin Lingstica del Habla . . . . . . . .
1.2.2 Produccin del Habla . . . . . . . . . . . . . . . .
1.2.3 Percepcin del Habla . . . . . . . . . . . . . . . . .
1.2.4 Psicofsica de la Audicin . . . . . . . . . . . . . .
1.2.5 Teoras de Reconocimiento del Habla . . . . . . .
1.3 Reconocimiento Automtico del Habla . . . . . . . . . .
1.3.1 Antecedentes y evolucin histrica del RAH . . .
1.3.2 Aproximaciones al RAH . . . . . . . . . . . . . . .
1.3.3 Estado actual y principales desafos en RAH . . .
1.4 Informacin Suprasegmental . . . . . . . . . . . . . . . .
1.4.1 Aspectos bsicos de la prosodia . . . . . . . . . .
1.4.2 El rol de la prosodia en la decodificacin humana
1.4.3 Empleo de Informacin Suprasegmental en el RAH
1.5 Objetivos de la Tesis . . . . . . . . . . . . . . . . . . . . .
1
2
3
5
9
12
18
23
26
29
32
38
38
39
43
46
51
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
53
54
55
59
65
66
70
70
72
73
75
88
90
91
93
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
95
96
97
97
98
98
99
99
105
109
111
114
ndice general
.
.
.
.
.
.
.
.
.
.
.
.
.
115
116
117
119
121
122
123
125
126
127
129
129
133
137
138
139
140
144
147
148
3.4
3.5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
151
152
158
165
xi
contenidos
xii
conclusiones
203
bibliografa
206
ndice alfabtico
223
INTRODUCCIN
ndice
1.1
1.2
1.3
1.4
1.5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
3
5
9
12
18
23
26
29
32
38
38
39
43
46
51
introduccin
Finalmente, la ltima seccin est dedicada a presentar un resumen
de esta tesis y sus contribuciones.
Al redactar esta Tesis se ha pretendido generar un documento autocontenido, que incluyera los tpicos necesarios para contextualizar y
comprender su temtica, brindando una visin general de los aspectos
que hacen a su desarrollo.
Sin embargo, dado que la temtica bajo estudio es vasta y diversa,
e involucra muchas reas del conocimiento, ciertas secciones presentan un tratamiento introductorio, remitindose al lector que busque
mayores detalles a las citas bibliogrficas especificadas.
1.1
Al emprender cualquier tipo de investigacin cuyo objetivo sea mejorar el desempeo de sistemas de base tecnolgica, una de las primeras
inquietudes que surge es acerca del margen de mejora que admite el
problema en cuestin.
Es viable obtener mejoras significativas en el estado del arte, proponiendo modificaciones innovadoras, o el nivel de madurez en el desarrollo ha llegado a un nivel en que las mejoras que se puedan esperar
son slo marginales?
En todo caso, se puede formular un interrogante ms elemental: Es
posible contar para el problema de reconocimiento del habla con un
patrn de referencia o estndar de oro, que permita establecer los posibles mrgenes de mejora?
Para el caso del RAH afortunadamente existe un patrn de referencia: el reconocimiento humano del habla.
En [104] se presenta una serie de experimentos que comparan el
desempeo de humanos y mquinas ante diversas tareas y condiciones
de reconocimiento del habla. Los resultados de estos estudios muestran que la eficacia de reconocimiento de los seres humanos supera a
la de las mquinas en todas las condiciones evaluadas.
Los reportes correspondientes al estilo de habla leda, en ambientes silenciosos, y empleando seales con un amplio ancho de banda,
muestran que las tasas de error de las mquinas superan hasta en un
orden de magnitud a la exhibida por los humanos.
Adems, esos mismos resultados indican una menor degradacin
en las tasas de reconocimiento de los seres humanos respecto a las mquinas para diversas condiciones: ante habla con ruidos, variaciones
en el canal y de estilo de habla. Tambin se encontr que los humanos pueden reconocer habla sin informacin semntica o de contexto
(palabras y frases sin sentido) an en ambientes silenciosos mejor que
las mquinas. Las dificultades observadas en los sistemas automticos
crecen al intentar reconocer habla espontnea o variantes regionales
con hbitos prosdicos no considerados en el entrenamiento.
Si bien este popular estudio ha quedado un poco desactualizado,
ya que se registraron avances en los sistemas de RAH desde su publicacin, la brecha sigue existiendo y siendo considerable. Por ejemplo,
1.2
introduccin
experiencias, intercambiar ideas, actuar coordinadamente, y transmitir
conocimiento a travs de las generaciones. Si bien el acto de comunicacin empleando el habla se lleva a cabo de manera natural, y sin
esfuerzos aparentes, este proceso es altamente complejo, como eficiente. Esa eficiencia se expresa en su robustez ante diferencias de voces,
hbitos o estilos de habla, dialectos y acentos de locutores, ruidos, distorsiones e interferencias.
introduccin
voclicos y menos de veinte sonidos consonnticos (dependiendo del dialecto).
Aunque en s mismo un fonema no tiene significado alguno, al
reemplazar un fonema por otro en una palabra podemos obtener
una palabra diferente.
El conjunto de todos los sonidos (fonos) que son aceptados como variantes de un mismo fonema se conoce como alfonos.
Por ejemplo, si se analiza la forma en que se pronuncia la palabra dedo de manera aislada, se puede encontrar que sus dos
consonantes, a pesar de corresponder al mismo fonema: d, se
pronuncian de manera diferente. Mientras la primera se realiza
apoyando el pice de la lengua contra los dientes superiores, de
manera tal que se impide el paso del aire (consonante oclusiva),
la segunda se pronuncia sin llegar a provocar una oclusin total (articulacin aproximante). Estos dos sonidos son variantes
alofnicas del fonema d.
Al estudiar la estructura fnica de una lengua se debe considerar tanto los fonemas como sus principales alfonos. Debido a
que la pronunciacin de todos los sonidos vara dependiendo de
aspectos como la influencia de sonidos cercanos, la rapidez de
elocucin, o el estilo de habla, se puede encontrar un considerable margen de detalle con el que se puede caracterizar a los
sonidos. Por ello los lingistas suelen hacer una distincin entre
representacin fontica estrecha, en las que se incluye un gran
nmero de detalles de pronunciacin, y representacin fontica
amplia en donde se incluyen los detalles no contrastivos considerados ms importantes.
Los hablantes de un idioma tienden a or solamente las diferencias entre sonidos que son relevantes para distinguir una palabra
de otra para esa lengua. Es decir que muchas veces no se distinguen entre s las variantes alofnicas. Por otro lado, diferencias
alofnicas para una lengua pueden ser fonmicas en otra, por
ejemplo pelo y pero pueden sonar indistintos para el Japons
o Coreano, mientras que para el Espaol presentan diferencias
fonticas.
Al clasificar los sonidos del habla suele hacerse una distincin
entre sonidos consonnticos y vocales. En la articulacin de las
consonantes se produce una obstaculizacin u obstruccin al paso de aire procedente de los pulmones. Durante la produccin
de vocales, en cambio, el aire pasa por la cavidad bucal sin tales
obstculos.
Los sonidos de las vocales se pueden clasificar utilizando tres
parmetros, dos que tienen que ver con la posicin de la lengua:
su altura y su desplazamiento hacia la parte anterior o posterior
de la boca, y el tercero vinculado con la posicin de los labios.
Teniendo en cuenta la altura del dorso de la lengua se distinguen
vocales altas, (/i/ y /u/), vocales medias (/e/ y /o/); y vocales
bajas, con descenso del dorso, que en Espaol es nicamente la
/a/.
punto de articulacin
modo de articulacin
De acuerdo a la actividad de las cuerdas vocales se puede diferenciar a los sonidos sordos, producidos sin la vibracin de las
cuerdas vocales, y los sonidos sonoros, articulados con vibracin
de las cuerdas vocales.
Morfemas. Son las unidades mnimas de significacin del lenguaje. Hay dos tipos de morfema: el lexema, que en un contexto ms
coloquial se conoce como raz de una palabra y es su principal
aporte de significado, y el gramema, que es un morfema generalmente pospuesto al lexema para indicar accidentes gramaticales,
y pueden ser de gnero o nmero. Tambin hay gramemas independientes como las preposiciones.
Lexa.
Son unidades lxicas compuestas por morfemas relacionados mediante un alto ndice de inseparabilidad, o un agrupamiento estable de semas, que constituyen una unidad funcional.
Se pueden encontrar: Lexa simple, que consiste en un par de
morfemas y se conoce habitualmente como palabra; lexa compuesta, que es lo conocido como palabra compuesta; lexa compleja, compuesta tambin por varias palabras pero con separacin grfica (ej. a duras penas, Semana Santa); y lexa textual,
conformada por varias palabras y una mayor elaboracin formal,
interviene la funcin potica, como en los refranes.
Sintagma.
Constituye la unidad de funcin. Cada sintagma posee una funcin sintctica especfica dentro de la oracin. Puede ser nominal,
verbal, preposicional, adverbial, o adjetival, dependiendo si el
introduccin
ncleo es un sustantivo, verbo, preposicin, adverbio o adjetivo,
respectivamente
Oracin.
Se considera la unidad mnima de comunicacin. Corresponde a
lo conocido tradicionalmente como oracin simple.
Enunciado.
Unidad de manifestacin. Corresponde a lo conocido habitualmente como oracin compuesta o frase.
Secuencia Textual.
Es la unidad de intencin, dada por el conjunto de actos comunicativos de un hablante en una situacin dada.
A su vez el estudio de las unidades lingsticas, dio lugar a distintas
disciplinas:
Fontica: estudia la forma en que se producen (articulacin), e interpretan los sonidos del lenguaje. Adems del estudio del aprendizaje del lenguaje por los nios y personas no nativas, analiza
las modificaciones que sufren los sonidos del habla dependiendo
de los estilos, contextos fonticos, regiones geogrficas, etc. Adems de analizar la actividad de los rganos articulatorios durante
la produccin de cada sonido (fontica articulatoria), tambin se
puede estudiar los sonidos del habla investigando la estructura
de las ondas sonoras producidas (fontica acstica).
Fonologa: trata los sistemas de sonido relevantes semnticamente del lenguaje. Mientras que la fontica se centra en una base
meramente acstica, la fonologa tiende a considerar la imagen
mental de lo percibido. Los fonemas son objeto de estudio de
la fonologa, mientras que los fonos son objeto de estudio de la
fontica.
Morfologa: atae las relaciones entre las formas y los significados de las palabras. Abarca el estudio de la generacin y procesos morfolgicos como inflexin y derivacin de las palabras.
Est relacionada tanto con la fonologa, al estudiar las formas de
los sonidos de las palabras, como con la sintaxis, al estudiar la
composicin de palabras y su funcin sintctica, y con la semntica, por su estudio del significado del lexicn.
Sintaxis: se centra en el modelado de la combinacin de palabras
y morfemas que permiten conformar significados ms complejos.
Es la parte de la gramtica que trabaja en el sistema de reglas que
describen cmo se pueden derivar estructuras bien formadas de
un lenguaje a partir de elementos bsicos.
Semntica: analiza y describe el significado literal de las expresiones lingsticas.
10
introduccin
Por otra parte el anlogo elctrico se conoce como modelo de fuentefiltro [33], y fue uno de los primeros modelos elctricos implementados
para la sntesis de habla. En este modelo los tubos acsticos con rea
variante en funcin del tiempo se caracteriza mediante un filtro elctrico, cuyos coeficientes varan en funcin del tiempo. Es decir, se ve a
los resonadores mecnicos como filtros que dan forma al espectro de
la seal de excitacin. La entrada al filtro es una mezcla de una seal
cuasi-peridica y una fuente de ruido. Cuando el filtro se excita mediante la seal de entrada, la salida es un voltaje que se puede asimilar
a la onda de presin generada al fonar.
11
12
introduccin
1.2.3 Percepcin del Habla
En la figura 4 se muestra un esquema del funcionamiento del odo. Las
ondas sonoras llegan al rgano auditivo principalmente a travs del pabelln y el conducto auditivo externo, terminando en el tmpano (odo
externo); aunque el sonido tambin produce vibraciones en el crneo
que se transmiten directamente a la cclea a travs de la conduccin
sea. Las ondas de presin sonoras hacen que vibre la membrana timpnica, y que se transmitan esas vibraciones por los huecesillos del
odo medio a la membrana oval, justamente donde comienza el odo
interno.
Figura 4: Estructura del odo humano: a. mecanismo de recepcin de estmulos sonoros, b. corte transversal de la cclea, c. rgano de Corti.
Adaptado de [156]
En el odo medio el mecanismo compuesto por tres pequeos huecesillos: el martillo, el yunque y el estribo realizan la transmisin mecnica del sonido y actan como un adaptador de impedancias. La
impedancia es la resistencia que presenta un medio al paso de las ondas sonoras. Cuando el sonido se propaga de un medio de baja impedancia como el aire a uno de alta impedancia como un medio lquido,
13
14
introduccin
sonidos en diferentes ubicaciones de la membrana basilar se conoce
como organizacin tonotpica.
Las vibraciones de la rampa coclear provocan pequeos desplazamientos relativos entre la membrana tectoria y basilar. Estos movimientos generan una curvatura de las cilias de las clulas ciliadas externas,
que conducen a cambios en la conductividad de la membrana de estas
clulas (transduccin mecanosensible). Si el desplazamiento es en un
sentido dado se produce la despolarizacin celular, que causa un acortamiento de las clulas ciliadas externas en sincrona con el estmulo.
Cuando el movimiento de corte es en la direccin opuesta se produce una hiperpolarizacin celular y la extensin de las clulas ciliadas
externas figura 5 c.
15
16
introduccin
fibras eferentes, cuyo nmero es mucho mayor para las clulas ciliadas
externas.
Las prolongaciones centrales de las neuronas del ganglio espiral,
que forman parte del VIII nervio craneal, penetran en la cavidad craneal atravesando el conducto auditivo interno para posteriormente introducirse en el tronco del encfalo, bifurcarse y hacer sinapsis con las
segundas neuronas situadas en los ncleos cocleares dorsal y ventral.
Los cilindroejes que salen de la segunda neuronas forman tres tractos:
Estra o tracto auditivo dorsal: las fibras provienen del ncleo
coclear dorsal y terminan en las neuronas de los ncleos contralaterales del lemnisco lateral.
Estra auditiva intermedia: las fibras provienen de ambos ncleos
cocleares y terminan en el ncleo olivar superior de ambos lados.
Cuerpo trapezoide: se origina en el ncleo coclear ventral y termina en los ncleos del cuerpo trapezoide y en el ncleo olivar
superior.
Los tres tractos contienen fibras que siguen un camino ascendente
sin hacer sinapsis en los ncleos intercalados. Dichas fibras ascendentes tanto cruzadas como directas, junto con las fibras que nacen en
los ncleos de la va (ncleo del cuerpo trapezoide, olivar superior
y lemnisco lateral), alcanzan el colculo inferior, formando un tracto
mielinizado y organizado tonotpicamente, llamado lemnisco lateral.
Adosado a ste se encuentran los ncleos del lemnisco lateral. Este
tracto tambin presenta fibras descendentes.
El colculo inferior tiene en su centro un ncleo grande donde terminan tonotpicamente las fibras del lemnisco lateral. Adems posee
una corteza dorsal formada por cuatro capas neuronales que reciben
aferencias descendentes de la corteza cerebral auditiva y, que a su vez
se proyectan sobre la corteza del colculo inferior contralateral. Los cilindroejes originados en el ncleo del colculo inferior terminan en el
ncleo geniculado medial. Los cilindroejes originados en este ncleo
avanzan por el segmento sublenticular, formando las radiaciones acsticas, para terminar finalmente en la corteza auditiva.
La corteza auditiva se encuentra en el lbulo temporal, en el labio
inferior de la cisura lateral y est compuesta por el rea auditiva primaria y debajo de sta, el rea auditiva secundaria. La corteza auditiva
de cada hemisferio recibe informacin bilateral, de modo que incluso la destruccin completa de la corteza auditiva de un hemisferio
apenas produce efectos. Sin embargo, la percepcin de la msica est
lateralizada generalmente hacia el hemisferio derecho. El rea auditiva primaria tiene una representacin tonotpica. Adems la corteza
est dividida en bandas de dos tipos que se disponen alternativamente. Una de estas bandas se conoce como columnas de supresin y sus
neuronas responden cuando las seales provienen de un odo. La otra
banda se conoce como columnas de sumacin y sus neuronas responden cuando reciben seales provenientes de los dos odos.
17
18
introduccin
1.2.4 Psicofsica de la Audicin
La psicofsica es el estudio de las relaciones entre las propiedades fsicas de los estmulos y las respuestas sensoriales que ante ellos presenta
el sistema nervioso humano. En esta definicin queda claro que existe
una distincin entre el estmulo fsico y la respuesta psicolgica ante
l. Antes de hablar sobre los aspectos psicolgicos de la percepcin
es necesario introducir algunos conceptos fsicos bsicos. La fsica del
sonido se estudia en la rama conocida como acstica.
Las ondas de sonido se propagan por los gases (como el aire), los
lquidos (como en la perilinfa), y los slidos (como en el crneo). Durante el habla, las fluctuaciones de presin que se generan en la fuente
de sonido se propagan en el aire a una velocidad caracterstica (c),
que depende del medio. Por ejemplo en el aire a 0 C la velocidad de
propagacin de las ondas acsticas es de 332 m/s. Si se hace una representacin grfica de la variacin de presin de una onda sonora en
funcin del tiempo, se obtiene una onda como la mostrada en la figura
7 a.
Figura 7: Ondas acsticas. a: longitud de onda, amplitud y frecuencia. b: Representacin de un tono puro (arriba), un tono compuesto (centro) y
ruido (abajo). c: Ilusin auditiva de una oscilacin de baja frecuencia
tras la combinacin de dos tonos de similar amplitud y frecuencias
ligeramente diferentes. Adaptado de [156]
longitud de onda
amplitud
frecuencia
19
cuencia (f ), que indica la tasa con la que oscila la presin del sonido en
un punto del campo de audicin. La unidad de frecuencia es el Herz
(Hz = s1 ). Una persona joven y sana es capaz de or sonidos cuyas
frecuencias se extiendan en un rango entre 20 Hz hasta 16000 20000
Hz.
Por otra parte, una disminucin (o un aumento) de a, provoca un
tono ms fuerte o ms suave.
Frecuencia, longitud de onda y velocidad del sonido se relacionan
entre s mediante la siguiente ecuacin:
(m) =
c (m/s)
f (Hz)
(1.1)
timbre
En la figura 7 c se puede ver el efecto auditivo que genera la superposicin de dos tonos puros de amplitud similar pero frecuencias
ligeramente diferentes, por ejemplo f1 = 1000Hz y f2 = 1,003Hz. La
pequea diferencia de frecuencias provoca que estn en fase y fuera
de fase de manera cclica con una frecuencia igual a la diferencia de
frecuencias f2 f1 . Por lo tanto estos tonos se oirn como un tono de
1000 Hz cuya amplitud aumenta y disminuye de manera cclica a una
tasa de 3 veces por segundo.
Potencia: mide la velocidad con la que se realiza un trabajo, es decir,
cantidad de trabajo por unidad de tiempo y su unidad es el vatio (W),
que equivale al trabajo de 1 Joule desarrollado en un segundo.
Intensidad (I): es una medida fsica que cuantifica la cantidad de
potencia aplicada por unidad de rea. Su unidad es W/m2 .
Presin: es una medida de fuerza por unidad de rea, y su unidad en el sistema MKS es de Newtons por metro cuadrado (N/m2 ),
o Pascal (Pa). El rango de magnitudes de sonidos que podemos or es
enorme. El mayor nivel de presin sonora que podemos tolerar es alrededor de 10 millones de veces ms grande el menor sonido perceptible.
Como resulta inconveniente trabajar con ese rango de magnitudes en
escala lineal, se lo transforma en una escala logartmica cuya unidad
es el decibel (dB). Para definirlo se utiliza como valor de referencia la
intensidad audible (I0 = 1012 W/m2 ) o mnima presin de sonido
que se puede percibir (p0 = 2 105 Pa). La presin expresada en dB
se indica como dB SPL, e indica decibeles de nivel de presin sonora.
De manera similar, la intensidad expresada en dB se nombra como dB
IL (decibeles de nivel de intensidad).
La frmula general para expresar una presin px Pa en decibeles es:
dB = 10 log
px
p0
(1.2)
dB de presin
auditiva sonora
20
introduccin
La frmula correspondiente para expresar una intensidad Ix expresada en W/m2 , en decibeles es:
Ix
dB = 10 log
(1.3)
I0
psicoacstica
La rama de la psicofsica dedicada a estudiar la audicin se denomina psicoacstica . Si esa correspondencia fuera uno a uno, entonces
se podra cuantificar lo odo directamente de los atributos fsicos del
sonido. Esto implicara que todo sonido que existiera sera audible,
que cualquier cambio en un sonido podra ser discriminable y que
cualquier cambio en la magnitud del estmulo resultara en un cambio perceptual de la misma magnitud. Como esto claramente no es as,
surge la necesidad de establecer esa correspondencia y es la razn de
ser de la psicoacstica.
A continuacin se presentarn algunas propiedades psicoacsticas
que resultarn tiles para comprender el desarrollo de la tesis.
Bandas Crticas: este concepto surge de experimentos de enmascaramiento simultneo, en los que la presencia de un sonido (por
ejemplo de ruido blanco) obscurece o incluso impide la percepcin de otro sonido (por ejemplo de un tono puro). Se encontr
que solamente una banda acotada de frecuencias en torno al tono
puro (banda crtica) contribuye a su enmascaramiento. Una banda crtica define un rango de frecuencias (ancho de banda) en los
experimentos piscoacsticos en el que la respuesta perceptual
cambia abruptamente.
Este efecto de bandas crticas est vinculado con el anlisis no
lineal de las frecuencias llevadas a cabo por la membrana basilar.
Ese anlisis se puede pensar como la accin de un banco de filtro
pasa-banda, en el que la respuesta en frecuencia de cada filtro es
mayor al aumentar la frecuencia central del filtro.
"
fc = 25 + 75
1 + 1,4
fc
1000
2 #0,69
(1.4)
21
22
introduccin
23
24
introduccin
otras palabras, que la eleccin de una hiptesis lxica especfica, para
un instante de tiempo dado, est basada en su activacin inicial, y en
la inhibicin causada por las dems hiptesis que fueron activadas.
La teora episdica de RHH asume que cada unidad lxica est asociada con un gran nmero de representaciones acsticas almacenadas
en la memoria [89, 90, 52]. Durante el reconocimiento, la seal de entrada se compara con las representaciones acsticas almacenadas, y
mediante un proceso de competencia se decide qu representacin lxica es la elegida.
Por su parte la teora simblica de RHH sostiene que hay una etapa intermedia en la que se mapea la seal acstica de entrada en una
representacin pre-lxica (por ejemplo mediante fonemas), y que las
unidades lxicas se almacenan en la memoria en trminos de dicha
representacin simblica [111, 127, 51, 106]. Es decir que el proceso de
reconocimiento del habla en la teora simblica consta de dos niveles:
el nivel prelexical y el nivel lexical, donde tiene lugar la competencia lxica. Los distintos modelos de RHH que comulgan con la teora
simblica suelen diferir acerca de la naturaleza de la representacin
pre-lxica. Este tema tambin es importante para el reconocimiento
automtico del habla, dado que detrs de la representacin simblica
intermedia del habla se encuentra el supuesto de las teoras respecto a
la informacin que es relevante en la seal para distinguir palabras. Si
esa informacin no es capturada durante la representacin prelxica,
se asume como irrelevante para el RHH.
A continuacin se har una breve resea de los modelos ms significativos para el RHH [68]:
Modelo Cohorte [108], hace hincapi en la naturaleza temporal
del reconocimiento auditivo de palabras y propone que la percepcin del comienzo de una palabra activa todas las palabras
conocidas que empiezan igual. Esta cohorte de candidatos lxicos activados inicialmente se va reduciendo de manera paulatina,
mediante la eliminacin de los candidatos incompatibles con las
nuevas evidencias que se van recabando. Debido a que la representacin sonora del fragmento inicial de una palabra puede ser
diferente a todas las dems, este modelo predice que es posible
el acceso lxico sin necesidad de or todos los sonidos de la palabra en cuestin. Numerosos estudios confirmaron que esto se
verifica en la prctica.
Entre las mayores contribuciones del modelo Cohorte se encuentran la distincin de tres procesos especficos dentro del RHH:
un proceso de activacin, un proceso de evaluacin y un tercero de seleccin. La interrelacin de esos procesos resulta en un
mecanismo de resolucin de ambigedades, mediante el cual el
reconocimiento de una palabra procede de manera incremental.
Sin embargo, su arquitectura est basada en una identificacin
adecuada del instante de inicio correspondiente a cada palabra,
lo que es incompatible con el hecho que en el habla continua los
oyentes generalmente no disponen de una identificacin de esos
lmites entre palabras.
25
26
introduccin
lmites entre palabras emergen como resultado del proceso de
competencia.
Modelo Shortlist [127], es un modelo basado en redes conexionistas al igual que el modelo TRACE. Tambin al igual que ste
se propone que la seal percibida activa una serie de candidatos lxicos potenciales que compiten unos con otros de manera
activa en un proceso de activacin en el que, cuanto ms activo
sea un candidato determinado, ms inhibir la activacin de sus
competidores. Sin embargo los modelos TRACE y Shortlist se diferencian, bsicamente, en el hecho de admitir o no la existencia
de un flujo de informacin unidireccional o bidireccional entre
los niveles del procesamiento.
En el modelo Shortlist, la informacin puede fluir desde el nivel
prelxico de procesamiento de la seal hasta el lxico, pero no
al revs. Adems este modelo presenta una arquitectura de dos
estados, en las que los candidatos lxicos iniciales se generan
exclusivamente a partir de informacin ascendente, y el proceso de competencia tiene lugar solamente entre los miembros de
esta lista de candidatos escogidos. Por su parte en el modelo
TRACE, esa competencia se puede dar, en principio, entre todos
los elementos del lexicn, lo cual hace que sea menos manejable computacionalmente, mientras que la estructura del modelo
Shortlist tiene la ventaja prctica de permitir simulaciones con
un vocabulario realista de varias decenas de miles de palabras.
Pruebas experimentales han confirmado que el reconocimiento auditivo de palabras es extremadamente rpido y muy eficiente [107].
Una amplia gama de descubrimientos experimentales tambin avalan
la existencia de candidatos lxicos que se activan de manera simultnea, y compiten activamente entre s de modo que tal activacin puede
producir inhibiciones entre ellas [113].
Sin embargo, hay muchas cuestiones sobre el RHH que no se pudieron verificar en la prctica, y permanecen abiertos.
Entre ellas: la naturaleza de la unidad principal de representacin
prelxica primaria, la contribucin relativa de informacin fontica
coherente y no coherente en la activacin de palabras; el grado de explicitud fonolgica de las representaciones lxicas, el procesamiento de
cambios fonolgicos inducidos por el contexto, el papel que desempea la estructura prosdica en el reconocimiento de palabras y el papel
de la estructura morfolgica interna en el reconocimiento.
Estos conocimientos del campo de psicolingstica son indispensables para la optimizacin de los sistemas de reconocimiento automticos.
1.3
Se puede definir al reconocimiento automtico del habla como el proceso por el cual se convierten seales de habla en secuencias de palabras,
27
28
introduccin
Dado que el habla surge a partir de gestos articulatorios continuos, la posicin anterior del sistema de produccin de los
sonidos, as como la posicin siguiente que deber adoptar
para generar habla fluida, determinan que la morfologa de
la seal resultante vare dependiendo del contexto en el que
se produce. Como puede haber distintos grados de coarticulacin, las caractersticas de la seal resultante tambin
vara de forma gradual.
Rasgos Suprasegmentales: la pronunciacin de las palabras se
ve afectada tambin dependiendo de la mayor o menor intensidad de las palabras o frases, de la entonacin, la frecuencia de ocurrencia de una palabra, su posicin en la oracin, la posicin de una consonante o vocal en la slaba y el
contexto de sta en la frase [96, 56].
Estado de salud del locutor: diversos factores como si el locutor
est engripado, est cansado, alcoholizado o drogado tambin influencian la forma de pronunciacin de las palabras.
Estado emocional del locutor: existen caractersticas en las seales de habla que se alteran con el estado de nimo de los
locutores: si est contento, aburrido, triste, o excitado por
ejemplo. Tambin hay alteraciones que dependen de la actitud del locutor frente al tema sobre el que est hablando
[134].
Condiciones externas: por ejemplo el ruido ambiental causa
que el locutor modifique la forma en que habla, lo que se
conoce como efecto Lombard [86].
El interlocutor: la gente adapta su forma de hablar dependiendo a quin lo hace: a un nio, a otro adulto, a un sistema de dilogo, etc. Tambin se producen modificaciones
de la pronunciacin por empata, adaptando la forma de
hablar a la del interlocutor.
Adems de estas variaciones de pronunciacin tambin existen factores externos que se suman a la seal de voz y modifican la onda
resultante agregando variaciones de diversa ndole. El medio acstico
donde se registra el habla es muchas veces un factor clave en la variacin de rasgos del habla: ruidos ambientes, reverberaciones e interferencias solamente son algunos de los elementos que provocan tales
variaciones.
Tambin se pueden agregar a esta lista factores como calidad de los
micrfonos, atributos de los canales de transmisin, placas de adquisicin de seales, que influencian los rasgos de la seal resultante.
Aparte del problema de variabilidad de la seal de habla, otro factor
que abona la complejidad del RAH est vinculado con la segmentacin
de las palabras. A diferencia de lo que ocurre cuando leemos, cuando
escuchamos no tenemos silencios, que al igual que los espacios en blanco en la lectura nos indiquen cundo termina una palabra y comienza
la siguiente. Los sistemas de reconocimiento deben encargarse de separar las secuencias de sonidos adems de clasificarlas.
29
30
modelos ocultos de
Markov
introduccin
60 y principios de los 70 se producen algunas modificaciones
importantes de paradigmas en el rea. El primero de ellos est
vinculado a la propuesta de algoritmos de extraccin de caractersticas a partir de la seal acstica. Por un lado el modelado de
rasgos espectrales, incentivados por el surgimiento de la transformada rpida de Fourier ([25]), la aplicacin de procesamiento
cepstral ([129]), y el desarrollo de LPC ([5]). Por otro lado se proponen tcnicas de warping (expansin y/o compresin temporal
de seales) que permiten manejar y compensar diferencias entre
las seales de entrada y los patrones almacenados debidas por
ejemplo a diferentes velocidades de habla o longitud de segmentos. El algoritmo natural para resolver este problema es el de
programacin dinmica, que desde 1968 se reinventa varias veces. Finalmente la tercera innovacin importante de este perodo
es el surgimiento de los modelos ocultos de Markov (HMM)1 . A
mediados de los 70 se comienza a aplicar HMM en sistemas de
reconocimiento del habla, en 1975, Jelinek para IBM y Baker en
Dragon Systems, de manera independiente emplean HMM para
el modelado de la seal de habla bajo un encuadre Bayesiano.
Ambos sistemas son muy parecidos, sin embargo en la decodificacin Baker emplea el algoritmo de Viterbi (empleado en los
sistemas actuales de reconocimiento).
Dcada de 1980: reconocimiento de habla continua, vocabularios
grandes (1000 10000 palabras) y mltiples locutores.
En este perodo los investigadores comenzaron a tratar el problema de reconocimiento del habla continua, independiente del
locutor y gran vocabulario. Se observa un cambio en la metodologa pasando de sistemas basados en conocimiento a sistemas
estadsticos basados en HMM desarrollados en la dcada anterior. Uno de los motivos de la amplia difusin de HMM en la
comunidad del habla fue la instauracin de programas de investigacin en el rea promovidos por la Agencia de Proyectos de
Investigacin Avanzada del Departamento de Defensa de Estados Unidos (DARPA) que se extienden hasta la dcada del 90.
Estos proyectos se caracterizaron por brindar a los investigadores corpus comunes para sus desarrollos, objetivos de medicin
de resultados preestablecidos, lo que brind la posibilidad de
comparacin objetiva entre el desempeo de las distintas metodologas propuestas. Dentro de este enfoque a mediados de los
80 se lanza la tarea de Resource Management, que comprende
la trascripcin de habla leda (oraciones construidas a partir de
un lexicn de 1000 palabras) independiente del locutor. Posteriormente se propone la tarea Wall Street Journal, que tambin
corresponde a habla leda pero en este caso de oraciones extradas de ese peridico, comenzando con un vocabulario de 5000
palabras pero llegando a sistemas de 60000 palabras.
1 En esta tesis se opt por utilizar HMM para abreviar modelos ocultos de Markov. A pesar de ser un acrnimo en Ingls, se privilegi esta forma por su extendido uso en la
literatura.
31
32
introduccin
Figura 11: Evolucin del desempeo de reconocedores del habla (en trminos
de WER, graficados en escala logartmica) para varias tareas segn
evaluaciones efectuadas por el NIST y publicadas en mayo de 2009
Aproximaciones al RAH
33
34
introduccin
ticas y de una serie de restricciones impuestas (pertenecer a un
vocabulario dado, tener sentido sintctico y semntico, etc).
Si bien esta aproximacin resulta manejable para un conjunto pequeo de palabras aisladas, la tarea pasa a ser intratable para
tareas de gran vocabulario [185]. Como resultado, los clculos requeridos para su funcionamiento son costosos computacionales,
mientras que los resultados de reconocimiento obtenidos han sido relativamente pobres. En general, la aproximacin basada en
conocimiento enfrenta los siguientes inconvenientes:
Prdida de generalidad, por depender de la capacidad del
conocimiento de expertos del rea para extraer y confeccionar las reglas.
Limitado nmero y generalidad de reglas, debido a que se
deben construir manualmente.
Inconsistencias al crecer el nmero de reglas.
Dificultad para cubrir un gran rango de dominios.
Aproximacin Estadstica:
Se basa en el modelado de la seal de habla usando algoritmos
estadsticos. Se diferencia de la aproximacin anterior en que
el sistema puede aprender y extraer automticamente el conocimiento del conjunto de datos disponibles. Adems emplea los
patrones de cada segmento de habla sin el paso intermedio de
segmentacin ni extraccin de caractersticas.
Como se puede ver en la figura 13, este tipo de reconocedores
presenta dos fases de funcionamiento: entrenamiento y comparacin de patrones. Durante la fase de entrenamiento se supone
que si se brinda al sistema suficientes versiones de los patrones
a ser reconocidos, el algoritmo de entrenamiento debera ser capaz de caracterizar de manera adecuada los rasgos acsticos que
permitan individualizar cada clase de manera ms robusta y repetible, para el conjunto de datos presentados. Como resultado
de esta fase se obtienen modelos o ejemplares prototpicos para
cada clase.
El sistema entrenado es empleado luego en la fase de comparacin de patrones, en la que un fragmento de habla desconocido
se contrasta con cada uno de los modelos aprendidos, seleccionando finalmente la clase que maximiza alguna medida de similitud entre patrones.
La aproximacin estadstica tambin se puede ver como un caso
especial de reconocimiento de patrones .
Sea el universo de patrones que resultan de inters para una
aplicacin dada y que se puede segmentar en categora de objetos, cuyo valor puede o no conocerse a priori. Sea por otro lado
x, un vector de p variables (atributos) definidas sobre objetos de
y que en conjunto brindan cierta clase de descripcin numrica de dichos objetos. Sea X el espacio de atributos, dominio de
(1.5)
Donde se distinguen las clases diferentes: C1 , C2 , , C . Adems se puede utilizar una clase especial de rechazo C0 para aquellos casos en que el vector de atributos no se pueda asociar con
suficiente confianza con ninguna de las clases existentes.
35
36
introduccin
(1.6)
Tal que las probabilidades a posteriori p y la funcin de verosimilitud p (x|C ) se puedan estimar independientemente. A esta
clase de clasificadores se denomina clasificadores estadsticos. A
menudo se utiliza un clasificador de distribucin normal, donde:
p (x|C ) = p (x| , ) =
(|2 |) e
P
(x )t
1 (x )
2
(1.7)
p (x|C ) =
L
X
=1
p (x| , )
(1.8)
P L
=1
=1
(1.9)
(1.10)
166
= (1 (x) , , (x))
1 si x Ck
donde (x) =
0 en otro caso
(1.11)
Con la ecuacin anterior y dadas las muestras de datos etiquetadas, se puede usar como criterio de optimizacin la esperanza
del error cuadrtico:
= E ( d)2
(1.12)
Se ha demostrado que si la funcin d es suficientemente compleja, la funcin d que minimiza el criterio de la ecuacin anterior
es idntica al vector de probabilidades a posteriori [Nie90a].
d = (p (1 |x) , , p ( |x))
(1.13)
37
38
introduccin
1.3.3 Estado actual y principales desafos en RAH
En la actualidad la tecnologa del RAH se utiliza en muchas aplicaciones comerciales, y su campo de investigacin ha alcanzado un considerable grado de madurez. Lo que hace seis dcadas comenz como
un sistema de reconocimiento de dgitos aislados para un solo locutor,
hoy en da, se ha extendido hasta sistemas capaces de reconocer habla
espontnea fluida, de gran vocabulario, y de manera independiente
del locutor.
Sin embargo, como ya se mostr, al comparar el desempeo actual
de estos sistemas con el de los seres humanos, se observa que an
resta mucho por mejorar, y que el problema no se puede considerar
resuelto.
En las aplicaciones tecnolgicas actuales las imperfecciones tcnicas se reducen o compensan ajustando la interaccin del sistema a la
medida del contexto o del usuario. Por ejemplo haciendo el sistema
dependiente del locutor (como en sistemas de dictado), limitando el
vocabulario (como en sistemas de discado por voz), o empleando una
sintaxis simple y predecible (como en introduccin de datos o sistemas
de comando y control).
Por otra parte, en algunas aplicaciones la precisin de reconocimiento no necesita ser perfecta, por ejemplo en la tarea de recuperacin de
informacin va voz, con una precisin de reconocimiento en orden al
70 % es posible obtener tasas de recuperacin de informacin similares
a los logrados a partir de transcripciones manuales del habla.
Actualmente la investigacin en este tema se centra en reconocimiento de habla espontnea, multi-locutores y vocabularios muy grande,
soportando condiciones de mltiples acentos.
1.4
informacin suprasegmental
nivel suprasegmental
o prosdico
39
40
introduccin
una funcin lingstica per se. En la decodificacin automtica de la informacin prosdica, podra ser til normalizar
los parmetros prosdicos para compensar tales variaciones,
pero esto solamente se puede llevar a cabo una vez que se
ha identificado los segmentos correspondientes.
2. Aspectos Lingsticos de la Prosodia: Sintaxis y Ritmo.
La porcin de las variaciones de tono, duracin, e intensidad que
no est condicionada por restricciones puramente articulatorias
es la responsable de transportar el mensaje lingstico. Estos aspectos prosdicos de origen lingstico son los de mayor inters
para la decodificacin automtica de frases. Son los portadores
por un lado de la informacin respecto a diferentes unidades
lingsticas (a nivel fontico, silbico, sobre el acento tonal de
palabras y lmites de palabras, sobre tipos y lmites de frases y
de oraciones), y por otro lado informacin respecto a la estructuracin acstica de cada unidad en unidades mayores (cmo
se agrupan fonemas en slabas, slabas en palabras prosdicas,
palabras prosdicas en frases).
En general, los aspectos de la prosodia condicionados lingsticamente, as como la estructura prosdica, son independientes del
locutor, y en cierta medida independientes del lenguaje.
Ahora bien, se puede observar que estos parmetros prosdicos
estn siendo gobernados al mismo tiempo tanto por la organizacin sintctico-semntica de las frases, como por principios rtmicos del habla.
Como puede haber diferencias substanciales entre las caractersticas impuestas sobre las unidades acsticas segn se impongan
restricciones sintctico-semnticas o rtmicas, ambas influencias
pueden entrar en conflicto.
Las influencias sintcticas resultan en variaciones de duracin y
F0 para contrastar y marcar lmites entre las secuencias de unidades. Las influencias rtmicas resultan en una tendencia de las
slabas y los acentos a sucederse en intervalos temporales regulares. Las duraciones de los segmentos se comprimen o expanden para preservar como un invariante la duracin global de las
slabas (isosilabicidad) y para ecualizar los intervalos de tiempo entre dos slabas acentuadas (isocrona). Al mismo tiempo,
las unidades se acortan o alargan para marcar la organizacin
sintctico-semntica.
La interaccin simultnea de esos tres tipos de influencias: aspectos condicionados fonticamente, tendencias rtmicas y organizacin sintctico-semntica, es el motivo principal para explicar las
dificultades a la hora de interpretar las causas de un alargamiento u acortamiento de las unidades a nivel silbico, o fontico.
Las tendencias rtmicas podran ser explotadas de una manera
predictiva, para obtener informacin por ejemplo sobre los lmites de las slabas.
41
42
introduccin
acento extranjero, estado emocional, o condicin fsica. Se debe
notar que estos aspectos generalmente no se encuentran bajo el
control voluntario del locutor.
Los dos ltimos aspectos de la prosodia (no lingsticos y para
lingsticos), que son dependientes del locutor, pueden oscurecer
los aspectos condicionados lingsticamente.
Ninguno de los sistemas actuales de RAH han resuelto adecuadamente el problema de la adaptacin automtica a particularidades idiosincrticas del locutor. Los sistemas existentes esperan
que los locutores difieran muy poco entre s y que el estilo de
habla sea ms o menos neutro.
En la figura 15 se muestra un modelo sistemtico del proceso de
codificacin de informacin en trminos de atributos prosdicos del
habla, propuesto en [44].
Figura 15: Proceso a travs del que se codifica informacin en los atributos
segmentales y suprasegmentales del habla. Los niveles ms altos
de informacin de entrada (lingstica, paralingstica y no lingstica) se transforman en sonidos a travs de un proceso de mltiples
etapas.
43
44
introduccin
La hiptesis de redundancia tambin se puede cuestionar. Por un
lado se ha demostrado que los oyentes prestan atencin a la continuidad prosdica, an a expensas de la continuidad semntica. Por otra
parte, en experimentos perceptuales se encontr que al incrementar
gradualmente el grado de compresin temporal de una seal de habla, se produce una disminucin sistemtica de la inteligibilidad de la
misma, sin embargo el debilitamiento de la capacidad de comprensin
muestra una menor tasa de disminucin cuando las frases se oyen con
entonacin normal, respecto a si se escuchan con entonacin anmala.
En tercer lugar, entender habla sinttica que no posee un buen modelo prosdico implica un esfuerzo significativo y conlleva una prdida
de atencin por parte de los oyentes. Adems descifrar espectrogramas
sin el empleo de informacin como la curva de F0 y de energa resulta
ms difcil que empleando toda la informacin disponible.
Dado este conjunto de evidencias, resulta razonable plantear la hiptesis que no solamente los aspectos espectrales sino los temporales y
F0 son entradas paralelas a los odos del oyente, quien las decodifica simultneamente, y que es necesario el tratamiento simultneo de todas
las entradas para el reconocimiento automtico del habla continua.
Esta visin es la aceptada en general por la comunidad psicolingstica.
El rol del acento lxico.
El rol exacto desempeado por el acento a nivel de palabras en el
procesamiento del habla continua, no est establecido con claridad.
Sin embargo distintos estudios han investigado el uso potencial de la
deteccin de la slaba acentuada en el RAH:
En el reconocimiento de palabras aisladas, la determinacin de la
slaba que recibe el acento es muchas veces indispensable para diferenciar palabras. Por ejemplo el par papa - pap puede diferenciarse
exclusivamente sobre la base de la posicin de su slaba acentuada.
dominancia acstica
En el Ingls las slabas acentuadas parecen constituir islas de confiabilidad donde las pistas acsticas presentan una mayor robustez.
Estudios sobre la lectura de espectrogramas efectuada por expertos,
y anlisis de confusin fontica en el resultado de decodificadores
acstico-fonticos, confirman el hecho que las vocales acentuadas se
reconocen con menor confusin que las no acentuadas. Lo que se puede explicar teniendo en cuenta que las slabas acentuadas suelen ser
ms largas.
Esta nocin se puede comparar con la nocin de dominancia acstica descripta para el Francs: las consonantes dominantes son aquellas
localizadas en porciones de la oracin donde la frecuencia fundamental est en ascenso. Estas consonantes presentan caractersticas ms
similares a las prototpicas, que las mismas consonantes en otros contextos. Sin embargo se debe notar que la dominancia fonmica es una
nocin acstica y se determina por la posicin de los fonemas en la
estructura prosdica de la frase, mientras que el acento es una nocin
fonolgica.
En varios estudios tericos se mostr la utilidad de detectar los acentos para el acceso multi-nivel al lexicn.
45
46
introduccin
otros. Sin embargo es necesario integrar la posibilidad de diferencias
entre locutores en el sistema.
Los mismos principios bsicos gobiernan la determinacin de parmetros prosdicos para todos los locutores, pero la contribucin relativa de variaciones condicionadas por factores fonticos, el acento, el
ritmo, la sintaxis, la semntica, el estilo y la velocidad son dependientes del locutor.
Cada locutor tiende a ser consistente, aunque se pueden encontrar
diferencias regulares para un mismo locutor. El estudio de regularidades dependientes del locutor es muy importante para el RAH: el ajuste
del sistema a los hbitos particulares del locutor es un prerrequisito ineludible para la extraccin y el empleo completo de la informacin
prosdica en RAH. No se conocen estudios sistemticos modelando
variaciones intra e inter-locutores.
Empleo de pausas y alargamientos como marcadores de lmites.
El anlisis acstico de habla fluida revela que los locutores insertan
un gran nmero de pausas mientras hablan. Las pausas respiratorias
representan slo una porcin del conjunto de pausas encontradas, tambin se pueden hallar pausas llenas para indicar que un locutor conservar su turno de elocucin, que est pensando o vacilando. Sin embargo, sin importar el tipo de pausa considerada, todas se presentan
en fronteras gramaticales.
El uso de pausas como marcadores de lmites primarios tanto entre
como dentro de una frase parece ser una invariante independiente del
lenguaje.
Por otra parte, en muchos lenguajes como Espaol, Ingls, Alemn,
Francs, Italiano, Ruso, o Sueco, se observa una tendencia hacia el alargamiento de los elementos finales de la estructura lingstica, particularmente la ltima vocal antes de una pausa, as como alargamiento
en elementos finales de palabras y frases. Parece que el alargamiento
como la cada de F0 se asocia principalmente con la nocin de finalizacin.
1.4.3
A lo largo de la evolucin de los sistemas de RAH se puede observar una constante mejora en los ndices de desempeo, a partir de la
incorporacin de ms y mejor informacin acerca de las estructuras lingsticas, propias del lenguaje a ser reconocido. Sin embargo, muchos
de los niveles estructurales del habla que han sido estudiados ampliamente en el dominio de la lingstica, an no se han incorporado a
estos sistemas.
Es por ello que algunos de los principales tpicos de investigacin en
el campo de RAH rondan en torno al desarrollo de mtodos que permitan incorporar fuentes adicionales de conocimiento, a la informacin
espectral de tiempo corto ya utilizada en el proceso de reconocimiento
del habla[83].
Entre los niveles lingsticos que todava no han sido explotados
en los sistemas de reconocimiento estndar se encuentran la prosodia,
47
48
introduccin
pueden utilizar en todos los niveles dentro del proceso de decodificacin de un sistema de reconocimiento automtico del habla.
Propone que esta informacin se puede emplear por ejemplo a nivel
acstico-fontico para separar las consonantes oclusivas sonoras y sordas, a nivel lxico para detectar la posicin del acento en la palabra,
a nivel sintctico para localizar los lmites fonolgicos principales de
una oracin y la estructura de los constituyentes sintcticos, y en el
nivel pragmtico para localizar la porcin enftica de un discurso.
Se puede pensar en varias alternativas para hacer uso de los atributos prosdicos en el proceso de RAH. Una es condicionar el anlisis
de los atributos acsticos en funcin de la informacin suprasegmental, asumiendo que las funciones de transferencia del tracto vocal estn
relacionadas con la frecuencia fundamental. En [118] se demostr que
el valor de F0 influye claramente sobre los valores de los coeficientes cepstrum de vocales y consonantes sonoras (como las nasales). Sin
embargo esas relaciones fueron dependientes del locutor, y algunos
sonidos no mostraron estar influidos por el valor de F0, por lo que
debera investigarse ms antes de aplicar esta relacin en el modelado
acstico.
Otra forma de utilizar la prosodia consiste en detectar los lmites
prosdicos para condicionar el proceso de reconocimiento. Una forma
sencilla de implementar esta estrategia es determinar los lmites prosdicos antes del proceso de reconocimiento y usar esa informacin para
segmentar los fragmentos de habla a reconocer. Si el mtodo funciona debera mejorar las tasas de reconocimiento y reducir el tiempo de
procesamiento.
Aunque se probaron varias alternativas siguiendo esta estrategia, no
se encontraron mejoras significativas. El problema principal viene dado por el pobre desempeo de los detectores de lmites de constituyentes, y un alto grado de dependencia del locutor y el tipo de habla.
Las tasas de deteccin de fin de frases podra mejorar utilizando mltiples manifestaciones suprasegmentales como: valles en el perfil de
F0, transiciones abruptas en los valores de F0, alargamiento en la duracin de fonos, y/o adoptando mtodos estadsticos. Sin embargo los
resultados en esta materia sugieren que para esta tarea los atributos
prosdicos no son suficientes, sino que tambin es necesaria la informacin segmental [73]. Se podra pensar en usar la informacin de
segmentacin fontica de la primera pasada de reconocimiento para
mejorar la deteccin de los lmites de frase y utilizar la informacin
de fronteras de frase en la segunda pasada del reconocedor. Se propusieron diversos mtodos de acuerdo a esta idea. El caso ms extremo
quizs sea el del etiquetado prosdico automtico, donde el texto correspondiente a un fragmento de habla se conoce de antemano y el
decodificador realiza un alineamiento forzado entre el texto y la seal
de entrada. Si bien este caso no es adecuado para construir reconocedores, es un tema de investigacin importante para la construccin de
grandes cuerpos de datos prosdicos .
Por otro lado se puede encontrar una gran cantidad de trabajos en
donde se emplea informacin suprasegmental en la determinacin del
tipo de acento de palabra para el Japons y el tipo de tono para el
49
50
introduccin
En la actualidad, si bien se puede encontrar un gran nmero de
artculos desarrollados sobre el tema, la mayora de los sistemas comerciales no hacen uso efectivo de la prosodia en el reconocimiento
automtico del habla.
Quizs una de las pocas excepciones en este sentido sean los trabajos vinculados con el proyecto Verbmobil, donde se emplearon los
lmites de frases entonativas para acotar el espacio de bsqueda (lmites muchas veces marcados por pausas), y se utiliz el ascenso final
de la curva de F0 para determinar la modalidad de las oraciones. Sin
embargo sus autores afirman que la contribucin ms importante de
la prosodia en este proyecto estuvo dada en la fase de comprensin
del habla, ms que en la de reconocimiento [128].
Finalmente, un estudio reciente publicado en [54] investiga los errores exhibidos por dos sistemas de RAH convencionales aplicados al
reconocimiento de habla conversacional. En ese estudio se busca establecer las posibles causas de tales errores, indagando qu palabras
tienden a ser mal reconocidas y por qu. Los autores concluyen que
las palabras con mayores tasas de error incluyen a:
las que presentan caractersticas prosdicas extremas,
las que aparecen al comienzo de un nuevo turno de dilogo o
como marcadores de discurso,
pares de doble confusin: palabras similares desde el punto de vista
acstico, y adems con probabilidades similares dentro del modelo de lenguaje.
disfluencias o palabras adyacentes a disfluencias,
diferencias entre locutores.
En lo referente especficamente a los efectos prosdicossobre el desempeo de los reconocedores, se indica que sobre el rango de valores tpicos de la mayora de los atributos acstico-prosdicos como: valor
medio y rango de F0, valor promedio de intensidad, jitter y ritmo de
habla, la influencia sobre los errores de reconocimiento es pequea. Sin
embargo, los efectos son significativos cuando estos atributos presentan valores extremos superiores o inferiores a los tpicos, salvo para el
caso de duracin, que muestra menores tasas error de reconocimiento
cuando sus valores superan la duracin media.
Estos resultados indican que se podra esperar un aumento en las
tasas de reconocimiento si los sistemas actuales pudiesen adaptarse a
las variaciones prosdicas tanto intra como inter-locutor. Esta adaptacin hara necesaria la representacin explcita de aspectos prosdicos
de la seal de habla en el reconocimiento.
Debido a que an falta recorrer mucho camino para que los sistemas
de RAH alcancen las capacidades de reconocimiento del ser humano
[104], se propone incorporar en los mismos informacin suprasegmental, que permita caracterizar lmites de frases y palabras, contenido
lxico y rasgos sintcticos, diferencias entre elementos acsticos correspondientes al habla de aquellos que no lo son, con la hiptesis que
esta informacin puede ser relevante para aumentar la robustez de
1.5
objetivos de la tesis
51
R A H B A S A D O E N M O D E L O S O C U LT O S
DE MARKOV
ndice
2.1
2.2
2.3
Arquitectura Bsica . . . . . . . . . . . . . . . . . .
2.1.1
Extraccin de Atributos . . . . . . . . . . .
2.1.2
Modelo Acstico . . . . . . . . . . . . . . .
2.1.3
Modelo de Pronunciaciones . . . . . . . . .
2.1.4
Modelo de lenguaje . . . . . . . . . . . . .
Modelos Ocultos de Markov . . . . . . . . . . . . .
2.2.1
Definicin . . . . . . . . . . . . . . . . . . .
2.2.2
Problemas Bsicos de los HMM . . . . . .
Reconocimiento de Habla con HMM . . . . . . . .
2.3.1
Algoritmos Bsicos para HMM . . . . . . .
2.3.2
Extensiones para Modelos Continuos . . .
2.3.3
Extensiones para Modelos Semi-Continuos
2.3.4
Extensin a Secuencias de Palabras . . . .
2.3.5
Evaluacin de Desempeo del RAH . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
54
55
59
65
66
70
70
72
73
75
88
90
91
93
Prcticamente todos los sistemas de reconocimiento del habla actuales presentan arquitecturas basadas en modelos ocultos de Markov.
El predominio de los HMM en este campo se puede atribuir a mltiples razones, entre ellas: su slida base matemtica, la disponibilidad
de un extenso cuerpo de investigacin y experiencia en su aplicacin
a la tarea de reconocimiento del habla, su naturaleza estadstica que
permite realizar aprendizaje a partir de datos, minimizando la necesidad de conocimiento experto para el desarrollo de sistemas, la disponibilidad de algoritmos eficientes a la hora de construir y utilizar los
reconocedores.
Los HMM son capaces de modelar las dos fuentes de incertidumbre que presenta la seal de habla, y que se encuentra en el corazn
del problema de reconocimiento: las variabilidades espectrales y las
variabilidades temporales. Asimismo permiten realizar la tarea de segmentacin y clasificacin de manera conjunta sobre la base de la teora
de decisin estadstica, de forma tal que se minimiza la prdida media
de precisin por decisin.
A pesar de la adopcin generalizada de esta metodologa, tambin
se pueden encontrar detractores que ven a las simplificaciones y restricciones que impone este modelo como uno de los principales factores
que explican el menor desempeo de los sistemas de reconocimiento
automtico con respecto a los niveles de desempeo mostrado por los
seres humanos.
53
54
2.1
arquitectura bsica
modelos acsticos
Los modelos acsticos ms simples representan fonos. Si se construye un sistema de reconocimiento con dichas unidades acsticas, durante la fase de entrenamiento se utilizan fragmentos de habla con su
correspondiente transcripcin ortogrfica para estimar el conjunto de
parmetros de cada modelo de fonos del lenguaje.
Una vez entrenados los modelos, se puede construir el modelo acstico para cualquier palabra, concatenando los modelos de fonos que
indique el diccionario de pronunciaciones.
modelos de lenguaje
decodificador
El decodificador obtiene la secuencia de palabras ms probable realizando un proceso de bsqueda sobre todas las secuencias de palabras
55
0,9 6 a 6 1,0
(2.1)
(2.2)
prenfasis
56
57
Uno de los esquemas de codificacin ms simples y populares est basado en coeficientes cepstrales en escala mel (conocidos como
MFCC por sus iniciales en ingls) [29]. Para obtener los coeficientes
mel-cepstrum del segmento de habla s(t) correspondiente a una ventana de anlisis, en primer lugar se obtiene la transformada discreta de
fourier s(), posteriormente se utiliza un banco de filtros solapados
y espaciados uniformemente sobre la escala de mel (escala no lineal
que se corresponde con el comportamiento perceptual humano), para
obtener los componentes de energa en cada banda de frecuencia e
sk ,
con k = 1, 2, . . . , K. Finalmente los coeficientes MFCC e
cn se obtienen
aplicando la transformada discreta coseno (DCT) al logaritmo de e
sk :
e
cn =
K
X
k=1
1
(log e
sk ) cos n k
, n=1,2,. . . ,L
2 K
coeficientes Mel
cepstrum
(2.3)
coeficientes PLP
58
parmetros RASTA
coeficientes delta y
delta delta
i=1
wi yst+i ysti
Pn
2
2
i=1 wi
(2.4)
yst
s
y
yt =
t
2 yst
(2.5)
(2.6)
P (Y|w) P (w)
P (Y)
(2.7)
59
60
(2.8)
Figura 18: Grafo que representa las transiciones de estados para un modelo
de palabra simple. Adaptado de [76]
probabilidad de
emisin
61
62
63
cuantizacin
vectorial
64
surgen de esas distribuciones discretas se puede utilizar alguna distribucin paramtrica para codificar los atributos.
Al elegir qu tipo de distribuciones emplear en esa representacin es
conveniente elegir alguna que sea compatible con el comportamiento
de las seales representadas. En muchos procesos naturales se observa que las magnitudes de las variables pueden ser aproximadas por
la distribucin normal o Gaussiana, cuyos parmetros independientes
son el valor medio () y el desvo estndar (). Empleando esa distribucin, la funcin de densidad de probabilidad para la variable x
viene dada por:
1
(x) = e
2
(x)2
22
(2.9)
Para el modelado de procesos valuados continuos, el espacio de seales asociado con cada estado es segmentado en un nmero de particiones. Si las seales dentro de cada agrupamiento se modelan con
una distribucin uniforme, entonces cada uno de esos grupos puede
ser descripto por el vector de centroide y la distribucin de probabilidad. En este caso los modelos de observaciones para cada estado consisten en M centroides de agrupamientos y la fdp asociada: [ik , Pik ]
con i = 1, 2, , N y k = 1, 2, , M, como se muestra en la figura
19-b.
Aunque modelar las probabilidades de los atributos como funciones
continuas ofrece ventajas significativas, para simplificar la explicacin
de los fundamentos de estos modelos se asumirn inicialmente slo
distribuciones de probabilidades discretas, y posteriormente se extendern los resultados a observaciones continuas.
65
66
Modelo de lenguaje
El desempeo de los sistemas de reconocimiento automtico del habla de gran vocabulario depende de manera crtica del conocimiento
lingstico embebido mediante modelos de lenguaje.
Los modelos de lenguaje estadsticos tienen por objetivo brindar una
estimacin de la probabilidad de secuencias de palabras W para una
determinada tarea de reconocimiento. Si se asume que W se especifica
mediante una secuencia de la forma:
W = w1 w2 wq
(2.10)
Entonces puede parecer razonable que P(W) se pueda calcular mediante la expresin:
P(W)
P(w1 w2 wq )
(2.11)
P(wq | w1 w2 wq1 )
Desafortunadamente, resultara imposible estimar de manera confiable las probabilidades condicionales de la ecuacin 2.12 para todas las
(2.12)
Q
Y
(2.14)
i=1
(2.15)
67
68
suavizado de
N-gramas
1
Q
X
(2.18)
(2.19)
wV
1
Q
log P(w1 , w2 , . . . , wQ )
(2.20)
En otras palabras, se puede calcular la entropa a partir de secuencias tpicamente largas de palabras generadas por la fuente. La longitud de esta secuencia tpica (el corpus) debe idealmente aproximarse
a infinito, lo que obviamente es imposible. Generalmente se calcula H
a partir de una secuencia finita pero suficientemente larga:
1
log P(w1 , w2 , , wQ )
(2.21)
H =
Q
Una interpretacin interesante de H desde la ptica de reconocimiento del habla es considerarla como el grado de dificultad promedio que
el reconocedor encuentra cuando va a determinar una palabra de la
misma fuente. Esta dificultad o incertidumbre est basada en la probabilidad P(w1 , w2 , . . . , wQ ) la cual es usualmente desconocida a priori
para los lenguajes naturales, y por lo tanto debe ser estimada.
Una forma de estimar H es empleando P(W) = P(w1 , w2 , , wQ )
a partir del modelo del lenguaje. Por ejemplo si se emplea el modelo de
lenguaje de N-gramas PN (W) de la ecuacin 2.14 se puede reescribir
la ecuacin 2.21 para estimar H de la siguiente manera:
H =
1
Q
i=1
X
(2.22)
1 , w2 , , wQ )
log P(w
(2.23)
En general,
H =
1
Q
i=1
X
69
70
(2.24)
2.2
Definicin
aij
= P qt+1 = Sj | qt = Si
= P qt++1 = Sj | qt+ = Si
(2.26)
= P qt+1 = Sj | qt = Si , qt1 = Sk , . . . ,
1 6 i, j 6 N ; 1 6 t 6 T
aij > 0
N
X
i, j
aij = 1
(2.27)
(2.28)
j=1
B = bj (k) , distribucin de probabilidades de observarciones.
Donde bj (k) es la probabilidad de emisin del smbolo yk al
activarse el estado Sj en el instante t. La expresin matemtica
de esta probabilidad es:
bj (k) = P yk en t|qt = Sj , 1 6 j 6 N ; 1 6 k 6 M (2.29)
Se puede notar que la ecuacin 2.29 asume independencia entre
las observaciones subsecuentes, lo que no sucede en el caso del
habla.
= i , distribuciones de probabilidades para los estados iniciales del
modelo.
71
72
i = P [ q1 = Si ] ,
1 6 i 6 N
(2.30)
N
X
i = 1
(2.31)
i=1
(2.32)
Como se coment al introducir los modelos acsticos, los HMM definen un proceso doblemente estocstico. Por un lado un procedimiento
aleatorio discreto que genera para cada instante t una secuencia de
smbolos de estados qt S a partir de las distribuciones de probabilidades dadas por A y .
El otro proceso estocstico viene dado por la emisin de un smbolo
u observacin yk cada vez que se activa un estado. Las probabilidades
de emisin son especficas para cada estado y obedecen las probabilidades expresadas en B.
HMM discretos
HMM continuos
HMM
semi-continuos
Como se adelant en la primera seccin de este captulo, esas observaciones pueden ser discretas, en cuyo caso los modelos se se denominan HMM discretos , o pueden ser valuadas continuas, denominndose en este caso HMM continuos . En este ltimo caso generalmente
se utilizan mezclas de distribuciones normales como se defini en la
ecuacin 2.9.
Adems de esos dos modelos, otra estrategia consiste en utilizar un
hbrido de los modelos anteriores, denominados HMM semi-continuos
, que se pueden ver como HMM continuos que utilizan un conjunto de
L distribuciones independientes de cualquier estado. Estas distribuciones se colocan en una bolsa comn y cada estado modela su funcin
densidad de probabilidad como la combinacin de las L distribuciones. Solamente deben especificar el coeficiente de ponderacin para
cada una de las mezclas.
2.2.2
Para que los HMM sean tiles en la prctica se deben resolver tres
problemas bsicos:
1. Problema de Evaluacin
73
Dada la secuencia de observaciones (Y = y1 , y2 , , yT ) y el modelo (), este problema consiste en determinar P(Y|), la probabilidad que la secuencia observada sea generada por ese modelo. A
este problema tambin se lo puede denominar como problema de
clasificacin o reconocimiento, y ver de la siguiente forma: dados
varios modelos competidores y una secuencia de observaciones,
cmo elegir el modelo ms compatible con esas observaciones.
2. Problema de Estimacin
Dada la secuencia de observaciones (Y) el problema radica en
determinar los parmetros del modelo ( = (, A, B)), que maximicen la probabilidad P(Y|). La resolucin de este problema
permite establecer un mtodo para optimizar los parmetros del
modelo tal que conduzca a una mejor descripcin de los procesos
fsicos observados.
3. Problema de Decodificacin
Dada la secuencia de observaciones (Y) y un modelo () este
problema consiste en determinar la secuencia de estados q =
q1 , q2 , , qT que explique mejor las observaciones empleando
algn criterio de optimalidad. Este problema se vincula con la
recuperacin de la parte oculta del modelo.
Como se ver en la seccin siguiente, en el marco de construccin y
utilizacin de HMM en el reconocimiento del habla estos tres problemas se resuelven de manera eficiente bajo un mismo esquema probabilstico.
2.3
Una vez definidos formalmente los HMM, veamos cmo se los utiliza
en el reconocimiento del habla.
En la figura 20 se muestra la forma que tienen los HMM empleados
en el RAH. Estos HMM se denominan modelos de izquierda a derecha
y satisfacen las siguientes restricciones:
aij = 0
i =
1
0
modelos de izquierda
a derecha
j < i
(2.33)
si i = I
en otro caso
(2.34)
74
El estado inicial se utiliza para especificar las probabilidades de transicin desde el inicio del modelo a todos los posibles estados iniciales
con emisin, mientras que el estado final contempla las probabilidades
de transicin desde cualquier posible estado final con emisin hasta el
final del modelo. En consecuencia cada modelo debe comenzar en el
estado I y terminar en el F, por lo que para generar T observaciones el
modelo debe pasar por T + 2 estados.
La utilizacin de esos estados no emisores es un mtodo conveniente
para modelar el hecho que hay modelos ms susceptibles que otros de
estar asociados con la primera y ltima trama de una secuencia. Adems facilitan la concatenacin de modelos como se ver ms adelante.
Para los clculos asociados con los HMM se suelen utilizar esquemas
de reticulados (trellis en la literatura anglosajona) como el presentado
en la figura 21. Las retculas de estados y tiempos como la presentada
en la figura 21 permiten observar todos los estados que componen un
HMM y al mismo tiempo determinar todos los caminos posibles para
las secuencias de estados al transcurrir el tiempo.
Debido a que para cada HMM tanto el conjunto de estados como
los parmetros de cada uno son invariantes en el tiempo, la retcula presenta una estructura regular y repetitiva. Se puede ver adems
que para los HMM de izquierda a derecha como el de la figura 20
el reticulado debe comenzar divergiendo del primer estado y terminar por convergir en el ltimo. Sin embargo, en el trellis que representa esa situacin hay muchas secuencias de estados posibles. Cada una de esas secuencias de estados tiene su probabilidad a priori, que se puede obtener multiplicando las probabilidades de transicin de los estados que la componen. Por ejemplo, para la secuencia de estados q = qI , q1 , q2 , q2 , q3 , q3 , qF la probabilidad es P =
1 a11 a12 a22 a23 a33 a3F . Adems como cada estado en general tiene
un conjunto de probabilidades de emisiones diferente, las distintas secuencias de estados modelarn diferentes secuencias de observaciones.
Para un modelo , una secuencia de observaciones Y pudo haber
sido generada por cualquiera de las secuencias de estados posibles
representada en su retcula, con una probabilidad igual a P(Y|).
X
q
P (Y, q|) =
P (Y|q, ) P (q|)
(2.35)
Donde se ha utilizado la propiedad para las probabilidades condicionales: P(A, B) = P(A|B) P(B).
Para el primer trmino de la ltima igualdad en la ecuacin 2.35,
si se asume que los vectores de atributos se generaron de manera independiente para cada estado, la probabilidad de las observaciones
dada una secuencia de estados particular de duracin T es el producto
75
76
P (Y|q, ) =
T
Y
(2.36)
bqt (yt )
t=1
P (q|) = aIq1
TY
1
!
aqt qt+1
aqT F
(2.37)
t=1
P(Y|) =
X
q
aIq1
TY
1
!
bqt (yt ) aqt qt+1
t=1
algoritmo de
avance-retroceso
variable hacia
adelante
(2.39)
77
(2.40)
Iteracin:
Calcular iterativamente todas las dems variables empleando
la expresin de recurrencia en trminos de los valores i (t
1), para todos los estados previos posibles i:
j (t)
P y1 , y2 , yt , qt = Sj |
!
N
X
=
i (t 1) aij bj (yt )
(2.41)
para 1 < t 6 T
i=1
N
X
i (T ) aiF
(2.42)
i=1
Este algoritmo demanda N(N + 1)(T 1) + N multiplicaciones (orden O(N2 T )). Para el mismo ejemplo que el visto previamente (N = 5
y T = 100), aplicar este algoritmo supondran 3000 operaciones elementales, un valor 69 rdenes de magnitud menor que con el planteo
original.
Anlogamente se puede introducir una variable j (t) denominada
variable hacia atrs:
j (t) = P yt+1 , yt+2 , , yT |qt = Sj ,
(2.43)
Asumiendo que en el instante t el modelo se encuentra en el estado Sj , la variable hacia atrs j (t) representa la probabilidad que a
partir de ese momento se emita la porcin restante de la secuencia de
observaciones. Es decir, la secuencia parcial que comienza en el instante t + 1 y se extiende hasta completar la secuencia Y en el instante final
T.
78
(2.44)
Iteracin:
Calcular iterativamente hacia atrs la expresin de recurrencia:
i (t) =
N
X
j=1
N
X
(2.46)
i=1
Al igual que el algoritmo de avance, el algoritmo de retroceso resuelve el problema de evaluacin con una complejidad O(N2 T ). Las
operaciones necesarias pueden ser calculadas empleando una estructura de retcula similar a la presentada en la figura 21.
entrenamiento
Dado un conjunto de segmentos de habla disponibles como ejemplos de lo que podra emitir cada HMM, se puede considerar al entrenamiento como el problema que busca determinar el valor de los parmetros de tales modelos que permitan representar mejor el comportamiento estadstico observado en los datos. Esto se logra maximizando
la probabilidad que dicho conjunto de datos hayan sido generados por
tales HMM.
Considere que como conjunto de datos de entrenamiento se tiene secuencias de observaciones Y, cada una asociada con un HMM correspondiente. Durante este proceso se busca el conjunto de parmetros de
79
argmax P (Y| , A , B )
(2.47)
( ,A ,B )
Debido a que la probabilidad condicional de la ecuacin 2.47 se conoce como verosimilitud, el criterio de entrenamiento que maximiza
esa probabilidad se conoce como criterio de mxima verosimilitud .
Si se pudiera conocer la correspondencia entre cada frame de entrenamiento con el estado de un modelo especfico, calcular las probabilidades de mxima verosimilitud asociadas con cada modelo sera
sencillo. Por un lado las probabilidades de transicin se calcularan a
partir de la estadstica de las secuencias de estados, y por el otro, las
probabilidades de emisin se podran estimar a partir de las estadsticas de los vectores de atributos asociados con cada estado.
Sin embargo la naturaleza oculta de los estados contenidos en los
HMM hace imposible conocer tal correspondencia. Es por ello que no
hay un mtodo analtico para calcular de manera directa los valores ptimos de estos parmetros, y se debe recurrir a algoritmos heursticos
para encontrar una buena aproximacin.
Uno de esos algoritmos es el algoritmo de Baum-Welch .
La idea bsica de este algoritmo es emplear un procedimiento de optimizacin iterativa que partiendo de un conjunto de valores iniciales
para los parmetros de cada modelo, permita ir mejorando la estimacin previa, empleado para ello los datos de entrenamiento. En este
proceso se conserva la topologa del HMM, es decir, que para todos
los aij y los i que tengan valores nulos, esos valores no se modifican.
El proceso de optimizacin para cada modelo es bsicamente el
siguiente: en primer lugar se inicializa el modelo con algunas estimaciones provisorias de sus parmetros. Con el modelo as inicializado se
calculan las probabilidades para cada uno de sus estados y para cada
trama de las secuencias de observaciones correspondientes a los datos
de entrenamiento asociados con . Finalmente se analiza la estadstica
de esas secuencias de estados, y los vectores de atributos asociados con
cada uno de ellos, para reestimar los parmetros del modelo: sus probabilidades de transiciones y de emisin respectivamente. Empleando
ahora los valores de parmetros reestimados, se vuelve a repetir el
procedimiento.
Veamos ahora cmo se formaliza este procedimiento.
Supongamos por el momento que para entrenar el modelo disponemos de una sola palabra aislada, y que la misma comprende la
secuencia de vectores de atributos {y1 , y2 , , yT }; donde la primera
trama se asocia con y1 y la ltima con yT . Adems asumamos que se
cuenta con un conjunto de estimaciones iniciales (groseras) para los
parmetros de .
Bajo estas condiciones es posible calcular la probabilidad que el modelo emita el conjunto completo de los T vectores de atributos observados, y que se encuentre en el estado Sj en el instante t utilizando
el algoritmo de avance-retroceso y el procedimiento descripto en la
figura 24:
criterio de mxima
verosimilitud
algoritmo de
Baum-Welch
80
(2.48)
Iteracin:
Calcular iterativamente hacia atrs la expresin de recurrencia:
i (t) =
N
X
j=1
(2.50)
Utilizando la probabilidad as calculada para cada trama de la palabra se pueden reestimar los valores de probabilidad de transiciones y
de emisin asociados con los parmetros de .
Sin embargo, la suposicin de contar con una sola muestra de entrenamiento por modelo no es viable si lo que interesa es que tales modelos generalicen el comportamiento observado en mltiples instancias y realidades acsticas. En consecuencia, durante el entrenamiento
suele haber varias muestras de una misma palabra correspondientes
a un modelo dado. En esta situacin es improbable que todas esas
instancias presenten el mismo nmero de tramas ni vectores de caractersticas, tampoco que las duraciones relativas entre segmentos sea la
misma para cada ejemplo. Por lo tanto es de esperar que la versin
del modelo (inicializado de alguna manera) se ajuste mejor a ciertos ejemplos que a otros. Esto no es conveniente ya que artificialmente
se estara introduciendo un sesgo para favorecer ciertas evidencias, en
detrimento de otras instancias igualmente vlidas. Es decir, se debe
buscar un mecanismo para que durante la reestimacin se garantice
el empleo de todas las muestras disponibles con el mismo factor de
ponderacin.
Como se acaba de ver, el producto (j (t) j (t)) que permite reestimar el valor de los atributos de cada modelo suponiendo una sola
palabra de muestra, representa la probabilidad conjunta de estar en el
estado Sj durante el instante t y generar un conjunto particular de vectores de observaciones correspondientes a un ejemplo. Esta solucin
no permite especificar diferentes instancias.
Para poder utilizar en el entrenamiento de un modelo distintas muestras de una misma palabra, con posibles diferencias en sus vectores de
observaciones, se necesita una expresin con la probabilidad condicio-
=
=
=
P qt = Sj |y1 , y2 , , yT ,
P y1 , y2 , , yT |qt = Sj , P qt = Sj |
P (y1 , y2 , , yT |)
P y1 , y2 , , yT , qt = Sj |
j (t) j (t)
=
P (y1 , y2 , , yT |)
F (T )
(2.51)
81
82
ij (t) =
(2.53)
iF (T ) =
i (T ) aiF
F (T )
(2.54)
Por su parte para el estado inicial, es necesario calcular la probabilidad de transicin a cada uno de los estados emisores. Esa transicin
desde el estado I solamente se puede dar en el instante t = 0, antes
que se produzca cualquier emisin, por lo que para ese caso:
Ij (0) =
j bj (y1 j (1))
F (T )
(2.55)
(2.56)
Nuevamente ij (t, e) denota el valor de ij (t) para el e-simo ejemplo de entrenamiento. Adems se debe observar que la suma en funcin de t del numerador solo incluye las tramas hasta Te 1. El ltimo
frame no se incluye dado que en el mismo no es posible que se de alguna transicin a otro estado emisor, y por definicin ij (T , e) es nula
para todos los pares de estados emisores. Las transiciones desde un
estado emisor hasta el estado F slo puede ocurrir en el tiempo Te , por
lo que la probabilidad de transicin aiF se puede reestimar como:
PE
iF (Te , e)
aiF = PE e=1
para 1 6 i 6 N
P Te
(t,
e)
i
e=1
t=1
(2.57)
83
e=1 Ii (0, e)
para 1 6 i 6 N
(2.58)
Se puede ver de las ecuaciones ?? que si cualquier i o aij son inicialmente nulos, tras las sucesivas iteraciones de reestimacin lo seguirn
siendo, preservando la topologa del HMM.
El algoritmo de Baum-Welch es un caso particular de un mtodo
general conocido como algoritmo de esperanza-maximizacin (algoritmo expectation-maximization en ingls) o de manera resumida algoritmo EM, aplicable a problemas en los que se debe estimar los parmetros de un modelo y los datos observables son incompletos.
Se ha probado que para cada iteracin de este algoritmo, el nuevo
conjunto de parmetros es al menos tan bueno como el anterior; y en
general, las nuevas iteraciones van mejorando el modelo. Si se repite
el proceso de reestimacin un nmero suficiente de veces, el modelo
converger a una solucin localmente ptima. Es decir, luego de la
reestimacin empleando el algoritmo de Baum-Welch, se garantiza que
la probabilidad de los datos de entrenamiento dados los modelos con
el nuevo conjunto de parmetros es mayor que la probabilidad para el
conjunto de modelos previo, excepto si se alcanza el punto crtico, que
indica la presencia de un ptimo local, y por lo tanto a partir de all
los modelos y las probabilidades no cambiarn al repetir el proceso de
reestimacin.
En otras palabra, el algoritmo de Baum-Welch converge de manera
montona y en tiempo polinmico (con respecto al nmero de estados
y la longitud de las secuencias acsticas), a puntos de estacionaridad
locales sobre la funcin de verosimilitud.
Es as que el procedimiento de reestimacin se puede aplicar repetidamente hasta que la diferencia de probabilidad entre el modelo
previo y el actual sea suficientemente pequea.
algoritmo EM
Algoritmo de Viterbi
Consideremos ahora uno de los algoritmos ms empleados para resolver el tercer problema bsico de los HMM: el problema de decodificacin.
El algoritmo de Viterbi es un procedimiento general de bsqueda
sincrnica en el tiempo, aplicable a espacios definidos por la retcula
presentada en la figura 21, y su funcionamiento est basado en los
principios de programacin dinmica [12].
Este algoritmo es similar al procedimiento para el clculo de manera
recursiva de la variable hacia adelante que se describi en el algoritmo de avance, pero reemplaza la sumatoria sobre todos los estados
predecesores por una maximizacin e introduce un puntero en cada estado para guardar la ubicacin de su mejor predecesor. Adems
Algoritmo de Viterbi
84
i (t) =
max
q1 ,q2 , ,qt1
P (q1 , q2 , , qt = Si , y1 , y2 , , yt |) (2.59)
(2.60)
Como se coment, el algoritmo almacena en el vector j (t) un registro de los argumentos que maximizaron la ecuacin 2.60 para cada
trama t y estado j, y de esta forma puede recuperar la secuencia ptima completa.
El procedimiento completo para encontrar la mejor secuencia de estados se presenta en la figura 25:
El algoritmo de Viterbi realiza una bsqueda exhaustiva en el espacio de estados, es decir que evala de manera eficiente todas las
secuencias de estados q contenidas en el espacio de bsqueda. Sin
embargo en las aplicaciones de RAH actuales debido al tamao del espacio de bsqueda se lo suele podar empleando procesos de bsqueda
en haz.
En cada paso de tiempo t, despus del clculo de ?? (paso 2 del
algoritmo), solamente se continan los caminos para los que i (t) sea
mayor al umbral de haz definido como = maxj j (t con 0 6 6 1.
Una consecuencia de esta poda es que ya no se puede garantizar
encontrar el camino ptimo.
Observe por otro lado la variable Pmax de la ecuacin 2.65, que indica la probabilidad que tiene la secuencia ptima de estados del modelo
de generar la secuencia de observaciones Y. Este valor se puede usar
para puntuar cada modelo ante una secuencia Y de entrada. Durante
el reconocimiento del habla, para cada modelo de palabra candidata
se calcula su Pmax , y la secuencia de Y se etiqueta con la palabra que
consigue el Pmax mximo.
problema de estimacin empleando viterbi El algoritmo de Viterbi tambin se puede utilizar para resolver de manera aproximada
pero eficiente el problema de estimacin.
Es posible realizar la reestimacin de los parmetros del modelo
empleando solamente el camino ms probable a travs de sus estados.
De esta manera, los clculos se simplifican respecto a los que demanda el algoritmo de Baum-Welch, resultando una solucin aproximada
pero con un menor costo computacional.
A travs de este procedimiento, para cualquier trama de entrada, la
probabilidad que se ocupe un estado solamente puede ser igual a uno
o cero, dependiendo si ese estado est en la secuencia ptima.
i (1) = i bi (y1 )
1 (i) = 0
para 1 6 i 6 N
para 1 6 i 6 N
(2.61)
(2.62)
j (t) =
max
16i6N
i (t 1) aij
bj (yt )
!
argmax i (t 1) aij
(2.63)
(2.64)
16i6N
Pmax = max {i (T )}
(2.65)
q = argmax {i (T )}
(2.66)
16i6N
16i6N
q t = q t+1 (t + 1)
para t = T 1, T 2, , 1 (2.67)
Una vez que se identifica la secuencia ptima para todos los estados
y tramas de una secuencia particular de observaciones haciendo uso
de la variable j (t) de la forma ya detallada, cada frame quedar asignado a un estado, y se podr saber qu observacin se asocia con cada
estado y, obviamente, las secuencias de estados. Por lo tanto para la
reestimacin se necesitar acumular para todas las instancias de cada
85
86
bj (k) =
nj (yt = k)
nj
(2.68)
aij =
nij
ni
(2.69)
aiF =
niF
ni
(2.70)
i =
nIj
E
(2.71)
(2.72)
(2.73)
Iteracin:
Calcular iterativamente las dems variables empleando la expresin de recurrencia:
j (t) = max i (t 1) aij bj (yt ) para 1 < t 6 T (2.74)
i
La diferencia entre la probabilidad considerando el conjunto completo de secuencias de estados obtenida empleando el algoritmo de
avance-retroceso, y la dada por la expresin aproximada de la ecuacin 2.75, calculada a travs del algoritmo de Viterbi depende de la
magnitud de la contribucin a la probabilidad total, de la mejor secuencia de estados respecto a las secuencias despreciadas.
Al igual que en la aplicacin de Viterbi en el problema de estimacin, si las fdp de los vectores de atributos de todos los estados difieren
87
88
bj (y) =
M
X
cjm N y; jm , jm
(2.76)
m=1
El segundo trmino dentro del sumando de la ecuacin 2.76 corresponde a la probabilidad de emisin de la m-sima componente de la
mezcla de Gaussianas para el estado j; mientras que cjm denota el
coeficiente de ponderacin para la m-sima componente de la mezcla
para el estado j.
Adems en la ecuacin 2.76 no es necesario que la distribucin est dada por mezclas de Gausssianas, sino que puede corresponder a
cualquier funcin de densidad log-cncava o con simetra elptica. Sin
embargo por ser las ms utilizadas, en lo que sigue se supondr a N
como una funcin Gaussiana.
para 1 6 j 6 N
cjm = 1
(2.77)
m=1
para 1 6 j 6 N
cjm > 0
(2.78)
para 1 6 j 6 N
(2.79)
Se demuestra que la fdp as definida se puede utilizar para aproximar tanto como se desee cualquier funcin de densidad continua y
finita.
En [84] se demostr que un estado con densidad de probabilidad
modelada como mezclas de Gaussianas es equivalente a un HMM con
mltiples estados cada uno de ellos con una densidad de probabilidad
dada por una Gaussiana simple.
Asumiendo que se tiene una estimacin inicial de los parmetros
para las M componentes de todas las mezclas Gaussianas representando la fdp para el estado j, se puede utilizar la reestimacin de BaumWelch para hallar nuevas estimaciones de los parmetros cjm , jm y
jm . Cuando se usan mezclas de Gaussianas se debe ponderar la contribucin de cada observacin y por una probabilidad especfica para
la componente de la mezcla m. Anlogamente a lo hecho previamente
se define una variable jm (t) para indicar la probabilidad encontrarse
en el estado j en el instante t y utilizar la componente m-sima para
generar yt , dado que el modelo genera toda la secuencia de vectores
de observaciones representando un ejemplo de determinada palabra:
N
P
jm (t) =
i=1
F (T )
(2.80)
cjm =
jm (t, e)
e=1 t=1
Te
E P
P
e=1 t=1
(2.81)
j (t, e)
89
90
Te
E P
P
jm =
jm (t, e)yte
e=1 t=1
Te
E P
P
(2.82)
jm (t, e)
e=1 t=1
Te
E P
P
jm =
e=1 t=1
Te
E P
P
(2.83)
jm (t, e)
e=1 t=1
mezclas enlazadas
Por otro lado se puede encontrar entre estados internos correspondientes a unidades acsticas diferentes que hay muchas probabilidades de emisin muy parecidas. Una forma sencilla de aprovechar esa
redundancia es utilizar un conjunto nico de distribuciones Gaussianas para todos los estados de todos los modelos, caracterizando ahora cada estado mediante los pesos de las mezclas correspondientes a
cada estado. De esta forma los parmetros de las distribuciones estn enlazados entre estados diferentes. Estos constituyen los HMMsemicontinuos presentados anteriormente.
Cuando se utilizan mezclas enlazadas, las probabilidades de emisin bj (y) para cualquier estado j se calcula de la misma forma que
en la ecuacin 2.76, pero en este caso los pesos de cada mezcla cjm
son especficos para cada estado, mientras que los bjm (y) son mismos
para todos los estados.
91
Usando la nueva definicin para la probabilidad de emisin se puede derivar la frmula para la media de la m-sima componente (m ):
Te P
E P
N
P
m =
jm (t, e)yte
(2.84)
Te P
E P
N
P
jm (t, e)
m =
(2.85)
jm (t, e)
enlazado de
parmetros
92
prctica se hace aS S = <, estimando de manera heurstica para balancear el nmero de deleciones e inserciones durante el
reconocimiento.
En el caso del reconocimiento de palabras aisladas no interesaba la
secuencia de estados en particular dentro del modelo, sino la verosimilitud de cada modelo de palabra de emitir los vectores de atributos
observados. Cuando se reconocen palabras conectadas se necesita determinar la secuencia ms probable de palabras, tal que a nivel de
palabras es necesario el algoritmo de Viterbi.
entrenamiento
embebido
R =
NDS
100 %
N
(2.86)
P =
NDSI
100 %
N
(2.87)
(2.88)
93
94
RT =
TREAL
100 %
TREC
(2.89)
INFORMACIN SUPRASEGMENTA L Y P R O S O D I A
ndice
3.1
3.2
3.3
3.4
3.5
Definiciones Bsicas . . . . . . . . . . . . . . . . . . .
Atributos Prosdicos . . . . . . . . . . . . . . . . . .
3.2.1
Cantidad o Duracin . . . . . . . . . . . . . .
3.2.2
Calidad Vocal . . . . . . . . . . . . . . . . . .
3.2.3
Velocidad del Habla o Tempo . . . . . . . . .
3.2.4
Pausas . . . . . . . . . . . . . . . . . . . . . .
3.2.5
Entonacin . . . . . . . . . . . . . . . . . . .
3.2.6
Acentuacin . . . . . . . . . . . . . . . . . . .
3.2.7
Interacciones de los Parmetros Prosdicos .
Jerarqua Prosdica . . . . . . . . . . . . . . . . . . .
3.3.1
Slabas () . . . . . . . . . . . . . . . . . . . .
3.3.2
Pie Mtrico () . . . . . . . . . . . . . . . . .
3.3.3
Palabra Fonolgica o Palabra Prosdica ()
3.3.4
Frase Fonolgica () . . . . . . . . . . . . . .
3.3.5
Frase Entonativa (IP) . . . . . . . . . . . . . .
Modelos Entonativos . . . . . . . . . . . . . . . . . .
3.4.1
Modelo Tilt . . . . . . . . . . . . . . . . . . .
3.4.2
Modelo de Fujisaki . . . . . . . . . . . . . . .
3.4.3
Modelo IPO . . . . . . . . . . . . . . . . . . .
3.4.4
Modelo INTSINT . . . . . . . . . . . . . . . .
3.4.5
Modelo ToBI . . . . . . . . . . . . . . . . . .
Mtodos Computacionales . . . . . . . . . . . . . . .
3.5.1
Estimacin Automtica de F0 . . . . . . . . .
3.5.2
Estilizacin de la Curva de F0 . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
96
97
97
98
98
99
99
105
109
111
114
115
116
117
119
121
122
123
125
126
127
129
129
133
En este captulo se presenta el marco terico referido a la informacin suprasegmental o prosdica, fundamentos sobre los que se sustentarn las propuestas formuladas en esta tesis.
El captulo comienza con la definicin de los conceptos bsicos asociados con la prosodia, y su relacin con la nocin de informacin
suprasegmental.
En la segunda parte se describen los atributos prosdicos.
En la tercera seccin se presentan los constituyentes prosdicos, un
modelo de organizacin jerrquica de la informacin prosdica.
Posteriormente se presentan los principales modelos empleados para describir y utilizar la entonacin.
95
96
3.1
prosodia
definiciones bsicas
3.2
atributos prosdicos
Si bien como se mencion, las definiciones actuales de prosodia contemplan a la altura tonal, la sonoridad, la duracin y la calidad vocal,
como sus principales atributos perceptuales, se pueden considerar algunos atributos prosdicos adicionales.
No resulta fcil hacer una lista exhaustiva de tales atributos, ya que
en la propia comunidad de la lingstica no hay concenso al respecto
[42].
Aqu se seguir el criterio empleado por [93] que considera dos grupos de atributos prosdicos: los bsicos y los compuestos. La diferencia
entre ambas clases est dada en que los atributos prosdicos bsicos se
pueden determinar a partir de intervalos segmentales, mientras que a
los compuestos solamente es posible definirlos contando con fragmentos ms extensos de habla.
El conjunto de atributos prosdicos bsicos est formado por: altura tonal, sonoridad, cantidad o duracin, calidad vocal, velocidad del
habla y pausas.
Por su parte los atributos compuestos que surgen por la variacin
de los atributos bsicos en el tiempo comprenden: entonacin, acentuacin, frases prosdicas, ritmo y hesitacin o balbuceo. Estos atributos
estn vinculados con unidades suprasegmentales de diferentes duraciones: slabas, palabras, frases, oraciones, actos de dilogo y turnos
de habla.
En el Captulo 1, especficamente cuando se trat la psicoacstica
del habla se explicaron dos de los rasgos prosdicos mencionados:
sonoridad y altura tonal. A continuacin se describirn los atributos
prosdicos restantes.
3.2.1 Cantidad o Duracin
El trmino cantidad designa las diferencias abstractas de duracin, que
se establecen en una lengua con la finalidad de distinguir significados,
a travs de la distincin lxica.
A diferencia por ejemplo del Alemn o del Latn clsico donde se
puede encontrar una oposicin binaria de cantidad entre vocales acentuadas cortas y largas, o del Italiano en donde esa oposicin se da entre
consonantes, o en lenguas como el Fins, el Estonio y el Hngaro que
presentan oposiciones tanto voclicas como consonnticas; el Espaol
no utiliza oposiciones funcionales de cantidad segmental. No obstante,
este atributo influye en la calidad de la voz.
La duracin puede considerarse tambin un fenmeno segmental,
puesto que cada sonido posee una duracin caracterstica. As por
ejemplo, es sabido que la fricativas son ms largas que las oclusivas,
que las sordas son las ms largas que las sonoras, etc. Articulatoriamente, la duracin se basa en el mantenimiento por ms o menos tiempo
97
98
laringealizacin
99
100
umbral diferencial
La percepcin humana del tono en seales con una clara periodicidad es sorprendentemente precisa. El umbral diferencial (mnima
disparidad que se puede resolver como diferente) est en el orden de
0,3 % a 0,5 % . En tanto para el habla natural, la percepcin del pich tie-
101
f1
f2
39,86 log10
f1
f2
(3.1)
f
165,4
(3.2)
donde
f = 165,4
100,06E 1
(3.3)
escala ERB
102
similitud y
equivalencias
perceptuales
close-copy stylization
equivalencia
perceptual
declinacin
Hasta aqu se vio que aparentemente existen muchos detalles caprichosos en las fluctuaciones del pitch que no son controlados de manera
activa por el locutor, sino que son efectos colaterales de otros procesos
de la produccin del habla. Tambin se asumi que tales movimientos involuntarios del pitch no contribuan a la meloda percibida en el
habla .
Una primera demostracin de este fenmeno es la denominada copia ajustada estilizada del pitch (close-copy stylization en ingls) , que
se define como una aproximacin sinttica del curso natural del pitch
que satisface dos criterios: debe ser perceptualmente indistinguible del
original, y debe contener el menor nmero de segmentos de rectas para lograr tal igualdad perceptual.
En [30] se demostr que aquellas curvas aparentemente antojadizas
de pitch que aparecen en el habla natural se pueden simplificar empleando segmentos de lneas rectas en el dominio tiempo-log(F0), sin
provocar diferencias notables desde el punto de vista perceptual entre
las curvas de pitch original y sinttica.
Ese hallazgo justifica la descripcin de la entonacin en trminos
de aproximaciones ms simples. Se debe notar que no hay por qu
emplear lneas rectas: por ejemplo se puede encontrar el mismo comportamiento si uno emplea como aproximaciones funciones coseno.
Aparentemente la entonacin est organizada en trminos de patrones meldicos que son reconocibles por los locutores nativos del
lenguaje. As por ejemplo, si se pide a una persona que imite la entonacin de una frase oda, ya sea empleando las mismas palabras,
palabras diferentes o incluso sin articular palabras, se obtiene una curva de pitch que en trmino de seales seguramente no ser igual a la
original. Aunque incluso se puedan or muchas diferencias, es probable que generen la misma impresin meldica sobre oyentes nativos.
Es de aqu que surge el trmino equivalencia perceptual.
Dos curvas de F0 diferentes son perceptualmente equivalentes cuando una es lo suficientemente parecida, como para ser juzgada por hablantes nativos de esa lengua como una buena imitacin meldica de
la otra.
Esta equivalencia implica que la misma meloda puede reconocerse
en dos realizaciones aunque en ellas existan diferencias notables, de
la misma forma que dos palabras pueden reconocerse como iguales a
pesar de ser realizaciones diferentes. Esta nocin permite construir, a
partir de generalizaciones, un inventario de movimientos estndar del
pitch, y sus combinaciones generan contornos que son perceptualmente equivalentes a las curvas de pitch que ocurren en habla natural.
La declinacin es un fenmeno que aparece en muchos lenguajes.
Su forma ininterrumpida est restringida a frases cortas, ya que en
elocuciones largas (en especial en habla espontnea), se encuentra interrumpida por reinicios regulares en la declinacin. Se cree que el
fenmeno de declinacin no se encuentra bajo control voluntario del
locutor, pero s la eleccin del momento en que se introducen los reini-
Figura 28: Forma de onda (azul), F0 (naranja), y niveles de pitch (verde) correspondientes a la frase: La guitarra se toca con pnico.
103
104
105
lenguas tonales
lenguas entonativas
3.2.6 Acentuacin
El trmino acentuacin se utiliza para indicar la presencia de algunas slabas que son percibidas como ms prominente que sus vecinas.
Es as que el acento es un rasgo suprasegmental que recae sobre una
slaba de la cadena hablada y la destaca o realza frente a otras no
acentuadas (o tonas).
En la literatura clsica se vincul esa percepcin de prominencia con
la idea que las slabas tnicas presentaban mayor intensidad que las
tonas, y por lo tanto eran producidas con mayor esfuerzo articulatorio.
Es por ello que se conocen a las slabas tnicas como estresadas o tensas.
Sin embargo hoy se sabe que la impresin perceptual de prominencia no est asociada solamente con la intensidad sino que es el resultado de la conjuncin de varios factores articulatorios:
una mayor fuerza espiratoria, que genera una mayor intensidad
una mayor tensin de las cuerdas vocales, que genera una elevacin del tono fundamental
una mayor prolongacin en la articulacin de los sonidos, que
supone un aumento de la duracin silbica
Vale hacer una aclaracin respecto a la distincin entre los trminos
stress y accent que se se emplean con mucha frecuencia en la literatura tcnica. De acuerdo a [95] la palabra inglesa stress est referida a la
prominencia percibida en alguna entidad lxica (palabras o slabas) del
habla continua, mientras que el trmino accent se reserva para referir
especficamente a movimientos entonativos de F0. Estos movimientos
de F0 pueden servir como uno de los indicadores fonticos respecto a
la localizacin de la prominencia percibida. Es decir no hay que confundir el trmino acento como se est tratando en este apartado con el
trmino anglosajn accent.
Para confundir ms las cosas, en Espaol tambin se utiliza el trmino acento para referirse al acento ortogrfico , marca tipogrfica
(tilde) que se coloca sobre alguna vocal con acento lxico.
Por otro lado, cuando se observan palabras pronunciadas de manera
aisladas, se puede observar que presentan al menos una slaba acentuada (obviamente en palabras con ms de una slaba). A este acento
se conoce como acento lxico . A diferencia de otros idiomas como el
Ingls o el Alemn, en el Espaol se puede conocer exactamente cul
acento ortogrfico
acento lxico
106
acento de frase
lenguas de acento
libre
acento tonal
pares mnimos
El acento tonal, aparece en el habla continua de manera relativamente libre, cuando se percibe una palabra con prominencia por encima
de las dems. Este acento se aplica dentro del contexto de una frase a
determinadas palabras (principalmente las de contenido) para indicar
foco o que se trata de informacin nueva. El correlato acstico tradicional de este acento est dado por el contorno local de la frecuencia
fundamental. Por ejemplo, a la pregunta Dnde est la casa? puede
responderse la casa est en la montaa. En esta respuesta la palabra
montaa recibe un acento tonal expresado fsicamente como un ascenso de la frecuencia fundamental en la slaba ta. Debe notarse que el
acento tonal se ubica temporalmente en sincrona con el acento lxico de la misma palabra. En el ejemplo anterior la palabra casa tiene
acento lxico en la silaba ca pero no posee acento tonal.
Figura 29: Forma de onda (azul), F0 (naranja), y energa (verde) para tres palabras segmentalmente equivalentes, pero con distinto acento lxico.
Arriba: hbito (esdrjula), Centro: habito (grave), Abajo: habit (aguda).
107
108
tipologas acentuales
ritmo silbico
ritmos de
temporizacin
acentual
109
temporizacin
empleando mora
Cada funcin
prosdica est
marcada por la
combinacin de
rasgos prosdicos,
dependientes del
contexto.
110
3.3
jerarqua prosdica
111
112
113
La primera propiedad puede verse como el proceso de descubrimiento y delineacin de constituyentes prosdicos, que estn dados
por segmentos de habla dentro de los que son vlidas ciertas reglas
fonolgicas; mientras que la segunda implica que dichos segmentos
son constituyentes prosdicos independientes, sin una necesaria correlacin con otros componentes de la gramtica, como la sintaxis o la
morfologa.
La jerarqua prosdica se sostiene en un conjunto de reglas y restricciones [149, 124]. Dos de esas reglas pertenecientes a la jerarqua
prosdica fueron formalizadas en el marco de la teora de optimalidad [137]:
Exaustividad: cada constituyente de nivel l est contenido en un
constituyente de nivel l + 1. Por ejemplo una est contenida en
una .
No-recursividad: ningn constituyente de nivel l puede estar
contenido en otro constituyente de nivel l.
Varios estudios muestran que esas reglas son aplicables a diferentes
niveles de la representacin prosdica, tales como [94, 43] para IP, [174,
65] para ; y [184] para .
Cuando surgi la propuesta de constituyentes prosdicos, se consideraba que la estructura sintctica era quien dominaba la distribucin
y divisin de los estos constituyentes, y especialmente con respecto a
las IP y [124], aunque se afirmaba que la velocidad de elocucin, el
estilo y las emociones podran provocar reestructuraciones de IP en
otras IP ms cortas.
teora de optimalidad
114
115
116
En el Espaol escrito se reconoce una palabra como un texto circundado por espacios y/o signos de puntuacin.
Una palabra es el vnculo entre un patrn sonoro y cierto significado evocado en la mente del oyente de un lenguaje. Como se vi en el
captulo 1, en lingstica se considera que la menor unidad que conserva un significado es el morfema. Por ejemplo la palabra poemas
est constituida por dos morfemas: la raz poema y el sufijo s que
indica pluralidad. En morfologa, una palabra consiste en una raz y
sus afijos.
En la teora prosdica el constituyente que tiene mayor correspondencia con la palabra morfolgica es la palabra fonolgica . De acuerdo a [124] la palabra fonolgica es el menor constituyente de la jerarqua prosdica que refleja una relacin ntima entre fonologa y morfologa.
La contribucin precisa de la informacin morfolgica al constituyente prosdico vara de lenguaje en lenguaje. Sin embargo lo que
se verifica entre los diversos lenguajes es que los se corresponden
como mximo con una raz lxica y sus afijos. Esto implica que los
lmites de tambin delimitan uno o ms morfemas. En las teoras de
interfases sintctico fonolgicas basadas en lmites, los mrgenes de
las races lexicales se alinean con los de constituyentes fonolgicos.
Las constituyen un concepto relevante para la fonologa. Desempea un rol mtrico al describir el acento vinculado a una palabra. Un
elemento lxico se puede considerar como una si est acentuada
prosdicamente.
Con respecto a las variables acsticas que marcan la presencia de
una en el Espaol, se pueden encontrar varias opiniones diferentes. Estudios clsicos como [123] argumentan que la intensidad es el
indicador ms confiable del acento prosdico.
Investigaciones ms recientes [49, 138, 50, 39] determinaron que un
cambio en el nivel de F0 producido durante el lapso correspondiente a
117
sintagma
ncleo sintctico
118
teora de la X-barra
El ncleo sintctico corresponde a una de las categoras lxicas: sustantivos, verbos, adjetivos, preposicin, y es el elemento que determina
las caractersticas bsicas de un sintagma. Por lo tanto, el ncleo sintctico es el constituyente ms importante o de mayor jerarqua que se
encuentra de un sintagma. El procedimiento por el cual cualquiera de
las categoras citadas se desarrolla en un sintagma se describe mediante la denominada teora de la X (X-barra) , segn la cual un ncleo se
proyecta dos veces y recibe un modificador en cada proyeccin.
Si se emplea la letra X para designar un ncleo sintctico de alguna
de las categoras lxicas, el sintagma en que se desarrolla (SX) puede
descomponerse como muestra la figura 33.
119
120
[ como se sabe, ] IP
[ son peligrosos ] IP
No obstante, como con todos los constituyentes prosdicos, la sintaxis no es suficiente para explicar las IP.
Por ejemplo la longitud de una expresin es directamente proporcional al nmero de IP encontrados, e inversamente proporcional a la velocidad de elocucin. Consecuentemente, los estilos de habla ms lenta
conducen a un nmero menor de IP. En consecuencia, la asignacin de
IP en las expresiones puede estar vinculado a causas fisiolgicas como
la capacidad respiratoria [124].
Por otro lado, no todas las s pueden ser IP. Por ejemplo la oracin:
Tres matemticos de diez derivan un lema no se puede dividir en IP de
la siguiente forma:
[ Tres matemticos ] IP
3.4
121
modelos entonativos
modelos fonticos
A su vez los modelos fonticos se pueden clasificar en paramtricos y no paramtricos. Los primeros reciben ese nombre por
emplear un conjunto de parmetros para describir los patrones
de entonacin, mientras que los modelos no paramtricos usan
directamente las muestras los valores de F0 para desarrollar los
modelos entonativos.
Por su parte los modelos fonolgicos , describen la curva entonativa mediante secuencias de categoras tonales obtenidas a
partir de la definicin de un inventario de categoras tonales distintivas y de una gramtica entonacional. Estos modelos buscan
identificar los elementos contrastivos del sistema entonativo, cuya combinacin produce los contornos meldicos encontrados en
los enunciados admitidos para una lengua.
A diferencia de los modelos fonticos, que en primer lugar tienen
en cuenta los acsticos de la entonacin, los modelos fonolgicos
consideran desde el inicio los aspectos funcionales, vinculados
con informacin lingstica de un nivel ms alto.
2. Forma de procesar la informacin entonativa
De acuerdo a la forma en que se modelan los contornos entonativos se distinguen los modelos superposicionales, que obtienen
la curva de F0 a partir de la suma de dos componentes de diferentes dominios temporales; y los secuenciales en los que se
representan los contornos como secuencias de elementos discretos (acentos tonales, tonos de juntura, conexiones), que se asocian
con los elementos de la cadena segmental.
modelos fonolgicos
122
modelos generativos
modelos analticos
tilt =
|D | |D |
|A | |A |
+
2|A | + |A | 2|D | + |D |
(3.4)
123
124
frase, que representan el fenmeno de declinacin y aportan la morfologa global del contorno entonativo. Estos comandos se modelan
empleando funciones impulso. Cada nueva frase implica un reinicio
de la declinacin y se modela con un nuevo comando de frase. Por
otro lado los Comandos de acentos, que se emplean para reproducir
el comportamiento de los acentos tonales. Cada uno de estos comandos est dado por una funcin escaln con cierta ubicacin temporal,
amplitud y duracin.
Dado el siguiente conjunto de parmetros:
Fmin : valor de F0 de base,
I : nmero de comandos de frase,
J : nmero de comandos de acento,
Api : magnitud del i-simo comando de frase,
Aaj : amplitud del j-simo comando de acento,
T0i : ubicacin temporal i-simo comando de frase,
T1j : instante de inicio del j-simo comando de acento,
T2j : tiempo de finalizacin del j-simo comando de acento,
: frecuencia natural del filtro de control de frase,
: frecuencia natural del filtro de control de acento,
: cota relativa superior de los componentes de acento.
ln(F0(t)) =
ln(Fmin ) +
I
X
Api Gp (t T0i ) +
(3.5)
i=1
J
X
j=1
Gp (t) =
2 t e(t) ,
0,
Ga (t) =
para t > 0
en otro caso
(3.6)
h
i
min 1 (1 + t) e(t) , ,
para t > 0
0,
en otro caso
(3.7)
125
126
127
128
3.5
mtodos computacionales
129
130
Los sub-harmnicos del F0 a veces se pueden confundir con submltiplos del F0 real.
Cuando se presentan sub-harmnicos de magnitud considerable,
muchas veces la estimacin objetiva ms razonable para el F0
est en clara contradiccin con la percepcin auditiva.
las resonancias del tracto vocal y el filtrado realizado por el canal de transmisin pueden realzar otros harmnicos por sobre el
primero y causar la estimacin de mltiplos del F0 verdadero.
No se puede descartar de plano una transicin de una octava, ya
que en la prctica a veces suceden.
La forma de los perodos glticos suelen ser irregulares en el comienzo y fin de segmentos sonoros, por lo que en esas posiciones
la correlacin entre perodos adyacentes suele ser baja.
Es dificil encontrar concenso entre oyentes humanos respecto al
inicio y fin de segmentos sonoros.
El filtrado efectuado por algunas configuraciones del tracto vocal
sobre la fuente de excitacin en perodos sordos puede generar
seales con una periodicidad aparente.
La amplitud del habla sonora tiene un rango dinmico grande,
que va desde una amplitud baja en consonantes oclusivas sonoras a un nivel de amplitud elevado durante la pronunciacin de
vocales abiertas.
Resulta difcil distinguir objetivamente entre un ruido de fondo
peridico y una voz tipo murmullo.
131
Se puede encontrar una gran cantidad de algoritmos para la determinacin del pitch, en [72] se los ha dividido en tres generaciones:
1. Los algoritmos de la primera generacin estaban diseados para
detectar el primer harmnico o el perodo de la seal de habla
en regiones sonoras. Los primeros algoritmos de esta generacin
hay se denominan algoritmos del dominio temporal. Muchos de
estos algoritmos tratan de reconstruir el ciclo gltico completo
a partir de la seal de habla. El poder conocer el instante de
cierre gltico es una ventaja de estos algoritmos con respecto a
los de segunda generacin. Por otro lado los primeros algoritmos
del dominio frecuencial de esta generacin fueron los basados
en cepstrum, la transformada inversa de Fourier del logaritmo
del espectro de amplitud. Esta familia de mtodos de estimacin
dominaron el anlisis del habla por ms de dos dcadas debido
a su fiabilidad y eficiencia.
algoritmos de la
primera generacin
algoritmos de
segunda generacin
3. Los algoritmos de la tercera generacin no estn solamente basados en teoras de percepcin del pitch sino tambin en conocimiento sobre la fisiologa del procesamiento auditivo perifrico. Estos algoritmos presentan un considerable poder predictivo,
que se atribuye al menos en parte a dos caractersticas de sus procedimientos: en primer lugar, descomponen la seal de habla en
bandas de frecuencia definidos por los filtros auditivos cocleares,
y en segundo lugar emplean informacin temporal en cada canal
frecuencial por separado. Esto genera cierta inmunidad ante contaminacin inharmnica, y permite tratar de manera adecuada
el problema de harmnicos no resueltos.
algoritmos de tercera
generacin
132
i,k =
sj sj+k
j=m
em em+k
Donde M es el nmero de frames en la seal, K el nmero de muestras en la funcin de correlacin, n el nmero de muestras en la ventana de correlacin (n = w/T , con T igual al perodo de muestreo de la
seal, y w el nmero de muestras en la ventana de anlisis); z indica la
cantidad de muestras de avance entre cada frame de anlisis (z = t/T ,
con t representa el intervalo de anlisis entre cada frame), y ej viene
dado por la ecuacin 3.9
ej =
j+n1
X
(sl )2
(3.9)
l=j
El valor de se encuentra en el rango [1, 1]. Tiende a 1 para retardos correspondientes a mltiplos enteros del perodo real independientemente de posibles cambios en la amplitud de s, siempre y cuando se
mantenga la similitud entre los perodos sucesivos. Para una seal sn
conformada por ruido blanco, i,0 = 1 y i,k tiende a cero para todo
k 6= 0 a medida que w se incrementa.
El intervalo de correlacin w se puede elegir de manera independiente del rango de F0 bajo consideracin. Se lo suele elegir para que
se encuentre en la vecindad del F0 buscado (en el orden de un perodo
gltico promedio).
En este algoritmo se aprovechan los siguientes heursticos para la
determinacin de la F0:
Para segmentos sonoros, el mximo local de correspondiente
al F0 correcto generalmente es el de mayor valor (excluyendo el
correspondiente al valor de retardo nulo).
Cuando hay varios mximos de , todos cercanos a 1, generalmente la mejor eleccin es el correspondiente al menor perodo.
Debido a que el perfil de F0 vara suavemente, los mximos locales correctos de en frames de anlisis adyacentes se localizan en
valores de retardo equivalentes.
A veces el valor real de F0 vara de manera abrupta, siendo posible que pase a valer el doble o la mitad de su valor previo.
La sonoridad tiende a cambiar de estado con baja frecuencia.
Para segmentos sordos, el valor mximo de en valores de retardos distintos a 0 son considerablemente menores a 1.
El espectro de tiempo corto de tramas de habla sonoros y sordos
generalmente son bastante diferentes.
133
134
= a + b x + c x2
= a + b t + c t2
b/2c
(3.10)
wd
dt(x) wd + dh(x) wh
wd + wh
= 1/media(td(x))
wh
= 1/media(hd(x))
d(x)
(3.11)
135
136
I N F O R M A C I N S U P R A S E G M E N TA L
Y CONTENIDO LXICO
ndice
4.1
4.2
4.3
4.4
4.5
.
.
.
.
.
.
.
.
138
139
140
144
147
148
151
152
. 158
. 165
Hasta aqu se han presentado los fundamentos, as como los principales argumentos de esta tesis. En los siguientes tres captulos se
exponen los estudios llevados a cabo con el fin ltimo de aplicar eficientemente informacin suprasegmental para mejorar el proceso de
RAH.
Este captulo estudia diferentes alternativas para obtener desde los
atributos suprasegmentales, informacin lingstica til para el reconocimiento del habla. Se intenta determinar qu patrones presentes en
el canal de informacin suprasegmental se puede asociar con algn
tipo de informacin lxica, que se pueda emplear en la reduccin de
ambigedad durante el RAH.
El contenido de este captulo se puede dividir en cuatro partes.
En la primera se detalla el cuerpo de datos empleados para los estudios del presente Captulo.
Las tres partes restantes se dividen de la siguiente forma:
Descubrimiento de agrupamientos en frases entonativas.
En esta parte se explora la siguiente proposicin: Es posible obtener agrupamientos de de frases a partir de sus rasgos suprasegmentales.
De poder identificar estos distintos grupos, se los podra utilizar
para construir modelos de lenguajes especficos para cada clase
de frase, tal que permitan mejorar el desempeo de un reconocedor estndar. Para evaluar la proposicin se busc determinar
agrupamientos (clusters) de grupos entonativos empleando informacin suprasegmental multidimensional y redes neuronales autoorganizadas.
137
138
4.1
Nmero de Oraciones
1
2
3
4
5
6
11
371
319
36
1
3
Cuadro 1: Distribucin del nmero de oraciones en relacin a la cantidad grupos entonativos contenidos en el corpus SECyT
Respecto a las condiciones bajo las cuales se registraron estas muestras, las elocuciones fueron grabadas en un ambiente de laboratorio
especialmente acondicionado (cmara anecoica), se emplearon micrfonos dinmicos AKG, y digitalizacin con una frecuencia de muestreo
de 16 KHz y resolucin de 16 bits por muestra.
4.2
Una de las formas en que se puede aprovechar la informacin suprasegmental es a travs de las modalidades de una oracin. Si bien el
reconocimiento del habla estrictamente busca la conversin de habla
en secuencias de palabras, tambin resulta til saber si la secuencia
de palabras pronunciadas son parte por ejemplo de una pregunta o
afirmacin.
A travs de la morfologa entonativa es posible caracterizar la modalidad a la que corresponde un fragmento de habla. De esta forma, es
posible utilizar las caractersticas del perfil de F0 para establecer por
ejemplo si el locutor est realizando una interrogacin, declaracin o
139
140
tipos de actos de
habla
Label
lvarez
/p
se
haba
animado
a
contarle
un
chiste
141
Secyt-m1-1.brk
Tiempo
0,677722
1,321935
1,392489
1,622957
2,046500
2,736183
2,822785
3,453146
3,678301
Label
4
4
4
0
1
3
1
0
4
Figura 38: Archivos de anotaciones grafmica (izquierda) y de pausas (derecha), correspondientes a la oracin lvarez, se haba animado a contarle un chiste. La primera columna de ambos archivos indica el
tiempo de inicio de la anotacin (en segundos), y la segunda su
identidad.
polinomios
ortogonales de
Legendre
propiedades de
polinomios
ortogonales
142
Figura 39: Valores promedio para el conjunto completo de frases, del coeficiente de correlacin entre las seales originales de energa y F0 y
sus aproximaciones polinmicas, empleando distintos rdenes polinmicos en su representacin.
Figura 40: Curva de F0 preprocesada (slida), y su aproximacin con polinomios de Legendre de orden 10 (en lnea de puntos), correspondiente a la frase: carga entre quince.
143
144
redes neuronales de
Kohonen
Figura 41: Matriz-U correspondiente a un Mapa autoorganizado obtenido luego del proceso de entrenamiento. En esta representacin se muestran codificados mediante colores las distancias Eucldeas entre vectores de pesos vecinos.
Analizando de esa manera los clusters conformados se pudo distinguir algunos patrones vinculados a las formas globales de la tendencia
de la frase (ascendente o descendiente), y de sus nmeros de picos.
Ello motiv que se realizara un anlisis a nivel de tipos de frases que
permitieran explicar los conglomerados constitudos.
La caracterizacin de frases que finalmente se asociaron con los clusters observados fue la siguiente:
Clase 1: grupo nico de la oracin.
Clase 2: primer grupo de una oracin con ms de un grupo.
Clase 3: grupo intermedio de una oracin con al menos tres grupos.
Clase 4: ltimo grupo de una oracin con al menos dos grupos.
Considerando tales clases, se identific en el conjunto completo de
datos el nmero de instancias de cada tipo. En la figura 42 se muestra
un histograma que indica el conjunto de casos disponibles:
Finalmente se plante la posibilidad de verificar la asociacin entre
esos grupos detectados y las clases que se definieron.
Para ello se emple la red de Kohonen como un clasificador: una vez
entrenada, se etiquet cada neurona con una identidad de clase. Dicha
asignacin de clases a cada neurona se efectu por votacin simple,
de acuerdo a la cantidad de instancias de entrenamiento de cada clase
que se asociaran con la neurona.
145
146
Prueba
Clase 1
Clase 2
Clase 3
Clase 4
General
13,00
78,63
49,75
89,86
76,29
17,37
80,14
37,44
84,66
72,35
7,27
78,90
52,71
91,37
77,78
9,09
75,34
54,93
90,82
76,56
14,28
75,75
50,98
90,55
75,87
10,27
76,99
50,00
92,33
76,82
Cuadro 2: Resultados de clasificacin empleando SOM para 6 particiones diferentes del conjunto de datos disponibles. Clase 1:Frase nica de la
oracin; Clase 2: Primera frase de la oracin; Clase 3: Frase intermedia; Clase 4: ltima frase de la oracin.
147
4.3
148
149
150
Prec.
Frase
( %)
Prec.
Tot.
( %)
0,0
100,0
0,0
16,7
0,0
45,7
46,1
41,4
43,9
0,0
50,0
33,3
42,1
0,0
100,0
0,0
33,3
41,8
45,7
41,2
48,9
44,6
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,0
51,0
59,9
28,9
43,5
20,0
15,2
0,0
10,7
0,0
0,0
0,0
0,0
0,0
0,0
0,0
0,0
16,7
57,3
55,2
32,7
46,8
Prueba
Frase
MOM
1
2
3
4
0,0
55,4
61,6
54,4
0,0
35,0
23,7
39,9
22,2
28,3
38,9
34,0
50,0
50,0
33,3
23,7
MOM-D
1
2
3
4
53,2
55,4
54,4
66,0
29,2
35,0
23,7
45,1
23,3
28,3
22,2
38,4
Leg
1
2
3
4
0,0
46,7
60,2
58,1
0,0
70,2
68,9
29,9
Leg-D
1
2
3
4
0,0
66,5
66,0
54,4
50,0
53,9
47,4
35,1
Cuadro 3: Comparacin de la correlacin entre nmero de palabras de contenido, y de picos en la curva de F0 empleando distintos detectores. Se
indican los valores de precisin al clasificar el nmero de palabras
de contenido a travs de la cantidad de picos detectados en las curvas de F0 correspondientes. MOM: detector de picos empleando el
algoritmo Momel en el preprocesamiento de F0; MOM-D: similar al
anterior pero compensando el efecto de la declinacin en las curvas
de F0; Leg: deteccin de picos sobre la aproximacin polinmica de
Legendre de las curvas de F0; Leg-D: similar al anterior pero compensando el efecto de la declinacin. Los resultados se discriminan
por nmero de palabras de contenido (CW) y tipos de frases, 1:Frase
nica de la oracin; 2: Primera frase; 3: Frase intermedia; 4: ltima
frase de la oracin.
151
Otra razn podra atribuirse a errores en la deteminacin de las curvas de F0. Como se mencion en el apartado 3.5.1, aunque parezca una
tarea sencilla, la estimacin automtica del F0 est sujeta a una serie
de errores, que los algoritmos actuales an no son capaces de resolver
completamente. Estos posibles errores podran traer aparejados picos
anmalos de F0, y confundir el proceso de sus asociaciones con acentos
tonales.
Tambin puede suceder que si bien cada palabra de contenido est
asociada con un acento tonal, el acento tonal no presente como correlato un pico de F0 sino por ejemplo un cambio en la tasa de ascenso o
descenso; o incluso que ese acento se exprese utilizando los otros atributos suprasegmentales como duracin e intensidad, en vez de hacerlo
mediante el F0.
Finalmente, es probable que en el habla continua no todas las palabras de contenido se acenten, y que por otra parte no todas las palabras de funcin se manifiesten inacentuadas. Por lo tanto deberan
existir relaciones un poco ms complejas entre las estructuras sintcticas y las posibilidades de encontrar prominencias en el perfil de F0.
4.4
152
Nmero de Casos
Monoslabas
Agudas
Graves
Esdrjulas
Sobreesdrjulas
11
154
507
66
3
Figura 43: Curvas promedio del contorno de F0 para palabras finales agudas.
En lnea de puntos se representa el desvo estndar medido punto
a punto al efectuar el promedio.
153
154
Figura 44: Curvas promedio del contorno de F0 para palabras finales graves.
En lnea de puntos se representa el desvo estndar medido punto
a punto al efectuar el promedio.
Figura 45: Curvas promedio del contorno de F0 para palabras finales esdrjulas. En lnea de puntos se representa el desvo estndar medido
punto a punto al efectuar el promedio.
Figura 46: Comparacin de los contorno de F0 prototpicos para palabras finales de oracin agudas, graves y esdrjulas. En la grfica las tres
curvas se muestran alineadas a partir de sus extremos finales.
155
156
Figura 47: Gramtica utilizada para la generacin de las oraciones AMPERArgentina. NP: frase nominal; VP: frase verbal; PP: frase preposicional.
Tipo Acento
(T 1)
(ms)
(T 1)
(ms)
(T 2)
(ms)
(T 2)
(ms)
Final
Aguda
Grave
Esdrjula
33
45
62
89
100
87
260
268
235
111
141
136
No Final
Aguda
Grave
Esdrjula
423
364
372
208
250
219
137
102
60
120
146
109
Cuadro 5: Valor medio () y desvos estndar () para los parmetros correspondientes a comandos de acento T 1 y T 2, para cada tipo de slaba
acentuadas en palabras acentuadas finales y no finales.
157
158
al
Ba
Res
se
a
Bi
a
a
ni
ma
Do
a
kon
tar
le
un
Hih
te
Figura 48: Archivos de anotaciones silbicas correspondientes a la oracin lvarez, se haba animado a contarle un chiste. La primera columna indica el tiempo de inicio de la anotacin (en segundos), y la segunda
la identidad silbica en notacin fontica Sampa.
A diferencia de los archivos de anotaciones de la figura 38, en este caso los archivos de anotaciones silbicas no fueron realizadas de
forma manual, sino que se emplearon reglas de silabificacin para el
espaol y los archivos de anotaciones fonticas correspondientes.
Con los archivos .or2 se determinaron los instantes de inicio y fin
para cada una de las tres slabas finales de cada oracin.
Sobre los segmentos as determinados se efectu un anlisis estadstico de duraciones, valor mximo de F0 y de energa para las tres
ltimas slabas de cada oracin en relacin al tipo de acento de cada
palabra final.
Figura 49: Boxplots para las tres ltimas slabas para la variable mximo de
F0. En cada caso se emplea la siguiente notacin, F03: mximo de
F0 en la ante-penltima slaba de la oracin correspondiente; F02:
mximo de F0 en la penltima slaba de la oracin; F01: mximo de
F0 en la ltima slaba de la oracin.
159
160
Figura 50: Boxplots para las tres ltimas slabas de cada oracin, correspondiente al mximo de Energa para las tres ltimas slabas de cada
oracin, discriminando por clases acentuales. E3: mximo de Energa en la ante-penltima slaba; E2: mximo de Energa en la penltima slaba; E1: mximo de Energa en la ltima slaba de la
oracin.
Figura 51: Boxplots correspondiente a las duraciones de las tres ltimas slabas de cada oracin, discriminando por clase acentual. Dur3: duracin de la ante-penltima slaba; Dur2: duracin de la penltima
slaba; Dur1: duracin de la ltima slaba de la oracin.
161
162
Est. de
Levene
Sig.
Sig.
3,083
0,149
0,953
6,544
2,708
1,876
10,898
8,346
22,108
0,046
0,862
0,386
0,002
0,067
0,154
0,000
0,000
0,000
17,821
0,855
7,067
68,747
30,459
19,343
64,128
172,659
154,561
0,000
0,426
0,001
0,000
0,000
0,000
0,000
0,000
0,000
Autovalor
Varianza Acumulada
( %)
Correlacin
0,926
0,235
79,7
100,0
0,693
0,437
Cuadro 7: Autovalores de las dos funciones discriminantes halladas para clasificar las palabras finales de oracin de acuerdo a sus acentos lxicos
empleando atributos suprasegmentales.
Dado el resultado anterior se corri un nuevo anlisis que permitiera verificar si usando matrices de covarianza separadas por grupos
resultaba en cambios de la clasificacin. En esas nuevas pruebas los
Variable
Dur3
F03
E3
Dur2
F02
E2
Dur1
F01
E1
0,046
0,035
0,054
0,257
0,204
0,375
0,288
0,475
0,579
0,402
0,075
0,467
0,347
0,272
0,574
0,087
0,443
0,031
Variable
Clase Acentual
Agudas Graves
Esdrj.
Dur3
F03
E3
Dur2
F02
E2
Dur1
F01
E1
Constante
33,940
0,100
0,002
33,249
0,172
0,001
16,446
0,341
0,000
66,644
46,037
0,102
0,002
30,503
0,165
0,002
13,904
0,268
0,001
54,386
36,298
0,097
0,001
40,487
0,190
0,001
10,459
0,284
0,001
58,647
163
164
Agudas
Graves
Esdrj.
Total
Recuento
Agudas
Graves
Esdrj.
132
25
6
10
408
12
12
74
48
154
507
66
Agudas
Graves
Esdrj.
85,7
4,9
9,1
6,5
80,5
18,2
7,8
14,6
72,7
100
100
100
Figura 52: Representacin de la clasificacin de los ejemplos disponibles empleando las funciones discriminantes cannicas.
4.5 conclusiones
En la figura 52 se presenta la clasificacin del conjunto de casos
disponibles en el corpus LIS-Secyt empleando la funcin discriminante
obtenida en este apartado. Se puede ver una posible separacin de
instancias, a pesar de un claro solapamiento en algunas regiones.
4.5
conclusiones
165
INFORMACIN ACENTUAL EN
EL MODELADO ACSTICO
ndice
5.1
Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
5.2
Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
5.3
5.3.2
5.3.3
5.3.4
5.4
Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
5.5
Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
Este captulo presenta una alternativa para la utilizacin de informacin acentual dentro de los modelos acsticos de un sistema de RAH.
En primer lugar se hace una introduccin al tema y se presenta la
estrategia propuesta.
Posteriormente se detallan algunos antecedentes vinculados al empleo de informacin de acentos lxicos en el proceso de RAH.
En la tercera seccin se presentan los materiales y la metodologa
que se emplearon para llevar a cabo el estudio.
La cuarta seccin muestra los resultados obtenidos, y finalmente el
captulo termina con una conclusin sobre la estrategia y resultados
alcanzados.
5.1
introduccin
167
168
Tambin se expuso previamente que en el Espaol los acentos tonales se ubican generalmente donde existe un acento lxico [95]. Es decir,
los acentos lxicos son reservorios potenciales del acento tonal .
Sin embargo existen casos en los que no se respeta esa regla, y la
sincrona entre acento lxico y tonal no es exacta. Es posible encontrar
situaciones en que se producen defasajes entre el pico de la frecuencia
fundamental y las fronteras de la slaba acentuada, e incluso ocurrir
que una slaba con acento lxico reciba un acento tonal pero que la
frecuencia fundamental no tenga un valor alto o aumentado (denominado H*). Adems en las frases de habla continua es comn que el
contorno de entonacin de la frase predomine sobre los acentos tonales, generando por ejemplo un descenso de la frecuencia fundamental
hacia finales de una frase afirmativa. En esta situacin, el acento lxico
se manifiesta a travs de un aumento de los parmetros restantes (duracin y energa), y el acento tonal recibe la categora de tono bajo (L*)
[24].
La idea subyacente en esta propuesta es que el atributo suprasegmental designado como acentuacin (ver el apartado dedicado a este
tema en la Seccin 3.2.6), condiciona la forma en que se articula el habla, y determina rasgos acsticos diferentes respecto a segmentos no
acentuados.
Adems ese atributo prosdico est correlacionado con el acento lxico, y de esa forma brinda una pista adicional que permite distinguir
palabras. Por lo tanto si se representa de manera indistinta unidades
acentuadas e inacentuadas se pierde esa informacin, lo que justificara realizar una representacin diferenciada para ambos casos.
Sin embargo como en el habla continua, acento prosdico y lxico
pueden aparecer desfasados, alterados por el componente entonativo
de frase, o incluso encontrarse palabras que si se pronunciaran de manera aislada resultaran acentuadas, al articularse en este continuo no
manifiestan acentos prosdicos, la aproximacin seguida en este estudio se debe pensar como una simplificacin de lo observado en la
realidad.
En otras palabras, durante este estudio se adopta la simplificacin de
considerar que para todas las palabras de contenido, la vocal sobre la
5.2 antecedentes
que recae el acento lxico presenta una manifestacin fsica distintiva,
que se representa modelando esta vocal como acentuada en contraposicin a las vocales de slabas tonas lexicalmente y a las vocales de
palabras de funcin.
Este trabajo fue presentado en [38], mientras que el desarrollo del
sistema de referencia se present en [177].
5.2
antecedentes
Al igual que para el caso ms general del empleo de informacin suprasegmental en el proceso de reconocimiento, se pueden encontrar
antecedentes respecto al empleo de informacin de acentos lxicos en
las distintas fases del proceso de RAH: en la fase de preprocesado, durante el posprocesamiento de las hiptesis de reconocimiento, y aquellos que intentan introducir la informacin directamente en el proceso
de bsqueda de los sistemas basados en HMM.
En [186] se estudian los parmetros acsticos que tienen mayor correlacin con el acento lxico, y se los agrega como atributos adicionales
al vector de caractersticas de un sistema de reconocimiento del habla
telefnica. Los autores obtienen una reduccin relativa de 5,3 % de la
tasa de error a nivel palabra respecto a los sistemas de referencia.
En [3] se trata de explotar la relacin entre acentos tonales y unidades lxicas para mejorar el desempeo de un sistema de RAH. La
estrategia propuesta utiliza: 1) un modelo acstico prosdico basado
en redes neuronales para estimar la presencia de acentos tonales a partir de rasgos acsticos, 2) un modelo probabilstico de secuencias de
etiquetas de acentos tonales y 3) un modelo probabilstico de secuencias de etiquetas tonales dada una secuencia de palabras y acentos
lexicales.
Los modelos se utilizan para calcular la lista de N-mejores hiptesis
de reconocimiento. Empleando esta estrategia los autores reportan una
reduccin del error de reconocimiento a nivel de palabras de 1,3 %
respecto a un sistema de referencia.
Para el Espaol, un aporte pionero en la utilizacin de acentos lxicos en el reconocimiento del habla fue presentado en [117]. En ese
trabajo la informacin de los correlatos acsticos del acento lexical: frecuencia fundamental, energa, duracin y espectro, se utilizaron en el
modelo lingstico del reconocedor. Especficamente se propuso emplear informacin sobre secuencias de acentos lxicos para modificar
las probabilidades de transicin entre palabras en el marco de un modelo de lenguaje variante en el tiempo. Se reportaron disminuciones
relativas del error del 28,91 % respecto al sistema de referencia empleando como material de evaluacin habla continua para el Espaol
peninsular. En ese mismo trabajo se estudia la correlacin entre tonicidad lxica y manifestaciones suprasegmentales para ese cuerpo de
datos.
Como el estudio presentado en este captulo evala la utilizacin de
informacin acentual en los modelos acsticos, en cierta medida com-
169
170
5.3
materiales y mtodos
La base de datos empleada, forma parte del proyecto SALA I (SpeechDat Across Latin America) [122]. El subconjunto correspondiente al
Espaol de Argentina [61] est constituido por cinco regiones distribuidas en todo el pas. El estilo de habla corresponde a prrafos ledos, extrados de diarios y libros de la Argentina, palabras aisladas
de comando y control, secuencias de nmeros, nombre de empresas
o apellidos, algunas frases cortas espontneas y oraciones elaborados
por lingistas.
Las grabaciones se realizaron a travs de la red de telefona fija por
medio de una computadora equipada con una placa de adquisicin
AVM-ISDN-A1 y una interfaz de acceso bsico a ISDN (BRI). La frecuencia de muestreo empleada fue de 8 kHz a 16 bits por muestra.
Para este trabajo se utilizaron frases de habla continua de la base
SALA Argentina, regin SUR. Esta regin comprende las provincias
de Buenos Aires, Santa Fe, Entre Ros, La Pampa, Neuqun, Ro Negro, Chubut, Santa Cruz y Tierra del Fuego. La regin SUR es la ms
populosa de Argentina con un nmero aproximado de 21 millones de
habitantes (corresponde al 65 % del total del pas) y forma parte de
una de las divisiones dialectales propuestas en [183].
171
172
Valor
2722
2723
5,4
42,5
9,2
2
40
Como se mencion, el sistema de RAH propuesto realiza el mismo preprocesamiento sobre la seal de habla que los sistemas de referencia.
A continuacin se describir los mdulos restantes de este sistema.
Diccionario de Pronunciaciones y Modelo de Lenguaje
Para el caso del sistema propuesto se modific el conversor de grafemas a fonemas desarrollado para los sistemas de referencia con el fin
de distinguir las vocales acentuadas de las inacentuadas lexicalmente.
Para ello se utiliz un conjunto de reglas ortogrficas presentadas en
[80].
En experimentos exploratorios previos no se logr una mejora en
el reconocimiento de palabras empleando las monoslabas acentuadas.
Por ello las vocales correspondientes a palabras monosilbicas fueron
consideradas no-acentuadas. Esto puede justificarse por el hecho que
173
174
factor de lenguaje
Por su parte el factor de lenguaje post-multiplica la verosimilitud de la red de palabras de forma de incrementar la importancia del
modelo de lenguaje con respecto al modelo acstico. En el caso de un
factor de lenguaje nulo slo se considerara el modelo acstico en el
reconocimiento.
Finalmente el factor de penalizacin de palabras insertadas factor de penalizacin de palabras insertadas permite controlar la probabilidad de insercin de palabras durante el reconocimiento. Al aumentar este factor se hacen ms probables hiptesis de secuencias con
mayor nmero de palabras, aumentando tambin el riesgo de inserciones de palabras errneas.
5.4
resultados
5.4 resultados
Tambin se puede encontrar los valores de R y P promedios y sus
desvos estndar para cada sistema de reconocimiento correspondiente
a los diferentes modelos acsticos evaluados.
Particin
Mono.
MonoAc.
TdCIP
TdCEP
1
2
3
4
5
6
7
8
9
10
85,5
88,8
88,4
92,5
86,6
91,0
83,8
81,1
78,1
85,7
83,5
87,3
87,0
91,7
86,2
90,0
82,6
79,6
76,9
84,1
85,1
88,0
88,5
92,9
85,5
93,0
86,0
81,4
80,1
88,1
82,9
86,1
86,8
92,4
85,1
91,5
84,7
80,3
79,2
87,0
84,8
86,5
88,9
90,5
85,2
91,9
85,0
80,6
76,0
83,7
83,1
89,9
87,2
88,3
84,4
90,4
82,1
79,1
73,9
81,7
84,3
89,4
90,4
93,4
87,6
93,3
86,5
82,9
81,2
86,4
80,9
86,5
85,5
89,8
85,6
89,8
80,4
79,0
77,9
82,7
Promedio
Desvo Estd.
86,1
4,4
84,9
4,5
86,8
4,2
85,6
4,2
85,3
4,7
83,5
4,8
87,6
4,1
83,8
4,3
Cuadro 12: Resultados de reconocimiento en trminos de porcentajes de reconocimiento de palabras (R), y de precisin (P) empleando diferentes unidades acsticas y validacin cruzada de 10 conjuntos.
Mono.: monofonos convencionales; MonoAc.: modelo propuesto
de monofonos acentuados; TdCIP: trifonos dependientes del contexto interior de las palabras; TdCEP: trifonos dependientes del
contexto entre palabras.
175
176
Figura 53: Tasas de Precisin (P) en funcin del factor de tiempo real (RT)
para Monofonos: monofonos convencionales; Monof. Acent.: modelo propuesto de monofonos acentuados; TdCIP: trifonos dependientes del contexto interior de las palabras; TdCEP: trifonos dependientes del contexto entre palabras
TR
Memoria
(KB)
Monofonos
Monofonos acentuados
TdCIP
TdCEP
0,10
0,13
0,95
3,89
142
170
940
986
5.5 conclusiones
En la Tabla 13 se puede observar que los requerimientos de memoria
son consistentes con la cantidad de unidades de los modelos propuestos. A pesar de requerir mayor espacio en memoria, los modelos de
monofonos acentuados presentan un factor de tiempo real cercano al
de los monofonos estndar. Los modelos de trifonos TdCEP mostraron
la mayor relacin de tiempo real en concordancia con el mayor nmero
de unidades.
5.5
conclusiones
En este trabajo se construyeron modelos acsticos basados en la informacin de acento lexical. Se evalu el desempeo del modelo propuesto con respecto al modelado acstico estndar empleando como
material de evaluacin habla telefnica leda para el reconocimiento
automtico del habla del Espaol de Argentina.
Para el conjunto de datos disponibles el empleo de modelos semicontinuos independientes del contexto (monofonos y monofonos acentuados) permiti obtener porcentajes de reconocimiento similares a los
obtenidos empleando modelos dependientes del contexto (trifonos).
El empleo de los monofonos acentuados permiti mejorar el porcentaje de reconocimiento en un 1,78 % con respecto a los trifonos dependientes del contexto entre palabras, con una reduccin del 89 % en el
tiempo de procesamiento. Si se requiere implementar un sistema de
reconocimiento en tiempo real es necesario imponer restricciones al
haz de decodificacin en el algoritmo de Viterbi para lograr tasas de
tiempo real menores a un RT de 100 %. Si bien esta restriccin provoca
una disminucin en las tasas de reconocimiento, la misma no es muy
significativa.
Como en este trabajo se distinguen las vocales acentuadas de las
inacentuadas slo a partir del texto, deja abierta la posibilidad de experimentar realizando esa distincin utilizando informacin acstica.
177
ndice
6.1
6.2
6.3
6.4
6.5
6.6
6.7
Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . .
Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sistema Propuesto . . . . . . . . . . . . . . . . . . . . . . . .
6.3.1
Prediccin Entonativa . . . . . . . . . . . . . . . . .
6.3.2
Comparacin Entonativa . . . . . . . . . . . . . . .
Compatibilidad Entonativa Empleando un Predictor Ideal
Materiales y Mtodos . . . . . . . . . . . . . . . . . . . . . .
6.5.1
Corpus de Datos Empleados . . . . . . . . . . . . .
6.5.2
Sistema de RAH de Referencia . . . . . . . . . . . .
Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
179
180
181
182
186
190
190
191
191
193
199
6.1
introduccin
179
180
6.2
antecedentes
6.3
sistema propuesto
181
182
Prediccin Entonativa
183
184
RMSE
( %)
Af
Aa
T0r
T1r
T2-T1
8
18
31
25
29
Cuadro 14: Porcentajes de error RMSE promedio en la prediccin de los parmetros del modelo de Fujisaki, asumiendo como estndar de
referencia los valores determinados a partir de una bsqueda exhaustiva empleando algoritmos genticos.
185
186
RMSE
(ST)
RMSE
(Ln)
RMSE
(ERB)
MSE
(Ln)
64
4,7
0,27
1,12
0,078
Comparacin Entonativa
Como se mencion, el mdulo de comparacin de contornos entonativos es el responsable de determinar el grado de similitud o distancia
entre la curva de F0 real y las predichas. Se utilizaron dos estrategias
para realizar las comparaciones entre las curvas de F0.
En primer lugar se efectu la comparacin de perfiles entonativos
considerando frases completas. En este caso, el mecanismo de funcionamiento del mdulo de prediccin entonativa hace que todas las curvas predichas tengan igual duracin y resulten alineadas con la curva
de F0 calculada a partir de la frase a reconocer.
Por lo tanto es posible realizar la comparacin entre la curva original
y las correspondientes a las hiptesis midiendo sus distancias punto a
punto.
La segunda estrategia para contrastar las curvas de entonacin surgi una vez implementado y evaluado el sistema siguiendo la estrategia de comparacin a nivel de frases completas.
Considere el ejemplo de la figura 55, donde se muestran las 5 mejores hiptesis de reconocimiento correspondientes a la frase el diurtico
le caus prdida de peso.
De manera similar a lo que se puede observar en el ejemplo presentado, en muchas instancias de reconocimiento se detectaron casos
en los que ninguna de las hiptesis obtenidas era completamente correcta, aunque se podan encontrar eventualmente algunos fragmentos
correctos en el interior de las hiptesis.
A partir de esa observacin se decidi proponer una estrategia de
comparacin entonativa que intentase rescatar esas porciones correctas
para distintos fragmentos de la frase completa, y componer una hiptesis alternativa mediante la concatenacin de las mejores hiptesis
para cada uno de los segmentos de una frase.
Para llevar esta idea a la prctica se propuso realizar la estimacin
de compatibilidad entonativa a nivel de segmentos de frases, empleando para la determinacin de esos segmentos los instantes temporales
67
136
146
207
223
303
el
directivo
de
paso
al
equivalentes
Hiptesis h4
1237
4464
555
3664
896
4751
48
67
136
207
223
67
136
207
223
303
Hiptesis h2
48
67
136
146
207
223
67
136
146
207
223
303
el
directivo
de
causO
al
equivalentes
el
directivo
descanso
al
equivalentes
1237
4464
4213
908
4751
Hiptesis h5
1237
4464
555
3659
902
4751
48
67
136
207
223
67
136
207
223
303
el
diurEtico
descanso
al
equivalentes
1237
4468
4209
908
4751
Hiptesis h3
48
67
136
146
207
223
67
136
146
207
223
303
el
directivo
de
regreso
al
equivalentes
187
1237
4464
555
3672
893
4751
en que las hiptesis de reconocimiento muestran similitudes y discrepancias, aplicando el siguiente procedimiento:
Considerar como tiempo inicial del primer segmento, el menor
tiempo de todas las hiptesis.
Asumir como tiempo final del ltimo segmento, el instante correspondiente al final de palabra de mayor valor temporal entre
todas las hiptesis.
Adoptar como puntos intermedios de segmentacin, aquellos
donde coincidan los tiempos de inicio de todas las hiptesis.
Ilustremos cmo se aplican estas reglas para el ejemplo de la figura
55.
Siguiendo el conjunto de reglas detalladas, los intervalos de comparacin quedarn conformados de la siguiente manera:
Partiendo de la segmentacin de la tabla 16, uno se podra preguntar cul sera la secuencia de hiptesis que minimiza el error de reconocimiento por palabras. Tal secuencia de sub-hiptesis ptimas en el
188
Inicio
(s)
Final
(s)
0,48
0,67
1,36
2,07
2,23
0,67
1,36
2,07
2,23
3,03
S1
S2
S3
S4
S5
Cuadro 16: Segmentacin de la frase el diurtico le caus prdida de peso empleando la segunda estrategia para la comparacin de contornos
entonativos.
Eleccin ptima
(h1 | h2 | h3 | h4 | h5)
h5
h2
(h1 | h2 | h3 | h4 | h5)
(h1 | h2 | h3 | h4 | h5)
Cuadro 17: Fragmentacin de la frase el diurtico le caus prdida de peso empleando la segunda estrategia para la comparacin de contornos
entonativos.
h1
h2
MSE
(Hz)
h3
304,3
4663,6
2578,8
771,1
5925,7
492,7
5169,9
2011,0
490,3
5014,3
494,7
4478,9
2519,8
750,4
4923,0
Segmento
S1
S2
S3
S4
S5
h4
h5
455,3
4420,1
2815,7
773,8
4721,9
644,4
2879,5
3622,3
1089,0
5762,9
189
Figura 56: Comparacin de contornos de F0 original (arriba), y generados asumiendo un predictor de F0 ideal, tal como se describe en la Seccin
6.4, para el segundo segmento del ejemplo presentado en la figura
55. El segmento original, as como el correspondiente a la hiptesis h5 corresponden a la palabra: diurtico, mientras que las dems
hiptesis corresponden a la palabra directivo. La curva de F0 ms
compatible con la entonacin de la frase original se muestra sombreada y corresponde a la hiptesis h5.
67
136
146
207
223
303
el
directivo
de
paso
al
equivalentes
1237
4464
555
3664
896
4751
Hiptesis Sintetizada
48
67
136
146
207
223
67
136
146
207
223
303
el
diurEtico
de
causO
al
equivalentes
1237
4468
555
3659
908
4751
190
6.4
Uno de los argumentos en contra de la estrategia de prediccin entonativa que se emplea en el sistema propuesto, viene dado por las
caractersticas que presentan las hiptesis generadas por el reconocedor.
Como se coment, este mdulo de prediccin entonativa se desarroll pensando en generar contornos de F0 adecuados para sistemas de
sntesis de habla. En esos sistemas por lo general se parte de oraciones
bien formadas sintcticamente, y es fundamentalmente esa informacin sintctica la que se explota durante la prediccin.
Por otro lado, como se puede observar en el ejemplo presentado en
la figura 55, las hiptesis emitidas por el reconocedor, por lo general
carecen de una estructura sintctica aceptable, lo que siembra dudas
respecto a los resultados del proceso de prediccin descripto.
Si bien se pudo determinar que el modelo de prediccin ofrece un
desempeo aceptable comparando los errores entre las curvas de F0
reales del corpus y las predichas para esas mismas oraciones, como se
detall en la Seccin 6.3.1, ello no garantiza que esa bondad de prediccin se extrapolara a las frases candidatas resultantes del proceso de
reconocimiento, con estructuras sintcticas tan diferentes a las vistas
durante el entrenamiento del modelo.
De esa manera se decidi evaluar adicionalmente la viabilidad de
la estrategia de reestimacin de hiptesis propuesta, pero partiendo
de una estimacin correcta de las curvas de F0 para cada hiptesis de
reconocimiento, es decir, asumiendo que se contaba con un predictor
ideal de contornos entonativos.
Para hacerlo se reemplaz el mdulo de prediccin entonativa por
la lectura por parte de un humano de las oraciones candidatas y la
posterior extraccin de sus curvas de F0 correspondientes.
6.5
materiales y mtodos
191
192
Valor
54277
54278
8,328
321,192
6.6 resultados
reconocimiento y se realiz una comparacin respecto a la curva de
F0 observada en la seal de audio a reconocer. De acuerdo al grado
de similitud de dicha comparacin se reordenaron las hiptesis y se
estimaron las nuevas tasas de reconocimiento.
Se pueden distinguir dos partes dentro del modelo de prediccin
entonativa: por un lado un rbol de decisin y clasificacin emplea
informacin lxica y gramatical para estimar parmetros del modelo
superposicional de Fujisaki, y por otro lado se convierten los parmetros predichos en una curva de F0.
La informacin de entrada a los rboles de clasificacin implica obtener la segmentacin fontica y las etiquetas de clase de palabra para
cada hiptesis. La segmentacin fontica se realiza empleando alineamiento forzado, y las etiquetas gramaticales son obtenidas empleando
el POS tagger de Freeling [6].
Por otro lado, la comparacin de contornos de entonacin se realiz
considerando frases completas, y debido a que todas tenan la misma
longitud se determin las diferencias comparando las curvas punto a
punto. En la comparacin se emplearon como escalas la diferencia en
Hz, en MSE y en ERB. En la siguiente tabla se resumen los resultados
obtenidos.
6.6
resultados
193
194
Comp. F0
ERBs
Hz
MSE
SNR
(dB)
ERBs
Hz
MSE
1,44
1,74
1,87
1,35
93,63
89,95
87,28
86,78
0,59
0,75
1,13
1,11
41,65
40,98
44,77
39,35
1,38
1,11
1,33
0,98
93,48
90,80
87,00
86,39
0,60
0,82
1,07
0,85
36,03
35,90
39,00
34,30
1,25
1,13
1,09
1,11
92,70
88,94
86,74
85,76
0,62
0,76
0,68
0,86
27,47
27,05
29,58
25,96
0,73
1,69
1,05
0,62
89,79
86,84
84,27
84,10
0,66
1,16
0,64
0,73
15,08
14,95
16,79
14,19
1,07
0,92
1,10
1,00
77,81
75,10
73,21
72,04
1,80
1,19
1,77
1,66
10
ERBs
Hz
MSE
ERBs
Hz
MSE
44,10
43,28
47,46
41,59
15
ERBs
Hz
MSE
ERBs
Hz
MSE
(R)
( %)
20
ERBs
Hz
MSE
ERBs
Hz
MSE
(R)
( %)
ERBs
Hz
MSE
ERBs
Hz
MSE
Peso LM
Cuadro 20: Comparacin del desempeo entre los sistemas de RAH de referencia y el propuesto para distintas condiciones acsticas.
6.6 resultados
En la figura 59 se muestra un grfico de cajas comparando el desempeo del sistema original respecto al propuesto empleando la escala
Hz, sin considerar el aporte del modelo de lenguaje.
Para descartar que las diferencias en el desempeo observado entre
el sistema propuesto y el de referencia de la tabla 20 se deba al azar, se
efectu un estudio estadstico de igualdad de medias entre estos casos.
En la tabla 21 se presentan los resultados de la prueba Anova, contrastando los valores de tasas de reconocimiento entre el sistema original y el propuesto adoptando la escala de Hz en el mdulo de comparacin entonativa.
Analizando los resultados del estadstico de Levene, y asumiendo
0,05 como valor mnimo, para todos los casos de la tabla 21, salvo el
ltimo, se puede aceptar la hiptesis nula de varianzas similares entre
los dos grupos.
Dicha igualdad de varianzas es un requisito para la validez de la
prueba Anova, sin embargo como para las dos clases consideradas el
nmero de instancias es similar, sera vlido considerar que la prueba
de Anova es vlida tambin para el ltimo caso de la tabla.
Con respecto a los estadsticos correspondientes a la prueba Anova
(las dos ltimas columnas de la tabla 20), se ve que para todos los casos
el desempeo del sistema propuesto, empleando una escala lineal para
comparar las curvas de F0, difiere significativamente respecto al desempeo del sistema de referencia (nuevamente usando un p = 0,05).
195
196
Peso LM
SNR
(dB)
Est. de
Levene
Sig.
Sig.
0
0
0
0
0
5
10
15
20
0,012
0,606
0,113
0,000
1,084
0,914
0,447
0,740
0,983
0,312
12,386
27,285
32,142
26,425
20,356
0,02
0,00
0,00
0,00
0,00
5
5
5
5
5
5
10
15
20
0,400
0,015
0,160
1,649
7,203
0,844
0,905
0,694
0,215
0,015
33,1730
357,670
422,524
281,823
248,342
0,00
0,00
0,00
0,00
0,00
Cuadro 21: Anlisis de igualdad de medias (Anova) para las tasas de reconocimiento comparando el sistema original y el propuesto empleando
la escala de Hz.
6.6 resultados
Sistema
Referencia
Propuesto
Referencia
Propuesto
Referencia
Propuesto
Referencia
Propuesto
Referencia
Propuesto
Referencia
Propuesto
Referencia
Propuesto
Referencia
Propuesto
Referencia
Propuesto
Referencia
Propuesto
Comp. F0
Hz
R2
R22
SNR
(dB)
Hz
R2
R22
1,22
1,32
1,13
1,26
93,58
88,74
88,73
89,98
0,30
0,86
0,79
0,99
41,93
44,90
42,90
43,52
1,39
1,21
1,25
1,36
93,54
86,92
87,39
88,85
0,54
1,22
0,83
0,96
36,35
37,61
38,16
39,38
1,35
1,16
1,23
1,27
92,75
86,23
88,34
86,54
0,63
1,07
0,61
0,85
27,74
30,10
28,72
28,68
0,97
1,06
0,93
1,01
89,88
84,11
84,08
85,99
0,65
0,96
0,96
0,57
15,10
16,70
15,75
15,65
1,04
1,02
1,05
1,08
77,89
72,49
72,75
74,33
1,83
1,53
1,82
1,68
10
Hz
R2
R22
Hz
R2
R22
44,226
46,71
45,189
45,87
15
Hz
R2
R22
Hz
R2
R22
(R)
( %)
20
Hz
R2
R22
Hz
R2
R22
(R)
( %)
Hz
R2
R22
Hz
R2
R22
Peso LM
197
198
6.7 conclusiones
En la figura 60 se muestran las curvas de F0 generadas a partir del
procedimiento detallado en este apartado y correspondientes al segundo segmento del ejemplo de la figura 55.
En estas pruebas se emple la versin de habla limpia del subconjunto mencionado y adoptando un peso en el modelo de lenguajes de
5. Los resultados obtenidos para el conjunto de estas oraciones efectuando las comparaciones de contornos entonativos empleando la escala medida en Hz, mostraron un aumento en trminos absolutos de
1,52 % respecto a las tasas de reconocimiento de referencia: 91,89 % vs.
93,41 %.
Figura 60: Comparacin de contornos de F0 original (arriba), y generados asumiendo un predictor de F0 ideal, para el ejemplo presentado en la
figura 55.
6.7
conclusiones
Este trabajo muestra una metodologa nueva para hacer uso del conocimiento entonativo durante el reordenamiento de las hiptesis de
reconocimiento.
199
200
6.7 conclusiones
regiones sonoras y sordas, para mejorar el proceso de desambiguacin
de segmentos candidatos. El mdulo de prediccin entonativa integrado en el modelo propuesto pierde esta informacin potencialmente
valiosa.
Como trabajos futuros, resta evaluar la carga computacional adicional que implica el mtodo propuesto sobre el sistema de RAH convencional, proponer una nueva alternativa para pesar las evidencias de
similitud entonativa respecto a la verosimilitud de cada hiptesis en
caso de emplear modelos de lenguaje, y el comportamiento bajo un
escenario de mltiples locutores.
Tambin se planea extender esta idea al uso de un mdulo de prediccin entonativa que ofrezca un conjunto de curvas entonacionales
candidatas, en lugar de solamente una. Esto representa una visin ms
realista respecto de la relacin entre atributos lxico-sintcticos y entonacin, ya que se puede observar que a partir de un texto determinado
los locutores eligen uno de un conjunto de contornos de F0 posibles.
201
CONCLUSIONES
203
204
conclusiones
nmero de palabras de contenido presentes en una frase, en vez de
recurrir directamente a un solo atributo prosdico.
Finalmente en relacin a la tercera hiptesis, se pudo determinar la
viabilidad de clasificar palabras finales de oracin de acuerdo a sus
acentos lxicos. Se expuso esa viabilidad especificando patrones comunes en la morfologa de las curvas de F0 correspondientes a finales
de oracin, como mediante anlisis estadsticos a nivel de atributos
suprasegmentales sobre las ltimas tres slabas de cada oracin.
Los resultados de la serie de experimentos de este Captulo, abren
posibles lneas de investigacin tanto para comprender mejor cmo se
manifiestan los fenmenos prosdicos en nuestro idioma, como para
su aplicacin especfica dentro de sistemas de sntesis y reconocimiento del habla para el Espaol de Argentina.
En el Captulo 5 se presenta una alternativa para la utilizacin de informacin acentual dentro de los modelos acsticos de un sistema de
RAH. Se propone y evala la utilizacin de acentos lxicos en los modelos acsticos, creando modelos separados para vocales acentuadas
e inacentuadas lexicalmente. La evaluacin se lleva a cabo comparando el desempeo del sistema propuesto con respecto a un sistema de
referencia estndar.
Empleando como corpus de evaluacin habla telefnica leda correspondiente al Espaol de Argentina, el empleo de los monofonos acentuados propuestos permiti mejorar el porcentaje de reconocimiento
en un 1, 78 % con respecto a los trifonos dependientes del contexto
entre palabras, con una reduccin del 89 % en el tiempo de procesamiento.
Como en esos estudios distinguen las vocales acentuadas de las inacentuadas slo a partir del texto, deja abierta la posibilidad de experimentar realizando esa distincin a partir de informacin acstica.
El Captulo 6 propone una nueva metodologa para hacer uso del
conocimiento entonativo durante el reordenamiento de las hiptesis
de reconocimiento.
El mtodo propuesto demostr ser til para mejorar el desempeo
de un reconocedor del habla de referencia para el Espaol de Buenos
Aires, dependiente del locutor, en caso de no utilizar modelos de lenguaje.
Tambin se demostr que el aporte en esas circunstancias no aumenta para menores relaciones seal-ruido. Lo que se puede justificar
considerando que el mtodo de reestimacin propuesto resulta til
siempre y cuando dentro de las hiptesis de reconocimiento se encuentren las palabras correctas. A medida que la seal a reconocer se
ve ms degradada, es menos probable que lleguen a la fase final de reconocimiento fragmentos de hiptesis correctos y por lo tanto pierde
efectividad la propuesta de reestimacin.
Es posible que el aporte de la informacin suprasegmental a la robustez del reconocimiento sea viable solamente en las fases de preprocesamiento y durante el proceso de bsqueda, no as durante el
posprocesamiento.
conclusiones
Resulta lgico pensar que los contornos de entonacin para una determinada oracin sean dependientes del locutor.
De esta forma se debe notar que el modelo propuesto utiliz un
mdulo de prediccin ajustado al locutor a reconocer. Esto puede significar la necesidad de adaptar este mdulo a las caractersticas entonativas de nuevos locutores.
Como trabajo futuro se planea extender esta idea al uso de un mdulo de prediccin entonativa que ofrezca un conjunto de curvas entonacionales candidatas, en lugar de solamente una, ya que esto sera
ms ajustado a la realidad.
En resumen, a travs de esta Tesis se ha estudiado diferentes alternativas para el empleo de informacin suprasegmental en el reconocimiento automtico del habla.
Se describieron y estudiaron algunas fuentes de informacin potencialmente valiosa para el RAH, asociada con atributos suprasegmentales.
Adems se propuso una alternativa para emplear esta fuente de informacin dentro de los modelos acsticos de un reconocedor.
Tambin se presentaron algunas ideas novedosas respecto a cmo se
podra emplear informacin entonativa en la reestimacin de hiptesis,
durante el posprocesamiento de los sistemas de RAH.
Finalmente, esta Tesis es una de las primeras investigaciones realizada en pos de emplear informacin prosdica para el RAH del Espaol
hablado en Argentina, y constituye as un aporte a este amplio rea de
estudio.
205
BIBLIOGRAFA
[1] Abercrombie, D. (1967), Elements of General Phonetics, Edinburgh
University Press, Edinburgo, Inglaterra. (Citado en la pgina 109.)
[2] Adami, A. G. (2007), Modeling Prosodic Differences for Speaker
Recognition, Speech Communication, vol. 49, pp. 277291. (Citado
en la pgina 47.)
[3] Ananthakrishnan, S. y Narayanan, S. (2007), Improved
Speech Recognition Using Acoustic and Lexical Correlates of
Pitch Accent in a N-Best Rescoring Framework, in Proceedings
of the International Conference on Acoustics, Speech, and Signal
Processing (ICASSP), pp. 873876, Honolulu, Hawai. (Citado en
la pgina 169.)
[4] Andruski, J. E. y Costello, J. (2004), Using Polynomial Equations to Model Pitch Contour Shape in Lexical Tones: an Example from Green Mong, Journal of the International Phonetic Association, vol. 34 (2), pp. 125140. (Citado en la pgina 141.)
[5] Atal, B. S. y Hanauer, S. L. (1971), Speech Analysis and Synthesis by Linear Prediction, Journal of the Acoustical Society of America, vol. 50 (2), pp. 637655. (Citado en la pgina 30.)
[6] Atserias, J., Casas, B., Comelles, E., Gonzlez, M., Padr, L.,
y Padr, M. (2006), FreeLing 1.3: Syntactic and Semantic Services in an Open-Source NLP Library, in Proceedings of the
5th International Conference on Language Resources and Evaluation, pp. 4855, Gnova, Italia. (Citado en las pginas 181
y 193.)
[7] Aubert, X. y Dugast, C. (1995), Improved Acoustic-Phonetic
Modeling in Philips Dictation System by Handling Liaisons and
Multiple Pronunciations, in Proceedings of the 4th European
Conference on Speech Communication and Technology (Eurospeech), pp. 767770, ISCA, Madrid, Espaa. (Citado en la pgina 66.)
[8] Aull, A. M. (1985), Lexical Stress and its Application to Large
Vocabulary Speech Recognition, in Proceedings of the International Conference on Acoustics, Speech, and Signal Processing
(ICASSP), pp. 14491552, Tampa, Estados Unidos. (Citado en la
pgina 45.)
[9] Bates, R. A. (2003), Speaker Dynamics as a Source of Pronunciation
Variability for Continuous Speech Recognition Models, Phd, University of Washington, Washington, Estados Unidos. (Citado en la
pgina 49.)
206
bibliografa
[10] Beckman, M., Daz-Campos, M., McGory, J. y Morgan, T.
(2002), Intonation Across Spanish, in the Tones and Break Indices Framework, Probus. Special Issue on Intonation in Romance,
vol. 14, pp. 936. (Citado en la pgina 117.)
[11] Beckman, M. E., Hirschberg, J. y Shattuck-Hufnagel, S.
(2005), The Original ToBI System and the Evolution of the ToBI Framework, in Jun, S.-A., editor, Prosodic Typology: The
Phonology of Intonation and Phrasing, cap. 1, pp. 954, Oxford
University Press, Oxford, Inglaterra. (Citado en la pgina 127.)
[12] Bellman, R. (1957), Dynamic Programming, Princeton University
Press, Nueva Jersey, Estados Unidos. (Citado en la pgina 83.)
[13] Benzeghiba, M., De Mori, R., Deroo, O., Dupont, S., Erbes, T.,
Jouvet, D., Fissore, L., Laface, P., Mertins, A., Ris, C., Rose,
R., Tyagi, V. y C., W. (2007), Automatic Speech Recognition and
Speech Variability: A Review, Speech Communication, vol. 49 (1011), pp. 763786. (Citado en las pginas 3 y 27.)
[14] Black, A., Lenzo, K. y Pagel, V. (1998), Issues in Building General Letter to Sound Rules, in Proceedings of the ESCA/COCOSDA Workshop on Speech Synthesis, pp. 767770, Jenolan
Caves, Australia. (Citado en la pgina 65.)
[15] Boersma, P. (2001), Praat, a System for Doing Phonetics by
Computer, Glot International, vol. 9-10 (5), pp. 341345. (Citado en la pgina 198.)
[16] Borzone, A., Signorini, A. y Massone, M. (1982), Rasgos Prosdicos: el Acento, Fonoaudiolgica, vol. 28, pp. 1936. (Citado
en la pgina 168.)
[17] Breiman, L., Friedman, J. y Stone, C. (1984), Clasification and Regression Trees, Chapman and Hall, Nueva York, Estados Unidos.
(Citado en la pgina 183.)
[18] Campbell, N. (1990), Evidence for a Syllable-based Model of
Speech Timing, in Proceedings of the International Conference
on Spoken Language Processing, pp. 912, Kobe, Japn. (Citado
en la pgina 99.)
[19] Chan, O. (2008), Prosodic Features for a Maximum Entropy Language Model, Phd, School of Electrical, Electronic and Computer
Engineering, The University of Western Australia. (Citado en la
pgina 180.)
[20] Chen, S. F., Kingsbury, B., Mangu, L., Povey, D., Saon, G., Soltau, H. y Geoffrey, Z. (2006), Advances in Speech Transcription
at IBM Under the DARPA EARS Program, IEEE Transactions On
Audio, Speech, And Language Processing, vol. 14 (5), pp. 15961608.
(Citado en la pgina 3.)
[21] Chomsky, N. (1995), The Minimalist Program. Current Studies in
Linguistics, The MIT PRess, Cambridge, Estados Unidos. (Citado
en la pgina 111.)
207
208
bibliografa
[22] Chomsky, N. y Halle, M. (1968), The Sound Patterns of English,
The MIT Press, Cambridge, Estados Unidos. (Citado en la pgina 117.)
[23] Chung, G. y Seneff, S. (1999), A Hierarchical Duration Model
for Speech Recognition based on the ANGIE Framework, Speech
Communication, vol. 27 (2), pp. 113134. (Citado en la pgina 49.)
[24] Colantoni, L. y Gurlekian, J. (2004), Convergence and Intonation: Historical Evidence from Buenos Aires Spanish, Bilingualism: Language and Cognition, vol. 7 (2), pp. 107119. (Citado
en las pginas 51, 108, 147 y 168.)
[25] Cooley, J. W. y Tukey, J. W. (1965), An Algorithm for the Machine Calculation of Complex Fourier Series, Mathematics of Computation, vol. 19 (90), pp. 297301. (Citado en la pgina 30.)
[26] Crystal, T. H. y House, A. S. (1990), Articulation Rate and the
Duration of Syllables and Stress Groups in Connected Speech,
Journal of the Acoustic Society of America, vol. 88 (1), pp. 101112.
(Citado en la pgina 99.)
[27] Cutler, A., Dahan, D. y van Donselaar, W. (1997), Prosody
in the Comprehension of Spoken Language: a Literature Review, Language and Speech, vol. 40 (2), pp. 141201. (Citado en
la pgina 120.)
[28] D Imperio, M., Elordieta, G., Frota, S., Prieto, P. y Vigrio,
M. (2005), Intonational Phrasing in Romance: The Role of Syntactic and Prosodic Structure, in Frota, S., Vigrio, M. y Freitas, M., editores, Prosodies: with Special Reference to Iberian
Languages, pp. 5998, Mouton de Gruyter, Berln, Alemania.
(Citado en las pginas 114 y 119.)
[29] Davis, S. y Mermelstein, P. (1980), Comparison of Parametric
Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences, IEEE Transactions On Audio, Speech,
And Language Processing, vol. 28 (4), pp. 357366. (Citado en la
pgina 57.)
[30] De Pijper, J. R. (1983), Modelling British English Intonation, Foris,
Dordrecht, Holanda. (Citado en la pgina 102.)
[31] Denes, P. B. y Pinson, E. N. (1993), The Speech Chain: the Physics and Biology of Spoken Language, W.H. Freeman. (Citado en la
pgina 4.)
[32] Downey, S. y Wiseman, R. (1997), Dynamic and Static Improvements to Lexical Baseforms, in Proceedings of the 5th European Conference on Speech Communication and Technology
(Eurospeech), pp. 10271030, ISCA, Rodas, Grecia. (Citado en
la pgina 66.)
[33] Dudley, H. (1939), The Vocoder, Bell Labs. Record, vol. 18 (4),
pp. 122126. (Citado en la pgina 11.)
bibliografa
[34] Duifhuis, H., Willems, L. F. y Sluyter, R. J. (1982), Measurement of Pitch in Speech: An Implementation of Goldsteins
Theory of Pitch Perception, Journal of the Acoustical Society of
America, vol. 71 (6), pp. 15681580. (Citado en la pgina 131.)
[35] Elordieta, G., Frota, S., Prieto, P. y Vigrio, M. (2003), Effects of Constituent Length and Syntactic Branching on Intonational Phrasing in Ibero-Romance, in Proceedings of the 15th
International Congress of Phonetic Sciences, pp. 487490, Barcelona, Espaa. (Citado en la pgina 119.)
[36] Eluned, S. y Carey, M. (1996), Language Independent Gender
Identification, in Proceedings of the International Conference
on Acoustics, Speech, and Signal Processing (ICASSP), pp. 685
688, Atlanta, Estados Unidos. (Citado en la pgina 47.)
[37] Evin, D., Gurlekian, J. y Torres, H. (2010), N-Best Rescoring
Based on Intontational Prediction for a Spanish ASR System, in
21 Konferenz Elektronische Sprachsignalverarbeitung (ESSV),
pp. 234242, Berln, Alemania. (Citado en la pgina 180.)
[38] Evin, D., Univaso, P., Clausse, A., Milone, D. y Gurlekian, J.
(2009), Reconocimiento Automtico de Habla Empleando Informacin de Acento Lexical en los Modelos Acsticos, in Anales
de las 38 Jornadas Argentinas de Informtica, Simposio Argentino de Tecnologa, pp. 189200, Mar del Plata, Argentina. (Citado en la pgina 169.)
[39] Face, T. (2003), Intonation in Spanish Declaratives: Differences
between Lab Speech and Espontaneous Speech, Catalan Journal
of Linguistics, vol. 2, pp. 115131. (Citado en la pgina 116.)
[40] Fernndez Planas, A. (2005), Aspectos Generales Acerca del
Proyecto Internacional AMPER en Espaa, Estudios de Fontica
Experimental, vol. 14, pp. 1327. (Citado en la pgina 156.)
[41] Fosler-Lussier, E. (2003), A Tutorial on Pronunciation Modeling for Large Vocabulary Speech Recognition, in Renals, S. y
Grefenstette, G., editores, Text and Speech-Triggered Information Access, LNAI 2705, cap. 32, pp. 3877, Springer-Verlag,
Berln, Alemania. (Citado en las pginas 49 y 65.)
[42] Fox, A. (2000), Prosodic Features and Prosodic Structure. The Phonology of Suprasegmentals, Oxford University Press, Oxford, Inglaterra. (Citado en la pgina 97.)
[43] Frota, S. (2000), Prosody and Focus in European Portuguese: Phonological Phrasing and Intonation, Garland, Nueva York, Estados
Unidos. (Citado en la pgina 113.)
[44] Fujisaki, H. (1992), The Role of Quantitative Modeling in the
Study of Intonation, in Proceedings of the International Symposium on Japanese Prosody, pp. 163174, Nara, Japn. (Citado
en la pgina 42.)
209
210
bibliografa
[45] Fujisaki, H. y Hirose, K. (1982), Modeling the Dynamic Characteristics of Voice Fundamental Frequency with Applications
to Analysis and Synthesis of Intonation, in Proceedings of the
13th International Congress of Linguists, pp. 121130, Tokio, Japn. (Citado en la pgina 123.)
[46] Fujisaki, H., Ohono, S., Ichi Nakamura, K., Guirao, M. y Gurlekian, J. (1994), Analysis of Accent and Intonation in Spanish
Based on a Quantitative Model, in Proceedings of the International Conference on Spoken Language Processing (ICSLP), pp.
355358, Yokohama, Japn. (Citado en las pginas 139 y 183.)
[47] Fukada, T., Yoshimura, T. y Sagisaka, Y. (1999), Automatic Generation of Multiple Pronunciations Based on Neural Networks,
Speech Communication, vol. 27 (1), pp. 6373. (Citado en la pgina 65.)
[48] Gales, M. y Young, S. (2007), The Application of Hidden Markov Models in Speech Recognition, Foundations and Trends in
Signal Processing, vol. 1 (3), pp. 195304. (Citado en la pgina 54.)
[49] Garrido, J., Listerri, J., de la Mota, C. y Ros, A. (1993), Prosodic Differences in Reading Style: Isolated vs. Contexualized
Sentences, in Proceedings of the 3rd European Conference on
Speech Communication and Technology (Eurospeech), pp. 573
576, Berln, Alemania. (Citado en la pgina 116.)
[50] Garrido, J. M. (1996), Modelling Spanish Intonation for Text-toSpeech Applications, Phd, Departament de Filologia Espanyola,
Universitat Autonoma de Barcelona, Barcelona, Espaa. (Citado en las pginas 116 y 126.)
[51] Gaskell, G. M. y Marslen-Wilson, W. D. (1997), Integrating
Form and Meaning: A Distributed Model of Speech Perception,
Language and Cognitive Processes, vol. 12 (5-6), pp. 613656. (Citado en la pgina 24.)
[52] Goldinger, S. D. (1998), Echoes of Echoes? An Episodic Theory
of Lexical Access, Psychological Review, vol. 105 (2), pp. 251279.
(Citado en la pgina 24.)
[53] Goldstein, J. L. (1973), An Optimum Processor Theory for the
Central Formation of the Pitch of Complex Tones, Journal of the
Acoustical Society of America, vol. 54 (1), pp. 14961516. (Citado
en la pgina 131.)
[54] Goldwater, S., Jurafsky, D. y Manning, C. D. (2010), Which
Words are Hard to Recognize? Prosodic, Lexical and Disfluency
Factors that Increase Speech Recognition Error Rates, Speech
Communication, vol. 52 (3), pp. 181200. (Citado en la pgina 50.)
[55] Grabe, E., Kochanski, G. y Coleman, J. (2007), Connecting
Intonation Labels to Mathematical Descriptions of Fundamental
Frequency, Language And Speech, vol. 50 (3), pp. 281310. (Citado en la pgina 141.)
bibliografa
[56] Greenberg, S. y Chang, S. (2000), Linguistic Dissection of
Switchboard Corpus Automatic Speech Recognition Systems,
in Proceedings of the ISCA Workshop on Automatic Speech
Recognition: Challenges for the New Millenium, pp. 195202,
Pars, Francia. (Citado en la pgina 28.)
[57] Greenberg, S. y Fosler-Lussier, E. (2000), The Uninvited
Guest: Informations Role in Guiding the Production of Spontaneous Speech, in Proceedings of the Crest Workshop on Models of Speech Production: Motor Planning and Articulatory Modelling, Kloster Seeon, Alemania. (Citado en la pgina 27.)
[58] Gurlekian, J., Colantoni, L. y Torres, H. (2001), El Alfabeto
Fontico SAMPA y el Diseo de Crpora Fonticamente Balanceados, Fonoaudiolgica, vol. 47 (3), pp. 5870. (Citado en la
pgina 171.)
[59] Gurlekian, J., Torres, H. y Colantoni, L. (2003), Evaluacin
de las Descripciones Analtica y Perceptual de la Entonacin de
una Base de Datos de Oraciones Declarativas de Foco Amplio
para el Espaol Hablado en Buenos Aires, Estudios de Fontica
Experimental, vol. 13, pp. 275302. (Citado en la pgina 183.)
[60] Gurlekian, J., Torres, H. y Colantoni, L. (2004), Modelos
de Entonacin Analtico y Fontico-Fonolgico Aplicados a una
Base de Datos del Espaol de Buenos Aires, Estudios de Fontica
Experimental, vol. 3, pp. 275302. (Citado en la pgina 51.)
[61] Gurlekian, J., Colantoni, L., Torres, H., Rincn, A., Moreno,
A. y Mario, J. (2001), Database for an Automatic Speech Recognition System for Argentine Spanish, in Proceedings of the
IRCS Workshop on Linguistic Databases, pp. 9298, Filadelfia,
Estados Unidos. (Citado en las pginas 170 y 191.)
[62] Gurlekian, J., Rodriguez, H., Colantoni, L. y Torres, H.
(2001), Development of a Prosodic Database for an Argentine
Spanish Text to Speech System, in Bird, B. y Liberman, editores, Proceedings of the IRCS Workshop on Linguistic Databases, pp. 99104, SIAM, University of Pennsylvania, Philadelphia, USA. (Citado en las pginas 51 y 139.)
[63] Gurlekian, J., Evin, D., Mixdorff, H., Torres, H. y Pfitzinger, H. (2010), Accent Command Model Parameter Alignment
in Argentine Spanish Absolute Interrogatives, in 21 Konferenz
Elektronische Sprachsignalverarbeitung (ESSV), pp. 7793, Berln, Alemania. (Citado en la pgina 157.)
[64] Gurlekian, J., Mixdorff, H., Evin, D., Torres, H. y Pfitzinger,
H. (2010), Alignment of F0 Model Parameters with Final and
Non-Final Accents, in Proceedings of the International Conference on Speech Prosody, pp. 14, Chicago, Estados Unidos.
(Citado en la pgina 156.)
[65] Gussenhoven, C. (2004), The Phonology of Intonation, Cambridge University Press, Cambridge, Estados Unidos. (Citado en la
pgina 113.)
211
212
bibliografa
[66] Hain, T. (2001), Hidden Model Sequence in Automatic Speech Recognition, Phd, Cambridge University, Engineering Departament,
Cambridge, USA. (Citado en la pgina 65.)
[67] Hansen, J., Koeppen, B. y Netter, F. (2002), Netters Atlas of Human Physiology, Icon Learning Systems, Nueva Jersey, Estados
Unidos. (Citado en la pgina 15.)
[68] Harley, T. (2001), Psychology of Language: From Data to Theory,
2 Ed., Psychology Press, Chichester, Inglaterra. (Citado en la
pgina 24.)
[69] Hermansky, H. (1990), Perceptual Linear Predictive (PLP)
Analysis of Speech, Foundations and Trends in Signal Processing,
vol. 87 (4), pp. 17381752. (Citado en la pgina 57.)
[70] Hermansky, H. y Morgan, N. (1994), RASTA Processing
of Speech, IEEE Transactions on Spech and Audio Processing,
vol. 2 (4), pp. 578589. (Citado en la pgina 58.)
[71] Hermes, D. J. (1988), Measurement of Pitch by Subharmonic
Summation, Journal of the Acoustical Society of America, vol. 83 (1),
pp. 257264. (Citado en la pgina 131.)
[72] Hermes, D. J. (1993), Pitch Analysis, in Cooke, M., Beet, S. y
Crawford, M., editores, Visual Representation of Speech Signals, cap. 1, pp. 325, John Wiley and Sons, Chichester, Inglaterra. (Citado en la pgina 131.)
[73] Hirose, K. y Minematsu, N. (2004), Use of Prosodic Features for Speech Recognition, in Proceedings of the INTERSPEECH, pp. 14451448, Isla de Jeju, Corea. (Citado en las pginas 48 y 49.)
[74] Hirst, D., Di Cristo, A. y Espesser, R. (2000), Levels of Representation and Levels of Analysis for the Description of Intonation Systems, in Gsta, B. y Horne, M., editores, Prosody :
Theory and Experiment, cap. 4, pp. 5187, Kluwer Academic
Press, Dordrecht, Holanda. (Citado en las pginas 121 y 126.)
[75] Hockett, C. (1963), The Problem of Universals in Language, in
Greenberg, J. H., editor, Universals of Language, cap. 000, pp.
000000, The MIT Press, Cambridge, Estados Unidos. (Citado en
la pgina 120.)
[76] Holmes, W. y Holmes, J. (2001), Speech Synthesis and Recognition,
2 Ed., Taylor and Francis, Londres, Inglaterra. (Citado en las
pginas 59 y 60.)
[77] Holter, T. y Svendsen, T. (1999), Maximum Likelihood
Modelling of Pronunciation Variation, Speech Communication,
vol. 29 (2-4), pp. 177191. (Citado en la pgina 65.)
[78] Hualde, J. I. (2003), El Modelo Mtrico y Autosegmental, in
Prieto, P., editor, Teoras de la Entonacin, pp. 155184, Editorial Ariel, Barcelona, Espaa. (Citado en las pginas 117 y 119.)
bibliografa
[79] Hualde, J. I. (2007), Stress Removal and Stress Addition in Spanish, Journal of Portuguese Linguistics, vol. 2 (1), pp. 5989. (Citado en la pgina 117.)
[80] Hualde, J. I., Olarrea, A., Escobar, A. M. y Travis, C. E. (2010),
Introduccion a la Linguistica Hispanica, 2 Ed., Cambridge University Press, Cambridge, Inglaterra. (Citado en la pgina 172.)
[81] Jain, A. K., Murty, N. M. y Flynn, P. J. (1999), Data Clustering: A Review, ACM Computing Surveys, vol. 31 (3), pp. 264323.
(Citado en la pgina 144.)
[82] Jelinek, M. y Mercer, R. L. (1980), Interpolated Estimation of
Markov Source Parameters From Sparse Data, in Gelsema, E. y
L.N., K., editores, Pattern Recognition in Practice, pp. 381397,
North Holland Pub. Co., Amsterdam, Holanda. (Citado en la
pgina 68.)
[83] Johnson, M. (2000), Incorporating Prosodic Information and Language Structure into Speech Recognition System, Phd, Purdue University. (Citado en las pginas 46 y 51.)
[84] Juang, B. H., Levinson, S. E. y Sondhi, M. M. (1986), Maximum Likelihood Estimation for Multivariate Mixture Observations of Markov Chains, IEEE Transactions on Information Theory,
vol. 32 (2), pp. 307309. (Citado en la pgina 89.)
[85] Jun, S.-A. (2005), Prosodic Typology, in Jun, S.-A., editor, Prosodic Typology: The Phonology of Intonation and Phrasing, pp.
430458, Oxford University Press, Oxford, Inglaterra. (Citado en
la pgina 117.)
[86] Junqua, J. C. (1993), The Lombard Reflex and its Role on Human Listeners and Automatic Speech Recognizers, Journal of the
Acoustic Society of America, vol. 93 (1), pp. 510524. (Citado en la
pgina 28.)
[87] Kessens, J. M., Cucchiarini, C. y Strik, H. (2003), A DataDriven Method for Modeling Pronunciation Variation, Speech
Communication, vol. 40 (4), pp. 517534. (Citado en la pgina 65.)
[88] King, S. A. (1998), Using Information Above the World Level for
Automatic Speech Recognition, Phd, University of Edinburgh, Inglaterra. (Citado en la pgina 140.)
[89] Klatt, D. H. (1979), Speech Perception: A Model of AcousticPhonetic Analysis and Lexical Access, Journal of Phonetics,
vol. 77 (2), pp. 279312. (Citado en la pgina 24.)
[90] Klatt, D. H. (1989), Lexical Representation and Process, in
W.D.Marslen-Wilson, editor, Review of Selected Models of
Speech Perception, pp. 169226, MIT Press, Cambridge, Estados
Unidos. (Citado en la pgina 24.)
213
214
bibliografa
[91] Kneser, R. y Ney, H. (1995), Improved Backing-off for MGram Language Modeling, in Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, pp.
181184, Detroit, Estados Unidos. (Citado en la pgina 192.)
[92] Kohonen, T. (2001), Self-Organizing Maps, Springer, Berln Alemania. (Citado en las pginas 140 y 144.)
[93] Kompe, R. (1997), Prosody in Speech Understanding Systems,
Springer-Verlag, Berln, Alemania. (Citado en la pgina 97.)
[94] Ladd, R. D. (1986), Intonational Phrasing: The Case for Recursive Prosodic Structure, Phonology Yearbook, vol. 3 (2), pp. 311340.
(Citado en la pgina 113.)
[95] Ladd, R. D. (1996), Intonational Phonology, Cambridge University
Press, Cambridge, Inglaterra. (Citado en las pginas 105, 107,
117, 127 y 168.)
[96] Ladefoged, P. (2001), A Course in Phonetics, 4 Ed., Heinle and
Heinle, Boston, Estados Unidos. (Citado en las pginas 27, 28
y 109.)
[97] Lea, W. (1980), Prosodic Aids to Speech Recognition, in Lea,
W., editor, Trends in Speech Recognition, cap. 8, pp. 166205,
Prentice Hall, Nueva Jersey, Estados Unidos. (Citado en la pgina 47.)
[98] Lehiste, I. (1970), Suprasegmentals, The MIT Press, Cambridge,
Estados Unidos. (Citado en la pgina 168.)
[99] Levelt, W. (1989), Speaking: From Intentions to Articulation, The
MIT Press, Cambridge, Estados Unidos. (Citado en la pgina 115.)
[100] Levitt, H. y Rabiner, L. R. (1971), Analysis of Fundamental
Frequency Contour in Speech, Journal of the Acoustical Society of
America, vol. 49 (2), pp. 569582. (Citado en la pgina 141.)
[101] Lieberman, M. y Prince, A. (1977), On Stress and Linguistic
Rhythm, Linguistic Inquiry, vol. 8 (2), pp. 249336. (Citado en la
pgina 112.)
[102] Lieberman, P. (1960), Some Acoustic Correlates of Word Stress
in American English, Journal of the Acoustical Society of America,
vol. 32 (4), pp. 451454. (Citado en la pgina 47.)
[103] Lieberman, P., Katz, W., Jongman, A., Zimmerman, R. y Miller, M. (1985), Measures of the Sentence Intonation of Read
and Spontaneous Speech in American English, Journal of the
Acoustical Society of America, vol. 77 (2), pp. 649657. (Citado
en la pgina 149.)
[104] Lippmann, R. P. (1997), Speech Recognition by Machines and
Humans, Speech Communication, vol. 22 (1), pp. 115. (Citado
en las pginas 2, 3 y 50.)
bibliografa
[105] Llorach, E. (1999), Gramtica de la Lengua Espaola. Real Academia Espaola, Coleccin Nebrija y Bello, Editorial Espasa Calpe, Madrid, Espaa. (Citado en la pgina 51.)
[106] Luce, P. A., Goldinger, S. D., Auer, E. T. y Vitevitch,
M. S. (2000), Phonetic Priming, Neighborhood Activation, and
PARSYN, Perception and Psychophysics, vol. 62 (3), pp. 615625.
(Citado en la pgina 24.)
[107] Marslen-Wilson, W. D. (1987), Functional Parallelism in Spoken Word-Recognition, Cognition, vol. 25 (1-2), pp. 71102. (Citado en la pgina 26.)
[108] Marslen-Wilson, W. D. y Welsh, A. (1978), Processing Interactions and Lexical Access During Word Recognition in Continuous Speech, Cognitive Psychology, vol. 10 (1), pp. 2963. (Citado en la pgina 24.)
[109] Martin, P. (1981), Extraction de la Frquence Fondamentale
par Intercorrlation avec une Fonction Peigne, in Actes des 12e
Journes dEtudes sur la Parole, pp. 221232, Montreal, Canad.
(Citado en la pgina 134.)
[110] Martin, P. (1982), Comparison of Pitch by Cepstrum and Spectral Comb Analysis, in Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP),
pp. 180183, Pars, Francia. (Citado en la pgina 131.)
[111] McClelland, J. L. y Elman, J. L. (1986), The TRACE Model
of Speech Perception, Cognitive Psychology, vol. 18 (1), pp. 186.
(Citado en las pginas 24 y 25.)
[112] McNeilage, P. y Davis, B. (2001), Motor Mechanism in Speech
Ontogeny: Phylogenetic, Neurobiological and Linguistic Implications, Current Opinions in Neurobiology, vol. 11 (000), pp. 696
700. (Citado en la pgina 115.)
[113] McQueen, J. M., Cutler, A., Briscoe, T. y Norris, D. G. (1995),
Models of Continuous Speech Recognition and the Contents of
the Vocabulary, Language and Cognitive Processes, vol. 10 (3-4),
pp. 309331. (Citado en la pgina 26.)
[114] Mehler, J. (1981), The Role of Syllables in Speech Processing:
Infant and Adult Data, Philosophical Transactions of the Royal Society, vol. 295 (000), pp. 333352. (Citado en la pgina 115.)
[115] Mercer, R. y Cohen, P. (1987), A Method for Eficient Storage and Rapid Application of Context-Sensitive Phonological
Rules for Automatic Speech Recognition, IBM J. Res. Develop.,
vol. 31 (1), pp. 8190. (Citado en la pgina 66.)
[116] Milone, D. (2003), Informacin Acentual para el Reconocimiento Automtico del Habla, Phd, Universidad de Granada, Espaa. (Citado en la pgina 51.)
215
216
bibliografa
[117] Milone, D. y Rubio, A. (2003), Prosodic and Accentual Information for Automatic Speech Recognition, IEEE Transactions on
Speech and Audio Processing, vol. 11 (4), pp. 321333. (Citado en
las pginas 51, 169 y 170.)
[118] Minematsu, N. y Nakagawa, S. (1998), Modeling of Variations
in Cepstral Coefficients Caused by F0 Changes and its Application to Speech Processing, in Proceedings of the International
Conference on Spoken Language Processing (ICSLP), vol. 3, pp.
10631066, Sidney, Australia. (Citado en la pgina 48.)
[119] Mixdorff, H. (2000), A Novel Approach to the Fully Automatic Extraction of Fujisaki Model Parameters, in Proceedings of
the International Conference on Acoustics, Speech, and Signal
Processing (ICASSP), vol. 3, pp. 12811284, Estambul, Turqua.
(Citado en la pgina 183.)
[120] Mixdorff, H. (2002), An Integrated Approach to Modeling German
Prosody, Phd, Fakultt Elektrotechnik und Informationstechnik,
Technische Universitt Dresden. (Citado en la pgina 96.)
[121] Moore, R. y Cutler, A. (2001), Constraints on Theories of Human vs. Machine Recognition of Speech, in Smits, R., Kingston, J., T.M., N. y Zondervan, R., editores, Proceedings of the
Workshop on Speech Recognition as Pattern Classification, pp.
145150, Nijmegen, Holanda. (Citado en la pgina 3.)
[122] Moreno, A., Hge, H., Khler, J. y Mario, J. B. (1998),
SpeechDat Across Latin America Project SALA, in Proceedings of the First International Conference on Language Resources and Evaluation (LREC), pp. 367370, Granada, Espaa. (Citado en la pgina 170.)
[123] Navarro Toms, T. (1964), La Medida de la Intensidad, Boletn del Instituto de Filologa de la Universidad de Chile. (Citado
en la pgina 116.)
[124] Nespor, M. y Vogel, I. (1986), Prosodic Phonology, Kluwer Academic Press, Dordrecht, Holanda. (Citado en las pginas 112, 113,
115, 116, 118, 119 y 120.)
[125] Nibert, H. (2000), Phonetic and Phonological Evidence for Intermediate Phrasing in Spanish Intonation, Phd, University of Illinois at
Urbana-Champaign, Urbana-Champaign, Estados Unidos. (Citado en la pgina 117.)
[126] Nooteboom, S. (1999), The Prosody of Speech: Melody and
Rhythm, in Hardcastle, W. J. y Laver, J., editores, The Handbook of Phonetic Sciences, pp. 169226, Wiley-Blackwell, Oxford, Inglaterra. (Citado en las pginas 100 y 104.)
[127] Norris, D. (1994), Shortlist: A Connectionist Model of Continuous Speech Recognition, Cognition, vol. 52, pp. 189234. (Citado en las pginas 24 y 26.)
bibliografa
[128] Nth, E., Batliner, A., Kieling, A. y Kompe, R. (2000),
VERBMOBIL: The Use of Prosody in the Linguistic Components of a Speech Understanding System, IEEE Transactions on
Speech and Audio Processing, vol. 8 (5), pp. 519532. (Citado en la
pgina 50.)
[129] Oppenheim, A. V. y Schafer, R. W. (1968), Homomorphic
Analysis of Speech, IEEE Transactions on Audio and Electroacoustics, vol. 16 (2), pp. 221226. (Citado en la pgina 30.)
[130] ORourke, E. (2005), Intonation and Language Contact: A Case
Study of Two Varieties of Peruvian Spanish, Phd, University of Illinois at Urbana-Champaign, Urbana-Champaign, Estados Unidos. (Citado en la pgina 117.)
[131] Ortega-Llebaria, M. y Prieto, P. (2007), Disentangling Stress
from Accent in Spanish: Production Patterns of the Stress Contrast in De-Accented Syllables, in Prieto, P., Mascar, J. y Sol, M.-J., editores, Segmental and Prosodic Issues in Romance Phonology. Current Issues in Linguistic Theory, cap. 18, pp.
155176, John Benjamins, Amsterdam, Holanda. (Citado en la
pgina 117.)
[132] Pieraccini, R. (1986), Lexical Stress and Speech Recognition,
in Proceedings of the 112th Meeting of the Acoustic Society of
America, pp. 103107, Anaheim, Estados Unidos. (Citado en la
pgina 45.)
[133] Pike, K. L. (1945), The intonation of American English, Ann Arbor
: University of Michigan Press, Michigan, Estados Unidos. (Citado en la pgina 108.)
[134] Polzin, T. y Waibel, A. (1998), Pronunciation Variations in
Emotional Speech, in Proceedings of the European Speech
Communication Association (ESCA) Workshop on Modeling
Pronunciation Variation for Automatic Speech Recognition, pp.
103107, Kerkrade, Holanda. (Citado en la pgina 28.)
[135] Prieto, P. (2005), Syntactic and Eurhythmic Constraints on Phrasing Decisions in Catalan, Studia Lingstica, vol. 59 (2-3), pp.
194202. (Citado en la pgina 117.)
[136] Prieto, P. (2006), Phonological Phrasing in Spanish, in Colina,
S. y F., M.-G., editores, Optimality-Theoretic Advances in Spanish Phonology, pp. 3960, John Benjamins, Amsterdam, Holanda. (Citado en la pgina 119.)
[137] Prince, A. y Smolensky, P. (2004), Optimality Theory Constraint
Interaction in Generative Grammar, Blackwell Publishing, Oxford,
Inglaterra. (Citado en la pgina 113.)
[138] Quilis, A. (1993), Tratado de Fonologa y Fontica Espaolas, Editorial Gredos, Madrid, Espaa. (Citado en las pginas 51, 99, 106,
108, 116, 117 y 173.)
217
218
bibliografa
[139] Rabiner, L. y Juang, B.-H. (1993), Fundamentals of Speech Recognition, Prentice Hall, New Jersey, Estados Unidos. (Citado en la
pgina 61.)
[140] Ramus, F. y Mehler, J. (1999), Language Identification with
Suprasegmental Cues: A Study Based on Speech Resynthesis,
Journal of the Acoustical Society of America, vol. 105 (1), pp. 512
521. (Citado en la pgina 47.)
[141] Ramus, F., Nespor, M. y Mehler, J. (1999), Correlates of Linguistic Rhythm in the Speech Signal, Cognition, vol. 73 (3), pp.
265292. (Citado en la pgina 109.)
[142] Rao, R. (2007), On the Phonological Phrasing Patterns in the
Spanish of Lima, Per, Southwest Journal of Linguistics, vol. 26,
pp. 81111. (Citado en la pgina 119.)
[143] Ravinshakar, M. (1996), Efficient Algorithms for Speech Recognition, Phd, School of Computer Science, Computer Science Division, Carnegie Mellon University. (Citado en la pgina 175.)
[144] Riley, M., Byrne, W., Finke, M., Khudanpur, S., Ljolje, A., McDonough, J., Nock, H., Saraclar, M., Wooters, C. y Zavaliagkos, G. (1999), Stochastic Pronunciation Modelling from HandLabelled Phonetic Corpora, Speech Communication, vol. 29 (2-4),
pp. 209224. (Citado en la pgina 65.)
[145] Rosenberg, A. (2009), Automatic Detection and Classification of Prosodic Events, Phd, Columbia University, Nueva York, Estados Unidos. (Citado en la pgina 151.)
[146] Sakurai, A., Hirose, K. y Minematsu, N. (2003), Data-driven
Generation of F0 Contours Using a Superpositional Model,
Speech Communication, vol. 40 (4), pp. 535549. (Citado en la pgina 185.)
[147] Scharenborg, O. (2007), Reaching Over the Gap: A Review of
Efforts to Link Human and Automatic Speech Recognition Research, Speech Communication, vol. 49 (5), pp. 336347. (Citado
en la pgina 3.)
[148] Schiel, F., Kipp, A. y Tillmann, H. (1998), Statistical Modelling
of Pronunciation: Its not the Model, its the Data, in Strik, H.,
Kessens, J. y Wester, M., editores, Proceedings of the ESCA
Workshop on Modeling Pronunciation Variation for Automatic
Speech Recognition, pp. 131136, Rolduc, Kerkrade. (Citado en
la pgina 65.)
[149] Selkirk, E. (1993), Phonology and Syntax: The Relation Between
Sound and Structure, The MIT Press, Cambridge, Estados Unidos.
(Citado en las pginas 113, 115 y 120.)
[150] Selkirk, E. O. (2000), The Interaction of Constraints on Prosodic Phrasing, in Horne, M., editor, Prosody: Theory and Experiment, pp. 231262, Kluwer Academic Publishing, Dordrecht,
Holanda. (Citado en la pgina 119.)
bibliografa
[151] Seppi, D., Falavigna, D., Stemmer, G. y Gretter, R. (2007),
Word Duration Modeling for Word Graph Rescoring in LVCSR,
in Proceedings of the INTERSPEECH, pp. 18051808, Antwerp, Blgica. (Citado en la pgina 181.)
[152] Shattuck-Hufnagel, S. y Turk, A. E. (1996), A Prosody Tutorial for Investigators of Auditory Sentence Processing, Journal
of Psycholinguistic Research, vol. 25 (2), pp. 193247. (Citado en la
pgina 119.)
[153] Shriberg, E. y Stolcke, A. (2004), Direct Modeling of Prosody:
An Overview of Applications to Automatic Speech Processing,
in Proceedings of the International Conference on Speech Prosody, pp. 575582, Nara, Japn. (Citado en la pgina 51.)
[154] Shriberg, E. y Stolcke, A. (2004), Prosody Modeling for Automatic Speech Recognition and Understanding, in Johnson, M.,
Khudanpur, S., Ostendorf, M. y R., R., editores, Mathematical Foundations of Speech and Language Processing. Volume
138 in IMA Volumes in Mathematics and its Applications, pp.
105114, Springer-Verlag, Nueva York, Estados Unidos. (Citado
en la pgina 51.)
[155] Shukla, M. (2006), Prosodic Constraints on Statistical Strategies in
Segmenting Fluent Speech, Phd, Scuola Internazionale Superiore
di Studi Anvanzati, Trieste, Italy. (Citado en las pginas 112
y 114.)
[156] Silbernagl, S. y Despopoulus, A. (2009), Color Athlas of Physiology, 6 Ed., Thieme, Ludwigsburg, Alemania. (Citado en las
pginas 12, 14, 18 y 22.)
[157] Sosa, J. (1999), La Entonacin del Espaol: su Estructura Fnica, Variabilidad y Dialectologa, Ctedra, Madrid, Espaa. (Citado en las
pginas 51 y 117.)
[158] Stolcke, A. (2002), SRILM - An Extensible Language Modeling Toolkit, in Proceedings of the International Conference
on Spoken Language Processing (ICSLP), pp. 901904, Denver,
Estados Unidos. (Citado en la pgina 192.)
[159] Stolcke, A., Shriberg, E., Hakkani-Tr, D. y Tr, G. (1999),
Modeling the Prosody of Hidden Events for Improved Word
Recognition, in Proceedings of the 6th European Conference
on Speech Communication and Technology (Eurospeech), pp.
307310, Budapest, Hungra. (Citado en la pgina 51.)
[160] Stolcke, A., Bates, R., Coccaro, N., Taylor, P., Van EssDykema, C., Ries, K., Shriberg, E., Jurafsky, D., Martin, R. y
Meteer, M. (2000), Dialogue Act Modeling for Automatic Tagging and Recognition of Conversational Speech, Computational
Linguistics, vol. 26 (3), pp. 339371. (Citado en la pgina 140.)
[161] Strik, H. y Cucchiarini, C. (1999), Modeling Pronunciation
Variation for ASR: A Survey of the Literature, Speech Communication, vol. 29 (2-4), pp. 225246. (Citado en las pginas 32 y 65.)
219
220
bibliografa
[162] t Hart, J., Ren, C. y Antonie, C. (1990), A Perceptual Study
of Intonation: an Experimental-Phonetic Approach to Speech Melody,
Cambridge University Press, Cambridge, Inglaterra. (Citado en
las pginas 103 y 125.)
[163] Talkin, D. (1995), A Robust Algorithm for Pitch Tracking
(RAPT), in Klejin, W. B. y Paliwal, K., editores, Speech Coding and Synthesis, cap. 14, pp. 495518, Elsevier, Amsterdam,
Holanda. (Citado en la pgina 129.)
[164] Tatham, M. y Morton, K. (2005), Developments in Speech Synthesis, John Wiley and Sons, Chichester, Inglaterra. (Citado en la
pgina 47.)
[165] Taylor, P. (2000), Analysis and Synthesis of Intonation Using
the Tilt Model, Journal of the Acoustical Society of America, vol.
107 (3), pp. 16971714. (Citado en la pgina 122.)
[166] Taylor, P. (2009), Text-to-Speech Synthesis, Cambridge University
Press, Cambridge, Inglaterra. (Citado en la pgina 47.)
[167] Terhardt, E. (1974), Pitch, Consonance, and Harmony, Journal of the Acoustical Society of America, vol. 55 (5), pp. 10611069.
(Citado en la pgina 131.)
[168] Toledo, G. A. (1988), El ritmo en el Espaol, Gredos, Madrid, Espaa. (Citado en la pgina 170.)
[169] Toledo, G. A. (2007), Fraseo en Espaol Peninsular y Modelo
Autosegmental y Mtrico, Estudios Filolgicos, vol. 42, pp. 227
243. (Citado en la pgina 117.)
[170] Toledo, G. A. (2008), Fonologa de la Frase Entonativa, Estudios Filolgicos, vol. 43, pp. 207222. (Citado en las pginas 117
y 119.)
[171] Torres, H. (2008), Generacin Automtica de la Prosodia para un Sistema de Conversin de Texto a Habla, Phd, Facultad de Ingeniera,
Universidad de Buenos Aires, Argentina. (Citado en la pgina 182.)
[172] Torres, H. y Gurlekian, J. (2004), Automatic Determination of
Phrase Breaks for Argentine Spanish, in Proceedings of the International Conference on Speech Prosody, pp. 553556, Nara,
Japn. (Citado en la pgina 51.)
[173] Torres, H. y Gurlekian, J. (2009), Parameter Estimation and
Prediction from Text for a Superpositional Intonation Model, in
Proceedings of the 20 Konferenz Elektronische Sprachsignalverarbeitung (ESSV), pp. 238247, TUDpress Verlag der Wissenschaften, Dresden, Alemania. (Citado en las pginas 184 y 186.)
[174] Truckenbrodt, H. (1999), On the Relation between Syntactic
Phrases and Phonological Phrases, Linguistic Inquiry, vol. 30, pp.
219255. (Citado en la pgina 113.)
bibliografa
[175] Truckenbrodt, H. (2007), The Syntax Phonology Interface, in
de Lacy, P., editor, The Cambridge Handbook of Phonology,
cap. 18, pp. 435456, Cambridge University Press, Cambridge,
Estados Unidos. (Citado en las pginas 117 y 119.)
[176] Umeda, N. y Wedmore, T. (1994), A Rythm Theory for Spontaneous Speech: the Role of vowel amplitude in the Rhythmic
Structure, in Proceedings of the International Conference on
Spoken Language Processing (ICSLP), pp. 10951098, Yokohama, Japn. (Citado en la pgina 109.)
[177] Univaso, P., Gurlekian, J. y Evin, D. (2009), Reconocedor de
Habla Continua Independiente del Contexto para el Espaol de
Argentina, Revista Clepsidra, vol. 8, pp. 1322. (Citado en la
pgina 169.)
[178] Vaissire, J. (1988), The Use of Prosodic Parameters in Automatic Speech Recognition, in Niemann, H., editor, Recent Advances in Speech Understanding and Dialog Systems, pp. 7199,
Springer-Verlag, Berln, Alemania. (Citado en la pgina 39.)
[179] van den Heuvel, H., van Kuijk, D. y Boves, L. (2003), Modeling Lexical Stress In Continuous Speech Recognition For
Dutch, Speech Communication, vol. 40 (3), pp. 335350. (Citado
en la pgina 170.)
[180] Varga, A. y Steeneken, H. (1993), Assessment for Automatic
Speech Recognition, NOISEX-92: A Database and an Experiment
to Study the Effect of Additive Noise on Speech Recognition Systems, Speech Communication, vol. 12 (3), pp. 247251. (Citado en
la pgina 191.)
[181] Vergyri, D., Stolcke, A., Gadde, V., Ferrer, L. y Shriberg, E.
(2003), Prosodic Knowledge Sources For Automatic Speech Recognition, in Proceedings of the International Conference on
Acoustics, Speech, and Signal Processing (ICASSP), pp. 208
211, Hong Kong, China. (Citado en la pgina 180.)
[182] Vicsi, K. y Szaszak, G. (2010), Using Prosody to Improve Automatic Speech Recognition, Speech Communication, vol. 52 (5), pp.
413426. (Citado en la pgina 181.)
[183] Vidal de Battini, B. (1964), El Espaol de Argentina, Consejo Nacional de Educacin, Buenos Aires, Argentina. (Citado en la
pgina 170.)
[184] Vigrio, M. (2003), The Prosodic Word in European Portuguese,
Mouton de Gruyter, Berln, Alemania. (Citado en la pgina 113.)
[185] Waibel, A. y Lee, K. (1990), Readings in Speech Recognition, Morgan Kaufmann, San Mateo, Estados Unidos. (Citado en la pgina 34.)
[186] Wang, C. y Seneff, S. (2001), Lexical Stress Modeling for Improved Speech Recognition of Spontaneous Telephone Speech in
221
222
bibliografa
the Jupiter Domain, in Proceedings of the 7th European Conference on Speech Communication and Technology (Eurospeech),
pp. 27612765, Aalborg, Dinamarca. (Citado en la pgina 169.)
[187] Watson, D. y Gibson, E. (2004), The Relationship between Intonational Phrasing and Syntactic Structure in Language Production., Language and Cognitive Processes, vol. 19 (6), pp. 713755.
(Citado en la pgina 120.)
[188] Weintraub, M., Taussig, K., Hunicke-Smith, K. y Snodgrass,
A. (1996), Effect of Speaking Style on LVCSR Performance, in
Proceedings of the International Conference on Spoken Language Processing (ICSLP), pp. S16S19, Filadelfia, Estados Unidos.
(Citado en la pgina 27.)
[189] Wesker, T., Meyer, B., Wagener, K., Anemller, J., Mertins,
A. y Kollmeier, B. (2005), Oldenburg Logatome Speech Corpus (OLLO) for Speech Recognition Experiments with Humans
and Machines, in Proceedings of the INTERSPEECH 2005, pp.
12731276, Lisboa, Portugal. (Citado en la pgina 3.)
[190] Wester, M. (2002), Pronunciation Variation Modeling for Dutch Automatic Speech Recognition, Phd, University of Nijmegen, Holanda.
(Citado en la pgina 51.)
[191] Young, S., Evermann, G., Gales, M., Hain, T., Kershaw, D.,
Liu, X., Moore, G., Odell, J., Ollason, D., Povey, D., Valtech,
V. y Wooland, P. (2006), The HTK Book, Cambridge University
Press, Cambridge, Inglaterra. (Citado en las pginas 173 y 192.)
[192] Zhang, J. y Hirose, K. (2004), Tone Nucleus Modeling for Chinese Lexical Tone Recognition, Speech Communication, vol. 42 (34), pp. 447466. (Citado en la pgina 49.)
N D I C E A L FA B T I C O
223
224
ndice alfabtico
Ncleo sintctico, 117
Palabra prosdica, 116
Parmetros RASTA, 58
Pares mnimos, 106
Pausas, 99
Pie mtrico, 115
Pitch, 22, 99
Potencia, 19
Pragmtica, 9
Prenfasis, 55
Presin, 19
Prosodia, definicin, 96
Psicoacstica, 20
Punto de Articulacin, 7
RAH basado en conocimiento,
32
RAH estadstico, 34
Reconocimiento de patrones,
34