El estado del arte en sistemas con Reconocimiento de Voz ha
progresado impresionantemente. Una interfaz bien diseada puede tomar las ventajas que ofrece un reconocedor y compensar sus reas dbiles, tambin puede implementar los principios bsicos para el aprendizaje de un segundo idioma, con lo cual se tienen todos los componentes necesarios de un instructor del lenguaje [Eskenazi, 99].
1.1 La Tecnologa del Habla
La Tecnologa del Habla se estructura en cuatro tecnologas bsicas
principales:
El Reconocimiento de Voz o Reconocimiento del Habla. Es el proceso
de conversin de un mensaje hablado en texto, que permite al usuario una comunicacin con la computadora.
La Sntesis de Voz o Conversin Texto a Voz. Se ocupa de la generacin
de mensajes hablados mediante la simulacin del proceso de lectura de un texto escrito almacenado en formato electrnico.
El Reconocimiento de Locutores. Es el proceso de identicacin o
vericacin de la identidad del hablante de forma automtica a partir de la seal de voz.
La Codicacin de Voz. Su objetivo es la bsqueda de
representaciones ecientes en formato digital de la seal de voz para su almacenamiento y/o transmisin, persiguiendo obtener la mayor calidad posible, para el menor nmero de bits por muestra.
Podramos, por tanto, situar a la Tecnologa del Habla como receptora
de un amplio conjunto de conocimientos y procedimientos de actuacin sobre la informacin representada en la seal de voz. Conocimientos que se articulan con un alto grado de dicultad y especializacin, ya que pertenecen a un marco cientco-tcnico multidisciplinario, donde se dan cita diferentes ramas del saber como son: siologa, acstica, lingstica, procesado digital de seales, inteligencia articial, teora de la comunicacin y de la informacin, y ciencias de la computacin.
1.1.1 Reconocimiento automtico de voz
El Reconocimiento Automtico de Voz, como se mencion anteriormente, es el proceso de convertir palabras habladas, capturadas por un micrfono o telfono, en un conjunto de palabras escritas.
Las principales caractersticas que diferencian a los sistemas basados
en Reconocimiento de Voz frente a otras alternativas son: la naturalidad que supone utilizar el habla en las operaciones de comando y control, y la precisin y robustez en la comunicacin para diferentes usuarios y diferentes entornos. El estado actual de la investigacin en Reconocimiento del Voz nos muestra excelentes resultados de sistemas trabajando en entornos controlados de laboratorio. Sin embargo, una aplicacin real de esta tecnologa exige un funcionamiento en el mundo real donde el grado de dicultad de los problemas es un orden de magnitud mayor.
Los sistemas de Reconocimiento de Voz se caracterizan por muchos
parmetros, algunos de ellos se muestran en la siguiente tabla:
Tabla 1.1 Parmetros que caracterizan a un Sistema de reconocimiento de voz
Parmetros Rango
Modo de hablar Palabras aisladas o habla continua
Estilo del habla Voz de lectura o voz espontnea
Aislamiento Dependiente del locutor o Independiente del
locutor
Vocabulario Pequeo (<20 palabras) o grande (>20,000
palabras)
Modelo del lenguaje Estados nitos o dependiente del contexto
Perplejidad Pequea (<10) o larga (>100)
Reduccin del ruido en el Alta (>30 dB) o baja (<10 dB)
habla
El reconocimiento de la voz es un problema difcil, debido a muchas
fuentes de variabilidad asociadas con la seal acstica, cambios en el ambiente, cambios en el estado fsico o emocional del locutor, o el tamao del tracto bocal.
1.1.2 La Evolucin de los Sistemas de Reconocimiento Automtico de
Voz
Las primeras investigaciones en el desarrollo de stos sistemas fueron
realizadas en la dcada de los 50's. Los estudios trataron de explotar las ideas fundamentales de la fontica acstica.
Durante la dcada de los 60's los estudios se enfocaron,
principalmente, a los problemas de segmentacin, clasicacin y reconocimiento de patrones.
En los 70's se mejor la tecnologa de reconocimiento para palabras
aisladas y continuas. Se hicieron reconocedores que aceptaban un vocabulario ms extenso. Tambin se desarrollaron tcnicas como: time warping, modelado probabilstico y el algoritmo de retropropagacin [Rabiner & Juang, 93; Rumelhart & McClelland, 86].
En la dcada de los 80's hubo un cambio en la tecnologa, del enfoque
basado en reconocimiento de patrones a mtodos de modelado probabilstico, como el mtodo de cadenas ocultas de Markov (HMM) [Rabiner & Juang, 93]. Las redes neuronales se reintrodujeron para resolver problemas de reconocimiento de voz [Waibel & Lee, 90].
En la actualidad, existen diversos factores que contribuyen al
mejoramiento y el progreso de los sistemas de Reconocimiento de Voz, como los HMM y las redes neuronales. Se han realizado grandes esfuerzos para desarrollar una base de datos de voz con un vocabulario grande, el cual pueda ser usado en el entrenamiento, desarrollo y prueba de los estos sistemas. Por otra parte, el establecimiento de estndares para la evaluacin del desempeo en el reconocimiento permite hacer comparaciones entre distintos sistemas. Gracias a los avances en la tecnologa computacional, los sistemas pueden ser probados en tiempo real sin la necesidad de hardware adicional [Cole et al., 99].
La evolucin de stos tiene como algunos representantes a los
siguientes sistemas [Hernndez et al., 94 ]:
ATR HMM-LR. Sistema japons desarrollado en ATR. Est basado en
procedimientos especcos de modelado de sonidos que no utilizan estructuras intermedias de modelos de fonema o palabra.
AT&T y BELL NORTHERN RESEARCH. Ambos Sistemas incorporan
procedimientos especcos para aplicaciones de automatizacin de servicios telefnicos.
BYBLOS. Desarrollado por BBN. Byblos es el nombre de una ciudad
fenicia donde se descubri la primera muestra de escritura fontica. Este detalle marca el nfasis que se pone actualmente en desarrollar Sistemas sobre una base fontica. Aunque se trata de un sistema dependiente del locutor, este sistema ha aportado un nuevo y eciente procedimiento de reconocimiento rpido (bsqueda rpida) basado en algoritmos N-best.
CSELT. Desarrollado en el centro italiano del mismo nombre. Su
principal innovacin es un sistema de bsqueda rpida basada en un primer descifrado fontico simple y rpido, seguido por una bsqueda ms detallada.
DECIPHER. Desarrollado en SRI International. Su principal novedad fue
la representacin detallada de aspectos fonticos importantes, tales como la coarticulacin entre palabras.
LINCOLN. Desarrollado en el laboratorio del mismo nombre. Su
principal aportacin es el modelado de voz rpida, con emocin, tensin, etc.
PHILIPS. Desarrollado por la empresa del mismo nombre. Es un
sistema pionero en procesos de reconocimiento rpidos para habla continua y vocabularios de hasta 10,000 palabras.
SPHINX-II. Desarrollado en la Universidad de Carnegie-Mellon. Es un
sistema pionero en reconocimiento independiente de locutor para grandes vocabularios.
TANGORA. Desarrollado en IBM. Se trata de un sistema dependiente
del locutor para grandes vocabularios. Su principal inters es un proceso de adaptacin a un nuevo locutor que requiere 20 minutos para leer 100 frases de 1200 palabras, 700 de las cuales son distintas.
En los ltimos diez aos se ha producido un notable avance que hace
posible disponer de una tecnologa bsica capaz de soportar aplicaciones y servicios comerciales. En Reconocimiento de Voz, se han conseguido reconocedores que, aunque limitados en cuanto al tamao del vocabulario, poseen una calidad suciente para soportar un gran nmero de aplicaciones. Como productos comerciales, estn disponibles reconocedores de dgitos aislados y concatenados, y reconocedores de palabras aisladas que manejan vocabularios de miles de palabras y, lo que es ms importante, es posible denir el vocabulario del reconocedor sin necesidad de realizar un largo y costoso proceso de entrenamiento (reconocedor de vocabulario libre). En fase precompetitiva (prototipos de laboratorio) existen reconocedores de habla continua capaces de manejar vocabularios de algunos miles de palabras.
El desarrollo de un componente de dilogo y los aspectos de un
modelo de interaccin en sistemas interactivos de voz se encuentran soportados actualmente en trminos de herramientas y tcnicas avanzadas como lo son [Ole et al., 98]:
Wizard of Oz. Es un mtodo experimental prototipo en el cual un
humano (el mago) simula una parte o todo el modelo interactivo del sistema a ser desarrollado y puede ponerse en interaccin con los usuarios los cuales creern que estn interactuando con un sistema real.
Manejo del Corpus. Existen muchas herramientas de ste tipo, el Text
Encoding Initiative (TEI) es la herramienta ms amplia que existe para la representacin de texto incluyendo transcripcin del habla.
Modelo de implementacin del dialogo. Existen muchas herramientas
de ste tipo, DDLTool es un editor grco que soporta la representacin de un software de manejo del dilogo en el Lenguaje Descriptor de Dilogo. CSLUrp es un ambiente de grco de desarrollo de prototipos que es muy similar al DDLTool en muchos aspectos.
Experimentacin y desarrollo. Existen muchas tcnicas y herramientas
para desarrollar y experimentar, como DDLTool, parte de CSLUrp, Gnu's C++.
Evaluacin. En la colaboracin DARPA ATIS una herramienta de
software fue desarrollada para comparar automticamente un conjunto de respuestas con aquellas producidas por varios sistemas.
Toolkits. El Oregon Graduate Institute (OGI) hizo recientemente un
toolkit (caja de herramientas), disponible en el web, llamado CSLU Toolkit.
Existen sistemas comerciales desarrollados por compaas como
AT&T, SpeechWorks, Dragon Systems y otras, los cuales han tenido gran aceptacin pues desarrollan aplicaciones para el mundo real como bancos, nanzas, seguros, agencias de viajes, tiempos compartidos, entre otros [Blyth & Piper, 94].
1.1.3 Arquitectura de un sistema de un reconocedor automtico de voz
Los principales componentes de un sistema de reconocimiento de voz
se muestran en la siguiente gura.
Figura 1.1 Componentes de un sistema tpico de reconocimiento de voz.
La seal de voz digitalizada se transforma en un conjunto de medidas
tiles o caractersticas de manera ja, tpicamente una cada 10-20 ms. Estas caractersticas son usadas para buscar la palabra con mayor probabilidad, haciendo uso de restricciones impuestas por modelos acsticos, lxicos y del lenguaje.
1.1.4 El proceso de reconocimiento automtico de voz
El proceso de reconocimiento automtico de voz consiste en:
1. Obtener y digitalizar la seal de voz
2. Extraer un conjunto de caractersticas esenciales de la seal
3. Introducir las caractersticas a un clasicador
4. Realizar un algoritmo de bsqueda para encontrar la secuencia
permitida ms probable utilizando la salida obtenida y una red de pronunciaciones.
5. Encontrar la(s) palabra(s) que se desea reconocer.
En la etapa de extraccin de caractersticas la seal de voz se divide en
una coleccin de segmentos. Luego, se obtiene una representacin de las caractersticas acsticas ms signicativas para cada segmento, esto se hace aplicando alguna tcnica de procesamiento de seales. Con dichas caractersticas se construye un conjunto de vectores que constituyen la entrada al clasicador.
El clasicador aplica un modelo probabilstico y vincula a cada uno de
los vectores de caractersticas con alguna unidad lingstica (palabra, fonema u otra unidad especca). Posteriormente se realiza la bsqueda para encontrar la secuencia de segmentos con mayor probabilidad de ser reconocidos como una de estas unidades. Las dos tcnicas ms usadas en el proceso de clasicacin son: redes neuronales y cadenas ocultas de Markov [Cole et al., 99].
Para desarrollar un sistema aplicable a situaciones reales, es necesario
agregar un mdulo de procesamiento del lenguaje natural que se encargue de las restricciones sintcticas, semnticas y prosdicas de la tarea.
1.1.5 Meta de un sistema de reconocimiento automtico de voz
La meta principal en el desarrollo de sistemas de Reconocimiento
Automtico de Voz es la creacin de sistemas capaces de reconocer voz de manera continua, espontnea y sin restricciones. Este objetivo an no se ha logrado debido a las dicultades que surgen por la variabilidad en las caractersticas en la seal acstica, como se mencion anteriormente, la cual degrada el desempeo de los sistemas de reconocimiento. Algunos de los parmetros que restringen a stos sistemas se mostraron en la tabla 1.1.
Como cualquier tecnologa innovadora, es importante que sta se
destine a aplicaciones tiles, de manera que las personas que hagan uso de dichas aplicaciones obtengan un claro benecio al hacerlo. Deben, por lo tanto, cuidarse al mximo los detalles que hagan cmodo y agradable el dilogo con los usuarios, dado que de este dilogo depende en gran medida la aceptacin (o el rechazo) de una determinada aplicacin y, por extensin, de toda la tecnologa que involucra. 1.2 La Tecnologa Educativa
Las aplicaciones de las computadoras a la educacin pueden dividirse
en las siguientes clasicaciones generales [Alvarez, 99]:
Educacin Asistida por Computadora: (Computer-assisted instruction
(CAI)) - Utilizan la computadora para presentar lecciones completas a los alumnos. En el mercado existen muchos ejemplos de programas o CD para ensear algn tema en particular, en el que todo el material necesario est contenido en el programa.
Educacin Administrada por Computadora (Computer-managed
instruction (CMI)) - Utilizan las computadoras para organizar las tareas y los materiales y para mantener registro de los avances de los estudiantes. Los materiales de estudios no son enviados necesariamente por la computadora.
Educacin con Multimedia a travs de Computadora.
(Computer-Based Multimedia (CBM)) - Es un importante medio, an en desarrollo, de sosticadas y exibles herramientas de computadoras que tienen como objetivo integrar voz, sonido, vdeo, animaciones, interaccin y otras tecnologas computacionales en sistemas integrados y fcilmente utilizables y distribubles.
Educacin mediada por Computadoras. (Computer-mediated
education (CME)) - Se reere a las aplicaciones de las computadoras que permiten el envo de materiales de aprendizaje. Incluye el correo electrnico, grupos de noticias, foros de discusin, Internet, WWW, pginas web. Es el medio con el ms grande e importante crecimiento de los ltimos tiempos y en este medio estn basadas muchas de las potencialidades futuras de la Educacin a Distancia.
1.2.1 Ambientes de Aprendizaje
El aprendizaje continuo, segn la denicin de la ELLI, European
Lifelong Learning Initiative, es "un proceso continuo sustentativo, que estimula y da fuerza a los individuos para adquirir todo el conocimiento, valores, habilidades y comprensin que requieran durante su vida para que los apliquen con conanza, creatividad y gusto en todos los roles, circunstancias y medio ambiente en que se desarrollen" [Ayala, 99].
Un ambiente de aprendizaje es un espacio en el cual existe un
problema de aprendizaje y se intenta solucionarlo de manera colaborativa y sistemtica a travs de interactuar con los elementos del ambiente de aprendizaje, denir el movimiento en los 3 ejes del ambiente de aprendizaje (Claricacin del problema, Mapa Personal y Aplicacin) y cumplir con las distintas etapas del ambiente de aprendizaje para la solucin del problema [Porras, 99]. El proceso de aprendizaje es individualizado, cada persona tiene diferentes habilidades y capacidades. En un ambiente de aprendizaje el estudiante cuenta con libertad de actuar y de mediar los elementos con los cuales interactuar. De esta forma el aprendizaje se adecua a cada persona.
1.2.1.1 Modalidades en el aprendizaje
Las modalidades concretas de los ambientes de aprendizaje, se
clasican en [Rivera, 99]:
Tutorial. En sta modalidad se representa un material en la pantalla
de la computadora y se van haciendo preguntas sobre dicho material. Se pueden hacer evaluaciones al estudiante y se le da retroalimentacin.
Ejercitacin y prctica. Sirve como una labor para reforzar el
aprendizaje, trata de que los usuarios adquieran una habilidad sobre algo realizando ejercicios nicamente, es decir no se propone una teora o explicacin sobre el contenido de lo que se esta haciendo.
Juegos. La nalidad de sta modalidad es que el estudiante aprenda,
practique o desarrolle alguna habilidad divirtindose.
Simulaciones. Emplea la computadora para representar una escena
cambiante en el tiempo. Permite adquirir alguna habilidad o aprender reglas para manipular un fenmeno, mecanismos o dispositivos dinmicos y complejos.
Herramientas. Son paquetes o aplicaciones que sirven para auxiliar a
las tareas educativas, su nalidad no es ensear algo sino realizar una tarea o accin especca
1.2.1.2 Componentes en el diseo de Ambientes de Aprendizaje
Formulacin de propsitos y objetivos
Se debe establecer las metas y objetivos a cumplir en el ambiente de
aprendizaje. Cul es la modalidad especca en que se ubicar y en cuanto tiempo se desarrollar.
Perl del usuario
A que personas esta destinado, el promedio de edades, necesidades y
motivaciones principales.
Seleccin del contenido
Que material se utilizar. El uso del contenido permite la divisin de
las tareas, en el conjunto de ideas en que se descompone y como se encadenan estas para realizar el objetivo de una leccin. Seleccin de estrategias de aprendizaje
Las estrategias pueden agruparse en tres sistemas educativos:
tradicionales caracterizados por una correspondencia en los
componentes tecnolgicos con los empleados hace una generacin.
tradicionales reformados en los cuales se han introducido mejoras o
adiciones a los recursos tecnolgicos.
innovadores desarrollados por la tecnologa educativa y
caracterizados por adoptar una organizacin diferente en el aula con respecto al estudiante o con la organizacin escolar.
Diseo de Interfaz
Disear el modo en el que aparecer el material de aprendizaje en la
pantalla, tanto en el aspecto espacial, es decir, al colocacin de textos y grcos, como en el aspecto temporal, es decir, el tiempo de aparicin del material en pantalla.
Seleccin y uso de medios de aprendizaje
La seleccin de medios, depender sobre todo del material con que se
cuenta para cumplir el objetivo: hardware y software para lograrlos.
1.2.2 Enseanza del lenguaje asistida por computadora
La educacin asistida por computadora (CAI) ha sido una herramienta
con la que los estudiantes se apoyan en el proceso del aprendizaje. En los ltimos 40 aos, ha habido un incremento exponencial en el uso de las computadoras en apoyo a la educacin. Por medio de las computadoras el estudiante puede tener una forma de aprendizaje ms sosticada.
La inteligencia articial simblica ha propuesto interesantes
esquemas en ICAI, pero el uso de redes neuronales ha sido propuesto muy pocas veces. En general el conocimiento para CAI es representado explcitamente con redes neuronales las cuales rara vez han sido utilizadas en sta rea [Ayala,99].
Con los avances recientes en tecnologa multimedia, el aprendizaje de
idiomas asistido por computadoras (CALL) ha emergido como alternativa al tentar a los modos tradicionales de suplir o de substituir la interaccin directa del estudiante-profesor, tal como el laboratorio de idiomas o el self-study. La integracin del sonido, la interaccin de la voz, los textos, el vdeo, y la animacin han permitido crear ambientes interactivos a ritmos individuales de aprendizaje, los cuales prometen realzar el modelo del aula de clase. Un nmero creciente de los editores de libros de textos ahora ofrecen software educativo de una cierta clase, y los educadores pueden elegir entre una variedad de diversos productos. Todava, el impacto prctico del CALL en el campo de la educacin de un segundo idioma ha sido algo modesto. Muchos educadores son renuentes a abrazar una tecnologa que todava busque la aceptacin de la comunidad de la enseanza de idiomas en su totalidad [Kenning & Kenning, 90].
1.2.3 Anlisis de sistemas para la enseanza de un segundo idioma.
Diferentes grupos han desarrollado aplicaciones interesantes y tiles
para el apoyo del aprendizaje de un segundo idioma.
El CSLU del OGI y el CSLU de la Universidad de Colorado han estado
colaborando con educadores de Tucker Maxon Oral School en un esfuerzo conjunto enfocado a el entrenamiento de voz con nios con problemas de sordera. Ellos han desarrollado un Toolkit que incorpora reconocimiento de voz y facilidades de produccin, as como un agente animado conversacional llamado Baldi. El agente es representado por un rostro en tercera dimensin que produce un lenguaje visual: movimiento de labios, lengua, ojos, cejas, durante la produccin del habla mediante el uso de un sintetizador de voz. El nio puede jugar con la interfaz del lenguaje, cada leccin presenta diferentes preguntas y si da la respuesta correcta entonces puede continuar.
Otro ejemplo es un software llamado Pronunciation Power (ver gura
1.2) el cual proporciona al usuario una serie de herramientas que le permiten aprender la pronunciacin del idioma Ingls. Crea una grca de onda sonora de el sonido que se desea vericar, para esto, el usuario debe grabar su voz y comparar la grca generada con la grca de la "forma correcta" de pronunciacin.
La desventaja de este mtodo es que cuando hay un error en la
pronunciacin este no es establecido explcitamente. Se requiere de prctica, pues se debe ver la representacin grca de la seal de voz y la de "lo correcto" y determinar como y porque ocurri el error. Esto puede resultar relativamente fcil para una persona que tenga experiencia, pero puede resultar tedioso. Adems, no se sabe en base a que criterio es elegida la representacin grca como correcta. Una pronunciacin correcta puede variar mucho en su apariencia debido a las diferencias naturales en el tracto vocal humano que puede hacer que el usuario crea que algo esta mal.
Figura 1.2 Pronunciation Power(TM). Comparacin de los sonidos mediante
la representacin grca de la seal de voz.
Otro ejemplo interesante es de la compaa Language Connect, la cual
usa IBM Via Voice. El software, diseado para la enseanza de Ingls, "oye" cada palabra, frase u oraciones complejas, entonces responde al usuario y da un puntaje sobre la pronunciacin realizada. Este software, que utiliza reconocimiento de voz, es muy poderoso y tiene muy buen nivel de reconocimiento. Sin embargo, el puntaje que recibe el estudiante no es muy explcito, es decir, se sabe que existe un error pero no se indica en qu o dnde, y entonces no se sabe hay que corregir la pronunciacin.
Otra compaa en el mercado es Syracuse Language Systems que en
conjunto con Dragon Systems ha desarrollado sistemas para el aprendizaje de un segundo idioma como Ingls, Francs, Japons, Alemn, Hebreo, Italiano y Espaol. Entre el software enfocado a la enseanza del idioma espaol de esa compaa estan All-in-One, Language Fun, Kids! Spanish, Let's Talk Spanish, Self-Study Spanish, Smart Start Spanish, Success in Spanish y Spanish Your Way. Estos sistemas, al igual el anterior sistema, tienen Reconocimiento de Voz pero en cuanto a la vericacin de pronunciacin no se sabe en base a que llevan a cabo la evaluacin y el puntaje, as mismo no se sabe cuales son los errores que se deben corregir en la pronunciacin para subir la puntuacin obtenida. En la gura 1.3 se muestra el software Let's Talk English (TM) que es un software para el aprendizaje del idioma Ingls.
Figura 1.3 Let's Talk English.
Learn Spanish Fluently! Es otro sistema de aprendizaje del espaol
con Reconocimiento de Voz y simula la comunicacin interactiva. Es de la compaa Digital River.
Berlitz Think & Talk Spanish analizan el acento mediante
reconocimiento de voz. Se escucha la pronunciacin nativa de varios locutores en diferentes situaciones en las cuales se puede participar, as tambin se hacen lecturas y se presentan videos. La compaa es Berlitz y ha desarrollado sistemas de ste tipo para varios idiomas.
Figura 1.4 Software para enseanza de espaol
A parte del software mencionado anteriormente existe una gran
variedad de herramientas, programas y juegos que intentan ayudar a personas a aprender algn idioma. Dichas herramientas se adaptan a las diferentes necesidades del usuario. Algunas de stas se muestran en gura 1.4.
Conclusiones
Hasta el momento hemos analizado los aspectos bsicos de los
sistemas con reconocimiento de voz y los sistemas educativos. Se hizo un anlisis sobre algunos sistemas comerciales que existen para la enseanza de un segundo idioma. En el siguiente captulo se describe el problema a resolver y trabajos relacionados con este problema.
ndice resumen introduccin 1 2 3 4 5 6 A B C D referencias
Aguas Garca, N. 1999. Vericacin de Pronunciacin Basada en Tecnologa de Reconocimiento de Voz para un Ambiente de Aprendizaje. Tesis Licenciatura. Ingeniera en Sistemas Computacionales. Departamento de Ingeniera en Sistemas Computacionales, Escuela de Ingeniera, Universidad de las Amricas-Puebla. Diciembre. Derechos Reservados 1999, Universidad de las Amricas-Puebla.
Iv Taller de Iniciación A La Armonía Moderna e Improvisación - Juan G. Galiardo - Viernes 5 A Domingo 7 de Mayo 17 - 100 To Jazz - Classic & Rockschooleon