Capitulo1 Desbloqueado

Captulo 1.
Reconocimiento de Voz y
Educacin
El estado del arte en sistemas con Reconocimiento de Voz ha

progresado impresionantemente. Una interfaz bien diseada puede
tomar las ventajas que ofrece un reconocedor y compensar sus reas
dbiles, tambin puede implementar los principios bsicos para el
aprendizaje de un segundo idioma, con lo cual se tienen todos los
componentes necesarios de un instructor del lenguaje [Eskenazi, 99].
1.1 La Tecnologa del Habla
La Tecnologa del Habla se estructura en cuatro tecnologas bsicas

principales:
El Reconocimiento de Voz o Reconocimiento del Habla. Es el proceso

de conversin de un mensaje hablado en texto, que permite al usuario
una comunicacin con la computadora.
La Sntesis de Voz o Conversin Texto a Voz. Se ocupa de la generacin

de mensajes hablados mediante la simulacin del proceso de lectura
de un texto escrito almacenado en formato electrnico.
El Reconocimiento de Locutores. Es el proceso de identicacin o

vericacin de la identidad del hablante de forma automtica a partir
de la seal de voz.
La Codicacin de Voz. Su objetivo es la bsqueda de

representaciones ecientes en formato digital de la seal de voz para
su almacenamiento y/o transmisin, persiguiendo obtener la mayor
calidad posible, para el menor nmero de bits por muestra.
Podramos, por tanto, situar a la Tecnologa del Habla como receptora

de un amplio conjunto de conocimientos y procedimientos de
actuacin sobre la informacin representada en la seal de voz.
Conocimientos que se articulan con un alto grado de dicultad y
especializacin, ya que pertenecen a un marco cientco-tcnico
multidisciplinario, donde se dan cita diferentes ramas del saber como
son: siologa, acstica, lingstica, procesado digital de seales,
inteligencia articial, teora de la comunicacin y de la informacin, y
ciencias de la computacin.
1.1.1 Reconocimiento automtico de voz

El Reconocimiento Automtico de Voz, como se mencion
anteriormente, es el proceso de convertir palabras habladas,
capturadas por un micrfono o telfono, en un conjunto de palabras
escritas.
Las principales caractersticas que diferencian a los sistemas basados

en Reconocimiento de Voz frente a otras alternativas son: la
naturalidad que supone utilizar el habla en las operaciones de
comando y control, y la precisin y robustez en la comunicacin para
diferentes usuarios y diferentes entornos. El estado actual de la
investigacin en Reconocimiento del Voz nos muestra excelentes
resultados de sistemas trabajando en entornos controlados de
laboratorio. Sin embargo, una aplicacin real de esta tecnologa exige
un funcionamiento en el mundo real donde el grado de dicultad de
los problemas es un orden de magnitud mayor.
Los sistemas de Reconocimiento de Voz se caracterizan por muchos

parmetros, algunos de ellos se muestran en la siguiente tabla:
Tabla 1.1 Parmetros que caracterizan a un Sistema de reconocimiento de voz
Parmetros Rango
Modo de hablar Palabras aisladas o habla continua
Estilo del habla Voz de lectura o voz espontnea
Aislamiento Dependiente del locutor o Independiente del

locutor
Vocabulario Pequeo (<20 palabras) o grande (>20,000

palabras)
Modelo del lenguaje Estados nitos o dependiente del contexto
Perplejidad Pequea (<10) o larga (>100)
Reduccin del ruido en el Alta (>30 dB) o baja (<10 dB)

habla
El reconocimiento de la voz es un problema difcil, debido a muchas

fuentes de variabilidad asociadas con la seal acstica, cambios en el
ambiente, cambios en el estado fsico o emocional del locutor, o el
tamao del tracto bocal.
1.1.2 La Evolucin de los Sistemas de Reconocimiento Automtico de

Voz
Las primeras investigaciones en el desarrollo de stos sistemas fueron

realizadas en la dcada de los 50's. Los estudios trataron de explotar
las ideas fundamentales de la fontica acstica.
Durante la dcada de los 60's los estudios se enfocaron,

principalmente, a los problemas de segmentacin, clasicacin y
reconocimiento de patrones.
En los 70's se mejor la tecnologa de reconocimiento para palabras

aisladas y continuas. Se hicieron reconocedores que aceptaban un
vocabulario ms extenso. Tambin se desarrollaron tcnicas como:
time warping, modelado probabilstico y el algoritmo de
retropropagacin [Rabiner & Juang, 93; Rumelhart & McClelland, 86].
En la dcada de los 80's hubo un cambio en la tecnologa, del enfoque

basado en reconocimiento de patrones a mtodos de modelado
probabilstico, como el mtodo de cadenas ocultas de Markov (HMM)
[Rabiner & Juang, 93]. Las redes neuronales se reintrodujeron para
resolver problemas de reconocimiento de voz [Waibel & Lee, 90].
En la actualidad, existen diversos factores que contribuyen al

mejoramiento y el progreso de los sistemas de Reconocimiento de
Voz, como los HMM y las redes neuronales. Se han realizado grandes
esfuerzos para desarrollar una base de datos de voz con un
vocabulario grande, el cual pueda ser usado en el entrenamiento,
desarrollo y prueba de los estos sistemas. Por otra parte, el
establecimiento de estndares para la evaluacin del desempeo en el
reconocimiento permite hacer comparaciones entre distintos
sistemas. Gracias a los avances en la tecnologa computacional, los
sistemas pueden ser probados en tiempo real sin la necesidad de
hardware adicional [Cole et al., 99].
La evolucin de stos tiene como algunos representantes a los

siguientes sistemas [Hernndez et al., 94 ]:
ATR HMM-LR. Sistema japons desarrollado en ATR. Est basado en

procedimientos especcos de modelado de sonidos que no utilizan
estructuras intermedias de modelos de fonema o palabra.
AT&T y BELL NORTHERN RESEARCH. Ambos Sistemas incorporan

procedimientos especcos para aplicaciones de automatizacin de
servicios telefnicos.
BYBLOS. Desarrollado por BBN. Byblos es el nombre de una ciudad

fenicia donde se descubri la primera muestra de escritura fontica.
Este detalle marca el nfasis que se pone actualmente en desarrollar
Sistemas sobre una base fontica. Aunque se trata de un sistema
dependiente del locutor, este sistema ha aportado un nuevo y
eciente procedimiento de reconocimiento rpido (bsqueda rpida)
basado en algoritmos N-best.
CSELT. Desarrollado en el centro italiano del mismo nombre. Su

principal innovacin es un sistema de bsqueda rpida basada en un
primer descifrado fontico simple y rpido, seguido por una bsqueda
ms detallada.
DECIPHER. Desarrollado en SRI International. Su principal novedad fue

la representacin detallada de aspectos fonticos importantes, tales
como la coarticulacin entre palabras.
LINCOLN. Desarrollado en el laboratorio del mismo nombre. Su

principal aportacin es el modelado de voz rpida, con emocin,
tensin, etc.
PHILIPS. Desarrollado por la empresa del mismo nombre. Es un

sistema pionero en procesos de reconocimiento rpidos para habla
continua y vocabularios de hasta 10,000 palabras.
SPHINX-II. Desarrollado en la Universidad de Carnegie-Mellon. Es un

sistema pionero en reconocimiento independiente de locutor para
grandes vocabularios.
TANGORA. Desarrollado en IBM. Se trata de un sistema dependiente

del locutor para grandes vocabularios. Su principal inters es un
proceso de adaptacin a un nuevo locutor que requiere 20 minutos
para leer 100 frases de 1200 palabras, 700 de las cuales son distintas.
En los ltimos diez aos se ha producido un notable avance que hace

posible disponer de una tecnologa bsica capaz de soportar
aplicaciones y servicios comerciales. En Reconocimiento de Voz, se
han conseguido reconocedores que, aunque limitados en cuanto al
tamao del vocabulario, poseen una calidad suciente para soportar
un gran nmero de aplicaciones. Como productos comerciales, estn
disponibles reconocedores de dgitos aislados y concatenados, y
reconocedores de palabras aisladas que manejan vocabularios de
miles de palabras y, lo que es ms importante, es posible denir el
vocabulario del reconocedor sin necesidad de realizar un largo y
costoso proceso de entrenamiento (reconocedor de vocabulario libre).
En fase precompetitiva (prototipos de laboratorio) existen
reconocedores de habla continua capaces de manejar vocabularios de
algunos miles de palabras.
El desarrollo de un componente de dilogo y los aspectos de un

modelo de interaccin en sistemas interactivos de voz se encuentran
soportados actualmente en trminos de herramientas y tcnicas
avanzadas como lo son [Ole et al., 98]:
Wizard of Oz. Es un mtodo experimental prototipo en el cual un

humano (el mago) simula una parte o todo el modelo interactivo del
sistema a ser desarrollado y puede ponerse en interaccin con los
usuarios los cuales creern que estn interactuando con un sistema
real.
Manejo del Corpus. Existen muchas herramientas de ste tipo, el Text

Encoding Initiative (TEI) es la herramienta ms amplia que existe para
la representacin de texto incluyendo transcripcin del habla.
Modelo de implementacin del dialogo. Existen muchas herramientas

de ste tipo, DDLTool es un editor grco que soporta la
representacin de un software de manejo del dilogo en el Lenguaje
Descriptor de Dilogo. CSLUrp es un ambiente de grco de desarrollo
de prototipos que es muy similar al DDLTool en muchos aspectos.
Experimentacin y desarrollo. Existen muchas tcnicas y herramientas

para desarrollar y experimentar, como DDLTool, parte de CSLUrp,
Gnu's C++.
Evaluacin. En la colaboracin DARPA ATIS una herramienta de

software fue desarrollada para comparar automticamente un
conjunto de respuestas con aquellas producidas por varios sistemas.
Toolkits. El Oregon Graduate Institute (OGI) hizo recientemente un

toolkit (caja de herramientas), disponible en el web, llamado CSLU
Toolkit.
Existen sistemas comerciales desarrollados por compaas como

AT&T, SpeechWorks, Dragon Systems y otras, los cuales han tenido
gran aceptacin pues desarrollan aplicaciones para el mundo real
como bancos, nanzas, seguros, agencias de viajes, tiempos
compartidos, entre otros [Blyth & Piper, 94].
1.1.3 Arquitectura de un sistema de un reconocedor automtico de voz
Los principales componentes de un sistema de reconocimiento de voz

se muestran en la siguiente gura.
Figura 1.1 Componentes de un sistema tpico de reconocimiento de voz.
La seal de voz digitalizada se transforma en un conjunto de medidas

tiles o caractersticas de manera ja, tpicamente una cada 10-20 ms.
Estas caractersticas son usadas para buscar la palabra con mayor
probabilidad, haciendo uso de restricciones impuestas por modelos
acsticos, lxicos y del lenguaje.
1.1.4 El proceso de reconocimiento automtico de voz
El proceso de reconocimiento automtico de voz consiste en:

1. Obtener y digitalizar la seal de voz
2. Extraer un conjunto de caractersticas esenciales de la seal
3. Introducir las caractersticas a un clasicador
4. Realizar un algoritmo de bsqueda para encontrar la secuencia

permitida ms probable utilizando la salida obtenida y una red
de pronunciaciones.
5. Encontrar la(s) palabra(s) que se desea reconocer.
En la etapa de extraccin de caractersticas la seal de voz se divide en

una coleccin de segmentos. Luego, se obtiene una representacin de
las caractersticas acsticas ms signicativas para cada segmento,
esto se hace aplicando alguna tcnica de procesamiento de seales.
Con dichas caractersticas se construye un conjunto de vectores que
constituyen la entrada al clasicador.
El clasicador aplica un modelo probabilstico y vincula a cada uno de

los vectores de caractersticas con alguna unidad lingstica (palabra,
fonema u otra unidad especca). Posteriormente se realiza la
bsqueda para encontrar la secuencia de segmentos con mayor
probabilidad de ser reconocidos como una de estas unidades. Las dos
tcnicas ms usadas en el proceso de clasicacin son: redes
neuronales y cadenas ocultas de Markov [Cole et al., 99].
Para desarrollar un sistema aplicable a situaciones reales, es necesario

agregar un mdulo de procesamiento del lenguaje natural que se
encargue de las restricciones sintcticas, semnticas y prosdicas de la
tarea.
1.1.5 Meta de un sistema de reconocimiento automtico de voz
La meta principal en el desarrollo de sistemas de Reconocimiento

Automtico de Voz es la creacin de sistemas capaces de reconocer
voz de manera continua, espontnea y sin restricciones. Este objetivo
an no se ha logrado debido a las dicultades que surgen por la
variabilidad en las caractersticas en la seal acstica, como se
mencion anteriormente, la cual degrada el desempeo de los
sistemas de reconocimiento. Algunos de los parmetros que
restringen a stos sistemas se mostraron en la tabla 1.1.
Como cualquier tecnologa innovadora, es importante que sta se

destine a aplicaciones tiles, de manera que las personas que hagan
uso de dichas aplicaciones obtengan un claro benecio al hacerlo.
Deben, por lo tanto, cuidarse al mximo los detalles que hagan
cmodo y agradable el dilogo con los usuarios, dado que de este
dilogo depende en gran medida la aceptacin (o el rechazo) de una
determinada aplicacin y, por extensin, de toda la tecnologa que
involucra.
1.2 La Tecnologa Educativa
Las aplicaciones de las computadoras a la educacin pueden dividirse

en las siguientes clasicaciones generales [Alvarez, 99]:
Educacin Asistida por Computadora: (Computer-assisted instruction

(CAI)) - Utilizan la computadora para presentar lecciones completas a
los alumnos. En el mercado existen muchos ejemplos de programas o
CD para ensear algn tema en particular, en el que todo el material
necesario est contenido en el programa.
Educacin Administrada por Computadora (Computer-managed

instruction (CMI)) - Utilizan las computadoras para organizar las
tareas y los materiales y para mantener registro de los avances de los
estudiantes. Los materiales de estudios no son enviados
necesariamente por la computadora.
Educacin con Multimedia a travs de Computadora.

(Computer-Based Multimedia (CBM)) - Es un importante medio, an
en desarrollo, de sosticadas y exibles herramientas de
computadoras que tienen como objetivo integrar voz, sonido, vdeo,
animaciones, interaccin y otras tecnologas computacionales en
sistemas integrados y fcilmente utilizables y distribubles.
Educacin mediada por Computadoras. (Computer-mediated

education (CME)) - Se reere a las aplicaciones de las computadoras
que permiten el envo de materiales de aprendizaje. Incluye el correo
electrnico, grupos de noticias, foros de discusin, Internet, WWW,
pginas web. Es el medio con el ms grande e importante crecimiento
de los ltimos tiempos y en este medio estn basadas muchas de las
potencialidades futuras de la Educacin a Distancia.
1.2.1 Ambientes de Aprendizaje
El aprendizaje continuo, segn la denicin de la ELLI, European

Lifelong Learning Initiative, es "un proceso continuo sustentativo, que
estimula y da fuerza a los individuos para adquirir todo el
conocimiento, valores, habilidades y comprensin que requieran
durante su vida para que los apliquen con conanza, creatividad y
gusto en todos los roles, circunstancias y medio ambiente en que se
desarrollen" [Ayala, 99].
Un ambiente de aprendizaje es un espacio en el cual existe un

problema de aprendizaje y se intenta solucionarlo de manera
colaborativa y sistemtica a travs de interactuar con los elementos
del ambiente de aprendizaje, denir el movimiento en los 3 ejes del
ambiente de aprendizaje (Claricacin del problema, Mapa Personal y
Aplicacin) y cumplir con las distintas etapas del ambiente de
aprendizaje para la solucin del problema [Porras, 99].
El proceso de aprendizaje es individualizado, cada persona tiene
diferentes habilidades y capacidades. En un ambiente de aprendizaje
el estudiante cuenta con libertad de actuar y de mediar los elementos
con los cuales interactuar. De esta forma el aprendizaje se adecua a
cada persona.
1.2.1.1 Modalidades en el aprendizaje
Las modalidades concretas de los ambientes de aprendizaje, se

clasican en [Rivera, 99]:
Tutorial. En sta modalidad se representa un material en la pantalla

de la computadora y se van haciendo preguntas sobre dicho material.
Se pueden hacer evaluaciones al estudiante y se le da
retroalimentacin.
Ejercitacin y prctica. Sirve como una labor para reforzar el

aprendizaje, trata de que los usuarios adquieran una habilidad sobre
algo realizando ejercicios nicamente, es decir no se propone una
teora o explicacin sobre el contenido de lo que se esta haciendo.
Juegos. La nalidad de sta modalidad es que el estudiante aprenda,

practique o desarrolle alguna habilidad divirtindose.
Simulaciones. Emplea la computadora para representar una escena

cambiante en el tiempo. Permite adquirir alguna habilidad o aprender
reglas para manipular un fenmeno, mecanismos o dispositivos
dinmicos y complejos.
Herramientas. Son paquetes o aplicaciones que sirven para auxiliar a

las tareas educativas, su nalidad no es ensear algo sino realizar una
tarea o accin especca
1.2.1.2 Componentes en el diseo de Ambientes de Aprendizaje
Formulacin de propsitos y objetivos
Se debe establecer las metas y objetivos a cumplir en el ambiente de

aprendizaje. Cul es la modalidad especca en que se ubicar y en
cuanto tiempo se desarrollar.
Perl del usuario
A que personas esta destinado, el promedio de edades, necesidades y

motivaciones principales.
Seleccin del contenido
Que material se utilizar. El uso del contenido permite la divisin de

las tareas, en el conjunto de ideas en que se descompone y como se
encadenan estas para realizar el objetivo de una leccin.
Seleccin de estrategias de aprendizaje
Las estrategias pueden agruparse en tres sistemas educativos:
tradicionales caracterizados por una correspondencia en los

componentes tecnolgicos con los empleados hace una generacin.
tradicionales reformados en los cuales se han introducido mejoras o

adiciones a los recursos tecnolgicos.
innovadores desarrollados por la tecnologa educativa y

caracterizados por adoptar una organizacin diferente en el aula con
respecto al estudiante o con la organizacin escolar.
Diseo de Interfaz
Disear el modo en el que aparecer el material de aprendizaje en la

pantalla, tanto en el aspecto espacial, es decir, al colocacin de textos
y grcos, como en el aspecto temporal, es decir, el tiempo de
aparicin del material en pantalla.
Seleccin y uso de medios de aprendizaje
La seleccin de medios, depender sobre todo del material con que se

cuenta para cumplir el objetivo: hardware y software para lograrlos.
1.2.2 Enseanza del lenguaje asistida por computadora
La educacin asistida por computadora (CAI) ha sido una herramienta

con la que los estudiantes se apoyan en el proceso del aprendizaje. En
los ltimos 40 aos, ha habido un incremento exponencial en el uso
de las computadoras en apoyo a la educacin. Por medio de las
computadoras el estudiante puede tener una forma de aprendizaje
ms sosticada.
La inteligencia articial simblica ha propuesto interesantes

esquemas en ICAI, pero el uso de redes neuronales ha sido propuesto
muy pocas veces. En general el conocimiento para CAI es representado
explcitamente con redes neuronales las cuales rara vez han sido
utilizadas en sta rea [Ayala,99].
Con los avances recientes en tecnologa multimedia, el aprendizaje de

idiomas asistido por computadoras (CALL) ha emergido como
alternativa al tentar a los modos tradicionales de suplir o de substituir
la interaccin directa del estudiante-profesor, tal como el laboratorio
de idiomas o el self-study. La integracin del sonido, la interaccin de
la voz, los textos, el vdeo, y la animacin han permitido crear
ambientes interactivos a ritmos individuales de aprendizaje, los cuales
prometen realzar el modelo del aula de clase. Un nmero creciente de
los editores de libros de textos ahora ofrecen software educativo de
una cierta clase, y los educadores pueden elegir entre una variedad de
diversos productos. Todava, el impacto prctico del CALL en el campo
de la educacin de un segundo idioma ha sido algo modesto. Muchos
educadores son renuentes a abrazar una tecnologa que todava
busque la aceptacin de la comunidad de la enseanza de idiomas en
su totalidad [Kenning & Kenning, 90].
1.2.3 Anlisis de sistemas para la enseanza de un segundo idioma.
Diferentes grupos han desarrollado aplicaciones interesantes y tiles

para el apoyo del aprendizaje de un segundo idioma.
El CSLU del OGI y el CSLU de la Universidad de Colorado han estado

colaborando con educadores de Tucker Maxon Oral School en un
esfuerzo conjunto enfocado a el entrenamiento de voz con nios con
problemas de sordera. Ellos han desarrollado un Toolkit que incorpora
reconocimiento de voz y facilidades de produccin, as como un
agente animado conversacional llamado Baldi. El agente es
representado por un rostro en tercera dimensin que produce un
lenguaje visual: movimiento de labios, lengua, ojos, cejas, durante la
produccin del habla mediante el uso de un sintetizador de voz. El
nio puede jugar con la interfaz del lenguaje, cada leccin presenta
diferentes preguntas y si da la respuesta correcta entonces puede
continuar.
Otro ejemplo es un software llamado Pronunciation Power (ver gura

1.2) el cual proporciona al usuario una serie de herramientas que le
permiten aprender la pronunciacin del idioma Ingls. Crea una
grca de onda sonora de el sonido que se desea vericar, para esto,
el usuario debe grabar su voz y comparar la grca generada con la
grca de la "forma correcta" de pronunciacin.
La desventaja de este mtodo es que cuando hay un error en la

pronunciacin este no es establecido explcitamente. Se requiere de
prctica, pues se debe ver la representacin grca de la seal de voz
y la de "lo correcto" y determinar como y porque ocurri el error. Esto
puede resultar relativamente fcil para una persona que tenga
experiencia, pero puede resultar tedioso. Adems, no se sabe en base
a que criterio es elegida la representacin grca como correcta. Una
pronunciacin correcta puede variar mucho en su apariencia debido a
las diferencias naturales en el tracto vocal humano que puede hacer
que el usuario crea que algo esta mal.
Figura 1.2 Pronunciation Power(TM). Comparacin de los sonidos mediante

la representacin grca de la seal de voz.
Otro ejemplo interesante es de la compaa Language Connect, la cual

usa IBM Via Voice. El software, diseado para la enseanza de Ingls,
"oye" cada palabra, frase u oraciones complejas, entonces responde al
usuario y da un puntaje sobre la pronunciacin realizada. Este
software, que utiliza reconocimiento de voz, es muy poderoso y tiene
muy buen nivel de reconocimiento. Sin embargo, el puntaje que recibe
el estudiante no es muy explcito, es decir, se sabe que existe un error
pero no se indica en qu o dnde, y entonces no se sabe hay que
corregir la pronunciacin.
Otra compaa en el mercado es Syracuse Language Systems que en

conjunto con Dragon Systems ha desarrollado sistemas para el
aprendizaje de un segundo idioma como Ingls, Francs, Japons,
Alemn, Hebreo, Italiano y Espaol. Entre el software enfocado a la
enseanza del idioma espaol de esa compaa estan All-in-One,
Language Fun, Kids! Spanish, Let's Talk Spanish, Self-Study Spanish,
Smart Start Spanish, Success in Spanish y Spanish Your Way. Estos
sistemas, al igual el anterior sistema, tienen Reconocimiento de Voz
pero en cuanto a la vericacin de pronunciacin no se sabe en base a
que llevan a cabo la evaluacin y el puntaje, as mismo no se sabe
cuales son los errores que se deben corregir en la pronunciacin para
subir la puntuacin obtenida. En la gura 1.3 se muestra el software
Let's Talk English (TM) que es un software para el aprendizaje del
idioma Ingls.
Figura 1.3 Let's Talk English.
Learn Spanish Fluently! Es otro sistema de aprendizaje del espaol

con Reconocimiento de Voz y simula la comunicacin interactiva. Es
de la compaa Digital River.
Berlitz Think & Talk Spanish analizan el acento mediante

reconocimiento de voz. Se escucha la pronunciacin nativa de varios
locutores en diferentes situaciones en las cuales se puede participar,
as tambin se hacen lecturas y se presentan videos. La compaa es
Berlitz y ha desarrollado sistemas de ste tipo para varios idiomas.
Figura 1.4 Software para enseanza de espaol
A parte del software mencionado anteriormente existe una gran

variedad de herramientas, programas y juegos que intentan ayudar a
personas a aprender algn idioma. Dichas herramientas se adaptan a
las diferentes necesidades del usuario. Algunas de stas se muestran
en gura 1.4.
Conclusiones
Hasta el momento hemos analizado los aspectos bsicos de los

sistemas con reconocimiento de voz y los sistemas educativos. Se hizo
un anlisis sobre algunos sistemas comerciales que existen para la
enseanza de un segundo idioma. En el siguiente captulo se describe
el problema a resolver y trabajos relacionados con este problema.
ndice resumen introduccin 1 2 3 4 5 6 A B C D referencias

Aguas Garca, N. 1999. Vericacin de Pronunciacin Basada en
Tecnologa de Reconocimiento de Voz para un Ambiente de Aprendizaje.
Tesis Licenciatura. Ingeniera en Sistemas Computacionales.
Departamento de Ingeniera en Sistemas Computacionales, Escuela de
Ingeniera, Universidad de las Amricas-Puebla. Diciembre.
Derechos Reservados 1999, Universidad de las Amricas-Puebla.

Capitulo1 Desbloqueado

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Capitulo1 Desbloqueado

Enviado por

Direitos autorais:

Formatos disponíveis

Captulo 1.

El estado del arte en sistemas con Reconocimiento de Voz ha

1.1 La Tecnologa del Habla

La Tecnologa del Habla se estructura en cuatro tecnologas bsicas

El Reconocimiento de Voz o Reconocimiento del Habla. Es el proceso

La Sntesis de Voz o Conversin Texto a Voz. Se ocupa de la generacin

El Reconocimiento de Locutores. Es el proceso de identicacin o

La Codicacin de Voz. Su objetivo es la bsqueda de

Podramos, por tanto, situar a la Tecnologa del Habla como receptora

1.1.1 Reconocimiento automtico de voz

Las principales caractersticas que diferencian a los sistemas basados

Los sistemas de Reconocimiento de Voz se caracterizan por muchos

Tabla 1.1 Parmetros que caracterizan a un Sistema de reconocimiento de voz

Modo de hablar Palabras aisladas o habla continua

Estilo del habla Voz de lectura o voz espontnea

Aislamiento Dependiente del locutor o Independiente del

Vocabulario Pequeo (<20 palabras) o grande (>20,000

Modelo del lenguaje Estados nitos o dependiente del contexto

Perplejidad Pequea (<10) o larga (>100)

Reduccin del ruido en el Alta (>30 dB) o baja (<10 dB)

El reconocimiento de la voz es un problema difcil, debido a muchas

1.1.2 La Evolucin de los Sistemas de Reconocimiento Automtico de

Las primeras investigaciones en el desarrollo de stos sistemas fueron

Durante la dcada de los 60's los estudios se enfocaron,

En los 70's se mejor la tecnologa de reconocimiento para palabras

En la dcada de los 80's hubo un cambio en la tecnologa, del enfoque

En la actualidad, existen diversos factores que contribuyen al

La evolucin de stos tiene como algunos representantes a los

ATR HMM-LR. Sistema japons desarrollado en ATR. Est basado en

AT&T y BELL NORTHERN RESEARCH. Ambos Sistemas incorporan

BYBLOS. Desarrollado por BBN. Byblos es el nombre de una ciudad

CSELT. Desarrollado en el centro italiano del mismo nombre. Su

DECIPHER. Desarrollado en SRI International. Su principal novedad fue

LINCOLN. Desarrollado en el laboratorio del mismo nombre. Su

PHILIPS. Desarrollado por la empresa del mismo nombre. Es un

SPHINX-II. Desarrollado en la Universidad de Carnegie-Mellon. Es un

TANGORA. Desarrollado en IBM. Se trata de un sistema dependiente

En los ltimos diez aos se ha producido un notable avance que hace

El desarrollo de un componente de dilogo y los aspectos de un

Wizard of Oz. Es un mtodo experimental prototipo en el cual un

Manejo del Corpus. Existen muchas herramientas de ste tipo, el Text

Modelo de implementacin del dialogo. Existen muchas herramientas

Experimentacin y desarrollo. Existen muchas tcnicas y herramientas

Evaluacin. En la colaboracin DARPA ATIS una herramienta de

Toolkits. El Oregon Graduate Institute (OGI) hizo recientemente un

Existen sistemas comerciales desarrollados por compaas como

1.1.3 Arquitectura de un sistema de un reconocedor automtico de voz

Los principales componentes de un sistema de reconocimiento de voz

Figura 1.1 Componentes de un sistema tpico de reconocimiento de voz.

La seal de voz digitalizada se transforma en un conjunto de medidas

1.1.4 El proceso de reconocimiento automtico de voz

El proceso de reconocimiento automtico de voz consiste en:

2. Extraer un conjunto de caractersticas esenciales de la seal

3. Introducir las caractersticas a un clasicador

4. Realizar un algoritmo de bsqueda para encontrar la secuencia

5. Encontrar la(s) palabra(s) que se desea reconocer.

En la etapa de extraccin de caractersticas la seal de voz se divide en

El clasicador aplica un modelo probabilstico y vincula a cada uno de

Para desarrollar un sistema aplicable a situaciones reales, es necesario

1.1.5 Meta de un sistema de reconocimiento automtico de voz

La meta principal en el desarrollo de sistemas de Reconocimiento

Como cualquier tecnologa innovadora, es importante que sta se

Las aplicaciones de las computadoras a la educacin pueden dividirse