Speech Recognition

El rol de los compiladores dentro del campo de procesamiento del habla
Jessica Alejandra Canahui Morales 14 de noviembre de 2011
Resumen El presente documento presenta una introduccin al campo de procesamiento del habla, las o a reas de la Ciencia de la Computacin que auxilian a esta tarea, la utilidad de la teor de o a compiladores dentro del rea y una breve descripcin del sistema utilizado por CMU Sphinx a o para reconocimiento del habla. El procesamiento del habla consta de las fases de Reconocimiento del Habla y de Procesamiento de Lenguajes Naturales. El enfoque utilizado por CMU Sphinx para el reconocimiento del habla consta de modelos estad sticos como Modelos Ocultos de Markov y n-gramas para de terminar en un contexto las palabras ms probables. Esto se realiza por medio de transductores a de estados nitos utilizados para representar estos modelos. El procesamiento de lenguajes naturales se asemeja en su estructura bsica a un compilador a para un lenguaje de Chomksy nivel 2, incluyendo anlisis lxico, sintctico y semntico, aunque a e a a ampliando estoss enfoques y aadiendo ms fases. n a
Parte I
Introduccin[1] o
El procesamiento del habla es, en adicin o al reconocimiento de voz (proceso por el cual una computadora identica las palabras emitidas por seales de voz[3]), el procesamienn to adecuado de sus resultados, el cual permite complementar la funcionalidad que se obtiene del reconocimiento de voz. Lo que distingue las aplicaciones procesadoras del lenguage de otros sistemas procesadores de datos es el uso del conocimiento del lenguaje. Un sistema robusto que responde preguntas necesita saber sobre fontica y e fonolog para reconocer las diferentes pala, abras que conforman la pregunta. Para reconocer contracciones (como del y al) y entender sus signicados, se requieren conocimientos de morfolog a.
Ms all de las palabras se requiere a a conocimiento de la estructura del lenguaje, tales como la sintaxis, y nalmente semntia ca para conocer el sentido y signicado de un enunciado.
Parte II
Pasos del procesamiento del habla

La interpretacin en tiempo real del habla o trata de imitar dos procesos cognitivos humanos distintivos. Primero, un reconocedor del habla convierte un canal de sonidos en una secuencia probable de palabras. Luego, un procesador de lenguaje natural trata de obtener el sentido de estas palabras.[2]
Para ilustracin, referirse a la gura 1 o
1.1.
Control de la proporcin de o errores[2]
1.
Reconocimiento de voz[3]
Los sistemas de reconocimiento del habla se encuentran separados en diferentes clases, de acuerdo al tipo de fonemas que tienen la habilidad de reconocer. Estas clases se basan en el hecho de que una de las dicultades de los reconocedores es la habilidad de determinar cundo un usuario empieza o termina un a fonema. Entre estas clases tenemos: 1.0.1. Palabras Isoladas
Los reconocedores de palabras isoladas normalmente requieren que cada fonema tenga silencio (falta de una seal de audio) en amn bos lados de la muestra. No signica que acepta unicamente una palabra por iteracin, pero o s requiere un fonema a la vez. 1.0.2. Palabras Conectadas
La cualidad inherente del timbre de voz aumenta la dicultad de la implementacin del o reconocimiento del habla, y tradicionalmente se han tomado dos enfoques: entrenar el reconocedor para que funcione con un conjunto reducido de usuarios, o reducir drsticamente a el vocabulario y gramtica, pero permitiendo a independencia del usuario. Con el enfoque de independencia del usuario, el cual es ms ideal, CMU Sphinx a utiliza un modelo llamado transductores de estados nitos, los cuales a su vez representan Modelos Ocultos de Markov1 o n-gramas2 , para determinar la respuesta lo ms correcta a posible con respecto al reconocimiento de un conjunto de sonidos. 1.1.1. Transductores nitos[4] de estados
Los sistemas de palabras conectadas son similares a los de palabras isoladas, pero permiten que diferentes fonemas se junten con una pausa m nima entre ellas. 1.0.3. Dilogo Continuo a
Son de los reconocedores ms dif a ciles de crear porque deben utilizar mtodos especiales e para determinar los l mites de los fonemas. Estos reconocedores permiten al usuario hablar casi naturalmente, mientras que la computadora determina el contenido. 1.0.4. Dilogo Espontneo a a
Como se puede apreciar en la gura 2, los transductores de estados nitos son muy similares a las mquinas de estados nitos, que se a encuentran en diferentes fases de la construccin de un compilador. La diferencia entre una o mquina de estados nitos y un transductor de a estados nitos es que el transductor consta de una etiqueta de entrada, una etiqueta de salida y peso en cada una de sus transiciones, las cuales, por medio de la composicin de transo ductores permiten mantener toda la informacin procesada. o
2.
Procesamiento de lenguaje natural
Es un nivel ms natural de dilogo, que a a no es ensayado y deber poder manejar una a variedad de caracter sticas del dilogo natural, a tales como muletillas (este..., es decir..., osea...).
El Procesamiento de Lenguaje Natural (LNP) por sus siglas en ingls es el acercamiene to computarizado al anlisis de texto y su repa resentacin de forma natural, con el propsito o o de obtener procesamiento parecido al humano para un amplio rango de tareas o aplicaciones.
1 Modelo estad stico para un fenmeno que var aleatoriamente en el tiempo, con una caracter o a stica espec ca que aplica todo el tiempo. 2 Modelo probabil stico que predice el siguiente elemento en una secuencia.
2.1.
Divisiones
Mientras el campo entero es llamado NLP, hay dos enfoques diferentes: Procesamiento de lenguaje y Generacin de lenguaje. La primera o de estas se reere al anlisis del lenguaje para a el propsito de producir una represetnacin o o con sentido, mientras el segundo se reere a la produccin de lenguaje a partir de una repreo sentacin. La generacin de lenguaje natural, o o a pesar de compartir muchos elementos con el anlisis de lenguaje natural, requiere capacia dad de planicar.
fontica, su interpretacin semntica, u otro e o a tipo de representacin. o 2.2.4. Sintctico a
Este nivel se enfoca en analizar las palabras en una oracin para descubrir la estruco tura gramatical de la oracin. Esto requiere o tanto una gramtica como un parser. La salida a de esta fase es normalmente una representacin o no lineal (como un rbol) que revela la depena dencia estructural entre las palabras. 2.2.5. Semntico a
2.2.
Niveles de NLP
Los siguientes niveles han sido modelados a partir proceso cognitivo humano que analiza el lenguaje. 2.2.1. Fonolog a
A pesar de que se cree que la semntia ca determina el signicado, todas las fases previamente mencionadas contribuyen a ese propsito. No obstante, la semntica se eno a carga de determinar los signicados de una oracin, en base a las dependencias especio cadas por el resultado del anlisis semntico. a a 2.2.6. Discurso
Esta parte trata con la interpretacin de o sonidos dentro de y a travs de palabras. e Hemos tratado minsculamente el tema preu viamente, ya que pertenece y concierne a el reconocimiento del habla. 2.2.2. Morfolog a
Este nivel trata de la naturaleza compuesta de las palabras, por medio de morfemas3 . El mejor ejemplo de la aplicacin de la morfolog o a concierne los prejos y sujos, que modelan el signicado del morfema que se encuentre en medio de los mismos. 2.2.3. Lxico e
Es el nivel de NLP que trabaja con unidades de texto mayores a una oracin, eno focndose en las propiedades del texto como a un entero que tiene un sentido. Para sto se e determinan las conexiones entre las oraciones componentes del discurso. 2.2.7. Pragmtico a
Este nivel se enfoca en el uso del lenguaje para un propsito, y utiliza bases de o conocimiento para contextualizarse, para reconocer palabras como ellos, ese ao, etc. n
En este nivel los humanos y los sistemas NLP interpretan el signicado de palabras individuales. Si una palabra tuviera un signicado unico, el detectarla lxicamente facilitar e a la deteccin de su interpretacin semntica, ya o o a que son la misma. Este nivel requiere un lxico, los cuales e entrelazan los lexemas y su representacin o
3
Parte III
Conclusiones
El campo de procesamiento del habla sigue enfrentando desaf pero ultimamente os, han habido desarrollos que permiten utilizar ese tipo de tecnolog en la vida diaria. as
Las menores unidades de signicado
Figura 1: Diagrama de bloques de un sistema de procesamiento del habla.
Las dos fases principales del procesamiento del habla son el reconocimiento de habla y procesamiento de lenguaje natural, las cuales se ayudan de teor anloga a la de compia a ladores (por lo menos en el caso de CMU Sphinx), ya que la tecnolog de transductores a de estados nitos es anloga a los autmatas a o hasta cierto punto, y el procesamiento de lenguaje natural comparte algunas fases de anlisis con un compilador para un lenguaje de a Chomsky nivel 2. No obstante, hay ms fases, a y al depender de contexto, los lenguajes naturales son ciertamente ms amplios y complicaa dos.
tional Linguistics, and Speech Recognition, Pearson Prentice Hall, New Jersey, Segunda edicin, 2010 o [2] Martin, P. A., Speech Interpreter with a Unied Grammar Compiler, U.S. Patent Documents, California Oce, 1997. [3] Shahzad, A., Shahzadi, R., Aadil, F., Shahazada, K., Zafrullah, N., Design and software implementation of eecient speech recognizer, International Journal of Electrical Computer Sciences IJECS-IJENS Vol. 10 No. 01., 2007. [4] Mohri, M., Pereira, F., Riley, M., Speech Recognition with Weighted Finite-State Transducers, Springer Handbook on Speech Processing and Speech Communication, 2010. [5] Doe, J., Natural Language Processing.
Referencias
[1] Jurafsky, D., Martin, J. H., Speech and Language Processing: An Introduction to Natural Language Processing, Computa-
Figura 2: Ejemplo de un transductor de estados nitos.

Speech Recognition

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Speech Recognition

Enviado por

Direitos autorais:

Formatos disponíveis

El rol de los compiladores dentro del campo de procesamiento del habla

Jessica Alejandra Canahui Morales 14 de noviembre de 2011

Pasos del procesamiento del habla

Para ilustracin, referirse a la gura 1 o

Control de la proporcin de o errores[2]

Procesamiento de lenguaje natural

fontica, su interpretacin semntica, u otro e o a tipo de representacin. o 2.2.4. Sintctico a

Las menores unidades de signicado

Figura 1: Diagrama de bloques de un sistema de procesamiento del habla.

Figura 2: Ejemplo de un transductor de estados nitos.

Você também pode gostar