Você está na página 1de 8

20/3/2018 Herramientas de código abierto para el reconocimiento de voz

Herramientas de código abierto para el


reconocimiento de voz
MIRANDO CMU SPHINX, KALDI, HTK, JULIUS, E ISIP | 23 DE FEBRERO DE 2017

Como miembros del equipo de I + D de profundo aprendizaje en SVDS, estamos interesados


en comparar la Red Neuronal Recurrente (RNN) y otros enfoques para el reconocimiento de
voz. Hasta hace unos años, el estado del arte para el reconocimiento de voz era un enfoque
basado en la fonética que incluía componentes separados para pronunciación, acústica y
modelos de lenguaje . Típicamente, esto consiste en modelos de lenguaje n-gram combinados
con modelos de Hidden Markov (HMM). Queríamos comenzar con esto como un modelo de
línea de base, y luego explorar formas de combinarlo con enfoques más nuevos, como la
Profunda Voz de Baidu.. Si bien existen resúmenes que explican estos modelos fonéticos de
línea de base, no parece haber publicaciones en el blog fácilmente asimilables ni documentos
que comparen las compensaciones de las diferentes herramientas disponibles de manera
gratuita.

Este artículo revisa las principales opciones para los kits de herramientas de reconocimiento
de voz que usan los modelos tradicionales de lenguaje HMM y n-gram. Para el reconocimiento
de voz operativo, general y orientado al cliente, puede ser preferible comprar un producto
como Dragon o Cortana . Pero en un contexto de I + D, a menudo se requiere una solución
más exible y enfocada, y es por eso que decidimos desarrollar nuestra propia cartera de
reconocimiento de voz. A continuación, enumeramos los principales contendientes en el
mundo de los recursos libres o abiertos, y los cali camos en varias características.

https://svds.com/open-source-toolkits-speech-recognition/ 1/8
20/3/2018 Herramientas de código abierto para el reconocimiento de voz

Comparación de los kits de herramientas de reconocimiento de código abierto y de


libre expresión

Este análisis se basa en nuestra experiencia subjetiva y la información disponible de los


repositorios y sitios web de herramientas. Esta tampoco es una lista exhaustiva de software
de reconocimiento de voz, la mayoría de los cuales se enumeran aquí (que va más allá del
código abierto). Un documento de 2014 de Gaida et.al. evalúa el rendimiento de CMU Sphinx
, Kaldi y HTK . Tenga en cuenta que HTK no es estrictamente de código abierto en su
interpretación habitual, ya que el código no puede ser redistribuido o rediseñado para uso
comercial.

Lenguajes de programación: Dependiendo de su familiaridad con diferentes idiomas, es


posible que pre era un juego de herramientas sobre otro. Todas las opciones enumeradas a
excepción de ISIP tienen envoltorios de Python disponibles en el sitio principal o se
encuentran rápidamente con una búsqueda web. Por supuesto, los wrappers de Python
pueden no exponer la funcionalidad completa del código central disponible en el kit de
herramientas. CMU Sphinx también tiene envoltorios en varios otros lenguajes de
programación.

Actividad de desarrollo: Todos los proyectos enumerados tienen su origen en la investigación


académica. CMU Sphinx, como puede ser obvio por su nombre, es un producto de la
Universidad Carnegie Mellon. Ha existido de alguna forma durante aproximadamente 20
años, y ahora está disponible tanto en GitHub (con versiones C y Java allí) como en
SourceForge , con actividad reciente en ambos. Ambas versiones, Java y C, parecen tener solo
un colaborador en GitHub, pero esto no re eja la realidad histórica del proyecto (hay 9
administradores y más de una docena de desarrolladores en el repositorio de SourceForge).
Kaldi tiene sus raíces académicas de un taller de 2009, con su código ahora alojado en
GitHubcon 121 contribuidores. HTK comenzó su vida en la Universidad de Cambridge en
1989, fue comercial durante un tiempo, pero ahora tiene licencia para volver a Cambridge y
no está disponible como software de código abierto. Si bien su versión más reciente se
actualizó en diciembre de 2015, la versión anterior fue en 2009. Julius ha estado en
https://svds.com/open-source-toolkits-speech-recognition/ 2/8
20/3/2018 Herramientas de código abierto para el reconocimiento de voz

desarrollo desde 1997 y tuvo su último lanzamiento importante en septiembre de 2016 con
un repositorio de GitHub algo activo que consta de tres colaboradores, lo que nuevamente es
poco probable para re ejar la realidad ISIP fue el primer sistema de reconocimiento de voz de
código abierto de última generación y se originó en el estado de Mississippi. Se desarrolló en
su mayoría de 1996 a 1999, con su último lanzamiento en 2011, pero el proyecto fue en gran
parte difunto antes de la aparición de GitHub. 1

Community: Here we looked at both mailing and discussion lists and the community of
developers involved. CMU Sphinx has online discussion forums and active interest in its
repos. However, we wonder if the duplication of repos in both SourceForge and GitHub are
blocking more widespread contribution. In comparison, Kaldi has both forums and mailing
lists as well as an active GitHub repo. HTK has mailing lists but no open repository. The user
forum link on the Julius web site is broken but there may be more information on the
Japanese site. ISIP is primarily targeted for educational purposes and the mailing list archives
are no longer functional.

Tutorials and Examples: CMU Sphinx has very readable, thorough, and easy to follow
documentation; Kaldi’s documentation is also comprehensive but a bit harder to follow in my
opinion. However, Kaldi does cover both the phonetic and deep learning approaches to
speech recognition. If you are not familiar with speech recognition, HTK’s tutorial
documentation (available to registered users) gives a good overview to the eld, in addition to
documentation on actual design and use of the system. The Julius project is focused on
Japanese, and the most current documentation is in Japanese2, but they also are actively
translating to English and provide that documentation as well; there are some examples of
running speech recognition here. Finally, the ISIP project has some documentation, but is a
little more dif cult to navigate.

https://svds.com/open-source-toolkits-speech-recognition/ 3/8
20/3/2018 Herramientas de código abierto para el reconocimiento de voz

Trained models: Even though a main reason to use these open or free tools is because you
want to train specialized recognition models, it is a big advantage when you can speak to the
system out of the box. CMU Sphinx includes English and many other models ready to use,
with the documentation for connecting to them with Python included right in the GitHub
readme. Kaldi’s instructions for decoding with existing models is hidden deep in the
documentation, but we eventually discovered a model trained on some part of an English
VoxForge dataset in the egs/voxforge subdirectory of the repo, and recognition can be done
by running the script in the online-data subdirectory. We didn’t dig as deeply into the other
three packages, but they all come with at least simple models or appear to be compatible with
the format provided on the VoxForge site, a fairly active crowdsourced repository of speech
recognition data and trained models.

In the future, we will discuss how to get started using CMU Sphinx. We also plan to follow up
on our earlier deep learning post with one that applies neural networks to speech, and will
compare the neural net’s recognition performance to that of CMU Sphinx. In the meantime,
we always love feedback and questions on our blog posts, so let us know if you have
additional perspective on these toolkits or others.

References
http://blog.neospeech.com/2016/07/08/top-5-open-source-speech-recognition-toolkits/
Gaida, Christian, et al. "Comparación de los juegos de herramientas de reconocimiento de
voz de código abierto". Tech. Rep., DHBW Stuttgart (2014).

SUSCRÍBASE A NUESTRO BOLETÍN PARA MANTENERSE EN CONTACTO

1. Después de notar que muchos de los enlaces del sitio web están rotos, enviamos un correo electrónico a la lista de correo

para informarles acerca de los enlaces rotos, y recibimos una respuesta que nos informa que el sitio actualmente tiene

propósitos históricos.

2. Por lo tanto, nuestra cali cación de "++" se aplica solo a inglés, ya que no leemos japonés.

https://svds.com/open-source-toolkits-speech-recognition/ 4/8
20/3/2018 Herramientas de código abierto para el reconocimiento de voz

1 Comment SVDS 
1 Login

Sort by Best
 Recommend ⤤ Share

Join the discussion…

LOG IN WITH
OR SIGN UP WITH DISQUS ?

Name

Harold Squid • 10 months ago


What do you think of :

CNTK
https://github.com/microsof...

English Conversational Telephone Speech Recognition by Humans and Machines (IBM)


https://arxiv.org/abs/1703....
△ ▽ • Reply • Share ›

ALSO ON SVDS

Avoiding Common Mistakes with Time Machine Learning vs. Statistics - Silicon
Series - Silicon Valley Data Science Valley Data Science
1 comment • a year ago 1 comment • 7 months ago
Vishnu Viswanath — great post!. I have paw patroller — Thank you for putting this
question, for timeseries modeling, if we very informative article together. some
remove the trend and seasonality, how can questions:you write:"We briefly define the

Learning from Imbalanced Classes - Chatbots in Banking - Silicon Valley


Silicon Valley Data Science Data Science
1 comment • 4 months ago 1 comment • 10 months ago
oriolmirosa — This is a fantastic post, and I Ashish K Jain — Chatbots will be critical in
learned a lot from it. Thanks! Just one quick the future evolution of banking and financial
question: when you start the 'And Beyond' services to provide always on intelligent …

✉ Subscribe d Add Disqus to your siteAdd DisqusAdd 🔒 Privacy

https://svds.com/open-source-toolkits-speech-recognition/ 5/8
20/3/2018 Herramientas de código abierto para el reconocimiento de voz

CINDI THOMPSON

Cindi es un solucionador de problemas de colaboración natural capaz de salvar preocupaciones técnicas y


comerciales utilizando fuertes habilidades de comunicación y facilitación.

COMPARTIR

PUBLICACIONES DE BLOG RELACIONADAS

COMPRENDER LOS KITS DE HERRAMIENTAS DE INTELIGENCIA ARTIFICIAL


Además de desarrollar la familiaridad con las técnicas de IA, ...

https://svds.com/open-source-toolkits-speech-recognition/ 6/8
20/3/2018 Herramientas de código abierto para el reconocimiento de voz

RECONOCIMIENTO DE IMAGEN TENSORFLOW EN UNA RASPBERRY PI


En esta publicación, Matt habla sobre el uso de TensorFlow ...

COMENZANDO CON EL APRENDIZAJE PROFUNDO


Una forma de retribuir a la apertura ...

VER TODOS LOS BLOGS

EVENTOS RELACIONADOS

13 DE
MARZO

STRATA + HADOOP WORLD CA 2017


San Jose, CA

3 DE
ABRIL

TDWI ACCELERATE BOSTON 2017


Boston, MA

TODOS LOS EVENTOS DE SVDS

ARTÍCULO ANTERIOR

Rompiendo las barreras de la comunicación en la tecnología


ARTÍCULO SIGUIENTE

Cómo navegar por el ecosistema de Jupyter

Suscríbete a nuestro boletín


https://svds.com/open-source-toolkits-speech-recognition/ 7/8
20/3/2018 Herramientas de código abierto para el reconocimiento de voz

First Name

Last Name

Email

ENVIAR

© 2017 Silicon Valley Data Science LLC

Recursos Mapa del sitio


Blog Política de privacidad
Estudios de caso Términos de Uso
Proyectos

https://svds.com/open-source-toolkits-speech-recognition/ 8/8

Você também pode gostar