3.1.1herramientas de Código Abierto para El Reconocimiento de Voz

20/3/2018 Herramientas de código abierto para el reconocimiento de voz
Herramientas de código abierto para el

reconocimiento de voz
MIRANDO CMU SPHINX, KALDI, HTK, JULIUS, E ISIP | 23 DE FEBRERO DE 2017
Como miembros del equipo de I + D de profundo aprendizaje en SVDS, estamos interesados

en comparar la Red Neuronal Recurrente (RNN) y otros enfoques para el reconocimiento de
voz. Hasta hace unos años, el estado del arte para el reconocimiento de voz era un enfoque
basado en la fonética que incluía componentes separados para pronunciación, acústica y
modelos de lenguaje . Típicamente, esto consiste en modelos de lenguaje n-gram combinados
con modelos de Hidden Markov (HMM). Queríamos comenzar con esto como un modelo de
línea de base, y luego explorar formas de combinarlo con enfoques más nuevos, como la
Profunda Voz de Baidu.. Si bien existen resúmenes que explican estos modelos fonéticos de
línea de base, no parece haber publicaciones en el blog fácilmente asimilables ni documentos
que comparen las compensaciones de las diferentes herramientas disponibles de manera
gratuita.
Este artículo revisa las principales opciones para los kits de herramientas de reconocimiento
de voz que usan los modelos tradicionales de lenguaje HMM y n-gram. Para el reconocimiento
de voz operativo, general y orientado al cliente, puede ser preferible comprar un producto
como Dragon o Cortana . Pero en un contexto de I + D, a menudo se requiere una solución
más exible y enfocada, y es por eso que decidimos desarrollar nuestra propia cartera de
reconocimiento de voz. A continuación, enumeramos los principales contendientes en el
mundo de los recursos libres o abiertos, y los cali camos en varias características.
https://svds.com/open-source-toolkits-speech-recognition/ 1/8
Comparación de los kits de herramientas de reconocimiento de código abierto y de

libre expresión
Este análisis se basa en nuestra experiencia subjetiva y la información disponible de los

repositorios y sitios web de herramientas. Esta tampoco es una lista exhaustiva de software
de reconocimiento de voz, la mayoría de los cuales se enumeran aquí (que va más allá del
código abierto). Un documento de 2014 de Gaida et.al. evalúa el rendimiento de CMU Sphinx
, Kaldi y HTK . Tenga en cuenta que HTK no es estrictamente de código abierto en su
interpretación habitual, ya que el código no puede ser redistribuido o rediseñado para uso
comercial.
Lenguajes de programación: Dependiendo de su familiaridad con diferentes idiomas, es

posible que pre era un juego de herramientas sobre otro. Todas las opciones enumeradas a
excepción de ISIP tienen envoltorios de Python disponibles en el sitio principal o se
encuentran rápidamente con una búsqueda web. Por supuesto, los wrappers de Python
pueden no exponer la funcionalidad completa del código central disponible en el kit de
herramientas. CMU Sphinx también tiene envoltorios en varios otros lenguajes de
programación.
Actividad de desarrollo: Todos los proyectos enumerados tienen su origen en la investigación

académica. CMU Sphinx, como puede ser obvio por su nombre, es un producto de la
Universidad Carnegie Mellon. Ha existido de alguna forma durante aproximadamente 20
años, y ahora está disponible tanto en GitHub (con versiones C y Java allí) como en
SourceForge , con actividad reciente en ambos. Ambas versiones, Java y C, parecen tener solo
un colaborador en GitHub, pero esto no re eja la realidad histórica del proyecto (hay 9
administradores y más de una docena de desarrolladores en el repositorio de SourceForge).
Kaldi tiene sus raíces académicas de un taller de 2009, con su código ahora alojado en
GitHubcon 121 contribuidores. HTK comenzó su vida en la Universidad de Cambridge en
1989, fue comercial durante un tiempo, pero ahora tiene licencia para volver a Cambridge y
no está disponible como software de código abierto. Si bien su versión más reciente se
actualizó en diciembre de 2015, la versión anterior fue en 2009. Julius ha estado en
desarrollo desde 1997 y tuvo su último lanzamiento importante en septiembre de 2016 con
un repositorio de GitHub algo activo que consta de tres colaboradores, lo que nuevamente es
poco probable para re ejar la realidad ISIP fue el primer sistema de reconocimiento de voz de
código abierto de última generación y se originó en el estado de Mississippi. Se desarrolló en
su mayoría de 1996 a 1999, con su último lanzamiento en 2011, pero el proyecto fue en gran
parte difunto antes de la aparición de GitHub. 1
Community: Here we looked at both mailing and discussion lists and the community of
developers involved. CMU Sphinx has online discussion forums and active interest in its
repos. However, we wonder if the duplication of repos in both SourceForge and GitHub are
blocking more widespread contribution. In comparison, Kaldi has both forums and mailing
lists as well as an active GitHub repo. HTK has mailing lists but no open repository. The user
forum link on the Julius web site is broken but there may be more information on the
Japanese site. ISIP is primarily targeted for educational purposes and the mailing list archives
are no longer functional.
Tutorials and Examples: CMU Sphinx has very readable, thorough, and easy to follow
documentation; Kaldi’s documentation is also comprehensive but a bit harder to follow in my
opinion. However, Kaldi does cover both the phonetic and deep learning approaches to
speech recognition. If you are not familiar with speech recognition, HTK’s tutorial
documentation (available to registered users) gives a good overview to the eld, in addition to
documentation on actual design and use of the system. The Julius project is focused on
Japanese, and the most current documentation is in Japanese2, but they also are actively
translating to English and provide that documentation as well; there are some examples of
running speech recognition here. Finally, the ISIP project has some documentation, but is a
little more dif cult to navigate.
Trained models: Even though a main reason to use these open or free tools is because you
want to train specialized recognition models, it is a big advantage when you can speak to the
system out of the box. CMU Sphinx includes English and many other models ready to use,
with the documentation for connecting to them with Python included right in the GitHub
readme. Kaldi’s instructions for decoding with existing models is hidden deep in the
documentation, but we eventually discovered a model trained on some part of an English
VoxForge dataset in the egs/voxforge subdirectory of the repo, and recognition can be done
by running the script in the online-data subdirectory. We didn’t dig as deeply into the other
three packages, but they all come with at least simple models or appear to be compatible with
the format provided on the VoxForge site, a fairly active crowdsourced repository of speech
recognition data and trained models.
In the future, we will discuss how to get started using CMU Sphinx. We also plan to follow up
on our earlier deep learning post with one that applies neural networks to speech, and will
compare the neural net’s recognition performance to that of CMU Sphinx. In the meantime,
we always love feedback and questions on our blog posts, so let us know if you have
additional perspective on these toolkits or others.
References
http://blog.neospeech.com/2016/07/08/top-5-open-source-speech-recognition-toolkits/
Gaida, Christian, et al. "Comparación de los juegos de herramientas de reconocimiento de
voz de código abierto". Tech. Rep., DHBW Stuttgart (2014).
SUSCRÍBASE A NUESTRO BOLETÍN PARA MANTENERSE EN CONTACTO
1. Después de notar que muchos de los enlaces del sitio web están rotos, enviamos un correo electrónico a la lista de correo
para informarles acerca de los enlaces rotos, y recibimos una respuesta que nos informa que el sitio actualmente tiene
propósitos históricos.
2. Por lo tanto, nuestra cali cación de "++" se aplica solo a inglés, ya que no leemos japonés.
1 Comment SVDS 
1 Login
Sort by Best
 Recommend ⤤ Share
Join the discussion…
LOG IN WITH
OR SIGN UP WITH DISQUS ?
Name
Harold Squid • 10 months ago

What do you think of :
CNTK
https://github.com/microsof...
English Conversational Telephone Speech Recognition by Humans and Machines (IBM)

https://arxiv.org/abs/1703....
△ ▽ • Reply • Share ›
ALSO ON SVDS
Avoiding Common Mistakes with Time Machine Learning vs. Statistics - Silicon
Series - Silicon Valley Data Science Valley Data Science
1 comment • a year ago 1 comment • 7 months ago
Vishnu Viswanath — great post!. I have paw patroller — Thank you for putting this
question, for timeseries modeling, if we very informative article together. some
remove the trend and seasonality, how can questions:you write:"We briefly define the
Learning from Imbalanced Classes - Chatbots in Banking - Silicon Valley

Silicon Valley Data Science Data Science
1 comment • 4 months ago 1 comment • 10 months ago
oriolmirosa — This is a fantastic post, and I Ashish K Jain — Chatbots will be critical in
learned a lot from it. Thanks! Just one quick the future evolution of banking and financial
question: when you start the 'And Beyond' services to provide always on intelligent …
✉ Subscribe d Add Disqus to your siteAdd DisqusAdd 🔒 Privacy
CINDI THOMPSON
Cindi es un solucionador de problemas de colaboración natural capaz de salvar preocupaciones técnicas y

comerciales utilizando fuertes habilidades de comunicación y facilitación.
COMPARTIR
PUBLICACIONES DE BLOG RELACIONADAS
COMPRENDER LOS KITS DE HERRAMIENTAS DE INTELIGENCIA ARTIFICIAL

Además de desarrollar la familiaridad con las técnicas de IA, ...
RECONOCIMIENTO DE IMAGEN TENSORFLOW EN UNA RASPBERRY PI

En esta publicación, Matt habla sobre el uso de TensorFlow ...
COMENZANDO CON EL APRENDIZAJE PROFUNDO

Una forma de retribuir a la apertura ...
VER TODOS LOS BLOGS
EVENTOS RELACIONADOS
13 DE
MARZO
STRATA + HADOOP WORLD CA 2017

San Jose, CA
3 DE
ABRIL
TDWI ACCELERATE BOSTON 2017

Boston, MA
TODOS LOS EVENTOS DE SVDS
ARTÍCULO ANTERIOR
Rompiendo las barreras de la comunicación en la tecnología

ARTÍCULO SIGUIENTE
Cómo navegar por el ecosistema de Jupyter
Suscríbete a nuestro boletín

First Name
Last Name
Email
ENVIAR
© 2017 Silicon Valley Data Science LLC
Recursos Mapa del sitio

Blog Política de privacidad
Estudios de caso Términos de Uso
Proyectos

3.1.1herramientas de Código Abierto para El Reconocimiento de Voz

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

3.1.1herramientas de Código Abierto para El Reconocimiento de Voz

Enviado por

Direitos autorais:

Formatos disponíveis

20/3/2018 Herramientas de código abierto para el reconocimiento de voz

Herramientas de código abierto para el

Como miembros del equipo de I + D de profundo aprendizaje en SVDS, estamos interesados

Comparación de los kits de herramientas de reconocimiento de código abierto y de

Este análisis se basa en nuestra experiencia subjetiva y la información disponible de los

Lenguajes de programación: Dependiendo de su familiaridad con diferentes idiomas, es

Actividad de desarrollo: Todos los proyectos enumerados tienen su origen en la investigación

SUSCRÍBASE A NUESTRO BOLETÍN PARA MANTENERSE EN CONTACTO

Join the discussion…

Harold Squid • 10 months ago

English Conversational Telephone Speech Recognition by Humans and Machines (IBM)

Learning from Imbalanced Classes - Chatbots in Banking - Silicon Valley

✉ Subscribe d Add Disqus to your siteAdd DisqusAdd 🔒 Privacy

Cindi es un solucionador de problemas de colaboración natural capaz de salvar preocupaciones técnicas y

PUBLICACIONES DE BLOG RELACIONADAS

COMPRENDER LOS KITS DE HERRAMIENTAS DE INTELIGENCIA ARTIFICIAL

RECONOCIMIENTO DE IMAGEN TENSORFLOW EN UNA RASPBERRY PI

COMENZANDO CON EL APRENDIZAJE PROFUNDO

VER TODOS LOS BLOGS

STRATA + HADOOP WORLD CA 2017

TDWI ACCELERATE BOSTON 2017

TODOS LOS EVENTOS DE SVDS

Rompiendo las barreras de la comunicación en la tecnología

Cómo navegar por el ecosistema de Jupyter

Suscríbete a nuestro boletín

© 2017 Silicon Valley Data Science LLC

Recursos Mapa del sitio

Você também pode gostar