Escolar Documentos
Profissional Documentos
Cultura Documentos
Este artículo revisa las principales opciones para los kits de herramientas de reconocimiento
de voz que usan los modelos tradicionales de lenguaje HMM y n-gram. Para el reconocimiento
de voz operativo, general y orientado al cliente, puede ser preferible comprar un producto
como Dragon o Cortana . Pero en un contexto de I + D, a menudo se requiere una solución
más exible y enfocada, y es por eso que decidimos desarrollar nuestra propia cartera de
reconocimiento de voz. A continuación, enumeramos los principales contendientes en el
mundo de los recursos libres o abiertos, y los cali camos en varias características.
https://svds.com/open-source-toolkits-speech-recognition/ 1/8
20/3/2018 Herramientas de código abierto para el reconocimiento de voz
desarrollo desde 1997 y tuvo su último lanzamiento importante en septiembre de 2016 con
un repositorio de GitHub algo activo que consta de tres colaboradores, lo que nuevamente es
poco probable para re ejar la realidad ISIP fue el primer sistema de reconocimiento de voz de
código abierto de última generación y se originó en el estado de Mississippi. Se desarrolló en
su mayoría de 1996 a 1999, con su último lanzamiento en 2011, pero el proyecto fue en gran
parte difunto antes de la aparición de GitHub. 1
Community: Here we looked at both mailing and discussion lists and the community of
developers involved. CMU Sphinx has online discussion forums and active interest in its
repos. However, we wonder if the duplication of repos in both SourceForge and GitHub are
blocking more widespread contribution. In comparison, Kaldi has both forums and mailing
lists as well as an active GitHub repo. HTK has mailing lists but no open repository. The user
forum link on the Julius web site is broken but there may be more information on the
Japanese site. ISIP is primarily targeted for educational purposes and the mailing list archives
are no longer functional.
Tutorials and Examples: CMU Sphinx has very readable, thorough, and easy to follow
documentation; Kaldi’s documentation is also comprehensive but a bit harder to follow in my
opinion. However, Kaldi does cover both the phonetic and deep learning approaches to
speech recognition. If you are not familiar with speech recognition, HTK’s tutorial
documentation (available to registered users) gives a good overview to the eld, in addition to
documentation on actual design and use of the system. The Julius project is focused on
Japanese, and the most current documentation is in Japanese2, but they also are actively
translating to English and provide that documentation as well; there are some examples of
running speech recognition here. Finally, the ISIP project has some documentation, but is a
little more dif cult to navigate.
https://svds.com/open-source-toolkits-speech-recognition/ 3/8
20/3/2018 Herramientas de código abierto para el reconocimiento de voz
Trained models: Even though a main reason to use these open or free tools is because you
want to train specialized recognition models, it is a big advantage when you can speak to the
system out of the box. CMU Sphinx includes English and many other models ready to use,
with the documentation for connecting to them with Python included right in the GitHub
readme. Kaldi’s instructions for decoding with existing models is hidden deep in the
documentation, but we eventually discovered a model trained on some part of an English
VoxForge dataset in the egs/voxforge subdirectory of the repo, and recognition can be done
by running the script in the online-data subdirectory. We didn’t dig as deeply into the other
three packages, but they all come with at least simple models or appear to be compatible with
the format provided on the VoxForge site, a fairly active crowdsourced repository of speech
recognition data and trained models.
In the future, we will discuss how to get started using CMU Sphinx. We also plan to follow up
on our earlier deep learning post with one that applies neural networks to speech, and will
compare the neural net’s recognition performance to that of CMU Sphinx. In the meantime,
we always love feedback and questions on our blog posts, so let us know if you have
additional perspective on these toolkits or others.
References
http://blog.neospeech.com/2016/07/08/top-5-open-source-speech-recognition-toolkits/
Gaida, Christian, et al. "Comparación de los juegos de herramientas de reconocimiento de
voz de código abierto". Tech. Rep., DHBW Stuttgart (2014).
1. Después de notar que muchos de los enlaces del sitio web están rotos, enviamos un correo electrónico a la lista de correo
para informarles acerca de los enlaces rotos, y recibimos una respuesta que nos informa que el sitio actualmente tiene
propósitos históricos.
2. Por lo tanto, nuestra cali cación de "++" se aplica solo a inglés, ya que no leemos japonés.
https://svds.com/open-source-toolkits-speech-recognition/ 4/8
20/3/2018 Herramientas de código abierto para el reconocimiento de voz
1 Comment SVDS
1 Login
Sort by Best
Recommend ⤤ Share
LOG IN WITH
OR SIGN UP WITH DISQUS ?
Name
CNTK
https://github.com/microsof...
ALSO ON SVDS
Avoiding Common Mistakes with Time Machine Learning vs. Statistics - Silicon
Series - Silicon Valley Data Science Valley Data Science
1 comment • a year ago 1 comment • 7 months ago
Vishnu Viswanath — great post!. I have paw patroller — Thank you for putting this
question, for timeseries modeling, if we very informative article together. some
remove the trend and seasonality, how can questions:you write:"We briefly define the
https://svds.com/open-source-toolkits-speech-recognition/ 5/8
20/3/2018 Herramientas de código abierto para el reconocimiento de voz
CINDI THOMPSON
COMPARTIR
https://svds.com/open-source-toolkits-speech-recognition/ 6/8
20/3/2018 Herramientas de código abierto para el reconocimiento de voz
EVENTOS RELACIONADOS
13 DE
MARZO
3 DE
ABRIL
ARTÍCULO ANTERIOR
First Name
Last Name
ENVIAR
https://svds.com/open-source-toolkits-speech-recognition/ 8/8