Você está na página 1de 7

OLIVEIRA, Gustavo dos Reis; COSTA, Renata Luiza.

Revisão Bibliográfica sobre Tecnologias de Reconhecimento de


Voz.
DOI: <https://doi.org/10.21166/cpitt.v2i1.2028>.

REVISÃO BIBLIOGRÁFICA SOBRE TECNOLOGIAS DE RECONHECIMENTO


DE VOZ1
Literature review on speech recognition technologies

Gustavo dos Reis Oliveira 1


Renata Luiza da Costa1
1
Instituto Federal de Goiás – Campus Inhumas

RESUMO: Este texto apresenta resultados de projeto de pesquisa de iniciação


científica sobre tecnologias de reconhecimento de voz. Sabe-se que o
reconhecimento de voz é usado em diversas aplicações a partir de comandos de voz.
Apesar da diversidade de aplicações, esta tecnologia enfrenta problemas de
ineficiência em função de fonemas semelhantes, tom de voz, entre outros. Nesse
sentido, foi necessário fazer uma revisão de literatura aprofundada sobre o tema
visando formular outras linhas de desenvolvimento tecnológico para tal área. O
resultado principal é a pesquisa bibliográfica sobre reconhecimento de voz.
Palavras-Chave: Reconhecimento de Voz; Inteligência Artificial.

ABSTRACT: This text presents results of a scientific initiation research project on


voice recognition technologies. It is known that speech recognition is used in several
applications from voice commands. Despite the diversity of applications, this
technology faces problems of inefficiency due to similar phonemes, tone of voice,
among others. In this sense, it is important to make a thorough literature review on
the subject, in order to formulate other technological development research on this
area. Its main result is the bibliographic research on speech recognition.
Keywords: Voice recognition; Artificial intelligence.

INTRODUÇÃO

Sabe-se que o reconhecimento de voz é usado em diversas aplicações e isso


tem sido ampliado com a Internet das Coisas (IoT) para fins de desencadeamento
de ações automáticas de equipamentos, a partir de comandos de voz. Com
tecnologias de reconhecimento de voz, é possível ligar uma TV, abrir uma janela ou
as portas da casa, acionar eletrodomésticos e ar condicionado, realizar ligações
telefônicas, entre outras possibilidades, simplesmente usando a voz humana.
Os usos do reconhecimento de voz no cotidiano e em aplicações industriais
diversas vão para além do luxo, podendo atender púbicos com necessidades
especiais diversas mas, apesar da diversidade de aplicações, o reconhecimento de
voz enfrenta problemas de ineficiência, na comparação de fonemas semelhantes, ou
tom de voz, entre outros exemplos de mal funcionamento ainda existentes.
Nesse sentido, torna-se importante estudar a vanguarda das tecnologias de
reconhecimento de voz, entendendo tecnologias aqui de maneira ampla para
englobar ferramentas e algoritmos, no intuito de contribuir com o refinamento de tal
conhecimento a partir de contribuições para área.
Este texto é resultado de etapa preliminar de um projeto de pesquisa sobre
tecnologias de reconhecimento de voz, e tem como objetivo justamente elaborar o
estado da arte sobre as tecnologias de reconhecimento de voz para o estudo de

1
Uma versão preliminar deste trabalho foi apresentada inicialmente durante o 13º Seminário de Iniciação
Científica e Tecnológica, realizado pelo IFG na cidade de Goiânia.

28 CPITT – Caderno de Propriedade Intelectual e Transferência de Tecnologia, v.2, n.1, jun. 2020
OLIVEIRA, Gustavo dos Reis; COSTA, Renata Luiza. Revisão Bibliográfica sobre Tecnologias de Reconhecimento de
Voz.
DOI: <https://doi.org/10.21166/cpitt.v2i1.2028>.

algoritmos e frameworks com o mesmo objetivo.


A partir desse contexto, o texto descreve o levantamento bibliográfico da
referida área, sendo trajetória para fundamentar o referido projeto de pesquisa.

DESENVOLVIMENTO DA PESQUISA

Esta pesquisa bibliográfica procurou seguir um nível apropriado de rigor


científico a fim de não comprometer a credibilidade científica do trabalho. Nesse tipo
de pesquisa também conhecido por revisão sistemática, mapeamento sistemático,
ou estado da arte, dentre outros nomes, foram adotadas etapas e rigores específicos
pois uma de suas finalidades, em etapa inicial de pesquisa, foi explorar o tema
pesquisado de maneira a conhecer a situação científica e tecnológica atual do tema,
quais grupos de pesquisa são referências no assunto, e quais subtemas de maior
interesse precisam ainda ser mais pesquisado.
Foi desenvolvida uma rigorosa bibliográfica visando fundamentar as decisões
dos pesquisadores sobre os rumos da investigação aqui apresentada, partindo-se do
pressuposto de que a “[...] pesquisa bibliográfica costuma ser desenvolvida como
parte de uma pesquisa mais ampla, visando identificar o conhecimento disponível
sobre o assunto, a melhor formulação do problema ou a construção de hipóteses”
Gil (2002, p. 88). Desse modo, a pesquisa bibliográfica foi aqui realizada orientando
e reorientando a formulação do problema de pesquisa, seus objetivos e a escolha
por metodologias adequadas e factíveis.
Para a investigação relatada neste texto, as primeiras pesquisas foram
efetuadas na plataforma Google a partir da curiosidade em entender-se o
reconhecimento de voz. A partir dos conhecimentos obtidos nessas pesquisas
preliminares, começou a pesquisa bibliográfica robusta visando montar-se um
panorama de como estão as pesquisas e tecnologias no campo de reconhecimento
de voz, usando nesse a plataforma gratuita Google Acadêmico.
Nessa plataforma foram pesquisados os seguintes descritores:
“reconhecimento de voz”, “estado da arte do reconhecimento de voz”, “voice
recognition”. Dessa busca foram selecionados 50 artigos com base no critério de
proximidade de tema, analisando se havia o descritor no título ou resumo do texto.
Também foi feita uma segunda seleção com base nos seguintes critérios: Ano de
publicação, citação por outros autores. Dessa 2ª busca, foram selecionados 7 artigos,
conforme Tabela 1.

Tabela 1 – Resultados das primeiras buscas efetuadas no Google Acadêmico


Termos de entrada usados na busca no Google Acadêmico Resultados
reconhecimento de estado da arte do voice recogniticon 50
voz reconhecimento de voz
Refinamento da busca acima por ano de publicação e citações=> 7
Fonte: os autores.

A partir do estudo dos textos da revisão bibliográfica, foram organizadas


reuniões para definir como seria a pesquisa bibliográfica sobre as tecnologias de
reconhecimento de voz. Posteriormente, foram selecionados os termos para busca
de ferramentas online e desktop que usassem reconhecimento de voz em algum
processo.
Para essa busca, foram escolhidos os descritores “reconhecimento de voz

CPITT – Caderno de Propriedade Intelectual e Transferência de Tecnologia, v.2, n.1, jun. 2020 29
OLIVEIRA, Gustavo dos Reis; COSTA, Renata Luiza. Revisão Bibliográfica sobre Tecnologias de Reconhecimento de
Voz.
DOI: <https://doi.org/10.21166/cpitt.v2i1.2028>.

software”, “Voice recognition tool” e “reconhecimento de locutor api”. Esses


descritores foram pesquisados no Google e, após análise dos 20 primeiros
resultados, foram escolhidas 2 ferramentas para estudo mais aprofundado, por
serem as mais citadas dentre os 20, sendo elas elas as tecnologias Microsoft Azure
e Tensorflow.

Tabela 2 – Resultados da última busca efetuada no Google Acadêmico


Termos de entrada usados na busca no Google Acadêmico Resultados
Reconhecimento de voice recognition reconhecimento de 20
voz software tool locutor api
Refinamento da busca acima por ano de publicação e citações=> 2
Fonte: os autores.

A respeito dos materiais utilizados na pesquisa aprofundada, foram eles:


a) Bibliotecas para manipulação de vetores e dados matemáticos na
linguagem de programação Python;
b) IDE Pycharm, Editor de textos Sublime text3 (versão gratuita);
c) API Tensorflow; API Microsoft Azure.

Para os testes foram necessários conhecimentos básicos em Terminal do


Windows e de repositórios no GiTHub.

RESULTADOS E DISCUSSÃO

A priori, foram analisados os resultados do levantamento bibliográfico de


artigos e teses a respeito do reconhecimento de voz, chegando-se a algumas
importantes constatações preliminares que fundamentarão as fases ulteriores do
projeto de pesquisa.
Acerca dos Softwares RAV de português brasileiro, observou-se que carecem
de qualidade e quantidade disponibilizada é reduzida. Foi desenvolvido um sistema
utilizando toolkits como HTK (linguagem C) e SRLIM. Os problemas encontrados no
desenvolvimento foram relacionados à ambiguidade da língua e aos elementos
constitutivos da comunicação (emissor, receptor, mensagem, código, canal,
contexto), problemas que foram resolvidos com uma extração de parâmetros do som
e uso de probabilidade aplicada ao padrão do som (SILVA, 2010);
Devido à carência de tecnologias específicas para o português brasileiro,
algumas pesquisas visaram o desenvolvimento de recursos para o desenvolvimento
de tecnologias com ASR para desktop e sistemas embarcados, usando a Speech
API do Java e CMUSphinx (OLIVEIRA et al, 2019);
Percebe-se também que, visando critérios de maior segurança na tecnologia
de reconhecimento de voz, o uso da tecnologia RAL (Reconhecimento de pessoas
pela voz) tem sido recorrente nos equipamentos e, devido à falta de textos
comparativos entre os algoritmos de tratamento de voz, pesquisadores fizeram
comparações de precisão dos algoritmos MFCC, SSCH e PNCC, todos usando a
mesma base de dados. Ao final, mostraram que o PNCC é o mais vantajoso
(SIQUEIRA; ALCAIM, 2019);
Além disso, com a falta de grandes vocabulários de português brasileiro, o
trabalho de Hosn (2006) teve o objetivo de implementar um sistema LVCRS para a
conversão grafena-fone. Os problemas encontrados foram em relação aos

30 CPITT – Caderno de Propriedade Intelectual e Transferência de Tecnologia, v.2, n.1, jun. 2020
OLIVEIRA, Gustavo dos Reis; COSTA, Renata Luiza. Revisão Bibliográfica sobre Tecnologias de Reconhecimento de
Voz.
DOI: <https://doi.org/10.21166/cpitt.v2i1.2028>.

elementos do ato comunicativo. Foi usado HTK (baseado em HMM) para reconhecer
os fonemas (HOSN, 2006).
Esses resultados evidenciam que no cenário nacional, o reconhecimento de
voz ainda tem muito que melhorar em qualidade e quantidade, pois os sistemas de
reconhecimento de voz em português poderiam ser mais eficientes. Ademais, para a
criação desses é preciso de uma base de dados com áudios para treinamento do
sistema e essas são escassas, dificultando a criação de sistemas de
reconhecimento de voz na língua portuguesa.
Além disso, a carência de bases de dados para treinamentos de modelos
para reconhecimento de voz e fatores como os elementos constitutivos da
comunicação (emissor, receptor, mensagem, código, canal, contexto) são uma
problemática para o desenvolvimento de sistemas que reconhecem a língua
portuguesa. Existem poucas ferramentas que auxiliam no desenvolvimento de
sistemas de reconhecimento de voz da língua portuguesa.
Em uma segunda análise, acerca das ferramentas, observa-se que mesmo
não sendo desenvolvidas por empresas nacionais, reconhecem o português
brasileiro, e acerca delas levanta-se as seguintes observações:

1. A grande maioria das ferramentas apenas transcreve a fala para texto;


2. A maioria exige conexão com a internet para funcionar;
3. Não funcionam bem caso haja barulhos ou ruídos de fundo.

Ainda na etapa de análise de ferramentas que reconhecem voz, tem-se as


API(s) da Microsoft Azure e o Tensorflow.
Sobre o Tensorflow, observa-se que o mesmo apresenta muitos recursos para
o desenvolvimento de tecnologias com Inteligência artificial, recursos que auxiliam a
criação de redes neurais, bibliotecas e modelos já treinados para uma determinada
tarefa. Dentre as tarefas, existe uma biblioteca para treinamento de modelos que
reconhecem falas ditas e associam essas falas a comando simples como “sim”,
“não”, “para frente”.
Todavia, esta é uma biblioteca nativa do idioma inglês e, caso queira se
treinar um modelo em português, é preciso usar uma base de dados de treinamento
com áudios em português. Como não foram encontradas bases que se adequassem
ao algoritmo de reconhecimento de voz, optou-se por usar a biblioteca nativa que é
constituída por mais de 10.000 áudios para treinamento do modelo.
Nesse caso, o algoritmo levou 30 horas para rodar toda a base de dados.
Após o término do treinamento, o modelo de reconhecimento de voz conseguia
reconhecer áudios dos comandos pré estabelecidos no banco de dados com uma
precisão de 89% a 95%, dependendo da palavra dita.
No que diz respeito ao Microsoft Azure, ele apresenta diversos recursos para
o uso de inteligência artificial nas mais diversas áreas, sendo bastante eficiente no
que diz respeito a reconhecer imagens e seus componentes. Quanto à parte de
reconhecimento de voz, apresenta uma variedade menor de opções, e o
reconhecimento de voz inicial de algumas funções pode ser aplicado diretamente no
navegador, dependendo apenas de boa conexão com a internet e um microfone a
disposição para captação de áudio. Nas funções testadas nessa plataforma, estão a
transcrição de fala para escrita, que funcionou bem, porém com alguns deslizes se
houvesse ruídos de fundos ou palavras muito semelhantes na fonética.
Outra função que a plataforma oferece e foi testada no navegador é o
reconhecimento de pessoas pela voz. Essa função exige que o usuário dite algumas

CPITT – Caderno de Propriedade Intelectual e Transferência de Tecnologia, v.2, n.1, jun. 2020 31
OLIVEIRA, Gustavo dos Reis; COSTA, Renata Luiza. Revisão Bibliográfica sobre Tecnologias de Reconhecimento de
Voz.
DOI: <https://doi.org/10.21166/cpitt.v2i1.2028>.

frases e palavras preestabelecidas para que o sistema monte a base de


reconhecimento da pessoa. Esse sistema funciona apenas com a língua inglesa e
para funcionar as frases devem ser ditas de forma clara e sem ruídos de fundo.
Porém, mesmo testando o sistema sob esses parâmetros de bom funcionamento,
ele não se saiu bem na tarefa de reconhecer locutores pela voz. Dentre os motivos
que levaram a esse resultado, a pouca quantidade de entradas de dados de
treinamento é um dos principais.

CONSIDERAÇÕES FINAIS

O presente trabalho, resultado de etapa preliminar de um projeto de pesquisa


sobre tecnologias de reconhecimento de voz, teve como objetivo elaborar o estado
da arte sobre as tecnologias de reconhecimento de voz para o estudo de algoritmos
e frameworks com o mesmo objetivo.
Foram efetuadas buscas preliminares no buscador Google, e a partir do
estudo sistemático dos resultados, passou-se a utilizar a plataforma científica
Google Acadêmico, que é gratuita e cobre uma base de milhões de textos científicos,
sendo então composto o levantamento bibliográfico da referida área, uma etapa
fundamental para embasar o referido projeto de pesquisa.
Os resultados da pesquisa mostraram, entre outras observações importantes,
que sistemas de reconhecimento de voz evoluem cada vez mais rápido com elevada
associação à tecnologia de Inteligência Artificial, porém, nem todas as possibilidades
que poderiam ser exploradas a partir dessa tecnologia evoluem no mesmo ritmo. A
transcrição de fala para texto em inglês está bem desenvolvida, e em português
encontra-se em nível intermediário, cometendo apenas alguns deslizes em contraste
com aplicações que executam ações a partir de comandos de voz, que, apesar de
serem práticas em alguns casos, ainda cometem erros que inviabilizam um uso
seguro à prova de falhas, como por exemplo, no uso industrial, ou mesmo em
hospitais, em que uma falha na captação do áudio ou no tratamento deste pode
ocasionar acidentes graves.
Observa-se também que reconhecimento de voz precisa vencer a barreira de
funcionamento em diversas línguas. A maior parte dos sistemas funciona bem no
inglês nativo, mas quando é preciso usar outro idioma a eficiência do sistema cai,
entre outras razões, por ainda não estarem disponíveis dados suficientes da maioria
das demais línguas.

AGRADECIMENTOS

Os autores agradecem ao Instituto Federal de Goiás e ao CNPq pela bolsa


PIBIC/EM concedida ao primeiro autor.

REFERÊNCIAS

CORDEIRO, Hugo Tito. Reconhecimento de patologias da voz usando técnicas


de processamento da fala. 2016. 120f. Dissertação (Doutorado) - Faculdade de
Ciências e Tecnologia, Universidade Nova de Lisboa.

32 CPITT – Caderno de Propriedade Intelectual e Transferência de Tecnologia, v.2, n.1, jun. 2020
OLIVEIRA, Gustavo dos Reis; COSTA, Renata Luiza. Revisão Bibliográfica sobre Tecnologias de Reconhecimento de
Voz.
DOI: <https://doi.org/10.21166/cpitt.v2i1.2028>.

CARDOSO, Sergio; Castanho, Jose Eduardo; Franchin, Marcelo; Fontes, Ivo.


Sesame: Sistema de reconhecimento de comandos de voz utilizando pds e RNA.
2019.

DUARTE, Grasiele Regina et al. Uma comparação de técnicas de aprendizado de


máquina para a previsão de cargas energéticas em edifícios. In: Ambient. constr.,
Porto Alegre , v. 17, n. 3, p. 103-115, July 2017. <http://dx.doi.org/10.1590/s1678-
86212017000300165>.

GIL, A. C. Como elaborar projetos de pesquisa. 4ª edição. Editora Atlas S.A. São
Paulo. 2002.

HOSN, Chadia Nadim Aboul. Conversão grafema-fone para um sistema de


reconhecimento de voz com suporte a grandes vocabulários para o português
brasileiro. 2006. 77 f. Dissertação (Mestrado) - Universidade Federal do Pará,
Instituto de Tecnologia, Belém, 2006. Programa de Pós-Graduação em Engenharia
Elétrica.

MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre aprendizado de máquina.


In: Sistemas Inteligentes-Fundamentos e Aplicações, v. 1, n. 1, 2003.

OLIVEIRA, Rafael; BATISTA, Pedro; NETO, Nelson; KLAUTAU, Aldebaro. Recursos


para Desenvolvimento de Aplicativos com Suporte a Reconhecimento de Voz
para Desktop e Sistemas Embarcados. 2019.

PERICO, A.; SHINOHARA, C. S.; SARMENTO, C. D. Sistema de reconhecimento


de voz para automatização de uma plataforma elevatória. 2014. 96f. Trabalho de
Conclusão de Curso (Bacharelado em Engenharia Industrial Elétrica Ênfase em
Automação).Universidade Tecnológica Federal do Paraná, 2014. Disponível em:
<https://nupet.daelt.ct.utfpr.edu.br/tcc/engenharia/docequipe/2012_2_15/2012_2_15_
monografia.pdf> Acesso em 9 abr. 2019.

PETRY, A., Zanuz, A. e Barone, D. A. C. Reconhecimento automático de pessoas


pela voz através de técnicas de processamento digital de sinais. 2000. 4f.

PRODANOV, C. C.; FREITAS, E. C. Metodologia do trabalho científico: métodos e


técnicas da pesquisa e do trabalho acadêmico – 2. ed. – Novo Hamburgo: Feevale.
2013.

SILVA, A. G. Reconhecimento de voz para palavras isoladas. Trabalho de


conclusão de curso de graduação. Universidade Federal de Pernambuco:
Departamento de Informática. Recife: 2009. Disponível em:
<http://www.cin.ufpe.br/~tg/2009-2/ags.pdf > Acesso em 22 abr. 2019.

SILVA, Carlos Patrick Alves da. Um Software de reconhecimento de voz para


português brasileiro. 2010. 74 f. Dissertação (Mestrado) - Universidade Federal do
Pará, Instituto de Tecnologia, Belém, 2010. Programa de Pós-Graduação em
Engenharia Elétrica.

SIQUEIRA, Jan; ALCAIM, Abraham. Comparação dos Atributos MFCC, SSCH e


PNCC para Reconhecimento Robusto de Voz Contínua. 2019.

CPITT – Caderno de Propriedade Intelectual e Transferência de Tecnologia, v.2, n.1, jun. 2020 33
OLIVEIRA, Gustavo dos Reis; COSTA, Renata Luiza. Revisão Bibliográfica sobre Tecnologias de Reconhecimento de
Voz.
DOI: <https://doi.org/10.21166/cpitt.v2i1.2028>.

VALIATI, J. F. Reconhecimento de Voz para Comandos de Direcionamento por


Meio de Redes Neurais. Porto Alegre: PPGC da UFRGS, 2000. Disponível em:
<https://www.lume.ufrgs.br/handle/10183/2947> Acesso em 9 abr. 2019.

SOBRE OS AUTORES

Gustavo dos Reis Oliveira – Bolsista PIBIC/EM. Estudante do Curso Técnico em Informática para
Internet, Instituto Federal de Goiás, Inhumas, gusttavoreis900@gmail.com.

Renata Luiza da Costa – Orientadora. Professora (Doutorado em Educação, PUC-GO, 2015; Mestre
em Engenharia Elétrica e de Computação, UFG, 2015) Instituto Federal de Goiás, Inhumas,
renata.costa@ifg.edu.br.

34 CPITT – Caderno de Propriedade Intelectual e Transferência de Tecnologia, v.2, n.1, jun. 2020

Você também pode gostar