Escolar Documentos
Profissional Documentos
Cultura Documentos
DE MÁQUINA
Christian Cruz Meneghetti (FHO – Centro Universitário da Fundação Hermínio
Ometto)
chrismeneghetti@alunos.fho.edu.br
Mauricio Acconcia Dias (FHO – Centro Universitário da Fundação Hermínio Ometto)
macdias@fho.edu.br
Resumo
O avanço tecnológico tem nos garantido maior facilidade e agilidade na realização de
grandes e pequenas atividades corriqueiras do dia a dia, deste modo, o esforço empenhado
em sua execução é significativamente reduzido. As características únicas dos indivíduos,
neste contexto, podem ser descritas como biometria, são utilizadas para a sua
identificação em uma vasta área de possibilidades, funcionando como uma “chave” para
as suas diversas aplicações, comumente utilizadas em ambientes ou sistemas que
necessitam de autenticação, desta forma, garantindo a irrefutabilidade de uma pessoa,
vide os sistemas de bancos como exemplo. Neste mesmo viés, é extremamente válido
destacar a importância do reconhecimento biométrico no presente dia. Neste projeto, será
desenvolvido uma rede neural através do aprendizado de máquina que fará o
reconhecimento de fala assim como o reconhecimento de locutor afim de realizar o estudo
deste tipo de autenticação, uma vez que a voz é um sinal rico de informações únicas,
sendo então passível de classificação como biometria utilizando o aprendizado de
máquina.
Palavras-chaves: biometria, fala, voz, aprendizado de máquina, rede neural,
reconhecimento de fala, reconhecimento de locutor
1. Introdução
A irrefutabilidade, algo que não pode ser refutado, é o elemento chave para as tarefas
e os sistemas que necessitam segurança atualmente, partindo deste viés, a garantia da
segurança em tarefas humanas necessita desse tipo de característica que é possível atender
utilizando a biometria, desta forma, a identidade de uma pessoa é garantida através de
suas peculiaridades que nos tornam indivíduos únicos (PINHEIRO, 2008), podendo
assumir características fisiológicas, vide como exemplo a utilizada neste projeto, o sinal
de voz, e comportamentais.
O uso da voz como biometria nos garante um maior grau facilidade na coleta, uma vez
que a mesma pode ser capturada através de simples microfones implementados em
qualquer aplicação ou sistema embarcado e é uma alternativa acessível para pessoas que
não disponham de outra peculiaridade, como por exemplo a impressão digital, que é a
biometria mais utilizada atualmente. Dentre elas, podemos listar a biometria fácil como
uma das mais emergentes com o avanço dos smartphones.
O sistema vocal do ser humano é composto por um conjunto de elementos que são
denominados como trato vocal, que funciona como filtro para os pulsos glóticos, que são
literalmente picos de som, desta forma, moldando a fala em diversos tipos de fonema, em
termos teóricos, modificando as features do sinal dependendo da combinação do trato
vocal.
É imprescindível ressaltar que o uso do aprendizado de máquina se faz presente a esse
tipo de biometria, pois com o avanço do deep learning (DL) tornou-se mais fácil, menos
custosa a sua aplicação e houve uma melhora significativa em termos de precisão, assim
como é valido destacar que há variações na entonação do mesmo indivíduo (SZTAHÓ et
al, 2019). Embora a melhora tenha ocorrido, ainda é necessário que o treinamento da rede
2.1. Biometria
A biometria é o meio utilizado para identificação de indivíduos, advindas de
características únicas que nos tornam pessoas singulares e na grande maioria das vezes
perenal (BERNECKER, 2006), sendo possível a usabilidade em meios que exigem
autenticação, irrefutabilidade e segurança, amplamente utilizada no ultimo tópico por
sistemas que não devem ser fraudados. Existem vários tipos de chaves biométrica, mas
são comumente classificadas em dois grandes grupos, fisiológicas e comportamentais. A
Figura 1 nos traz alguns exemplos de biometria.
É inerente que o seu uso torna o sistema mais confiável e seguro, uma vez que ela é
utilizada nas técnicas de token, adicionando uma camada a mais de autenticação para os
convencionais usuário e senha.
2.1.1. Voz
A voz representada pela Figura 1 se trata de uma biometria comportamental que
possui certos aspectos fisiológicos, uma vez que a mesma é formada pelo trato vocal, que
possui uma formação biológica do ser humano, que nos dá características únicas,
juntamente com a comportamental que são os padrões do uso do sistema vocal como por
exemplo o a atenuação na pronuncia, posicionamento da língua, abertura de boca,
posicionamento das cordas vocais ou até mesmo a morfologia da própria voz (PARADA,
2018).
Figura 2: Trato vocal
A combinação dos elementos do trato vocal nos devolve o sinal de voz com todas as
características do indivíduo, incluindo as features que precisamos para o treinamento da
rede neural do Keras.
Figura 7: MFCC
3. Metodologia
Para que fosse alcançado o objetivo final deste projeto foi utilizado o Python como
linguagem de programação em conjunto o Jupyter, através do seu modelo baseado em
notebooks, pequenas seções em que se pode realizar o código, equações, anotações e etc.
afim de um código mais limpo, compreensível e de fácil manutenção.
O projeto também conta com um dataset em português gravado por quatro pessoas
participantes, um conjunto de 51 arquivos de áudio por digito de 0 a 9 para todos os quatro
integrantes, totalizando 2039 arquivos para o treinamento acurado da rede neural e suas
predições, que está dívida em duas vertentes, a primeira é o reconhecimento de fala a
partir do dataset de 0 a 9, desta forma, identificando o digito pronunciado e a segunda o
reconhecimento de locutor através do mesmo dataset.
3.1. Dataset
O dataset montado para este projeto foi gravo localmente, sendo utilizado um
microfone padrão e com o próprio gravador do Windows, inicialmente os arquivos são
gravados no padrão M4A, porém foi necessário a conversão para arquivos do tipo WAV,
devido ao seu encapsulamento, inibindo que as features sejam retiradas do arquivo.
Qualquer conversor pode ser utilizado para quebrar esse empecilho.
Definida a rede neural a ser usada, passamos nosso dataset para um treinamento de
200 épocas, para o reconhecimento de dígitos e 50 épocas para o reconhecimento de
locutor, e com um lote de 128, que basicamente é o numero de amostras a serem
processadas antes da atualização do modelo.
4. Resultados e discussões
Para ambos reconhecimentos o modelo de treinamento são os mesmos, ou seja, a
mesma configuração de modelamento está presente nas duas, porém os retornos dos
modelos são distintos, uma vez que, o conteúdo a ser treinado é ligeiramente diferente,
devido a chave de índice do array, desta forma teremos um loss diferente, assim como as
épocas distintas. Apesar do dataset gravado para o treinamento possuir um tamanho
relativamente irrisório no contexto de aprendizado de máquina, foi necessário um
intervalo de 3 a 4 minutos para a separação das features dos arquivos e para o
armazenamento do dataset, este tempo está sujeito a alterações a depender da máquina
em que o código esteja rodando. Levando em conta o The People’s Speech dataset, que
possui mais de 30 mil horas de gravação de fala, essa estimativa de tempo cresceria
absurdamente.
5. Conclusões
Diante das duas modalidades, reconhecimento de fala e reconhecimento de locutor,
utilizando uma rede neural DFF com a extração de features através do método de MFCC
e com auxílio do Keras para criação da rede, observamos que foram obtidos bons
resultados de acurácia assim como os valores de predição, visto que, foi utilizado um
dataset particular e de tamanho pequeno.
A escalabilidade do conjunto se faz presente no modelo de treinamento, uma vez que
é possível utilizar um processamento distribuído, ou seja, o compartilhamento de
recursos, tanto de GPU quanto de CPU, entre computadores, aumentando a performance
do modelo.
Contudo, vale destacar que o uso do MFCC pode ser facilmente prejudicado de
acordo com o as interferências durante o processo de gravação do dataset, sendo
necessário uma etapa de pré-processamento afim de mitigar qualquer tipo de interferência
no modelo. Também é valido mencionar que até mesmo o próprio locutor muda de voz
ao longo do tempo por fatores fisiológicos que podem ser decorrentes do envelhecimento,
de doenças que afetam o trato vocal ou mudanças de emoções, também afetando a
qualidade do reconhecimento, então em um modelo comercial de reconhecimento, é
necessário novos mapeamentos sejam ao decorrer do tempo.
6. Refêrencias
PINHEIRO, José Mauricio dos S. Biometria nos sistemas computacionais: você é a
senha. Ciencia Moderna, 2008.
SIQUEIRA, Jan Krueger; ALCAIM, Abraham. Comparação dos atributos MFCC, SSCH
e PNCC para reconhecimento robusto de voz contínua. Proc. XXIX Simpósio Brasileiro
de Telecomunicações, 2011.
HIRSA, Ali; KARATAS, Tugce; OSKOUI, Amir. Supervised deep neural networks
(DNNs) for pricing/calibration of vanilla/exotic options under various different
processes. arXiv preprint arXiv:1902.05810, 2019.