Template TCC - UNIP 2023

UNIVERSIDADE PAULISTA
CURSO DE CIÊNCIA DA COMPUTAÇÃO
FRANCISCO EDIPO DA SILVA SOUZA F328945

NELSON NASSER DA SILVA MOTTA N547GC7
LUCIANO GUEDES DE OLIVEIRA F340023
RECONHECIMENTO DE VOZ INTEGRADO AO CHAT GPT
MANAUS – AM
2023
FRANCISCO EDIPO DA SILVA SOUZA F328945
NELSON NASSER DA SILVA MOTTA N547GC7
LUCIANO GUEDES DE OLIVEIRA F340023
RECONHECIMENTO DE VOZ INTEGRADO AO CHAT GPT
Trabalho de Conclusão de Curso, apresentada

à Universidade Paulista como requisito parcial
para a obtenção do título de Bacharel em
Ciência da Computação.
Orientador: Dr. Manoel Henrique Reis

Nascimento
MANAUS – AM
2023
AGRADECIMENTOS
Agradeço primeiro a Deus aquele que me sustentou até aqui, minha família e amigos que
sempre deram apoio desde o início desta jornada, quando falava em desistir, eles me
animavam, sem eles seria muito difícil chegar até aqui.
Epígrafe
“A nova onda de Inteligência Artificial não
nos traz propriamente a inteligência, mas um
componente crítico dela: a previsão.”
Ajay Agrawal
Dedicatória
Aos meus pais Nelson Canedo e Quezia
Oliveira, minhas irmãs Emily Alves e Natalia
Alecrim, minha esposa Valdeizes Pinto, e a
toda minha família que, com muito carinho e
apoio, não mediram esforços para que eu
chegasse até esta etapa de minha vida.
RESUMO
MOTTA, Nelson Násser. RECONHECIMENTO DE VOZ INTEGRADO AO CHAT

GPT. 2023. 34. Trabalho de Conclusão de Curso, Universidade Paulista - UNIP, Manaus,
2023.
As inteligências artificiais estão a cada dia sendo utilizadas de forma mais intensa e com mais
objetivo em todos os sentidos, a questão das pessoas especiais e o pouco acesso ou acesso
limitado gera a busca para solucionar tais limitações, a acessibilidade deveria ser mais
facilmente aplicada a determinadas necessidades, seja visual, auditiva, de fala, motora ou
corporal. O reconhecimento de voz vem evoluindo ao longo tempo com bastante relevância,
sendo uma ferramenta com um leque de possibilidades, utilizando Python, por exemplo como
linguagem de programação alinhado a outras ferramentas, podemos levar a acessibilidade que
algumas pessoas especias precisam ou contribuir para isso acontecer, toda aplicação precisa
que seja sempre atualizada e corrigida, algumas ideias podem ser implementadas e outras já
aplicadas devem estar em constante evolução, para um uso mais assertivo e eficaz, buscamos
contribuir com isto. Foram incorporadas varias ferramentas e estratégias, a linguagem de
programação Python, muito eficaz para várias aplicações. SpeechRecognition é uma
biblioteca que desempenhou um papel central na transcrição da fala dos usuários. Com
algoritmos avançados isso permite a conversão precisa de sinais de áudio em texto e auxilia a
se comunicar melhor, integrando-se com a API ChatGPT da OpenAI, podemos aproveitar o
poder de processamento da inteligência artificial para criar respostas contextuais. A API
permitiu a transferência eficiente de dados entre o módulo de reconhecimento de fala e o
ChatGPT. O desenvolvimento incremental do sistema foi desenvolvido começando pelo
módulo de reconhecimento de voz, cada recurso foi testado individualmente antes da
integração com ChatGPT, garantindo uma base sólida. Na precisão de reconhecimento de
fala, os testes revelaram alta precisão na transcrição da fala dos usuários, mesmo em
ambientes com diferentes níveis de ruído, validando a eficácia do módulo de reconhecimento
de fala. As respostas do ChatGPT foram contextualmente relevantes sendo a integração com a
API ChatGPT que proveu respostas textualmente consistentes e contextualmente relevantes,
destacando a capacitância do sistema de compreender e gerar conteúdo significante. Estes
resultados positivos mostram que o sistema tem potencial para contribuir significativamente
para a inclusão social e fornecer a uma vasta gama de usuários uma forma acessível e
eficiente de interagir com a inteligência artificial.
Palavras-Chave: Inteligência Artificial; Reconhecimento de Voz; Acessibilidade.

ABSTRACT
MOTTA, Nelson Nasser. VOICE RECOGNITION INTEGRATED INTO GPT CHAT.

2023. 34. Course Completion Work, Universidade Paulista - UNIP, Manaus, 2023.
Artificial intelligence is being used every day more intensely and with more objective in
every sense, the issue of special people and little access or limited access generates the search
to solve such limitations, accessibility should be more easily applied to certain needs, whether
visual, auditory, speech, motor or body. Voice recognition has been evolving over time with
great relevance, being a tool with a range of possibilities, using Python, for example as a
programming language aligned with other tools, we can provide the accessibility that some
special people need or contribute to this happening , every application needs to be always
updated and corrected, some ideas can be implemented and others already applied must be in
constant evolution, for a more assertive and effective use, we seek to contribute to this.
Several tools and strategies were incorporated, the Python programming language, which is
very effective for various applications. SpeechRecognition is a library that played a central
role in transcribing users' speech. With advanced algorithms this allows the accurate
conversion of audio signals to text and helps you communicate better. By integrating with
OpenAI's ChatGPT API, we can harness the processing power of artificial intelligence to
create contextual responses. The API enabled efficient data transfer between the speech
recognition module and ChatGPT. The incremental development of the system was carried
out starting with the voice recognition module, each feature was tested individually before
integration with ChatGPT, ensuring a solid foundation. In speech recognition accuracy, tests
revealed high accuracy in transcribing users' speech, even in environments with different
noise levels, validating the effectiveness of the speech recognition module. ChatGPT's
responses were contextually relevant and the integration with the ChatGPT API provided
textually consistent and contextually relevant responses, highlighting the system's ability to
understand and generate meaningful content. These positive results show that the system has
the potential to significantly contribute to social inclusion and provide a wide range of users
with an accessible and efficient way to interact with artificial intelligence.
Keywords: Artificial Intelligence; Voice recognition; Accessibility.

LISTA DE FIGURAS
Figura 1 - Sistema de Fuzzyficação e Defuzzyficação............................................................................35

Figura 2 - Exemplos de funções de pertinência....................................................................................37
Figura 3- Sistema Lógico Fuzzy.............................................................................................................37
Figura 4 - Modelo de inferência Fuzzy.................................................................................................40
Figura 5 - Função de pertinência para variável de entrada EGT..........................................................41
Figura 6 - Função de pertinência para variável de entrada EGE..........................................................42
Figura 7 - Função de pertinência para variável de entrada MC...........................................................43
Figura 8 - Função de pertinência para variável de entrada PE............................................................44
Figura 9 - Função de pertinência para variável de entrada LC.............................................................45
Figura 10 - Conjunto Fuzzy do output.................................................................................................46
Figura 11 - Função de pertinência para variável de saída DESEMPENHO............................................47
Figura 12 - Inferência Moderada de Desempenho..............................................................................49
Figura 13 - Cenário com Desempenho Mal Definido...........................................................................50
Figura 14 - Cenário com Desempenho com Ótima Definição..............................................................50
Figura 15 - Análise do comportamento das variáveis (Gráfico 3D)......................................................51
LISTA DE TABELAS
LISTA DE SIGLAS
SUMÁRIO
CAPÍTULO 1...........................................................................................................................12
1 INTRODUÇÃO............................................................................................................12
1.1 JUSTIFICATIVA DA DISSERTAÇÃO....................................................................12
1.2 OBJETIVOS.................................................................................................................12
1.2.1 Geral.........................................................................................................................12
1.2.2 Específicos................................................................................................................12
1.3 ESCOPO DO TRABALHO........................................................................................12
CAPÍTULO 2...........................................................................................................................18
2 REVISÃO BIBLIOGRÁFICA....................................................................................18
CAPÍTULO 3...........................................................................................................................19
3 MATERIAIS E MÉTODOS.......................................................................................19
3.1 MATERIAIS.................................................................................................................20
3.2 MÉTODOS...................................................................................................................20
CAPÍTULO 4...........................................................................................................................21
4 RESULTADOS E DISCUSSÕES...............................................................................21
CAPÍTULO 5...........................................................................................................................22
5 CONCLUSÕES E SUGESTÕES PARA TRABALHOS FUTUROS.....................22
5.1 CONCLUSÕES............................................................................................................22
5.2 SUGESTÕES PARA TRABALHOS FUTUROS......................................................22
REFERÊNCIAS......................................................................................................................23
ANEXOS..................................................................................................................................27
APÊNDICES............................................................................................................................28
1 CAPÍTULO 1
1 INTRODUÇÃO
Objetivos No cenário atual, a interação com plataformas de IA tornou-se parte

integrante das nossas vidas, revolucionando a nossa abordagem às atividades diárias e à
comunicação. Porém, essa interação nem sempre é tão simples e acessível para todos,
principalmente para aqueles que enfrentam desafios de digitação devido o condições fisicas.
Para muitas pessoas, a digitação por exemplo é uma barreira intransponível que limita a sua
capacidade de aceder a informações e serviços na internet. Neste contexto, as interações
com inteligência artificial devem tornar-se mais inclusivas e servir uma gama mais ampla
de usuários. “Como a inteligência artificial pode contribuir para a inclusão digital na
educação e quais são os principais avanços, desafios e oportunidades associados a essas
tecnologias digitais emergentes?” ANDRÉ (2023).
O uso crescente da inteligência artificial está se tornando uma tendência irreversível

em nossa sociedade. Desde assistentes pessoais em smartphones até chatbots em sites de
comércio electrônico, estas tecnologias desempenham um papel cada vez mais crucial na
nossa vida quotidiana. Contudo, a acessibilidade e inclusão destas tecnologias devem ser
prioridades para que todos possam usufruir dos seus benefícios. Neste contexto, o
reconhecimento de fala e a transcrição de fala para texto aparecem como ferramentas
promissoras.
“Devido a importantes progressos na área tecnológica e do grande aumento no

poder de processamento e de armazenamento computacional, tornou-se possível a
construção de sistemas cada vez mais complexos e de alta qualidade. Umas das áreas que
se beneficiou dessa evolução é a tecnologia de Reconhecimento de Voz, conhecida também
como Natural Language Understanding...” STRAUSS (2023).
O estado da arte em reconhecimento de fala e transcrição de fala para texto atingiu

um nível considerável de sofisticação, permitindo a conversão precisa de fala em texto
escrito. Isto é particularmente importante para pessoas com deficiencia visual e
necessidades especiais, que podem não conseguir digitar ou ter dificuldades consideráveis
em fazê-lo. Estas tecnologias não só capacitam estes grupos, mas também têm o potencial
11 Universidade Paulista - UNIP

de transformar a sua qualidade de vida, tornando a informação e a comunicação mais
acessíveis. A importância deste trabalho reside no potencial de aprimorar a interação entre
humanos e sistemas de inteligência artificial por meio da utilização de recursos de
reconhecimento de voz. Essa tecnologia tem o potencial de facilitar o acesso à informação,
especialmente para pessoas com dificuldades motoras ou deficiências visuais. Nos
últimos anos ocorreu um crescimento acelerado da presença da Inteligência Artificial (IA)
no nosso cotidiano. Não são poucas as situações em que usamos, na maioria das vezes sem
darmos conta, modelos criados por algoritmos de IA (Faceli, 2021).
A acessibilidade é um princípio fundamental que deve orientar o desenvolvimento

de tecnologias de IA. Garantir que a inteligência Artificial seja acessível a todos é um
imperativo moral e social. Consequentemente, o objetivo deste trabalho é explorar como a
integração do reconhecimento de fala pode proporcionar uma interação mais fluida e
inclusiva para pessoas com dificuldade visual ou outras necessidades especiais. O objetivo
deste estudo é analisar como esta integração pode ser efetivamente implementada e fornecer
uma análise abrangente das oportunidades e desafios relacionados à acessibilidade digital.
Em última análise, a pesquisa visa ajudar a construir um ambiente virtual mais inclusivo,
onde a voz seja uma ponte entre o ser humano e as inúmeras possibilidades oferecidas pela
inteligência artificial.

1.1 JUSTIFICATIVA
A crescente procura por tecnologias baseadas em inteligência artificial (IA)

converteu significativamente a forma como interagimos com sistemas informáticos e
informações no nosso quotidiano. Contudo, o acesso a estas inovações não é igual para
todos os segmentos da sociedade principalmente aqueles com necessidades especiais. Neste
contexto, esta pesquisa procura explorar a importância da integração do reconhecimento de
voz com sites de IAs para promover a inclusão social, criando um ambiente digital mais
acessível para todos, independentemente das suas capacidades físicas ou sensoriais.
Pessoas com necessidades especiais, sejam elas relacionadas com dificuldades de

mobilidade ou carências visuais, enfrentam frequentemente barreiras significativos quando
interagem com tecnologias tradicionais. Digitar em dispositivos convencionais pode ser
uma tarefa difícil para pessoas com limitações motoras, enquanto a leitura de conteúdo
textual pode ser inacessível para pessoas com deficiencia visual. Isto resulta numa lacuna
na igualdade de acesso à informação e comunicação, incompatível com os princípios da
inclusão social e da igualdade de oportunidades.
Neste contexto, a integração do reconhecimento de voz em sistemas de inteligência

artificial desempenha um papel crucial na remoção de barreiras importantes à
acessibilidade. Essa tecnologia permite que os usuários se comuniquem de forma mais
natural e eficiente entre dispositivos e plataformas, reduzindo a dependência de digitação e
leitura. Para pessoas com deficiência motora, o reconhecimento de fala oferece uma
alternativa viável à entrada de texto, e para pessoas com deficiencia visual, a transcrição de
fala para texto torna as informações de texto acessíveis.
Consequentemente, a pesquisa proposta justifica-se pela necessidade urgente de

melhorar a acessibilidade digital e pela crescente demanda da Inteligência Artificial como
ferramentas do dia a dia. A integração do reconhecimento de voz a sites de IA e suas
implicações para a inclusão social, neste estudo, pretende contribuir para a construção de
um ambiente digital mais inclusivo e igualitário, onde a tecnologia seja um agente de
conexão e igualdade para todos os indivíduos independentemente das suas capacidades
fisicas. “Ademais são necessárias pesquisas e desenvolvimentos de objetos que ofereçam
aos deficientes físicos a realização de atividades sem dificuldades.” GUIMARÃES,
DAIANE (2019).
1.2 OBJETIVOS
1.2.1 Geral
Desenvolver um sistema de reconhecimento de voz para a transformação de aúdio

em texto para sites de Inteligência Artificial, dando acessibilidade a pessoas com
necessidades especiais.
1.2.2 Específicos
- Mapear as principais tecnologias disponíveis de reconhecimento de voz;
- Identificar os principais requisitos para o desenvolvimento da Aplicação;
- Descrever o modelo de forma simples do APP;
- Implementar o sistema de reconhecimento de voz, utilizando a linguagem

Python.
1.3 ESCOPO DO TRABALHO
O Capítulo 1 como visto anteriormente, apresenta a introdução de tudo que foi

abordado na pesquisa, contextualizando o assunto com base em publicações anteriores,
definindo a justificativa da proposta de estudo, descrevendo o objetivo geral e específicos
planejados, além de descrever sua contribuição e relevância para a sociedade.
No Capitulo 2 é apresentado a revisão bibliográfica dividida em 5 partes. A primeira

fazendo abordagem sobre a Inteligência Artificial o que é e como é usada. A segunda parte
traz o reconhecimento de voz e seus desafios, nesta parte se vê a evolução deste tema. A
terceira parte e quarta parte fala sobre o usa da tecnologia para deficientes auditivos e também
sobre a Acessibilidade para pessoas especiais respectivamente.
O Capítulo 3 traz os procedimentos dos materiais e métodos utilizados para a

realização deste trabalho, composto pelo local de estudo, metodologia e os conceitos básicos
das propostas que serão apuradas.

No Capítulo 4 são mostrados os resultados das análises dos dados da aplicação em
estudo e apresenta uma discussão dos resultados em relação aos objetivos propostos que é a
utilização do reconhecimento de voz integrado as inteligências artificiais, mais precisamente o
chat gpt.
Por último, no Capítulo 5 são apresentadas conclusões e sugestões de trabalhos

futuros.

2 CAPÍTULO 2
2 REVISÃO BIBLIOGRÁFICA
2.1 INTELIGÊNCIA ARTIFICIAL, O QUE É E COMO É USADA.
A inteligência artificial é descrita por JOÃO FERNANDES (2018) como uma
tecnologia que se divide entre a ciência e a arte, fazendo assim uma máquina “pensar” ao
resolver algum problema. A IA abrange uma ampla gama de técnicas e abordagens, incluindo
aprendizado de máquina, processamento de linguagem natural, visão computacional e
raciocínio automatizado.
A inteligência artificial é usada em diversas áreas e setores da sociedade. Aqui estão
alguns exemplos de aplicação da IA: Assistentes Virtuais: Assistentes de voz como a Siri da
Apple, o Google Assistant e a Alexa da Amazon são exemplos populares de como a IA é
usada para entender e responder às perguntas dos usuários, realizar tarefas como enviar
mensagens, fazer chamadas, reproduzir música, fornecer informações e muito mais. (CHAT
GPT 2023).
Reconhecimento de Padrões e Visão Computacional: A IA é usada em sistemas de
reconhecimento facial, onde é capaz de identificar e autenticar pessoas com base em
características faciais. Além disso, também é usada em aplicações de visão computacional,
como detecção de objetos em imagens e vídeos, identificação de doenças médicas a partir de
exames de imagem e até mesmo veículos autônomos que podem reconhecer e reagir a sinais
de trânsito, pedestres e outros veículos.
Análise de Dados e Aprendizado de Máquina: A IA é usada para análise avançada de
dados em diversos setores, desde finanças e comércio eletrônico até ciência e medicina.
Algoritmos de aprendizado de máquina são usados para extrair insights, identificar padrões,
prever tendências e tomar decisões com base em grandes conjuntos de dados.
Assistência Médica: A IA é aplicada em várias áreas da assistência médica, como
diagnóstico de doenças, descoberta de medicamentos, monitoramento de pacientes, cirurgia
assistida por robôs e análise de imagens médicas para identificação de anomalias e detecção
precoce de doenças. Serviços Financeiros: No setor financeiro, a IA é usada para análise de
risco, detecção de fraudes, negociação algorítmica, gerenciamento de portfólio e atendimento
ao cliente automatizado.
Personalização e Recomendações: Muitas plataformas de streaming de música, vídeo e
comércio eletrônico usam IA para personalizar recomendações de conteúdo com base nas

preferências e histórico de uso de cada usuário.
Esses são apenas alguns exemplos das muitas aplicações da IA em nosso cotidiano. A
inteligência artificial está em constante evolução e tem o potencial de transformar
significativamente uma ampla gama de setores, melhorando a eficiência, a precisão e a
automação de tarefas complexas.
Mas porque a IA cresceu tanto? Segundo ANDRÉ 2021. Um dos principais motivos
para esse crescimento, senão o principal, é o rápido desenvolvimento de novas tecnologias
para extração, armazenamento, transmissão e processamento de dados, que serão aqui
denominados os quatro eixos de avanços tecnológicos que provocaram a expansão da IA.
Realmente é dificil acompanhar o desenvolvimento de varias tecnologias ao mesmo
tempo, muitas estão interligadas, conversão entre si, a IA precisa de dados para ser alimentada
e melhorada constantemente, seja texto, audio, imagem ou video, a aprendizagem de máquina
das Ias está cada vez mais potente e crescente, com milhões de pessoas as alimentando
diáriamente com informações valiosas, informações estas que empresas pagam fortunas para
ter, ja que a informação e dados valem muito, hoje em dia muito mais.
2.2 RECONHECIMENTO DE VOZ E SEUS DESAFIOS
O reconhecimento de voz é uma tecnologia que permite a conversão de fala em

texto, possibilitando a interação entre humanos e sistemas de computador por meio da voz.
Essa tecnologia tem avançado consideravelmente nos últimos anos, com o desenvolvimento
de algoritmos mais sofisticados de reconhecimento de fala e o aumento do poder
computacional dos dispositivos móveis e computadores. A comunicação baseia-se em:
(emissor, receptor, mensagem, código, canal, contexto), (SILVA, 2010).
"Os chatbots, por sua vez, são programas de computador que utilizam inteligência
artificial para simular conversas humanas." (MANOEL SANTOS, 2023). Eles são usados
em uma variedade de aplicações, desde atendimento ao cliente até assistentes pessoais. Os
chatbots baseados em GPT (Generative Pre-trained Transformer) são uma classe de
chatbots que utilizam modelos de linguagem pré-treinados para gerar respostas baseadas em
entradas de texto. Esses modelos foram treinados em grandes quantidades de dados textuais
e, portanto, têm uma compreensão ampla da linguagem natural.
O uso do reconhecimento de voz em chatbots baseados em GPT permite que os

usuários interajam com o sistema por meio da fala, em vez de digitar. Isso pode ser
especialmente útil em situações em que a digitação é difícil ou inconveniente, como ao
dirigir um carro ou realizar tarefas domésticas. Além disso, a interação por voz pode tornar
a experiência do usuário mais natural e intuitiva. Sistemas de reconhecimento de voz
automáticos compõem parte fundamental em vários sistemas e softwares, incluindo
diversas soluções e aplicativos, como pesquisas por voz e assistentes pessoais.
Para implementar o reconhecimento de voz em um chatbot baseado em GPT, é

necessário integrar um serviço de reconhecimento de fala ao sistema. Existem vários
serviços disponíveis no mercado, incluindo o Google Cloud Speech-to-Text e o Amazon
Transcribe. Esses serviços normalmente exigem que o áudio seja enviado para seus
servidores, onde é processado e convertido em texto. Em seguida, o texto é enviado ao
modelo de linguagem GPT para gerar uma resposta. Neste contexto, a inteligência artificial
(IA) e ferramentas como o chat GPT surgem como aliados poderosos para transformar e
aprimorar o processo educacional. (MARTINS CRISTOFER 2020).
No entanto, a integração do reconhecimento de voz em chatbots baseados em GPT

apresenta alguns desafios. Um dos principais desafios é a precisão do reconhecimento de
fala. Embora os algoritmos de reconhecimento de fala tenham melhorado
consideravelmente, ainda existem situações em que a precisão pode ser baixa, como em
ambientes barulhentos ou com sotaques regionais. Além disso, o reconhecimento de voz
pode ser mais lento do que a digitação, o que pode afetar a velocidade da interação. Outro
desafio é a necessidade de treinar o modelo de linguagem GPT em dados de fala, em vez de
apenas dados de texto. Isso pode exigir uma quantidade significativa de dados de
treinamento e pode ser mais difícil de implementar do que um modelo que é treinado
apenas em texto. Algumas pesquisas importantes na área tiveram início já no começo da
década de 1950, por meio dos primeiros trabalhos de Alan Turing e o desenvolvimento da
linguagem LISP (COPPIN, 2004).
2.3 O USO DA TECNOLOGIA PARA DEFICIENTES AUDITIVOS
O reconhecimento de voz tem se mostrado uma tecnologia promissora para auxiliar pessoas
com deficiência auditiva. Essa aplicação específica da tecnologia visa proporcionar uma
forma de comunicação mais acessível e inclusiva para indivíduos com dificuldades de
audição. Ao converter a fala em texto escrito, o reconhecimento de voz permite que os
deficientes auditivos recebam informações verbais de maneira visual. (CORREIA 2020).
Uma das principais vantagens do reconhecimento de voz para deficientes auditivos é a
capacidade de transcrever e exibir em tempo real o que está sendo dito em ambientes como
reuniões, palestras, aulas e conversas cotidianas. Isso pode ser especialmente útil em
situações em que a leitura labial ou o uso de um intérprete de língua de sinais não são
viáveis ou disponíveis.
Com o avanço da tecnologia de reconhecimento de voz, existem aplicativos e dispositivos

específicos projetados para atender às necessidades dos deficientes auditivos. Essas
soluções podem funcionar em smartphones, tablets ou computadores, utilizando algoritmos
avançados de processamento de linguagem natural para capturar e transcrever a fala em
tempo real.
Além da comunicação em tempo real, o reconhecimento de voz também pode ser usado
para interações escritas em serviços de mensagens, redes sociais e outras plataformas
online. Por exemplo, um deficiente auditivo pode usar um aplicativo de reconhecimento de
voz para digitar mensagens e participar de conversas virtuais de forma mais eficiente e
fluente.
No entanto, é importante reconhecer que o reconhecimento de voz ainda enfrenta desafios,

como a precisão da transcrição em ambientes com ruído de fundo e a adaptação a diferentes
sotaques e estilos de fala. A melhoria contínua dessas tecnologias é essencial para garantir
uma experiência mais precisa e efetiva para os usuários com deficiência auditiva.
(CAPELLINI 2018).
Em resumo, o reconhecimento de voz oferece oportunidades significativas para melhorar a

comunicação e a inclusão de pessoas com deficiência auditiva. Ao converter a fala em
texto, essa tecnologia pode fornecer informações verbais em formato visual, permitindo que
os deficientes auditivos participem ativamente de conversas, aulas e outros contextos
sociais. Com avanços contínuos, o reconhecimento de voz tem o potencial de aprimorar
ainda mais a acessibilidade e a qualidade de vida das pessoas com deficiência auditiva.
2.4 ACESSIBILIDADE NO USO DO RECONHECIMENTO DE VOZ
A acessibilidade é uma das principais preocupações no desenvolvimento de

tecnologias de reconhecimento de voz. A tecnologia de reconhecimento de voz permite que
pessoas com deficiências motoras, visuais ou cognitivas interajam com sistemas de

computador por meio da voz, fornecendo uma alternativa mais acessível à interação
baseada em mouse e teclado. No entanto, a implementação do reconhecimento de voz
acessível envolve uma série de desafios técnicos e de design.
Um dos principais desafios na implementação de tecnologias de reconhecimento de

voz acessíveis é a precisão do reconhecimento de fala. Para pessoas com deficiências
motoras, a precisão do reconhecimento de voz é especialmente importante, pois pode afetar
sua capacidade de controlar o sistema de forma eficaz. Além disso, pessoas com
deficiências cognitivas podem ter dificuldades para falar claramente ou para expressar seus
pensamentos de forma coerente, o que pode afetar a precisão do reconhecimento de voz.
A fala e o meio mais natural de comunicação humana. Outro desafio é a necessidade

de adaptar os sistemas de reconhecimento de voz para diferentes sotaques, dialetos e
idiomas. Pessoas com deficiências visuais ou cognitivas podem ter dificuldades para ler as
instruções e para entender as opções disponíveis, portanto, a capacidade do sistema de
reconhecimento de voz de compreender uma variedade de sotaques e dialetos pode
melhorar significativamente sua acessibilidade.
Além disso, é importante considerar a usabilidade dos sistemas de reconhecimento

de voz acessíveis. Por exemplo, é necessário fornecer uma forma clara e concisa de
informar ao usuário sobre o que está acontecendo no sistema, especialmente quando o
reconhecimento de voz não for bem-sucedido. É importante também que o sistema ofereça
feedback auditivo ou visual para que o usuário saiba que sua entrada foi registrada
corretamente.
A privacidade e a segurança são outras questões importantes a serem consideradas

na implementação de tecnologias de reconhecimento de voz acessíveis. Por exemplo, é
necessário garantir que as informações coletadas durante a interação por voz sejam
mantidas em sigilo e que o sistema seja projetado de forma a evitar o acesso não autorizado.
Sistemas de busca por voz os sistemas de busca por voz utilizam uma combinação de
tecnologias, incluindo reconhecimento de fala e processamento de linguagem natural
(PLN). O reconhecimento de fala é responsável por converter a fala do usuário em texto.
Em seguida, o texto é processado por meio de técnicas de PLN para entender a intenção do
usuário e fornecer uma resposta relevante. Existem vários modelos de PLN que podem ser
utilizados em sistemas de busca por voz, incluindo redes neurais profundas e modelos de
linguagem pré-treinados, como o BERT (Bidirectional Encoder Representations from

Transformers). Esses modelos são treinados em grandes quantidades de dados textuais e,
portanto, têm uma compreensão ampla da linguagem natural. Os sistemas de busca por voz
são uma tecnologia promissora que oferece uma maneira mais intuitiva e fácil de pesquisar
na internet. Eles dependem de uma combinação de reconhecimento de fala e PLN para
funcionar, e estão em constante evolução para melhorar a precisão e lidar com a variação na
fala dos usuários. Os modelos de língua (LMs) fazem parte do ramo de estudos de
processamento de língua natural (PLN). o PLN e uma área que estuda a utilização e o
processamento de línguas humanas por computador. O PLN pode ser considerado uma área
bastante complexa. Segundo Russel e Norvig (2003), as línguas naturais são ambíguas,
sofrem mudanças constantes e são computacionalmente grandes.
3 CAPÍTULO 3
3 MATERIAIS E MÉTODOS
3.1 MATERIAIS
Para o desenvolvimento do sistema de reconhecimento de voz proposto, serão
usadas as seguintes ferramentas e periféricos:
API CHAT GPT (versão 3.5): O CHAT GPT é software de Inteligência Artificial
usado na computação como ferramenta para gerar respostas para questões diversas. A
ferramenta é possivelmente fazer uma extensão para o google, fazendo ser funcional em
diversos sites de pesquisa, cria tabelas, cria textos e outros, o codigo poderá usar APIs de
outras inteligências artificiais.
Além disso, será usado o VSCODE (versão 1.83) que é uma ferramenta utilizada
para edição do código fonte que será desenvolvido, além disso, a ferramenta possui suporte
para a depuração e fará o controle de todos as versões do sistema até sua finalização.
Todo o código que fará a construção da biblioteca de reconhecimento de voz,

retornando à informação em áudio, será toda desenvolvida através de algumas bibliotecas:
Pandas, Pyttsx3, PyAudio, SpeechRecognition na linguagem Python (V 3.11). Tambem
foram utilizadas as seguintes ferramentas junto ao Python: ffmpeg-python e whisper-
openai.

Para o desenvolvimento do sistema de reconhecimento de voz será necessária uma
máquina com sistema Windows com 16GBS de RAM, No mínimo 1TB de memória e um
processador a partir do i3 de 9º Geração.
3.2 MÉTODOS
A metodologia proposta para este projeto abrange diversas etapas fundamentais para
o desenvolvimento e implementação do sistema de reconhecimento integrado de voz
utilizando o Chat GPT. Inicialmente, foi realizada uma revisão da literatura para obter uma
compreensão aprofundada do estado da arte e das técnicas existentes nesse campo. Isso
permitirá identificar lacunas e áreas de pesquisa relevantes para a abordagem proposta.
Primeiramente vamos precisar instalar o Python (V 3.11). No computador,

disponivel em: https://www.python.org/downloads com ele instalado na maquina
confirmamos digitando “Python” no CMD aberto em modo administrador:
Figura : confirmação do Python instalado.
Logo após vamos instalar o VSCODE (versão 1.83) que é uma ferramenta utilizada
para edição do código fonte que será desenvolvido, além disso, a ferramenta possui suporte
para a depuração e fará o controle de todos as versões do sistema até sua finalização.
Figura : VSCODE aberto com as primeiras linhas de codigo do projeto.

Foi gerada a chave da API da OpenAI que é uma empresa de pesquisa e
desenvolvimento de inteligência artificial que visa criar sistemas avançados que possam ser
amplamente aplicados em diversos setores. Uma de suas principais ferramentas é a API,
que permite acessar seus modelos de linguagem natural por meio de uma interface fácil de
usar. Será necessário gerar uma API-KEY no site da openai.com que será usada nos
códigos. Podemos colocar a key diretamente no código ou no arquivo config_chatkey.py:
Figura : local onde será importado a KEY-API.
Precisamos de uma lista de requerimento que vai envolver: Bibliotecas e demais

ferramentas a serem instaladas utilizando o comando “pip install”, o arquivo em .txt contem
a seguinte lista:
Figura : arquivo .txt que contem as bibliotecas e ferramentas a serem instaladas.

Depois de todos os requisitos instalados precisamos configurar algumas linhas de
comando: linha 11: sem palavra ativadora = false / ativar o assistente virtual com palavra
chave: "assistente" ou "Chat GPT".
Linha 18: escolher_stt = "google" / temos aqui 2 opções de reconhecimento de fala
(google e whisper) porem ambas tem pontos negativos e positivos: Google: melhor na
detecção de texto, online, sem pontuação, transcreve direto do microfone. Whisper: pior na
detecção de texto, offline, tem pontuação, salva arquivos .wave e depois faz o
reconhecimento. Preferencialmente por pontos mais pontos positivos que negativos, vamos
usar o google, porem se precisarmos fazer alguma aplicação offline, sem sombra de duvidas
o Whisper é a melhor opção.
Figura : linha de comando selecionando o google.
3.2.1 As ferramentas usadas no desenvolvimento
O desenvolvimento de um sistema de reconhecimento de voz envolve a utilização de

diversas ferramentas e técnicas. Nesta seção, serão apresentadas algumas das principais
ferramentas utilizadas nesse processo. Bibliotecas: Essas bibliotecas são utilizadas para
lidar com o processamento de sinais de áudio, que é a base para o reconhecimento de voz.
As bibliotecas utilizadas foram Pandas, Pyttsx3, PyAudio, SpeechRecognition. Tambem
foram utilizadas as seguintes ferramentas junto ao Python: ffmpeg-python e whisper-
openai.
Pandas
Pandas é uma biblioteca de ciência de dados de código aberto erigida em Python que
provê uma abordagem rápida e flexível com estruturas robustas para trabalhar com dados
relacionais (ou marcados), tudo de forma simples e intuitiva.
Pyttsx3
Pyttsx3 permite escolher diferentes vozes para síntese de fala. Você pode listar as
vozes disponíveis em seu sistema usando o método pyttsx3. nisso (). getProperty('voz ' ).
OpenAI-API
OpenAI é uma empresa focada em exploração e desenvolvimento de inteligência

artificial, que se esforça para criar sistemas avançados que possam ser amplamente
aplicados em diversas áreas. Uma de suas principais ferramentas é a API, que permite
acessar seus modelos de linguagem natural por meio de uma interface fácil de usar.
Ffmpeg-python
FFmpeg é uma poderosa ferramenta de linha de comando para trabalhar com

arquivos multimídia. Ele permite que você cumpre tarefas como conversão de vídeo e
áudio.
PyAudio
Pyaudio é uma biblioteca Python poderosa que torna a manipulação de áudio fácil e
eficiente. Com ele, você pode realizar diversas tarefas relacionadas ao áudio, desde gravar e
reproduzir arquivos até aplicar efeitos sonoros e processamento de sinal.
Whisper-openai
O modelo Whisper é um modelo de fala para texto OpenAI que você pode usar para
transcrever arquivos de áudio. O modelo é desenvolvido com base em um grande conjunto
de dados de áudio e texto em inglês. O modelo é otimizado para transcrever arquivos de
áudio com voz em inglês.

SpeechRecognition
A biblioteca SpeechRecognition foi desenvolvida para realizar o reconhecimento de

fala. O próprio termo reconhecimento de fala, traduzido para o português, tem o significado
de reconhecimento de fala. É um campo interdisciplinar da ciência da computação e da
linguistica computacional que visa reconhecer e traduzir a linguagem falada em texto por
meio de um computador. Consequentemente, utilizar esta biblioteca para converter áudio
em texto. dito assim, parece muito simples e, na verdade, esta biblioteca torna a tarefa um
tanto transparente para o programador. Podemos conseguir isso em poucas linhas, mas esta
solução requer vários anos de estudos.
4 CAPÍTULO 4
4 RESULTADOS E DISCUSSÕES
4.1 IDENTIFICAÇÃO E DESCRIÇÃO DO RECONHECIMENTO DE VOZ JUNTO AO

PYTHON
4.1.1 Integração efetiva do python e speechrecognition
A escolha da linguagem de programação Python e da biblioteca SpeechRecognition

mostrou-se de fundamental importância para o sucesso do sistema de reconhecimento de fala.
A natureza versátil e a grande comunidade de desenvolvedores Python ajudam
significativamente para a eficácia e eficiência do projeto.
Conhecido por sua sintaxe clara e legibilidade, Python forneceu um ambiente de

desenvolvimento que permitiu uma implementação rápida e flexível. A biblioteca
SpeechRecognition combinada com Python forneceu um conjunto de ferramentas poderoso

para transcrever com acurácia a voz do usuário. A facilidade de integração destas ferramentas
permite uma resposta rápida às necessidades do projeto isso acelera muito o desenvolvimento
do sistema.
Tabela - Componentes e Funcionalidades na Integração Python com SpeechRecognition e ChatGPT
Esta tabela destaca os principais recursos envolvidos na integração do Python com a

biblioteca. Reconhecimento de fala e outras ferramentas utilizadas no projeto.
Tabela - Complementação da tabela anterior
4.1.2 Teste de áudio em vários tipos de ambiente
Foi testado em 4 tipos de ambiente a captação de áudio por meio de microfone instalado
e configurado, a precisão oscila de 87 a 95% no máximo, resultado que mostra que para
atingir os 100% ainda falta 5%.

Tabela - teste de captação de áudio em diferentes ambientes
Percebe-se uma oscilação em milissegundos no tempo de resposta, em observações

percebemos a descrição detalhada de cada ambiente, nos trazendo uma opção a ser
implementada no próximo texto.
Tabela - tempo de resposta e observações
4.1.3 Influência do ambiente sonoro
Ao executar o programa e ativar o assistente de voz falando algo, foi dito a frase:
“ChatGPT bom dia!”, porem por consequência do ambiente ou do microfone ele não
compreendeu corretamente, podemos considera também a questão da dicção do usuário, caso
isso acontece temos a solução na próxima figura.

Figura - importância do reconhecimento de voz
Se não quiser ou tiver problemas ao falar no microfone, se estiver em ambiente com

ruido ou muito barulhento, a aplicação tem a opção de ativar apenas o modo de texto, dessa
forma você irá digitar e o CHATGPT-API irá responder com áudio.
Linha 22 falar = false / se você quiser só digitar o texto e ouvir as respostas (boa opção
para microfone com ruídos, ou se você estiver em local com muito barulho.
Linha 22 falar = true / se você quiser falar a sua voz será transformada em texto e em
seguida lida e respondida pela API em forma de áudio.

Figura - linha do código para ativar ou desativar a voz
Conversar com um programa de computador chamado ChatBot Falante, esse programa

foi criado para simular uma conversa humana e responder às perguntas e mensagens dos
usuários. Ele utiliza inteligência artificial para entender as mensagens e gerar respostas
adequadas. Segue o código completo:
Figura - código completo
# para instalar todos os modulos

# pip install -r requirements.txt
import openai # pip install openai
from config_chatkey import sua_key_string
import speech_recognition as sr # pip install SpeechRecognition
import whisper # pip install whisper-openai
import pyttsx3 # pip install pyttsx3
import os
import re
# caso nao queira falar "assistente" ou "Chat GPT"

sem_palavra_ativadora = False
# printa o total de tokens por interacao
debug_custo = False
# print de algumas informacoes para debug
debugar = False
# define qual gerador de texto
# escolher_stt = "whisper"
escolher_stt = "google"
# escolhe entrada por texto ou voz
entrada_por_texto = False
# falar ou nao
falar_resposta = False
# rodar o código automaticamente
rodar = True
# ajusta ruido do ambiente
ajustar_ambiente_noise = True
if entrada_por_texto:
sem_palavra_ativadora = True
ajustar_ambiente_noise = False
# Initialize the API key

openai.api_key = sua_key_string
code_block_regex = re.compile(r"```(.*?)```", re.DOTALL)
def generate_answer(messages):
try:
#response = openai.ChatCompletion.create( ## Api antiga
response = openai.chat.completions.create( ## API nova
model="gpt-3.5-turbo", ##
#model="gpt-3.5-turbo-0301", ## ateh 1 junho 2023
messages=messages,
temperature=0.1
)
return [response.choices[0].message.content, response.usage]
except Exception as e:
print("Deu ruim", e)
return ["", ""]
def talk(texto):
# falando
engine.say(texto)
engine.runAndWait()
engine.stop()
def save_file(dados):
with open(path + filename, "wb") as f:
f.write(dados)
f.flush()
def zerarMensagens():
return [{"role": "system", "content": "Não explique códigos em python,
somente caso seja pedido."}]
def extract_python_code(content):
code_blocks = code_block_regex.findall(content)
for indice, codeb in enumerate(code_blocks):

print(indice, codeb)
if codeb.startswith("python"):
print("*** tem python", codeb)
code_blocks[indice] = codeb[7:]
if codeb.startswith("\npip install"):
print("*** tem pip", codeb)
code_blocks[indice] = "# " + codeb[1:]
if code_blocks:
full_code = "\n".join(code_blocks)
return full_code
else:
return None
# reconhecer
r = sr.Recognizer()
mic = sr.Microphone()
model = whisper.load_model("base")
# falar
engine = pyttsx3.init()
voices = engine.getProperty('voices')
engine.setProperty('rate', 180) # velocidade 120 = lento
for indice, vozes in enumerate(voices): # listar vozes
print(indice, vozes.name)
voz = 1 # "IVONA_2_Ricardo_OEM"
engine.setProperty('voice', voices[voz].id)
mensagens = zerarMensagens()
path = os.getcwd()
filename = "audio.wav"
print("Speak to Text", escolher_stt)
while True:
print("###############################")
text = ""
question = ""
if entrada_por_texto:
question = input("Perguntar pro ChatGPT (\"sair\"): ")
else:
# Ask a question
with mic as fonte:

if ajustar_ambiente_noise:
r.adjust_for_ambient_noise(fonte)
ajustar_ambiente_noise = False
print("Fale alguma coisa")
audio = r.listen(fonte)
print("Enviando para reconhecimento")
if escolher_stt == "google":
question = r.recognize_google(audio, language="pt-BR")
elif escolher_stt == "whisper":
save_file(audio.get_wav_data())
if escolher_stt == "whisper":
text = model.transcribe(path + filename, language='pt',
fp16=False)
question = text["text"]
sair = {"sair", "Sair", "Desligar", "desligar"}

zerar = {"zerar mensagens", "limpar mensagens"}
chamar_assistente = {"Assistente", "assistente", "chat GPT", "GPT"}
comecar = set()
comecar.update(sair)
comecar.update(zerar)
comecar.update(chamar_assistente)
comecodafrase = ""
for espressao in comecar:
if question.startswith(espressao):
comecodafrase = espressao
if comecodafrase in sair:
print(question, "Saindo.")
if falar_resposta:
talk("Desligando")
break
elif comecodafrase in zerar:
mensagens.clear()
mensagens = zerarMensagens()
print("zerou", mensagens)
elif question == "" or question.endswith(("cancela", "cancelar",
"Cancelar", "Cancela")):
print("!!! Sem som, texto ou cancelou !!!", question)
continue
elif comecodafrase in chamar_assistente or sem_palavra_ativadora:
if len(comecodafrase) > 0:
question = question[len(comecodafrase) + 1:]
print("Nóis:", question)
mensagens.append({"role": "user", "content": str(question)})

answer = generate_answer(mensagens)
resposta = answer[0]
preco = answer[1]
print("ChatGPT:", resposta)
if debug_custo:
print("Custo:\n", preco)
mensagens.append({"role": "assistant", "content": resposta})
if falar_resposta:
talk(resposta)
code = extract_python_code(resposta)
if code:
if rodar:
print("Vou rodar")
try:
print("code", code)
print("### RODANDO ###")
exec(code)
except Exception as e:
print("Resolve ai:", e)
print("Done!\n")
else:
print("Sem mensagem", question)
continue
if debugar:
print("Mensagens", mensagens, type(mensagens))
print("Ate mais")

5 CAPÍTULO 5
2 CONCLUSÕES E SUGESTÕES PARA TRABALHOS FUTUROS
2.1 CONCLUSÕES
No máximo 01 (uma) lauda e meia
2.2 SUGESTÕES PARA TRABALHOS FUTUROS

No máximo 1/2 (meia) lauda.
Deve apresentar uma concisa, porém, consistente recapitulação de todo o conteúdo da

pesquisa. É onde o autor faz uma autocrítica de seu trabalho, apresenta clara e ordenadamente
as deduções tiradas dos resultados do trabalho ao longo da discussão do assunto e apresenta
sugestões de aspectos do tema a serem pesquisados. É uma síntese de toda a reflexão do
pesquisador, com a apresentação das conclusões confrontadas aos objetivos ou hipóteses,
traçados no início do trabalho.
DICAS:
 As conclusões devem ser apropriadas. Isto significa que elas respondem aos objetivos e
questões estabelecidos.
 Esta sessão deve ser rica e detalhada, contendo um resumo dos fatos encontrados e uma
análise quantitativa qualitativa centrada não mais em teoria, mas nos fatos e conceitos do
sistema real de que trata a dissertação.
 As proposições, questões e objetivos enunciados na introdução devem ser endereçados e

deve ser demonstrado claramente que eles foram resolvidos.

 As hipóteses devem ser qualificadas como verdadeiras, falsas, inconsistentes ou
indeterminadas.

REFERÊNCIAS
Consultar a NORMA BRASILEIRA ABNT NBR 6023 (para referências)
As referências consultadas e citadas na Dissertação devem constar nas, lista em

ORDEM ALFABÉTICA de acordo com as Normas da ABNT.
EXEMPLOS:
a) Para livros:
 Título (negrito);
 Edição (1a, 2a, etc.);
 Local;
 Editora;
 Ano da publicação.
BIRD, R. B., STEWART, W. E., LIGHTFOOT, E. N. Fenômenos de transporte. 2. ed. Rio

de Janeiro: LTC, 2004.
BRENAM, J. G. et al. Las Operaciones de la ingenieria de los alimentos. 2. ed. Zaragoza:

Acribia, 1980.
FOGLER, H. S. Elementos de Engenharia das reações químicas. 4. ed. Rio de Janeiro:

LTC, 2009.
HINES, A. L., MADDOX, R. Mass transfer. New York: John Wiley, 1985.
b) Para artigos em periódicos:

 Título do artigo;
 Nome do periódico (negrito);
 Volume;
 Número;
 Páginas inicial e final do artigo, após a abreviatura pp.;
MIKHAILOV, M. D., VULCHANOV, N. L. A Computational Procedure for Sturm-Liouville

Problems. Journal of Computational Physics, v. 50, n. 3, pp. 323-336, 1983.

c) Para relatórios de pesquisa:
 In: identificação da procedência do relatório (só use “In” quando o relatório tiver mais
de um trabalho);
CHEUNG, K. M., LEE, C. H., HO, J. Problem Formulation for Optimal Array
Modeling and Planning. In: Report 20090028743, Jet Propulsion Laboratory, National
Aeronautics and Space Administration, Pasadena, CA, 2006.
VANKA, S. P. Efficient Computation of Viscous Internal Flows, SBIR Phase-I Report

NAS3-25573, 1989.
d) Para artigo em anais impresso:

 In: anais do congresso (negrito);
 Volume;
 Local;
 Mês e ano da publicação.
QUARESMA, J. N. N., COTTA, R. M. Integral transform method for the Navier–Stokes

equations in steady three–dimensional flow. In: Proceedings of the
Tenth International Symposium on Transport Phenomena, v. 1, pp. 281-287, Kyoto,
Japan, November-December, 1997.
e) Para artigo em congresso publicado na forma digital:

 Nome do congresso (negrito);
 Número do artigo;
 Local;
 Mês e ano da publicação.

NASCIMENTO, U. C. S., MACÊDO, E. N., QUARESMA, J. N. N. Solution for the thermal
entry region in laminar flow of Bingham plastics within annular ducts via integral
transformation. Proceedings of the 15th Brazilian Congress of
Mechanical Engineering, COBEM-99, Paper Code AAABFD, Águas de Lindóia, Brazil, 22-
26 November, 1999.
f) Para artigo em livro (série):

 Título do artigo, entre aspas;
 In: título do livro (negrito);
 Volume;
 Título da série;
 Editora;
GOLDSMITH, H. L. Flow-induced Interactions in the Circulation. In:

Advances in the Flow and Rheology of Non-Newtonian Fluids, v. 8, Rheology
Series, Elsevier Science, pp. 1-62, 1999.
g) Para capítulo em livro:

 Título do capítulo, entre aspas;
 In: editor do livro, editor ou editores;
 Título do livro (negrito);
 Edição;
 Capítulo;
 Local;
 Editora;

KAVIANY, M. "Heat Transfer in Porous Media". In: Rohsenow, W. M., Hartnett, J. P., Cho,
Y. I. (eds.), Handbook of Heat Transfer, 3rd ed., chapter 9, New York, USA, McGraw-Hill,
1998.
OBS: PARA O CASO DE CAPÍTULO DE LIVRO DE MESMO AUTOR. EXEMPLO:
KNOTHE, G. et al. A história dos combustíveis derivados de óleos vegetais. In: __________.
Manual de biodiesel. São Paulo: Edgard Blucher, 2006. Cap. 2, pp. 5-18.
h) Para dissertação/tese:
 Grau M./Dr.;
 Instituição;
 Local;
 Ano da defesa;
GARCIA, M. C. S. Modificação do resíduo de bauxita gerado no processo Bayer por

tratamento térmico. 2012. 102f. Dissertação (Mestrado em Engenharia) – Escola Politécnica
da Universidade de São Paulo.. São Paulo, 2012.
MAGALHÃES, Edilson Marques. Estudo da extração de compostos de ferro da lama

vermelha visando a concentração e/ou extração de compostos de titânio. 2012. 142f. Tese
(Doutorado em Engenharia de Recursos Naturais da Amazônia) – Universidade Federal do
Pará.. Belém, 2012.
Quando a obra a ser referenciada tiver sido consultada através da Internet (online) é
essencial mencionar autor, título, edição, local, editor e data. Em seguida, acrescentar as
informações relativa à descrição do suporte ou meio, e endereço eletrônico, apresentado entre
os sinais < >, precedido da expressão “Disponível em:” e a data e a hora de acesso ao
documento, precedido da expressão “Acesso em:”. NÃO É RECOMENDÁVEL A
REFERÊNCIA DE MATERIAIS DE CURTA DURAÇÃO NAS REDES.

REIMBRECHT, E. G., FREDEL, M. C., BAZZO, E. Fabricação de elementos porosos para
utilização em bombas capilares. In: SIMPÓSIO BRASILEIRO DE ESTRUTUROLOGIA, 1,
1998, Belo Horizonte. Anais eletrônicos. Belo Horizonte: UFMG, 1998. Disponível em
<http://www.uranocdtn.br/~sbe/>. Acesso em: 21 de janeiro de 2016, 20h35min.
ANEXOS

APÊNDICES

Template TCC - UNIP 2023

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Template TCC - UNIP 2023

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE PAULISTA

CURSO DE CIÊNCIA DA COMPUTAÇÃO

FRANCISCO EDIPO DA SILVA SOUZA F328945

RECONHECIMENTO DE VOZ INTEGRADO AO CHAT GPT

RECONHECIMENTO DE VOZ INTEGRADO AO CHAT GPT

Trabalho de Conclusão de Curso, apresentada

Orientador: Dr. Manoel Henrique Reis

MOTTA, Nelson Násser. RECONHECIMENTO DE VOZ INTEGRADO AO CHAT

Palavras-Chave: Inteligência Artificial; Reconhecimento de Voz; Acessibilidade.

MOTTA, Nelson Nasser. VOICE RECOGNITION INTEGRATED INTO GPT CHAT.

Keywords: Artificial Intelligence; Voice recognition; Accessibility.

Figura 1 - Sistema de Fuzzyficação e Defuzzyficação............................................................................35

1.1 JUSTIFICATIVA DA DISSERTAÇÃO....................................................................12

1.3 ESCOPO DO TRABALHO........................................................................................12

5 CONCLUSÕES E SUGESTÕES PARA TRABALHOS FUTUROS.....................22

5.2 SUGESTÕES PARA TRABALHOS FUTUROS......................................................22

Objetivos No cenário atual, a interação com plataformas de IA tornou-se parte

O uso crescente da inteligência artificial está se tornando uma tendência irreversível

“Devido a importantes progressos na área tecnológica e do grande aumento no

O estado da arte em reconhecimento de fala e transcrição de fala para texto atingiu

11 Universidade Paulista - UNIP

A acessibilidade é um princípio fundamental que deve orientar o desenvolvimento

12 Universidade Paulista - UNIP

A crescente procura por tecnologias baseadas em inteligência artificial (IA)

Pessoas com necessidades especiais, sejam elas relacionadas com dificuldades de

Neste contexto, a integração do reconhecimento de voz em sistemas de inteligência

Consequentemente, a pesquisa proposta justifica-se pela necessidade urgente de

Desenvolver um sistema de reconhecimento de voz para a transformação de aúdio

- Mapear as principais tecnologias disponíveis de reconhecimento de voz;

- Identificar os principais requisitos para o desenvolvimento da Aplicação;

- Descrever o modelo de forma simples do APP;

- Implementar o sistema de reconhecimento de voz, utilizando a linguagem

1.3 ESCOPO DO TRABALHO

O Capítulo 1 como visto anteriormente, apresenta a introdução de tudo que foi

No Capitulo 2 é apresentado a revisão bibliográfica dividida em 5 partes. A primeira

O Capítulo 3 traz os procedimentos dos materiais e métodos utilizados para a

14 Universidade Paulista - UNIP

Por último, no Capítulo 5 são apresentadas conclusões e sugestões de trabalhos

15 Universidade Paulista - UNIP

16 Universidade Paulista - UNIP

2.2 RECONHECIMENTO DE VOZ E SEUS DESAFIOS

O reconhecimento de voz é uma tecnologia que permite a conversão de fala em

O uso do reconhecimento de voz em chatbots baseados em GPT permite que os

Para implementar o reconhecimento de voz em um chatbot baseado em GPT, é

No entanto, a integração do reconhecimento de voz em chatbots baseados em GPT

2.3 O USO DA TECNOLOGIA PARA DEFICIENTES AUDITIVOS

Com o avanço da tecnologia de reconhecimento de voz, existem aplicativos e dispositivos

No entanto, é importante reconhecer que o reconhecimento de voz ainda enfrenta desafios,

Em resumo, o reconhecimento de voz oferece oportunidades significativas para melhorar a

2.4 ACESSIBILIDADE NO USO DO RECONHECIMENTO DE VOZ

A acessibilidade é uma das principais preocupações no desenvolvimento de

19 Universidade Paulista - UNIP

Um dos principais desafios na implementação de tecnologias de reconhecimento de

A fala e o meio mais natural de comunicação humana. Outro desafio é a necessidade

Além disso, é importante considerar a usabilidade dos sistemas de reconhecimento

A privacidade e a segurança são outras questões importantes a serem consideradas

20 Universidade Paulista - UNIP

Todo o código que fará a construção da biblioteca de reconhecimento de voz,

21 Universidade Paulista - UNIP

Primeiramente vamos precisar instalar o Python (V 3.11). No computador,

Figura : confirmação do Python instalado.

Figura : VSCODE aberto com as primeiras linhas de codigo do projeto.

22 Universidade Paulista - UNIP

Figura : local onde será importado a KEY-API.