Escolar Documentos
Profissional Documentos
Cultura Documentos
MANAUS – AM
2023
FRANCISCO EDIPO DA SILVA SOUZA F328945
NELSON NASSER DA SILVA MOTTA N547GC7
LUCIANO GUEDES DE OLIVEIRA F340023
MANAUS – AM
2023
AGRADECIMENTOS
Agradeço primeiro a Deus aquele que me sustentou até aqui, minha família e amigos que
sempre deram apoio desde o início desta jornada, quando falava em desistir, eles me
animavam, sem eles seria muito difícil chegar até aqui.
Epígrafe
“A nova onda de Inteligência Artificial não
nos traz propriamente a inteligência, mas um
componente crítico dela: a previsão.”
Ajay Agrawal
Dedicatória
Aos meus pais Nelson Canedo e Quezia
Oliveira, minhas irmãs Emily Alves e Natalia
Alecrim, minha esposa Valdeizes Pinto, e a
toda minha família que, com muito carinho e
apoio, não mediram esforços para que eu
chegasse até esta etapa de minha vida.
RESUMO
As inteligências artificiais estão a cada dia sendo utilizadas de forma mais intensa e com mais
objetivo em todos os sentidos, a questão das pessoas especiais e o pouco acesso ou acesso
limitado gera a busca para solucionar tais limitações, a acessibilidade deveria ser mais
facilmente aplicada a determinadas necessidades, seja visual, auditiva, de fala, motora ou
corporal. O reconhecimento de voz vem evoluindo ao longo tempo com bastante relevância,
sendo uma ferramenta com um leque de possibilidades, utilizando Python, por exemplo como
linguagem de programação alinhado a outras ferramentas, podemos levar a acessibilidade que
algumas pessoas especias precisam ou contribuir para isso acontecer, toda aplicação precisa
que seja sempre atualizada e corrigida, algumas ideias podem ser implementadas e outras já
aplicadas devem estar em constante evolução, para um uso mais assertivo e eficaz, buscamos
contribuir com isto. Foram incorporadas varias ferramentas e estratégias, a linguagem de
programação Python, muito eficaz para várias aplicações. SpeechRecognition é uma
biblioteca que desempenhou um papel central na transcrição da fala dos usuários. Com
algoritmos avançados isso permite a conversão precisa de sinais de áudio em texto e auxilia a
se comunicar melhor, integrando-se com a API ChatGPT da OpenAI, podemos aproveitar o
poder de processamento da inteligência artificial para criar respostas contextuais. A API
permitiu a transferência eficiente de dados entre o módulo de reconhecimento de fala e o
ChatGPT. O desenvolvimento incremental do sistema foi desenvolvido começando pelo
módulo de reconhecimento de voz, cada recurso foi testado individualmente antes da
integração com ChatGPT, garantindo uma base sólida. Na precisão de reconhecimento de
fala, os testes revelaram alta precisão na transcrição da fala dos usuários, mesmo em
ambientes com diferentes níveis de ruído, validando a eficácia do módulo de reconhecimento
de fala. As respostas do ChatGPT foram contextualmente relevantes sendo a integração com a
API ChatGPT que proveu respostas textualmente consistentes e contextualmente relevantes,
destacando a capacitância do sistema de compreender e gerar conteúdo significante. Estes
resultados positivos mostram que o sistema tem potencial para contribuir significativamente
para a inclusão social e fornecer a uma vasta gama de usuários uma forma acessível e
eficiente de interagir com a inteligência artificial.
Artificial intelligence is being used every day more intensely and with more objective in
every sense, the issue of special people and little access or limited access generates the search
to solve such limitations, accessibility should be more easily applied to certain needs, whether
visual, auditory, speech, motor or body. Voice recognition has been evolving over time with
great relevance, being a tool with a range of possibilities, using Python, for example as a
programming language aligned with other tools, we can provide the accessibility that some
special people need or contribute to this happening , every application needs to be always
updated and corrected, some ideas can be implemented and others already applied must be in
constant evolution, for a more assertive and effective use, we seek to contribute to this.
Several tools and strategies were incorporated, the Python programming language, which is
very effective for various applications. SpeechRecognition is a library that played a central
role in transcribing users' speech. With advanced algorithms this allows the accurate
conversion of audio signals to text and helps you communicate better. By integrating with
OpenAI's ChatGPT API, we can harness the processing power of artificial intelligence to
create contextual responses. The API enabled efficient data transfer between the speech
recognition module and ChatGPT. The incremental development of the system was carried
out starting with the voice recognition module, each feature was tested individually before
integration with ChatGPT, ensuring a solid foundation. In speech recognition accuracy, tests
revealed high accuracy in transcribing users' speech, even in environments with different
noise levels, validating the effectiveness of the speech recognition module. ChatGPT's
responses were contextually relevant and the integration with the ChatGPT API provided
textually consistent and contextually relevant responses, highlighting the system's ability to
understand and generate meaningful content. These positive results show that the system has
the potential to significantly contribute to social inclusion and provide a wide range of users
with an accessible and efficient way to interact with artificial intelligence.
CAPÍTULO 1...........................................................................................................................12
1 INTRODUÇÃO............................................................................................................12
1.2 OBJETIVOS.................................................................................................................12
1.2.1 Geral.........................................................................................................................12
1.2.2 Específicos................................................................................................................12
CAPÍTULO 2...........................................................................................................................18
2 REVISÃO BIBLIOGRÁFICA....................................................................................18
CAPÍTULO 3...........................................................................................................................19
3 MATERIAIS E MÉTODOS.......................................................................................19
3.1 MATERIAIS.................................................................................................................20
3.2 MÉTODOS...................................................................................................................20
CAPÍTULO 4...........................................................................................................................21
4 RESULTADOS E DISCUSSÕES...............................................................................21
CAPÍTULO 5...........................................................................................................................22
5.1 CONCLUSÕES............................................................................................................22
REFERÊNCIAS......................................................................................................................23
ANEXOS..................................................................................................................................27
APÊNDICES............................................................................................................................28
1 CAPÍTULO 1
1 INTRODUÇÃO
1.2.2 Específicos
2 REVISÃO BIBLIOGRÁFICA
2.1 INTELIGÊNCIA ARTIFICIAL, O QUE É E COMO É USADA.
A inteligência artificial é descrita por JOÃO FERNANDES (2018) como uma
tecnologia que se divide entre a ciência e a arte, fazendo assim uma máquina “pensar” ao
resolver algum problema. A IA abrange uma ampla gama de técnicas e abordagens, incluindo
aprendizado de máquina, processamento de linguagem natural, visão computacional e
raciocínio automatizado.
A inteligência artificial é usada em diversas áreas e setores da sociedade. Aqui estão
alguns exemplos de aplicação da IA: Assistentes Virtuais: Assistentes de voz como a Siri da
Apple, o Google Assistant e a Alexa da Amazon são exemplos populares de como a IA é
usada para entender e responder às perguntas dos usuários, realizar tarefas como enviar
mensagens, fazer chamadas, reproduzir música, fornecer informações e muito mais. (CHAT
GPT 2023).
Reconhecimento de Padrões e Visão Computacional: A IA é usada em sistemas de
reconhecimento facial, onde é capaz de identificar e autenticar pessoas com base em
características faciais. Além disso, também é usada em aplicações de visão computacional,
como detecção de objetos em imagens e vídeos, identificação de doenças médicas a partir de
exames de imagem e até mesmo veículos autônomos que podem reconhecer e reagir a sinais
de trânsito, pedestres e outros veículos.
Análise de Dados e Aprendizado de Máquina: A IA é usada para análise avançada de
dados em diversos setores, desde finanças e comércio eletrônico até ciência e medicina.
Algoritmos de aprendizado de máquina são usados para extrair insights, identificar padrões,
prever tendências e tomar decisões com base em grandes conjuntos de dados.
Assistência Médica: A IA é aplicada em várias áreas da assistência médica, como
diagnóstico de doenças, descoberta de medicamentos, monitoramento de pacientes, cirurgia
assistida por robôs e análise de imagens médicas para identificação de anomalias e detecção
precoce de doenças. Serviços Financeiros: No setor financeiro, a IA é usada para análise de
risco, detecção de fraudes, negociação algorítmica, gerenciamento de portfólio e atendimento
ao cliente automatizado.
Personalização e Recomendações: Muitas plataformas de streaming de música, vídeo e
comércio eletrônico usam IA para personalizar recomendações de conteúdo com base nas
"Os chatbots, por sua vez, são programas de computador que utilizam inteligência
artificial para simular conversas humanas." (MANOEL SANTOS, 2023). Eles são usados
em uma variedade de aplicações, desde atendimento ao cliente até assistentes pessoais. Os
chatbots baseados em GPT (Generative Pre-trained Transformer) são uma classe de
chatbots que utilizam modelos de linguagem pré-treinados para gerar respostas baseadas em
entradas de texto. Esses modelos foram treinados em grandes quantidades de dados textuais
e, portanto, têm uma compreensão ampla da linguagem natural.
O reconhecimento de voz tem se mostrado uma tecnologia promissora para auxiliar pessoas
com deficiência auditiva. Essa aplicação específica da tecnologia visa proporcionar uma
forma de comunicação mais acessível e inclusiva para indivíduos com dificuldades de
audição. Ao converter a fala em texto escrito, o reconhecimento de voz permite que os
deficientes auditivos recebam informações verbais de maneira visual. (CORREIA 2020).
18 Universidade Paulista - UNIP
Uma das principais vantagens do reconhecimento de voz para deficientes auditivos é a
capacidade de transcrever e exibir em tempo real o que está sendo dito em ambientes como
reuniões, palestras, aulas e conversas cotidianas. Isso pode ser especialmente útil em
situações em que a leitura labial ou o uso de um intérprete de língua de sinais não são
viáveis ou disponíveis.
Além da comunicação em tempo real, o reconhecimento de voz também pode ser usado
para interações escritas em serviços de mensagens, redes sociais e outras plataformas
online. Por exemplo, um deficiente auditivo pode usar um aplicativo de reconhecimento de
voz para digitar mensagens e participar de conversas virtuais de forma mais eficiente e
fluente.
3 CAPÍTULO 3
3 MATERIAIS E MÉTODOS
3.1 MATERIAIS
Para o desenvolvimento do sistema de reconhecimento de voz proposto, serão
usadas as seguintes ferramentas e periféricos:
API CHAT GPT (versão 3.5): O CHAT GPT é software de Inteligência Artificial
usado na computação como ferramenta para gerar respostas para questões diversas. A
ferramenta é possivelmente fazer uma extensão para o google, fazendo ser funcional em
diversos sites de pesquisa, cria tabelas, cria textos e outros, o codigo poderá usar APIs de
outras inteligências artificiais.
Além disso, será usado o VSCODE (versão 1.83) que é uma ferramenta utilizada
para edição do código fonte que será desenvolvido, além disso, a ferramenta possui suporte
para a depuração e fará o controle de todos as versões do sistema até sua finalização.
3.2 MÉTODOS
A metodologia proposta para este projeto abrange diversas etapas fundamentais para
o desenvolvimento e implementação do sistema de reconhecimento integrado de voz
utilizando o Chat GPT. Inicialmente, foi realizada uma revisão da literatura para obter uma
compreensão aprofundada do estado da arte e das técnicas existentes nesse campo. Isso
permitirá identificar lacunas e áreas de pesquisa relevantes para a abordagem proposta.
Logo após vamos instalar o VSCODE (versão 1.83) que é uma ferramenta utilizada
para edição do código fonte que será desenvolvido, além disso, a ferramenta possui suporte
para a depuração e fará o controle de todos as versões do sistema até sua finalização.
Pandas
Pandas é uma biblioteca de ciência de dados de código aberto erigida em Python que
provê uma abordagem rápida e flexível com estruturas robustas para trabalhar com dados
relacionais (ou marcados), tudo de forma simples e intuitiva.
Pyttsx3
Pyttsx3 permite escolher diferentes vozes para síntese de fala. Você pode listar as
vozes disponíveis em seu sistema usando o método pyttsx3. nisso (). getProperty('voz ' ).
OpenAI-API
Ffmpeg-python
PyAudio
Pyaudio é uma biblioteca Python poderosa que torna a manipulação de áudio fácil e
eficiente. Com ele, você pode realizar diversas tarefas relacionadas ao áudio, desde gravar e
reproduzir arquivos até aplicar efeitos sonoros e processamento de sinal.
Whisper-openai
O modelo Whisper é um modelo de fala para texto OpenAI que você pode usar para
transcrever arquivos de áudio. O modelo é desenvolvido com base em um grande conjunto
de dados de áudio e texto em inglês. O modelo é otimizado para transcrever arquivos de
áudio com voz em inglês.
4 CAPÍTULO 4
4 RESULTADOS E DISCUSSÕES
Foi testado em 4 tipos de ambiente a captação de áudio por meio de microfone instalado
e configurado, a precisão oscila de 87 a 95% no máximo, resultado que mostra que para
atingir os 100% ainda falta 5%.
Ao executar o programa e ativar o assistente de voz falando algo, foi dito a frase:
“ChatGPT bom dia!”, porem por consequência do ambiente ou do microfone ele não
compreendeu corretamente, podemos considera também a questão da dicção do usuário, caso
isso acontece temos a solução na próxima figura.
Linha 22 falar = false / se você quiser só digitar o texto e ouvir as respostas (boa opção
para microfone com ruídos, ou se você estiver em local com muito barulho.
Linha 22 falar = true / se você quiser falar a sua voz será transformada em texto e em
seguida lida e respondida pela API em forma de áudio.
if entrada_por_texto:
sem_palavra_ativadora = True
ajustar_ambiente_noise = False
def generate_answer(messages):
try:
#response = openai.ChatCompletion.create( ## Api antiga
response = openai.chat.completions.create( ## API nova
model="gpt-3.5-turbo", ##
#model="gpt-3.5-turbo-0301", ## ateh 1 junho 2023
messages=messages,
temperature=0.1
)
return [response.choices[0].message.content, response.usage]
except Exception as e:
print("Deu ruim", e)
return ["", ""]
def talk(texto):
# falando
engine.say(texto)
engine.runAndWait()
engine.stop()
def save_file(dados):
with open(path + filename, "wb") as f:
f.write(dados)
f.flush()
def zerarMensagens():
return [{"role": "system", "content": "Não explique códigos em python,
somente caso seja pedido."}]
def extract_python_code(content):
code_blocks = code_block_regex.findall(content)
for indice, codeb in enumerate(code_blocks):
if code_blocks:
full_code = "\n".join(code_blocks)
return full_code
else:
return None
# reconhecer
r = sr.Recognizer()
mic = sr.Microphone()
model = whisper.load_model("base")
# falar
engine = pyttsx3.init()
voices = engine.getProperty('voices')
engine.setProperty('rate', 180) # velocidade 120 = lento
for indice, vozes in enumerate(voices): # listar vozes
print(indice, vozes.name)
voz = 1 # "IVONA_2_Ricardo_OEM"
engine.setProperty('voice', voices[voz].id)
mensagens = zerarMensagens()
path = os.getcwd()
filename = "audio.wav"
while True:
print("###############################")
text = ""
question = ""
if entrada_por_texto:
question = input("Perguntar pro ChatGPT (\"sair\"): ")
else:
# Ask a question
with mic as fonte:
if escolher_stt == "google":
question = r.recognize_google(audio, language="pt-BR")
elif escolher_stt == "whisper":
save_file(audio.get_wav_data())
if escolher_stt == "whisper":
text = model.transcribe(path + filename, language='pt',
fp16=False)
question = text["text"]
if comecodafrase in sair:
print(question, "Saindo.")
if falar_resposta:
talk("Desligando")
break
elif comecodafrase in zerar:
mensagens.clear()
mensagens = zerarMensagens()
print("zerou", mensagens)
elif question == "" or question.endswith(("cancela", "cancelar",
"Cancelar", "Cancela")):
print("!!! Sem som, texto ou cancelou !!!", question)
continue
elif comecodafrase in chamar_assistente or sem_palavra_ativadora:
if len(comecodafrase) > 0:
question = question[len(comecodafrase) + 1:]
print("Nóis:", question)
mensagens.append({"role": "user", "content": str(question)})
resposta = answer[0]
preco = answer[1]
print("ChatGPT:", resposta)
if debug_custo:
print("Custo:\n", preco)
if falar_resposta:
talk(resposta)
code = extract_python_code(resposta)
if code:
if rodar:
print("Vou rodar")
try:
print("code", code)
print("### RODANDO ###")
exec(code)
except Exception as e:
print("Resolve ai:", e)
print("Done!\n")
else:
print("Sem mensagem", question)
continue
if debugar:
print("Mensagens", mensagens, type(mensagens))
print("Ate mais")
2.1 CONCLUSÕES
No máximo 01 (uma) lauda e meia
DICAS:
As conclusões devem ser apropriadas. Isto significa que elas respondem aos objetivos e
questões estabelecidos.
Esta sessão deve ser rica e detalhada, contendo um resumo dos fatos encontrados e uma
análise quantitativa qualitativa centrada não mais em teoria, mas nos fatos e conceitos do
sistema real de que trata a dissertação.
EXEMPLOS:
a) Para livros:
Título (negrito);
Edição (1a, 2a, etc.);
Local;
Editora;
Ano da publicação.
HINES, A. L., MADDOX, R. Mass transfer. New York: John Wiley, 1985.
CHEUNG, K. M., LEE, C. H., HO, J. Problem Formulation for Optimal Array
Modeling and Planning. In: Report 20090028743, Jet Propulsion Laboratory, National
Aeronautics and Space Administration, Pasadena, CA, 2006.
KNOTHE, G. et al. A história dos combustíveis derivados de óleos vegetais. In: __________.
Manual de biodiesel. São Paulo: Edgard Blucher, 2006. Cap. 2, pp. 5-18.
h) Para dissertação/tese:
Título (negrito);
Grau M./Dr.;
Instituição;
Local;
Ano da defesa;
Quando a obra a ser referenciada tiver sido consultada através da Internet (online) é
essencial mencionar autor, título, edição, local, editor e data. Em seguida, acrescentar as
informações relativa à descrição do suporte ou meio, e endereço eletrônico, apresentado entre
os sinais < >, precedido da expressão “Disponível em:” e a data e a hora de acesso ao
documento, precedido da expressão “Acesso em:”. NÃO É RECOMENDÁVEL A
REFERÊNCIA DE MATERIAIS DE CURTA DURAÇÃO NAS REDES.
ANEXOS