Escolar Documentos
Profissional Documentos
Cultura Documentos
TEMA:
INFORMÁTICA
Por:
Grupo (v)
LUANDA, 2022/2023
ii
FOLHA DE APROVAÇÃO
Júri
Presidente
____________________________________
Professor
Arguente
____________________________________
Professor
Orientador
____________________________________
Prof.
LUANDA, 2022/2023
iii
FICHA TÉCNICA
INPNSA, 2023
iv
DEDICATÓRIA
v
EPÍGRAFE
vi
AGRADECIMENTO
A Jeová meu Deus pela vida, saúde, força e coragem que nos tem dado para assim
seguir enfrente diante de todos os obstáculos encontrados ao longo da nossa vida.
A todos que apoiaram e fizeram ser possível essa jornada, mostrando amor e carinho
incondicional.
Ao Prof. Eng. Edivandro Pereira José pelo suporte oferecido e pela orientação
concedida nesses longos anos de estudos, realizados com ele ao longo do curso foram de
fundamental importância para a nossa formação.
Ao Instituto Médio Politécnico Nossa Senhora dos Anjos, pelo privilégio de sermos
os 2º finalistas desta instituição.
vii
RESUMO
viii
ABSTRACT
Therewith, many software developers are looking for ways to implement voice
technologies in their products, and one of the most commonly used forms is the Application
Programming Interface (API). The use of intelligent interfaces, usability features and voice
technologies are enabling applications to become increasingly rich, especially to assist
inexperienced users or those with special needs. Voice technologies are divided into two
categories: voice recognition, which is widely used in voice commands (converts voice to
text), and speech synthesizer, which is widely used to improve accessibility in devices
(convert text to speech). These voice technologies use Natural Language Processing
techniques, subarea of Artificial Intelligence, in order to process and manipulate human
language at several levels. This article presents an analysis of the main voice recognition and
synthesizing APIs, describing their characteristics and functionalities. In addition, as a case
study, it shows which API was chosen, among those that were researched, and how it was
ix
LISTA DE SIGLAS
x
LISTA DE FÍGURAS
ÍNDICE
xi
DEDICATÓRIA..........................................................................................................................................v
EPÍGRAFE...............................................................................................................................................vi
AGRADECIMENTO.................................................................................................................................vii
RESUMO..............................................................................................................................................viii
ABSTRACT..............................................................................................................................................ix
LISTA DE SIGLAS......................................................................................................................................x
LISTA DE FÍGURAS..................................................................................................................................xi
CAPÍTULO 1: INTRODUÇÃO..................................................................................................................12
1.1 INTRODUÇÃO DO TEMA.............................................................................................................12
1.1. JUSTIFICAÇÃO DO TEMA.......................................................................................................13
1.2. DELIMITAÇÃO DO TEMA.......................................................................................................13
1.4. FORMULAÇÃO DE PROBLEMA..............................................................................................13
1.5. FORMULAÇÃO DE HIPÓTESE.................................................................................................13
1.6. OBJECTIVO DO TRABALHO....................................................................................................13
1.6.1. OBJECTIVO GERAL.............................................................................................................13
1.6.2. OBJECTIVO ESPECIFICO.....................................................................................................13
1.7. METODOLOGIAS UTILIZADOS...............................................................................................14
1.8. ESTRUTURA DO TRABALHO..................................................................................................14
CAPÍTULO 2: FUNDAMENTAÇÃO TEÓRICA...........................................................................................15
2.1 SISTEMA NERVOSO CENTRAL.....................................................................................................15
2.2. APIS RELACIONADAS AO RECONHECIMENTO DE VOZ...........................................................15
2.2.1 IMPORTÂNCIA DA INTELIGÊNCIA ARTIFICIAL...........................................................................17
2.2.2 INTELIGÊNCIA ARTIFICIAL NOS DIAS DE HOJE......................................................................18
2.3 MICROSOFT SPEECH SDK C#.......................................................................................................18
2.3.1 GOOGLE SPEECH API............................................................................................................19
2.3.1.1 RECONHECIMENTO E SINTETIZAÇÃO DE VOZ UTILIZANDO JAVA SPEECH API - UCSAL.....19
2.3.1.2 J.A.R.V.I.S. (JUST A RELIABLE VOCAL INTERPRETER & SYNTHESIZER) API.........................19
2.3.2 CONCATENAÇÃO SINTÉTICA................................................................................................19
2.4. FOMAÇÃO SINTÉTICA................................................................................................................20
2.5. PLATAFORMAS E LINGUAGEM DE PROGRAMAÇÃO..................................................................21
Frameworks e Bibliotecas.................................................................................................................21
.NET Framework...............................................................................................................................21
2.6 FERRAMENTAS E TECNOLOGIA...................................................................................................22
2.6.1 LINGUAGEM DE PROGRAMAÇÃO........................................................................................22
2.7. TIPOS DE LINGUAGENS DE PROGRAMAÇÃO..............................................................................22
2.8. ANÁLISE......................................................................................................................................23
CAPÍTULO 3: DESENVOLVIMENTO........................................................................................................24
xii
3.1. METODOLOGIA DE DESENVOLVIMENTO DE SOFTWARE...........................................................24
3.2. METODO DE INVESTIGAÇÃO CIENTIFÍCA...................................................................................24
3.2.2. LEVANTAMENTO DE REQUISITOS.......................................................................................24
3.2.4. RECURSOS EMPREGADOS...................................................................................................24
3.3. RECURSOS UTILIZADOS..............................................................................................................24
3.4. REQUISITOS DO SISTEMA.....................................................................................................25
3.4.1. ARQUITECTURA DO SISTEMA...........................................................................................25
3.4.2. REQUISITOS FUNDAMENTAIS DO SISTEMA......................................................................25
3.4.2.1. REQUISITOS FUNCIONAIS.........................................................................................25
3.4.2.2. REQUISITOS NÃO FUNCIONAIS.................................................................................26
3.5. MODELAGEM DO SISTEMA...............................................................................................26
3.5.2. DIAGRAMA DE CASO DE USO DO SISTEMA...................................................................27
CAPÍTULO 4: RESULTADOS E DISCUSSÕES............................................................................................29
ILUSTRAÇÃO DAS INTERFACES..................................................................................................29
CAPÍTULO 5: CONCLUSÃO....................................................................................................................30
REFERÊNCIAS BIBLIOGRÁFICAS.............................................................................................................31
xiii
CAPÍTULO 1: INTRODUÇÃO
Para sintetizar uma voz, o sistema normalmente cria Tokens do texto com o objetivo
de dividi-lo em palavras individuais e atribui-los sons fonéticos a cada palavra.
Mais nós vamos nos focar na primeira opção. A função reconhecimento de fala é
identificar a palavra falada e converte-la em dados que poderão ser processados muitas vezes.
As palavras faladas poderão estar no formato de uma voz gravada em um arquivo de áudio,
para ser feito o software normalmente usa alguns modelos, incluindo:
12
1.1. JUSTIFICAÇÃO DO TEMA
Escolhemos este tema pensando nas pessoas que sofrem de colapso neural
(Esquecimento) com o fim de ajuda-las a prosseguir com os seus compromissos diários. Pois
esquecer de fazer alguma coisa é algo muito frustrante, e quando eu comecei a pensar nas
pessoas que convivem com isso todos o santos dias, ajudou-me a tirar tempo para pensar em
refazer ou construir um sistema que possa ajudar essas pessoas. Hoje em dia existem muitas
pessoas que sofrem de colapso neural, ou seja, tendem a esquecer mais facilmente de assuntos
por vezes muito importantes, esse problema chega a prejudicar essas pessoas .
O estudo em questão foi realizado de abril a fevereiro em Luanda no hospital Jorgina Machel.
Este tema foi limitado da seguinte forma: Estudo de Inteligência Limitada e a Inteligência
Geral.
Nesse momento exite muitas pessoas que estão a sofre de perda de memoria, e uma estimativa
da OMS, mostra que mas de 1,5 mil pessoas todos os anos tornam-se provedora de colapso
neural.
Criar um software que possa ajudar a interpretar a fala audível e responder adequadamente
para aqueles que têm colapso neural.
13
Ilustrar o funcionamento do software de sintetização e reconhecimento de voz.
O presente trabalho está divido em três capítulos descritos a seguir. Após este capítulo 1.
Introdutório onde foi apresentado a Introdução do tema, justificativa do tema, delimitação,
limitação, formulação do problema, hipótese, os objectivo do trabalhos e a metodologia
utilizado.
14
CAPÍTULO 2: FUNDAMENTAÇÃO TEÓRICA
O encéfalo humano é composto, entre outras estruturas, pelo cérebro, cerebelo e tronco
encéfalo (mesencéfalo, ponte e bulbo) – e contém cerca de 86 bilhões de neurónios, ligados
por mais de 10.000 conexões sinápticas cada.
A medula espinal, também conhecida por espinal medula ou medula espinhal, é a parte
alongada do sistema nervoso central, é a continuação do bulbo, que se aloja no interior da
coluna vertebral, ao longo do seu eixo crânio-caudal.
15
do computador ou de softwares externos, portanto não são fáceis de utilizar e suscetíveis a
problemas externos, como software e hardware obsoletos ou não compatíveis. Outras
pertencem a soluções proprietárias e são cobradas pelo uso, dentre essas podemos destacar a
Microsoft, Nuance, Dragon e IBM Via Voice. Outro problema encontrado é a ausência de
soluções que interpretam o idioma português, mais precisamente o português brasileiro.
O termo inteligência artificial foi criado em 1956, mas só se popularizou hoje graças
aos crescentes volumes de dados disponíveis, algoritmos avançados, e melhorias no poder e
no armazenamento computacionais.
16
Figura 2.2: Atributos do colapso
A IA atinge uma precisão incrível através de redes neurais profundas – o que antes
era impossível. Por exemplo, suas interações com a Alexa, pesquisas do Google e Google
17
Fotos são todas baseadas em deep learning – e elas continuam ficando mais precisas conforme
as vamos utilizando. Na área médica, técnicas de IA baseadas em deep learning, classificação
de imagens e reconhecimento de objetos podem agora ser usadas para encontrar cânceres em
ressonâncias com a mesma precisão de radiologistas bem treinados;
IA: a próxima era analítica imagine um hospital à base de IA, uma loja que oferece
experiências de compra por meio de IA e um sistema de análise preditiva que fala. Este
relatório da Harvard Business Review examina esses casos de uso atuais – e explica por que
você não deve xingar a Siri.
Visto que estamos a falar muito sobre assistente virtual e sintetizador, chego a hora
de nós tocamos no ponto relacionado a doença em cause que o sistema ou o sintetizador terá a
capacidade de neutralizar de uma forma rápida e eficiente. Além dos quatro principais
objectivos, se aplicam também as seguintes características: Confiabilidade, Irritabilidade ou
não-repúdio, Auditoria, Autenticidade e Privacidade.
18
poder utilizar, sendo necessário cadastrar as palavras na forma ditada. Foi descartado por
precisar cadastrar as palavras por meio da voz, assim deixando o sistema fixo para um
narrador e ser um recurso pago.
A bibioteca Google Speech API (MEY, 2016) foi desenvolvida pela Google e destina
ao reconhecimento de voz em vários idiomas. Não necessita de um treinamento para usar,
mas é preciso o acesso à internet e uma chave para liberação. Apesar de ser uma tecnologia
proprietária e paga, há uma versão livre, limitada a 50 acessos por dia. Para obter a chave de
acesso é necessário se cadastrar no website disponível em:
http://www.chromium.org/developers/how-tos/apikeys. A Google Speech API foi utilizada no
desenvolvimento do projeto.
19
resultam em áudio de baixa qualidade. Existem três subtipos principais de concatenação
sintética, que são:
• Unidade de seleção de síntese: Grande BD onde são armazenadas diversas falas. Essas
falas são separadas em fonemas, sílabas, morfemas, palavras, frases e sentenças.
• Síntese para domínio específico: Vozes gravadas para aplicações específicas, como
call centers, relógios, calculadoras. Possui grande uso há bastante tempo.
A formação sintética não utiliza a voz humana, ela utiliza modelos acústicos; alguns
parâmetros para essa formação podem ser obtidos como a frequência fundamental, voz e
níveis de ruídos.
Esses são alguns parâmetros utilizados para criar a forma da onda artificial da voz.
Muitos sistemas baseados em formação sintética geram artificialmente voz "robotizada" que
nunca será confundida com a voz humana. Entretanto, o máximo de naturalidade nem sempre
é o objetivo dos sistemas de síntese de voz.
A maioria dos pacotes não se encaixa em mais do que uma classe, dependendo do
modo como eles estão sendo usados. Existem basicamente cinco tipos de reconhecedores de
voz:
20
• Palavras conectadas: Sistemas de palavras conectadas são semelhantes às palavras
isoladas, mas permitem separar afirmações para serem rodadas em conjunto, com uma pausa
mínima entre elas.
• Discurso contínuo: Reconhecedores com capacidades de fala contínua são alguns dos
tipos de ASR mais difíceis de implementar, uma vez que devem se utilizar de métodos
especiais para determinar fronteiras de dicção. Reconhecedores de fala contínua permitem que
os usuários falem quase que naturalmente, enquanto o computador determina o conteúdo.
• Fala espontânea: Um sistema com ASR de fala espontânea deverá ter a capacidade de
lidar com uma variedade de recursos naturais como palavras sendo executadas em conjunto,
tais como "uns" e "ahs", e mesmo ligeiras engasgadas por parte do locutor.
DESAFIOS DE AVALIAÇÃO
Frameworks e Bibliotecas
Com a complexidade vista nos sistemas atuais, a tarefa de programação fica cada
vez mais abrangente, utilizam-se metodologias e técnicas que facilitam a implementação, uma
destas técnicas é o reuso de software, onde economizamos esforço e tempo desprendido no
desenvolvimento. Trata-se de um conjunto de classes e interfaces que mostra como decompor
uma família de problemas (SAUVÉ, 2008).
21
solução de arquitetura (design). Os frameworks podem ser estudados em nível de código e
apresentam algumas características (SAUVÉ, 2008):
.NET Framework
O .NET Framework (ou DOTNET) é uma coleção de bibliotecas unificadas que entre a
grande quantidade de linguagens que fazem parte deste framework, constituindo a assim
chamada plataforma .NET, aparece o C#, adotada em nosso projeto.
22
(em 1989). É um dos códigos de mais fácil leitura e é bastante utilizado para desenvolvimento
web em achine laringe.
2.8. ANÁLISE
23
A aplicação deve uma imagem que diferenciaria, um reconhecimento de voz com
necessidades do usuário.
CAPÍTULO 3: DESENVOLVIMENTO
24
No processo de desenvolvimento do projecto, foram feitos o gasto na aquisição de matérias de
apoio conforme APÊNDICE B.
REQUISITOS DE HARDWARE
REQUISITOS DE SOFTWARES
A modelagem do sistema foi baseada na UML.Este trabalho conta com quatro destes
diagramas, são eles:
26
Especificação dos casos de uso: faz a explanação de como funciona os casos citados
no tópico do diagrama anterior;
Diagrama de classes: mostra todas as classes do sistema, com seus atributos e
métodos;
Diagrama de fluxograma: utilizado para mostrar as etapas de funcionalidades.
ACTORES DESCRIÇÃO
27
Figura 2.4 Caso de uso do sistema
Nessa secção será descrito cada actividades mais importantes do caso de uso para a etapa
do sistema:
28
Nome do Caso de Uso: Tela Principal
29
A seguir é apresentada breve descrição das funcionalidades das telas e suas telas mais
importante do sistema:
TELA PRINCIPAL
A Figura 4.2. ilustra a tela principal do sistema, onde é apresentado todas as respectivas
funcionalidades do sistema. A Tela principal apresentada, permite a comunicação imediata
entre o paciente e o sistema. Onde por suas vez o sistema, vai dar a iniciativa da conversa em
causa. O Administrador é o único com privilégios para conseguir ver as sesões que são
realizadas entre o paciente e o sistema, com a noção levada em conta entre o sigilo de
confiabilidade entre o dotor e o paciente.
CAPÍTULO 5: CONCLUSÃO
Concluimos nesse trabalho depois de logas horas de investigação e pesquisa a saber que ,
o sistema Kaf, é um sistema que vem ajudar a minimizar o trabalhos dos psicologos, os
terapeutas e não tiralos essa liberdade.
30
mencionados, foi condicionada pela compatibilidade com o novo sistema web utilizado
pelo STA.
REFERÊNCIAS BIBLIOGRÁFICAS
31
7. <http:// cmusphinx.sourceforge.net/>. Acesso em: 6 dez. 2022.
8. KUSA, L. J.A.R.V.I.S. (Java-Speech-API). 2019. Disponível em:
9. <https://github.com/lkuza2/ java-speech-api>. Acesso em: 12 nov. 2015.
10. MEY, G. Reverse Engineering Google's Speech To Text API. 2016. Disponível em:
11. <https://github.com/gillesdemey/google-speech-v2/>. Acesso em: 30 mai. 2022.
12. MICROSOFT. Microsoft Speech Platform SDK 11 Documentation. 2022. Disponível
em: <https://msdn.microsoft.com/en-us/library/ dd266409%28v=office.14%29.asp>.
Acesso em: 6 dez. 2022.
13. ORACLE. Java Speech API Frequently Asked Questions. 2015. Disponível em:
<http://www. oracle.com/technetwork/pt/java/jsapifaq-135248.html>. Acesso em: 6
dez. 2015.
14. PAYTON, T. Google Speech API. 2014. Disponível em: <http://blog.travispayton.
com/wp-content/uploads/2014/03/Google-Speech-API.pdf>. Acesso em: 6 dez. 2022.
SILVA, G.F. We have science. 2013. Disponível em: <http://wehavescience.com/
2012/11/03/reconhecimento-de-voz-com-sphinx-4/>. Acesso em: 09 nov. 2013.
15. TIOBE. TIOBE Index for May 2016. 2016. Disponível em:
16. <http://www.tiobe.com/tiobe_index>. Acesso em: 30 mai. 2016.
17. VÁRZEA PAULISTA. Prefeitura Municipal. pt_metaphone(). 2015. Disponível em:
18. <http:// informatica.varzeapaulista.sp.gov.br/metaphone/>. Acesso em: 12 nov. 2015.
APÊNDICES
APÊNDICE A: CRONOGRAMA
A.1.1- Etapas de Desenvolvimento do Projecto
CRONOGRAMA
ETAPAS JAN/21 MAR/21 NOV/21 JAN/22 FER/22 ABR/23
Início do Projeto Tecnologico
Estudo de Campo
Coleta de Dados
Análise de Dados
Estrutura do Projeto
Tecnologico
32
Codificação
Revisão do Trabalho
Defesa Final (P.A.P)
7ª Etapa(T7) Codificação
FINANCEIROS DO PROJECTO
B.1.1- Custos dos Recursos Humanos.
ITENS VALORES
Análise de sistema 80.000 akz
Desenvolvimento 100.000 akz
Administração 60.000 akz
DLL Suport 40.000 akz
Outros 50.000 akz
TOTAL GERAL 330.000 AKZ
33