Faculdade Associada de Ariquemes

FACULDADE ASSOCIADA DE ARIQUEMES - FAAR
VALDICLEY LEONARDO AMARAL GOMES
ESTUDO DE APLICAES TECNOLGICAS EM RECONHECIMENTO DE VOZ
Ariquemes/RO
2009
Trabalho de concluso de curso apresentado

como parte dos requisitos para obteno do
grau de Bacharel em Sistemas de
Informao da Faculdade Associdada de
Ariqueme - FAAR.
Orientador: Paulo Alexandre Serra Coucello
Fonseca
Belm/PA
2014
Trabalho de concluso apresentado como

requisito para obteno do grau de Bacharel,
no curso de Sistemas de Informao da IES
Faculdade Associada de Ariquemes - FAAR,
sob apreciao da seguinte Banca
Examinadora:
Aprovado em 30 de novembro de 2010
_______________________________________________________________
Prof. Ms. Carlos Andr Santana (UFAC)
_______________________________________________________________
Prof. Ms. Joana Rosa Lima (UNINORTE)
_______________________________________________________________
Prof. Dr. Paulo Henrique de Souza (UNINORTE)
Aos meus pais Jesus Elias Costa Lima e Clia

Sandes Botelho Lima que so meu maior incentivo
e exemplo de vida. Aos professores e amigos mais
prximos que, direta ou indiretamente me apoiaram
nesta jornada.
AGRADECIMENTOS
Primeiramente a Deus por conceder esta oportunidade mpar em minha vida.
Ao Prof. e Mestre Paulo Alexandre Serra Coucello Fonseca pela orientao e apoio
na elaborao deste trabalho e Prof. Jakline Brandhuber Moura pelo auxlio e
colaborao. Ao Prof. e Cordenador Rogrio Pereira dos Santos pela dedicao ao
curso de Sistemas de Informao. Aos meus amigos Altamir Mello e Ramison Vilela
pelo apoio e auxlio com a metodologia empregada neste.
"Nem tudo que se enfrenta pode ser modificado,

mas nada pode ser modificado at que seja
enfrentado." (James Baldwin)
RESUMO
De uma forma clara, sucinta e objetiva, este trabalho visa demonstrar as tecnologias
de processamento de voz, rea pertencente Inteligncia Artificial. Descrever os
processos histricos e a evoluo do processamento de voz, as dificuldades iniciais,
definies, benefcios, vantagens, seu desenvolvimento e aprimoramento, bem
como as restries e problemas enfrentados. Tambm ser abordado o fato de o
reconhecimento de voz estar cada dia mais presente no atual cotidiano, tornando
mais prtica e eficiente a resoluo de problemas utilizando determinada tecnologia.
Este trabalho apresentar as tecnologias utilizadas dentro do processamento de voz,
como o reconhecimento e sintetizao da fala, as reas onde determinadas
tecnologias esto sendo aplicadas, bem como alguns softwares comercializados e,
posteriormente, uma anlise e comparao dos mesmos. O reconhecimento de voz
tambm torna possvel o acesso a computadores e dispositivos tecnolgicos para
indivduos portadores de deficincias fsicas, inserindo-os no mercado de trabalho.
Tambm demonstrado como o processamento de voz aplicado em sistemas de
segurana atravs do reconhecimento de locutor, tornando mais seguro e confivel o
acesso a locais e departamentos restritos. O reconhecimento de voz real e est
cada dia mais presente em nosso meio. Atravs deste trabalho, por meio de
pesquisa bibliogrfica, procurou-se reunir dados de vrios autores, dentre livros e
artigos publicados na web, para que se pudesse ter o mximo de informao
possvel sobre o assunto, explanados de maneira concisa e de fcil entendimento.
Palavras-chave: Reconhecimento de voz. Sintetizador. Inteligncia Artificial
ABSTRACT
In a clear, concise and objective way, this work aims to demonstrate the technology
of voice processing, an area belonging to Artificial Intelligence. Describe the historical
processes and evolution of voice processing, the initial difficulties, definitions,
benefits, advantages, its development and improvement as well as the constraints
and problems faced. It will address the fact that speech recognition will be
increasingly present in today's daily, making the resolution of problems more practical
and efficient using a particular technology. This work will present the technologies
used in voice processing such as recognition and speech synthesis, the areas where
certain technologies are being applied as well as some commercialized softwares
and, later, an analysis and comparison of the same ones. Speech recognition also
makes possible the access to computers and technological devices for individuals
with disabilities, by placing them in the labor market. It is also shown as the voice
processing is applied to security systems through the recognition of the speaker,
making the access to restricted sites and departments more reliable and secure.
Speech recognition is real and its each day more present in our way of living.
Through this work, by means of bibliographical research, sought to gather data of
some authors, amongst books and articles published in web, so that it reaches the
maximum of possible information on the subject, ones explained in concise way and
easy agreement.
Key words: Voice Recognition. Synthesizer. Artificial Intelligence
LISTA DE ABREVIATURAS E SIGLAS

ANVISA:
EMBRAPA:
IBGE:
IFAC:
INCRA:
INEP:
INPI:
SINAES:
UFAC:
UNINORTE:
Agncia Nacional de Vigilncia Sanitria

Empresa Brasileira de Pesquisa Agropecuria
Instituto Brasileiro de Geografia e Estatstica
Instituto Federal do Acre
Instituto Nacional de Colonizao e Reforma Agrria
Instituto Nacional de Estudo e Pesquisa
Instituto Nacional da Propriedade Industrial
Sistema Nacional de Avaliao do Ensino Superior
Universidade Federal do Acre
Unio Educacional do Norte
SUMRIO
1 INTRODUO.........................................................................................................10
2 INTELIGNCIA ARTIFICIAL....................................................................................12
2.1 SISTEMAS BASEADO EM CONHECIMENTO....................................................13
2.2 TRADUES AUTOMTICAS.............................................................................13
3 RECONHECIMENTO DE VOZ................................................................................15
3.1 DEFINIES........................................................................................................16
3.2 CONVERTENDO VOZ PARA DADOS..................................................................17
4 SISTEMAS DE RECONHECIMENTO DE VOZ.......................................................18
4.1 BENEFCIOS E VANTAGENS..............................................................................18
4.1.1 Vantagens do modelo oculto de Markov............................................................18
4.2 PROBLEMAS NO RECONHECIMENTO DE VOZ...............................................19
4.2.1 Rudos................................................................................................................19
4.2.2 Capacidade de processamento.........................................................................20
5 APLICAES...........................................................................................................21
5.1 TELECOMUNICAES........................................................................................21
5.2 SEGURANA........................................................................................................22
5.2.1 Reconhecimento de locutor...............................................................................23
5.2.2 Variao intra e inter locutor..............................................................................23
6 AVALIAO DE FERRAMENTAS DE RECONHECIMENTO DE VOZ...................24
6.1 IBM VIA VOICE.....................................................................................................24
7 CONCLUSO...........................................................................................................26
REFERNCIAS...........................................................................................................28
10
1 INTRODUO
As tecnologias em processamento de voz esto a cada dia mais presentes
no cotidiano. Cada vez mais, v-se que as interfaces homem-mquina esto se
aprimorando e se adaptando a atual realidade, e s facilidades que nos acercam,
quer seja no mbito profissional ou pessoal. O grande aumento da interao do
usurio com tais tecnologias demonstram a crescente aceitao do pblico e a
abertura para grandes investimentos nesta rea.
Dentro do campo da Inteligncia Artificial 1, os sistemas que se utilizam do
processamento de voz, se destacam por tornar mais rpidas as resolues de
problemas que facilmente podem ser sanados por simples comandos atravs da
fala. O reconhecimento de voz real e passou a ser um dos tpicos mais utilizados
no seio de novas tecnologias. De fato, muitas aplicaes esto a surgir ou sendo
desenvolvidas no mercado. Um dos exemplos mais populares, com a qual, a grande
maioria j teve contato, a tecnologia de chamada de voz, presente em diversos
dos novos modelos de celulares comercializados em todo o pas. Mas o principal
anseio dos usurios, quando se fala em reconhecimento de voz, ainda a
possibilidade de se emitir comandos para seus computadores, ordenando-lhe
tarefas, executando programas, ou simplesmente transcrevendo narrativas e textos
para processadores de texto, tudo atravs da fala.
V-se que o reconhecimento de voz como interface de atendimento exibe
uma srie de vantagens sobre as demais tecnologias j existentes no mercado.
Tambm analisa-se como determinadas tecnologias implementadas em servios de
atendimento podem ser de grande valia para a utilizao de portadores de
deficincia visual, como os populares servios de auto-atendimento. Pessoas que
possuem deficincias que os impedem de digitar tambm j adotaram sistemas de
reconhecimento de voz. Se um usurio no pode usar suas mos, ou nos casos em
que no possvel ou conveniente usar um teclado Braille, esses sistemas permitem
que eles se expressem ditando textos e que tenham controle sobre vrias das
funes do computador.
Em se tratando de segurana da informao, a Inteligncia Artificial, atravs
1 rea da computao que se dedica a estudar o comportamento do crebro
humano. (SOUZA, 2001, p. 06)
11
do reconhecimento da fala, mais uma vez, sai na frente. Nota-se que tal vantagem
se deve, entre outros, ao fato da fala ser inerente ao ser humano, simples e natural,
assim como a utilizao do reconhecimento de voz. Alm disso, as informaes
que so obtidas por mquinas que se utilizam de determinada tecnologia, so
introduzidas em seu sistema de forma direta, eliminando qualquer tipo de interface
pessoal, eliminando conseqentemente o risco de se introduzir erroneamente os
dados e informaes obtidos.
12
2 INTELIGNCIA ARTIFICIAL
Russel e Norvig (2004) definem que a Inteligncia Artificial (IA) umas das
cincias existentes mais recentes que, atualmente, abrange uma grande variedade
de subcampos que vo desde atividades de uso geral, como aprendizado e
percepo, chegando a tarefas bem mais especficas como demonstrao de
teoremas matemticos, diagnsticos de doenas e jogos de xadrez.
Os primeiros anos da IA, apesar de forma limitada, foram repletos de
sucesso, levando-se em considerao os primitivos computadores da poca, bem
como suas ferramentas de programao e o fato de que apenas alguns anos antes
os computadores eram vistos como meros objetos que efetuavam operaes
aritmticas, nada mais, causando espanto a idia de que um computador pudesse
realizar qualquer atividade que fosse remotamente inteligente.
Quadro 1 - Nvel de preciso dos tipos de reconhecimentos biomtricos
Tipos de biometria
Reconhecimento de voz
Reconhecimento de mo
Reconhecimento da ris
Reconhecimento da digital
Nvel de preciso
Alto
Mdia
Alto
Alto
Fonte: Revista YYYYY, 2009
O primeiro trabalho reconhecido dentro da IA foi realizado por Warren

McCulloch e Walter Pitts no ano de 1943. Ambos propuseram um modelo de
neurnios artificiais, no qual, cada um se caracteriza por estar ligado ou
desligado, tendo seus estados alterados pela estimulao de um nmero suficiente
de neurnios vizinhos. Sendo assim, seu estado era considerado concreto conforme
o estmulo adequado. Como exemplo, eles mostraram que atravs de determinada
rede de neurnios conectados poderiam calcular qualquer funo computvel. E
foram mais alm. McCulloch e Pitts sugeriram que se determinadas redes fossem
definidas de forma adequada, elas seriam capazes de aprender e no somente
executar uma seqncia de comandos lgicos. Donald Hebb, demonstrou em 1949,
uma regra simples de atualizao utilizada para modificar as intensidades de
conexo que ocorrem entre os neurnios. Aprendizagem de Hebb, como hoje
chamada a sua regra, continua a ser um modelo influente nos dias atuais.
13
2.1 SISTEMAS BASEADO EM CONHECIMENTO

Para Ganascia (1997), ainda que no incio do sculo XX, o confronto entre
homem e mquina parecesse mais como um confronto corpo a corpo, um conflito
entre capacidades mentais, sabe-se que os computadores sempre precisaro de um
suporte fsico. Do mesmo modo que, para conduzir um veculo, deve-se saber que
um pedal permite acelerar, outro pedal frear ou embrear, sem que seja necessrio
conhecer todas as operaes mecnicas envolvidas, para comandar um
computador, no se tem como pr-requisito conhecer todos os detalhes do processo
eletrnico em jogo. Constitudos por um enorme nmero de componentes, os
computadores tm na sua composio, formas muitas vezes complexas, to
complicadas que seus usurios no poderiam visualizar o conjunto em mente a todo
instante. Por isso, atravs do pensamento, para facilitar o acesso aos computadores,
procurou-se o equivalente ao que representam os pedais do automvel, assimilando
a mquina como um rgo dotado de capacidades lgicas, que tem seus comandos
efetuados por intermdio de um conjunto de instrues. Baseado nisto, pode-se
notar que as mquinas consideram somente o texto, e nunca o esprito. No existem
mensagens escritas em suas entrelinhas e nenhuma liberdade para margens
brancas do texto, apenas ordens, comandos e execues. Assim sendo,
imaginamos que o homem ser entregue s maquinas, sem a mediao de
especialistas em informtica ou em inteligncia artificial, poderia reverter-se de
sonho a pesadelo.
2.2 TRADUES AUTOMTICAS
Sommerville (2007) define que o termo Software no est somente
relacionado aos programas de computador, dele tambm fazem parte outros
quesitos como os dados da documentao e as configuraes necessrias pra que
ele possa funcionar adequadamente. Segundo Russel e Norvig (2004), com relao
s tradues, algumas das dificuldades que surgiram se deve ao fato de que a
maioria
dos
primeiros
softwares
continham
nenhum,
ou
quase
nenhum
conhecimento sobre o assunto, obtendo sucesso apenas por meio de simples

manipulaes tticas. No tocante aos primeiros esforos de traduo por mquina,
tm-se uma tpica histria na tentativa de acelerar a traduo de determinados
14
documentos cientficos russos depois do lanamento do Sputnik em 1957. Pensavase inicialmente que somente as transformaes sintticas simples relacionadas s
gramticas russas e inglesas, juntamente com a utilizao de um dicionrio
eletrnico para a substituio de palavras seriam suficientes para manter os
significados exatos das oraes. Entretanto, para estabelecer o contedo das
sentenas e solucionar possveis problemas de ambigidades, a traduo acaba por
exigir um conhecimento geral sobre o assunto em questo. Um relatrio criado em
1966 por um conselho consultivo, descobriu que no existe nenhum sistema de
traduo automtica para texto cientfico em geral, e no existe nenhuma
perspectiva imediata nesse sentido.
Outra dificuldade encontrada foi a impossibilidade de sanar muitos dos
problemas que a IA estaria buscando resolver. A grande maioria dos primeiros
programas de inteligncia artificial resolvia os problemas apenas se utilizando do
experimento entre diferentes combinaes de passos at encontrar a possvel
soluo. Inicialmente tal estratgia funcionou, pois havia um nmero muito pequeno
de possveis aes e as seqncias de solues mantinham-se muito curtas. Antes
de se desenvolver a teoria da complexidade computacional, existia uma crena geral
que para a resoluo de problemas maiores era apenas uma questo de haver
hardwares com maior capacidade de memria e mais rpidos. Mas claro que tal
definio foi logo ofuscada quando os pesquisadores perceberam que para provar
determinados teoremas, era necessrio se envolver em mais que algumas dezenas
de fatos. Sabe-se que nos dias atuais, muitas ferramentas para a traduo
automtica de textos continuam incompletas e imperfeitas, todavia, so amplamente
utilizadas na internet e at mesmo para ajuda na traduo de documentos tcnicos,
comercias e governamentais.
15
3 RECONHECIMENTO DE VOZ
Com o avano da tecnologia atual e a descoberta de novos padres houve a
necessidade de se adequar a estes, uma vez que a obteno de dados e
informaes est cada vez mais acessvel ao usurio final. As novas tecnologias
fazem parte do atual cotidiano e em conseqncia disto, houve uma adequao
tanto por parte dos meios de comunicao quanto dos usurios destas. Com isto, a
busca de aperfeioamento na utilizao destas determinadas tecnologias assumiu
relevncia neste contexto.
Tabela 1 - ndice de acertos no reconhecimento de voz - Unidades da Federao
Estados do Brasil
Bahia
Minas Gerais
Esprito Santo
Rondnia
Mato Grosso
Nmero de pessoas
230
267
197
203
200
Percentual de acertos
89%
87%
91%
92%
90%
Fonte: Revista XXXX, 2009
Segundo Guilhoto e Souza (2002), o processamento de voz pertencente

rea da I.A surgiu a partir da idia do usurio emitir ordens e comandos ao
computador atravs da fala.
H alguns anos era considerada obra de fico
cientfica, porm, no final da dcada de 1950, j havia instituies de pesquisa que

estudavam meios de se fazer com que a voz fosse processada pelo computador e
antes mesmo que a internet alcanasse sua popularidade, as empresas j
comercializavam programas com tecnologia de voz para PCs. Algumas dificuldades
foram vencidas ao longo dos anos, os produtos que trabalhavam com
reconhecimento de voz eram muito caros, complexos e pouco precisos naquilo que
se propunham.
Com o reconhecimento de voz, no s os computadores passaro a
ter seu uso facilitado, mas tambm eletrodomsticos, elevadores,
bancos e automveis. Programas que possibilitam aos computadores
reconhecer a voz humana tiveram um avano notvel nos ltimos
anos. Pode no estar longe o dia em que o computador ser capaz
de entender sua pergunta - ou pelo menos de pedir que voc a repita.
Isso no quer dizer que o computador compreende o que falamos.
Apenas que ele j capaz de ouvir e transcrever um texto com um
grande ndice de acerto. Compreender a fala transcrita envolve uma
inteligncia que a mquina no tem. (ROSA; SILVA, 1999, p. 05)
16
Esta evoluo evidente. Note-se que em diversas reas, j comum o uso

de softwares que se utilizam da tecnologia do reconhecimento e processamento da
fala. Segundo Grabianowski (2006), ao se ligar para o servio de atendimento ao
consumir (SAC) da maioria das grandes empresas, j no so pessoas que
atendem. Ao invs disto, depara-se com gravaes automticas que instruem a
pressionar diferentes botes para escolher entre as opes disponveis no menu.
Porm, muitas destas empresas j evoluram neste aspecto, solicitando que o
utilizador fale a opo desejada ao invs de digitar, que torna determinado sistema
possvel atravs de um software de reconhecimento de voz.
3.1 DEFINIES
O uso do reconhecimento de voz empregado em diversas tecnologias. So
quatro as principais reas do processamento de voz, divididas entre comandos por
voz, fala natural, sntese de voz e autenticao de voz. Guilhoto e Souza (2002)
descrevem sucintamente cada rea:
Comando de voz: caracteriza-se pelo reconhecimento de palavras
isoladas ou apenas um curto trecho de fala, fazendo com que o sistema
identifique que tipo de ao dever tomar. Este mtodo se torna o mais
simples, uma vez que mais fcil para o sistema reconhecer palavras
isoladas e associ-las aos comandos disponveis ao usurio. Tem-se, por
exemplo, o j citado SAC, onde ao invs de utilizar botes, o usurio
define suas escolhas utilizando-se da voz.
Fala natural: o reconhecimento da fala contnua, envolvendo uma ou
mais frases, contendo palavras que formam sentido dentro de um
contexto. Sendo reconhecida a fala do utilizador, ela ento convertida
em texto. Uma utilizao comum para este tipo de reconhecimento de voz
a transcrio de documentos ditados para processadores de texto ou
para softwares de email.
Autenticao de voz: permite que determinada pessoa tenha acesso a
determinadas funes atravs do reconhecimento da voz, baseando-se
no fato de que a voz nica para cada pessoa e assim pode ser usada
para identific-la.
17
Grabianowski (2006) relata que mesmo os sistemas de reconhecimento de

voz tenham sido criados h mais de 10 anos, eles ainda enfrentam a escolha entre a
fala discreta e a fala contnua. Para o sistema, mais fcil entender as palavras
ditas separadamente, com uma pausa entre cada uma delas. Porm, como os
usurios preferem a fala contnua, como em uma conversa normal, a maioria dos
sistemas modernos capaz de compreend-la.
3.2 CONVERTENDO VOZ PARA DADOS
Para que um computador possa entender a voz do usurio ela dever ser
convertida em dados. Guilhoto e Souza (2002) entendem que o reconhecimento de
voz utiliza-se de diversas tcnicas para reconhecer a voz humana. Transformam-se
os sinais de udio que passam por diversas etapas, pelas quais so aplicados vrios
mtodos matemticos e estatsticos de forma que o computador possa compreender
o que est a ser ditado. Segundo Grabianowski (2006), para que a fala seja
convertida em um texto exibido na tela ou em comando para o computador, ela ter
que sofrer vrios tratamentos. Ao falar, o usurio cria vibraes no ar. O conversor
analgico-digital (ADC) ento traduz a onda analgica em dados digitais que podem
ser compreendidos pelo computador ao digitalizar o som, retirando medidas precisas
em intervalos freqentes dentro da onda. O sistema remove rudos indesejveis ao
filtrar o som digitalizado que pode ser separado em diferentes faixas de freqncia.
A freqncia o comprimento de onda das ondas sonoras e ns a percebemos
como diferenas na altura. (GRABIANOWSKI, 2006).
O ADC ajusta o volume em um nvel constante para padronizar o som.
Grabianowski (2006) ainda complementa que para se ter uma idia da complexidade
de todo esse sistema, o som ainda pode ser alinhado temporariamente, pois como
as pessoas nem sempre falam com mesma velocidade, o som dever ser ajustado
para corresponder com a mesma velocidade dos modelos de som que esto
armazenados na memria do sistema.
18
4 SISTEMAS DE RECONHECIMENTO DE VOZ

De acordo com Braga (2006), devido ao grande avano com os algoritmos
disponveis para modelar os possveis problemas de reconhecimento de fala, e
tambm devido ao relativo barateamento dos sistemas de alto desempenho, hoje
possvel ver aparelhos j comercializados com o sistema de reconhecimento de fala,
principalmente em celulares.
4.1 BENEFCIOS E VANTAGENS
Embora j citados alguns benefcios, pode-se notar que eles aumentam com
o passar do tempo, devido ao fato de se descobrir novas solues para problemas
rotineiros no reconhecimento da fala e pelo aprimoramento na utilizao desta
tcnica em diversas reas.
A principal meta no tocante s pesquisas na rea de reconhecimento de fala,
segundo Braga (2006), o desenvolvimento de um modelo que tenha a capacidade
de decodificar a fala humana com uma taxa de acerto alta, sem a dependncia de
um treinamento com o usurio e que possa se adaptar automaticamente a qualquer
tipo de ambiente, fazendo assim com que seja possvel uma comunicao mais
amigvel e natural entre homem e mquina, como a utilizada entre os seres
humanos.
4.1.1 Vantagens do modelo oculto de Markov
Vrios so os mtodos utilizados para efetuar o reconhecimento de fala.
Braga (2006) entende que os principais mtodos utilizados so baseados nos
Modelos Ocultos de Markov (HMMs), Modelos de Mistura Gaussiana (GMMs) e
Redes Neurais Artificiais (RNAs), sendo que a utilizao se cada mtodo depende
principalmente da modalidade que o texto est associado ao problema.
Por ser uma caracterstica biomtrica, a voz pode possuir uma grande
variao entre um locutor e outro. Assim como o reconhecimento de voz
independente de locutor sofre algumas dificuldades para se processar a voz, o
reconhecimento de locutor tambm lida com algumas delas.
Outras dificuldades como rudos, falas simultneas e qualidade de hardware
19
que se fazem presentes nos sistemas de reconhecimento de voz independentes de

locutor tambm so enfrentados por sistemas de reconhecimento de locutor,
dificultando a identificao do indivduo.
As
HMMs
tm
demonstrado
melhores
resultados
em
aplicaes
dependentes de texto, enquanto que os GMMs e as RNAs tm melhores resultados

em aplicaes independentes de texto (BRAGA, 2006).
4.2 PROBLEMAS NO RECONHECIMENTO DE VOZ
Sabe-se que ainda no existe nenhum sistema de reconhecimento de voz
que funcione perfeitamente, sem erros. De acordo com Grabianowski (2006), so
vrios os fatores que podem reduzir a preciso na hora de reconhecer a fala do
usurio. Porm, alguns destes fatores continuam a melhorar conforme a tecnologia
avana e se desenvolve, enquanto que outros podem ser significativamente
reduzidos ou at mesmo corrigidos completamente pelo usurio.
4.2.1 Rudos
Segundo Grabianowski (2006), para o programa reconhecer o que est a ser
dito, ele precisa escutar e diferenciar as palavras pronunciadas. Porm, se algum
tipo de rudo for inserido junto ao som captado, isso poder interferir no processo de
reconhecimento. Grabianowski (2006) segue com tal entendimento ao citar:
O rudo pode vir de vrias fontes diferentes, incluindo o alto rudo de
fundo de um escritrio. Recomenda-se que os usurios trabalhem em
uma sala silenciosa e com um microfone de qualidade posicionado
bem prximo de suas bocas. Placas de som, que fornecem a entrada
pela qual o microfone envia o sinal para o computador, de baixa
qualidade geralmente no tm proteo o bastante contra os sinais
eltricos produzidos por outros componentes do computador, e isso
pode introduzir zumbidos ou assovios no sinal. (GRABIANOWSKI,
2006, p. 104)
Como a captao da fala do usurio uma das etapas mais importantes

para posteriormente process-la, o uso de bons equipamentos de hardware
fundamental, como por exemplo, a utilizao de headsets ou de um microfone de
alta qualidade, capaz de cancelar rudos. Assim, os sistemas baseados em regras
no obtiveram muito sucesso, pois no conseguiam lidar com tais variaes.
20
4.2.2 Capacidade de processamento

Os PCs atuais mais rpidos ainda podem ter dificuldades com comandos ou
frases complicadas, o que diminui significativamente o tempo de resposta. Alm
disso, as listas de vocabulrio de que os programas precisam tambm ocupam uma
grande quantidade de espao no disco rgido.
Figura 1 - Configurando o padro de voz do IBM Via Voicer
Fonte: http://www.clubedohardware.com.br
Felizmente, o armazenamento em disco e a velocidade dos processadores

so reas que avanam muito rapidamente.
21
5 APLICAES
Na atualidade, inmeras so as aplicaes que envolvem o reconhecimento
e processamento da fala, e a cada dia surgem novas reas que se beneficiam de tal
tcnica. Para Guilhoto e Souza (2002), um bom exemplo a rea da sade, onde se
obtem sucesso com a reduo das despesas e aumento significativo da eficincia. O
reconhecimento de voz aqui pode ajudar equipes mdicas no que se refere a
eliminar a necessidade de transcrever manualmente seus relatrios, ao se utilizar de
um pequeno aparelho porttil que funciona como um gravador, enquanto se procede
ao diagnstico de seus pacientes.
Reconhecimento de voz;
Reconhecimento de ris;
Reconhecimento de mo;
Reconhecimento de face;
Para Ynoguti (1999), algumas das principais reas em que so aplicados os

sistemas de reconhecimento de fala so: transcrio de textos atravs do ditado,
interfaces para computadores pessoais, servios de telecomunicaes e aplicaes
industriais especiais. Segundo Ynoguti (1999), o principal fator contribuinte para o
sucesso comercial o aumento na produtividade, que tem sido proporcionado
atravs de determinados sistemas de reconhecimento que auxiliam ou substituem
operadores humanos.
5.1 TELECOMUNICAES
vasta a utilizao de sistemas de reconhecimento e processamento de voz
na rea da telecomunicao. Tais sistemas esto presentes, tanto na rea pessoal,
onde o usurio pode realizar chamadas atravs de comandos de voz, como na rea
profissional onde as empresas de telefonia e os grandes centros de atendimento ao
consumidor se utilizam deste sistema para reconhecer as opes desejadas pelos
clientes e ento direcion-los para os departamentos certos.
Valiati (2000) cita que determinados servios representam um campo
bastante rentvel na rea das telecomunicaes. As tecnologias de reconhecimento
incluem, alm da discagem pela voz, servios como direcionamento de chamadas,
22
chamada por carto e a grande maioria dos servios pagos das prestadoras. Ainda
dentro da rea de telecomunicao, Valiati (2000) descreve ainda outros exemplos:
Dentre os vrios servios fornecidos destaca-se a utilizao de
pginas amarelas, onde o usurio requisita o nome de uma
empresa,o produto ou o nome promocional e o sistema se encarrega
de fornecer o nmero, como tambm j possibilita a realizao da
ligao direta com a empresa. Outro servio permite que sejam
realizadas ligaes de qualquer telefone, bastando ao usurio
informar um nmero de identificao, previamente, fornecido pela
operadora, possibilitando que tenha acesso s suas ligaes que
esto em sua secretria eletrnica, como tambm realize ligaes de
sua prpria linha telefnica, no sendo necessrio pra isto saber todo
o nmero da pessoa com quem deseja entrar em contato, mas
somente fornecer um apelido previamente cadastrado. (VALIATI,
2000, p. 78)
Para Ynoguti (1999), por ser um meio de comunicao extremamente

difundido, o reconhecimento de fala baseado na rede telefnica oferece grande
potencial. E devido a esta difuso, tecnicamente pode-se colocar, ser a rea mais
complexa para o reconhecimento de voz, devido impossibilidade de controle de
suas condies de uso. Tais problemas de devem enorme e imprevisvel
populao de usurios, diferena nos microfones dos aparelhos utilizados e
possvel presena de rudos de canal e banda estreita. Para Ynoguti (1999), os
sistemas de reconhecimento mais bem sucedidos, so os que trabalham com
vocabulrios extremamente limitados, em torno de 10 a 20 palavras. Para um
sistema ser til, no significa que ele tenha que ter um vocabulrio enorme, pois
existem sistemas extremamente teis e que trabalham com apenas duas palavras:
sim e no.
5.2 SEGURANA
Outra aplicao onde o reconhecimento de voz se torna muito til nos
sistemas de segurana, onde o aplicativo pode analisar determinada amostra de voz
e identificar o indivduo que a produziu, baseado no fato de que as caractersticas
fsicas do usurio proporcionam sua voz caractersticas nicas.
Para tratar as variaes acsticas, realizado um tratamento das mesmas
com o uso de uma adaptao dinmica de parmetros, a utilizao de mltiplos
microfones e o processamento de sinal. Para a parametrizao dos sinais, Ynoguti
(1999) relata que os pesquisadores desenvolveram representaes para enfatizar
23
caractersticas que so independentes do locutor e desprezar as caractersticas que

so dependentes do locutor. O treinamento de modelos fonticos separados para
fonemas em diferentes contextos a soluo para resolver os efeitos de contexto
lingstico em termos fontico-acsticos, sendo descritos como modelamento
acstico dependente de contexto.
5.2.1 Reconhecimento de locutor
De acordo com Pegoraro (2000), a voz uma caracterstica biomtrica, e
por ter suas informaes fontico-lingusticas detectadas e classificadas pelos
sistemas de reconhecimento da fala, pode ser perfeitamente empregada em
aplicativos de reconhecimento do locutor atravs das informaes que carrega.
Atualmente, a maioria dos sistemas de controle de acesso a redes de
computadores, transaes bancrias ou departamentos protegidos, se utilizam de
senhas alfanumricas para a identificao do usurio, ou mesmo nmeros de
identificao pessoal. Porm, indivduos que no esto autorizados a possuir tais
senhas podem obt-las e utiliz-las sem o consentimento do cliente cadastrado, ou
at mesmo, pode o prprio cliente, perder ou esquecer determinadas senhas, e
baseado neste e em outros fatores que os sistemas que se utilizam de
caractersticas fsicas e nicas ao usurio, se tornam mais seguros do que sistemas
que utilizam senhas, uma vez que as caractersticas biomtricas no podem ser
emprestadas, perdidas ou roubadas.
5.2.2 Variao intra e inter locutor
Por ser uma caracterstica biomtrica, a voz pode possuir uma grande
variao entre um locutor e outro. Assim como o reconhecimento de voz
independente de locutor sofre algumas dificuldades para se processar a voz, o
reconhecimento de locutor tambm lida com algumas delas.
Outras dificuldades como rudos, falas simultneas e qualidade de hardware
que se fazem presentes nos sistemas de reconhecimento de voz independentes de
locutor tambm so enfrentados por sistemas de reconhecimento de locutor,
dificultando a identificao do indivduo.
6 AVALIAO DE FERRAMENTAS DE RECONHECIMENTO DE VOZ
24
O mercado para o processamento e reconhecimento da fala promissor e

vem sendo disputado por gigantes como a IBM e Microsoft. Muitas empresas
investem em softwares cada vez mais eficazes e precisos, que aos poucos vo
aparecendo nas prateleiras das lojas no ramo de informtica e tecnologia. Hoje
possvel adquirir sistemas operacionais com a tecnologia j integrada, como o
caso da Microsoft que disponibiliza o reconhecimento de fala nativo em seu sistema
operacional Windows, desde a verso XP, tendo sido consideravelmente aprimorada
em sua ltima verso comercial, o Windows 7.
6.1 IBM VIA VOICE
O IBM ViaVoice o software de reconhecimento e sintetizao de voz da
IBM, capaz de reconhecer a fala do usurio, convertendo voz para texto, que pode
posteriormente ser manuseado em softwares editores de texto como o WordPad, o
Microsoft Word ou no seu prprio editor e depois efetuar a leitura do mesmo ou
outros arquivos de texto j existentes em seu computador. Em se tratando de
praticidade, o IBM ViaVoice uma verdadeira revoluo para pessoas que
trabalham com digitao, ou simplesmente desejam criar textos de maneira mais
rpida.
Figura 2 - Box do IBM Via Voice 09
Fonte: http://www.ibm.com.br/viavoice
O IBM ViaVoice funciona atravs de comandos de fala, permitindo que se

controle o computador, abrindo e fechando pastas ou executando programas e
25
arquivos atravs da voz. Tambm permite que se faa uso do texto ditado em
diversos programas como editores de texto, editores de e-mail e browsers,
proporcionando assim a possibilidade de se acessar a internet ou editar e envias emails com mais comodidade e facilidade. Sua instalao relativamente simples e
no requer conhecimento avanado na rea. Depois de instalado, o software
necessita realizar alguns ajustes de hardware, porm, ao invs de menus de
configurao extensos e complicados, o assistente o guia por algumas etapas de
fcil compreenso, que auxiliaro o usurio a configurar o microfone, definir
componentes de udio, ajustar o fone, testar a reproduo de udio e coletar
informaes dentre outras configuraes.
26
7 CONCLUSO
O processamento de voz est presente em diversas reas tecnolgicas que
vo desde a telecomunicao ao acesso a ambientes restritos por meio do
reconhecimento biomtrico do locutor atravs da fala. Sendo assim, hoje j existe a
necessidade de uma adequao por parte dos usurios e dos meios de
comunicao para a utilizao das mesmas. O que antes era somente tema de
filmes de fico cientfica, hoje real, e passou a ser um dos tpicos mais discutidos
em meio s novas tecnologias. Muitos softwares esto a surgir, ou sendo
desenvolvidos no mercado, a se aprimorar e a se adaptar atual realidade e
necessidade do consumidor final.
Este trabalho objetivou esclarecer as definies do processamento de voz,
bem como as reas de atuao da tecnologia, padres utilizados, benefcios,
vantagens, dificuldades e restries enfrentadas e sua evoluo e aprimoramento.
Tambm foram demonstrados diversos exemplos onde o processamento de voz
obteve ganhos significativos, tanto no mbito pessoal, quanto profissional. Uma vez
que o ser humano fala, em mdia, sete vezes mais rpido do que escreve, a
converso da fala para texto traz enormes benefcios em rapidez e eficincia,
fazendo com que o reconhecimento de voz permita ao usurio ditar textos que so
transcritos para softwares processadores de texto e posteriormente podendo utilizarse dos dados transcritos para outras finalidades como, por exemplo, a impresso de
relatrios ou o envio de e-mails.
Foi demonstrado tambm como o reconhecimento da fala torna possvel o
acesso a computadores por indivduos portadores de deficincias fsicas ou com
dificuldades para digitar, que antes os impossibilitavam de serem inseridos no
mercado de trabalho. Como a voz uma caracterstica biomtrica do ser humano,
nica e inerente a ele, o reconhecimento de locutor torna possvel o acesso s
informaes ou ambientes restritos por meio do reconhecimento da fala do usurio,
sendo um grande aliado da segurana da informao.
Viu-se que as tecnologias que trabalham com o processamento da fala tm
inmeras aplicaes2, fazendo com que haja um aumento substancial na produo
de aparelhos e equipamentos compatveis com essa tecnologia, como os aparelhos
2 Teste de funcionalidade das notas
27
celulares que possibilitam ao usurio realizar chamadas apenas falando o nome da

pessoa com quem deseja falar, tornando assim a tecnologia cada dia mais acessvel
e presente na vida das pessoas. Tambm foi realizada a anlise de softwares que j
esto disponveis no mercado, que se utilizam da tecnologia de processamento de
voz, como o reconhecimento de voz para execuo de comandos para o
computador, sintetizadores de voz e sistemas operacionais com a tecnologia j
nativa de fbrica.
Atravs do processamento de voz, o usurio tambm tem a possibilidade de
ter seus textos e documentos ditados em voz alta por meio dos sintetizadores de
voz, ficando livre para realizar outras atividades enquanto ouve suas notcias dirias,
e-mails, ou simplesmente revisa um relatrio.
Muito ainda se espera do processamento de voz, e muito ainda se tem a
desenvolver e crescer neste ramo, mas apesar de no ter alcanado o seu potencial
mximo, e ainda passar por algumas dificuldades, tanto de desenvolvimento quanto
de implantao, o reconhecimento de voz j se faz presente no atual cotidiano,
tornando mais fcil e rpida a execuo de determinadas tarefas, trazendo conforto
e agilidade para o usurio final.
28
REFERNCIAS
A SOCIEDADE Brasileira. O Rio Branco, Rio Branco, 31 mar. 2008. Disponvel em:
<http://www.uninorteac.com.br>. Acesso em: 31 mar. 2011.
ALVARENGA, Pedro; et. al. Operaes em ponto flutuante. In: CONGRESSO
NACIONAL DE PROGRESSO DA CINCIA. 2010, Jaru. Resumos eletrnicos...
Jaru: Unicentro, 2011. 1 CD-ROM.
AVALON SISTEMAS. Teste de Software. SQL Magazine. So Paulo; n. 4, p. 20-32,
mar. 2010.
AZEVEDO, Lara Santos; LIRA, Gustavo. Os conhecimentos da Internet. SQL
Magazine. Rio de Janeiro; n. 4, mar. 2009. Disponvel em:
<http://www.uninorteac.com.br>. Acesso em: 30 mar. 2011.
BARRETO, Sebastio Lima; et. al. Aplicaes Web com Php. Rio Branco: tica,
1990.
BOTELHO, Eduardo. Teste de aplicao. In: SENA, Joo. Teste de Software. 3 ed.
Rio de Janeiro: Erica, 2010. p. 30-40.
BRUNORO, Dharis. Sistema de Controle de Combustvel: Um estudo de caso na
Polcia Civil do Estado do Acre. 2009. 134 f. Monografia (Especializao em
Sistemas de Informao)-Unio Educacional do Norte, Ariquemes, 2009.
DESENVOLVIMENTO WEB com ASPNET. A Gazeta, Rio Branco, p. 22, 30 mar.
2011.
EXRCITO BRASILEIRO. Tcnicas de Batalha. In: LIMA, Eduardo Costa. Guerras
nos tempos modernos. So Paulo: tica, 2010. p. 30-50.
GONALVES, Silvana Andrade. Webcast: Educao na Internet. 2010. 230 f. Tese
(Doutorado)-Programa de Ps-Graduao em Cincia da Computao-UFAC, Rio
Branco, 2010. 1 CD-ROM.
LIMA, Carlos Andr; LIMA, Jorge Andr; FILHO, Maurcio. Pilotagem Noturna. 4
Rodas. So Paulo; n. 30, p. 34-36, jan. 2010.
LIMA, Eduardo Costa; RANGEL, Pedro Paulo. Comisso Prpria de Avaliao. In:
SOUZA, Edison da Silva. Reconhecimentos de Cursos. 3 ed. Rio de Janeiro:
rica, 2010. p. 40-50.
LIMA, Rosa Teixeira. Fisiologia do exerccio. 2009. 100 f. Trabalho de concluso
de curso (Graduao em Educao Fsica)-Universidade Federal do Acre,
Ariquemes, 2009.
NASCIMENTO, Joo Paulo. Teste de JUnit. Rio Branco: tica, 2011.
O DESEMPREGO na cidade grande. A Gazeta, Rio Branco, p. 7, 31 mar. 2000.
29
ORDEM DOS ADVOGADOS DO BRASIL. Direito dos trabalhadores rurais.

Disponvel em: <http://www.oab.gov.br>. Acesso em: 30 mar. 2011.
RAPOSO, Eduardo Pereira; SANTOS, Sonia Maria; OLIVEIRA, Jos Ribamar.
Como trabalhar o motivacional. Rio de Janeiro: rica, 2010.
SANTOS, Laisa Valentina Botelho. Como chorar at conseguir o que quer.
Disponvel em: <http://www.euconsigo.com.br/laisa>. Acesso em: 20 jan. 2011.
SANTOS, Marcelo Douglas Silva dos. Cuidado com os virus de computador. A
Gazeta, Rio Branco, 28 mar. 2011. Tecnologia, p. 3
SANTOS, Marcelo Douglas Silva dos. EstiloFcil. In: CONGRESSO DA
SOCIEDADE BRASILEIRA DE COMPUTAO. 20., 2011, Fernando de Noronha.
Anais... Fernando de Noronha: UFPE, 2011. p. 30-40.
SANTOS, Marcelo; SANTANA, Carlos Andr. Teste. 2 ed. Rio Branco: AC, 2010.
SANTOS, Maria Rosa Silva dos. Explorao sexual da criana na vida escolar.
2007. 100 f. Trabalho de concluso de curso (Graduao em Pedagogia)Universidade Federal de Rondnia, Jaru, 2007.
SANTOS, Maria Rosa. Teste dos Testes. 2010. 145 f. Dissertao (Mestrado)Programa de Ps-Graduao em Sistemas de Informao-Unio Educacional do
Norte, Rio Branco, 2010. Disponvel em: <http://www.uninorteac.com.br>. Acesso
em: 30 mar. 2011.
SANTOS, Sonia Maria Silva dos. A poltica no campo. 2009. 160 f. Dissertao
(Mestrado)-Programa de Ps-Graduao em Cincias Polticas-Universidade
Federal do Acre, Rio Branco, 2009. Disponvel em: <www.ufac.br/mestrado/cp>.
Acesso em: 24 abr. 2011.
SANTOS, Sonia Maria Silva dos; et. al. As sete leis da informao. In: SILVA,
Gilberto Eduardo Armindo da. Sistemas de Informaes Gerenciais. 3 ed. Rio de
Janeiro: Erica, 2010. p. 32-35.
SECRETARIA DE SADE DO ESTADO DO ACRE. Manual de primeiros socorros.
4 ed. Rio Branco: AC, 2010.
SECRETARIA DE TECNOLOGIA DO ESTADO DO ACRE. Governo Digital. SQL
Magazine. So Paulo; n. 4, p. 10-12, mar. 2010.
SILVA, Gilberto Eduardo da; SANTOS, Marcelo Douglas Silva dos. Os limites
pedaggicos do paradigma da qualidade total na educao. In: CONGRESSO DE
INICIAO CIENTFICA DA UFAC. 2010, Rio Branco. Anais eletrnicos... Rio
Branco: UFAC, 2010. Disponvel em: <http://www.uninorteac.com.br>. Acesso em:
20 mar. 2011.
SILVA, Washington. Desenvolvimento com SQL Server. Disponvel em:
30
<http://www.devmedia.com.br>. Acesso em: 1 mar. 2011.

SOCIEDADE BRASILEIRA DE COMPUTAO. Xml como programar. 3 ed. Rio de
Janeiro: rica, 2010.
TOPOLNIAK, Luciano; SILVA, Gilberto Eduardo da. Computao em nuvem. O Rio
Branco, Rio Branco, 20 fev. 2010. Disponvel em: <http://www.oriobranco.net>.
Acesso em: 20 mai. 2011.
UNIO EDUCACIONAL DO NORTE. Educao Digital. Escola. So Paulo; n. 45,
mar. 2011. Disponvel em: <http://www.uninorteac.com.br>. Acesso em: 29 mar.
2011.
UNIO EDUCACIONAL DO NORTE. Sistemas de Informaes Gerenciais. Rio de
Janeiro: rica, 1998.
UNIVERSIDADE FEDERAL DO ACRE. Educao para adultos. Disponvel em:
<http://www.ufac.br>. Acesso em: 30 mar. 2011.

Faculdade Associada de Ariquemes

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Faculdade Associada de Ariquemes

Enviado por

Direitos autorais:

Formatos disponíveis

FACULDADE ASSOCIADA DE ARIQUEMES - FAAR

VALDICLEY LEONARDO AMARAL GOMES

ESTUDO DE APLICAES TECNOLGICAS EM RECONHECIMENTO DE VOZ

VALDICLEY LEONARDO AMARAL GOMES

ESTUDO DE APLICAES TECNOLGICAS EM RECONHECIMENTO DE VOZ

Trabalho de concluso de curso apresentado

VALDICLEY LEONARDO AMARAL GOMES

ESTUDO DE APLICAES TECNOLGICAS EM RECONHECIMENTO DE VOZ

Trabalho de concluso apresentado como

Aos meus pais Jesus Elias Costa Lima e Clia

"Nem tudo que se enfrenta pode ser modificado,

LISTA DE ABREVIATURAS E SIGLAS

Agncia Nacional de Vigilncia Sanitria

Fonte: Revista YYYYY, 2009

O primeiro trabalho reconhecido dentro da IA foi realizado por Warren

2.1 SISTEMAS BASEADO EM CONHECIMENTO

conhecimento sobre o assunto, obtendo sucesso apenas por meio de simples

Fonte: Revista XXXX, 2009

Segundo Guilhoto e Souza (2002), o processamento de voz pertencente

H alguns anos era considerada obra de fico

cientfica, porm, no final da dcada de 1950, j havia instituies de pesquisa que

Esta evoluo evidente. Note-se que em diversas reas, j comum o uso

Grabianowski (2006) relata que mesmo os sistemas de reconhecimento de

4 SISTEMAS DE RECONHECIMENTO DE VOZ

que se fazem presentes nos sistemas de reconhecimento de voz independentes de

dependentes de texto, enquanto que os GMMs e as RNAs tm melhores resultados

Como a captao da fala do usurio uma das etapas mais importantes

4.2.2 Capacidade de processamento

Felizmente, o armazenamento em disco e a velocidade dos processadores

Para Ynoguti (1999), algumas das principais reas em que so aplicados os

Para Ynoguti (1999), por ser um meio de comunicao extremamente

caractersticas que so independentes do locutor e desprezar as caractersticas que

O mercado para o processamento e reconhecimento da fala promissor e

O IBM ViaVoice funciona atravs de comandos de fala, permitindo que se

celulares que possibilitam ao usurio realizar chamadas apenas falando o nome da

ORDEM DOS ADVOGADOS DO BRASIL. Direito dos trabalhadores rurais.

<http://www.devmedia.com.br>. Acesso em: 1 mar. 2011.

Você também pode gostar