Escolar Documentos
Profissional Documentos
Cultura Documentos
Ariquemes/RO
2009
Belm/PA
2014
_______________________________________________________________
Prof. Ms. Carlos Andr Santana (UFAC)
_______________________________________________________________
Prof. Ms. Joana Rosa Lima (UNINORTE)
_______________________________________________________________
Prof. Dr. Paulo Henrique de Souza (UNINORTE)
AGRADECIMENTOS
Primeiramente a Deus por conceder esta oportunidade mpar em minha vida.
Ao Prof. e Mestre Paulo Alexandre Serra Coucello Fonseca pela orientao e apoio
na elaborao deste trabalho e Prof. Jakline Brandhuber Moura pelo auxlio e
colaborao. Ao Prof. e Cordenador Rogrio Pereira dos Santos pela dedicao ao
curso de Sistemas de Informao. Aos meus amigos Altamir Mello e Ramison Vilela
pelo apoio e auxlio com a metodologia empregada neste.
RESUMO
De uma forma clara, sucinta e objetiva, este trabalho visa demonstrar as tecnologias
de processamento de voz, rea pertencente Inteligncia Artificial. Descrever os
processos histricos e a evoluo do processamento de voz, as dificuldades iniciais,
definies, benefcios, vantagens, seu desenvolvimento e aprimoramento, bem
como as restries e problemas enfrentados. Tambm ser abordado o fato de o
reconhecimento de voz estar cada dia mais presente no atual cotidiano, tornando
mais prtica e eficiente a resoluo de problemas utilizando determinada tecnologia.
Este trabalho apresentar as tecnologias utilizadas dentro do processamento de voz,
como o reconhecimento e sintetizao da fala, as reas onde determinadas
tecnologias esto sendo aplicadas, bem como alguns softwares comercializados e,
posteriormente, uma anlise e comparao dos mesmos. O reconhecimento de voz
tambm torna possvel o acesso a computadores e dispositivos tecnolgicos para
indivduos portadores de deficincias fsicas, inserindo-os no mercado de trabalho.
Tambm demonstrado como o processamento de voz aplicado em sistemas de
segurana atravs do reconhecimento de locutor, tornando mais seguro e confivel o
acesso a locais e departamentos restritos. O reconhecimento de voz real e est
cada dia mais presente em nosso meio. Atravs deste trabalho, por meio de
pesquisa bibliogrfica, procurou-se reunir dados de vrios autores, dentre livros e
artigos publicados na web, para que se pudesse ter o mximo de informao
possvel sobre o assunto, explanados de maneira concisa e de fcil entendimento.
Palavras-chave: Reconhecimento de voz. Sintetizador. Inteligncia Artificial
ABSTRACT
In a clear, concise and objective way, this work aims to demonstrate the technology
of voice processing, an area belonging to Artificial Intelligence. Describe the historical
processes and evolution of voice processing, the initial difficulties, definitions,
benefits, advantages, its development and improvement as well as the constraints
and problems faced. It will address the fact that speech recognition will be
increasingly present in today's daily, making the resolution of problems more practical
and efficient using a particular technology. This work will present the technologies
used in voice processing such as recognition and speech synthesis, the areas where
certain technologies are being applied as well as some commercialized softwares
and, later, an analysis and comparison of the same ones. Speech recognition also
makes possible the access to computers and technological devices for individuals
with disabilities, by placing them in the labor market. It is also shown as the voice
processing is applied to security systems through the recognition of the speaker,
making the access to restricted sites and departments more reliable and secure.
Speech recognition is real and its each day more present in our way of living.
Through this work, by means of bibliographical research, sought to gather data of
some authors, amongst books and articles published in web, so that it reaches the
maximum of possible information on the subject, ones explained in concise way and
easy agreement.
Key words: Voice Recognition. Synthesizer. Artificial Intelligence
SUMRIO
1 INTRODUO.........................................................................................................10
2 INTELIGNCIA ARTIFICIAL....................................................................................12
2.1 SISTEMAS BASEADO EM CONHECIMENTO....................................................13
2.2 TRADUES AUTOMTICAS.............................................................................13
3 RECONHECIMENTO DE VOZ................................................................................15
3.1 DEFINIES........................................................................................................16
3.2 CONVERTENDO VOZ PARA DADOS..................................................................17
4 SISTEMAS DE RECONHECIMENTO DE VOZ.......................................................18
4.1 BENEFCIOS E VANTAGENS..............................................................................18
4.1.1 Vantagens do modelo oculto de Markov............................................................18
4.2 PROBLEMAS NO RECONHECIMENTO DE VOZ...............................................19
4.2.1 Rudos................................................................................................................19
4.2.2 Capacidade de processamento.........................................................................20
5 APLICAES...........................................................................................................21
5.1 TELECOMUNICAES........................................................................................21
5.2 SEGURANA........................................................................................................22
5.2.1 Reconhecimento de locutor...............................................................................23
5.2.2 Variao intra e inter locutor..............................................................................23
6 AVALIAO DE FERRAMENTAS DE RECONHECIMENTO DE VOZ...................24
6.1 IBM VIA VOICE.....................................................................................................24
7 CONCLUSO...........................................................................................................26
REFERNCIAS...........................................................................................................28
10
1 INTRODUO
As tecnologias em processamento de voz esto a cada dia mais presentes
no cotidiano. Cada vez mais, v-se que as interfaces homem-mquina esto se
aprimorando e se adaptando a atual realidade, e s facilidades que nos acercam,
quer seja no mbito profissional ou pessoal. O grande aumento da interao do
usurio com tais tecnologias demonstram a crescente aceitao do pblico e a
abertura para grandes investimentos nesta rea.
Dentro do campo da Inteligncia Artificial 1, os sistemas que se utilizam do
processamento de voz, se destacam por tornar mais rpidas as resolues de
problemas que facilmente podem ser sanados por simples comandos atravs da
fala. O reconhecimento de voz real e passou a ser um dos tpicos mais utilizados
no seio de novas tecnologias. De fato, muitas aplicaes esto a surgir ou sendo
desenvolvidas no mercado. Um dos exemplos mais populares, com a qual, a grande
maioria j teve contato, a tecnologia de chamada de voz, presente em diversos
dos novos modelos de celulares comercializados em todo o pas. Mas o principal
anseio dos usurios, quando se fala em reconhecimento de voz, ainda a
possibilidade de se emitir comandos para seus computadores, ordenando-lhe
tarefas, executando programas, ou simplesmente transcrevendo narrativas e textos
para processadores de texto, tudo atravs da fala.
V-se que o reconhecimento de voz como interface de atendimento exibe
uma srie de vantagens sobre as demais tecnologias j existentes no mercado.
Tambm analisa-se como determinadas tecnologias implementadas em servios de
atendimento podem ser de grande valia para a utilizao de portadores de
deficincia visual, como os populares servios de auto-atendimento. Pessoas que
possuem deficincias que os impedem de digitar tambm j adotaram sistemas de
reconhecimento de voz. Se um usurio no pode usar suas mos, ou nos casos em
que no possvel ou conveniente usar um teclado Braille, esses sistemas permitem
que eles se expressem ditando textos e que tenham controle sobre vrias das
funes do computador.
Em se tratando de segurana da informao, a Inteligncia Artificial, atravs
1 rea da computao que se dedica a estudar o comportamento do crebro
humano. (SOUZA, 2001, p. 06)
11
do reconhecimento da fala, mais uma vez, sai na frente. Nota-se que tal vantagem
se deve, entre outros, ao fato da fala ser inerente ao ser humano, simples e natural,
assim como a utilizao do reconhecimento de voz. Alm disso, as informaes
que so obtidas por mquinas que se utilizam de determinada tecnologia, so
introduzidas em seu sistema de forma direta, eliminando qualquer tipo de interface
pessoal, eliminando conseqentemente o risco de se introduzir erroneamente os
dados e informaes obtidos.
12
2 INTELIGNCIA ARTIFICIAL
Russel e Norvig (2004) definem que a Inteligncia Artificial (IA) umas das
cincias existentes mais recentes que, atualmente, abrange uma grande variedade
de subcampos que vo desde atividades de uso geral, como aprendizado e
percepo, chegando a tarefas bem mais especficas como demonstrao de
teoremas matemticos, diagnsticos de doenas e jogos de xadrez.
Os primeiros anos da IA, apesar de forma limitada, foram repletos de
sucesso, levando-se em considerao os primitivos computadores da poca, bem
como suas ferramentas de programao e o fato de que apenas alguns anos antes
os computadores eram vistos como meros objetos que efetuavam operaes
aritmticas, nada mais, causando espanto a idia de que um computador pudesse
realizar qualquer atividade que fosse remotamente inteligente.
Quadro 1 - Nvel de preciso dos tipos de reconhecimentos biomtricos
Tipos de biometria
Reconhecimento de voz
Reconhecimento de mo
Reconhecimento da ris
Reconhecimento da digital
Nvel de preciso
Alto
Mdia
Alto
Alto
13
dos
primeiros
softwares
continham
nenhum,
ou
quase
nenhum
14
documentos cientficos russos depois do lanamento do Sputnik em 1957. Pensavase inicialmente que somente as transformaes sintticas simples relacionadas s
gramticas russas e inglesas, juntamente com a utilizao de um dicionrio
eletrnico para a substituio de palavras seriam suficientes para manter os
significados exatos das oraes. Entretanto, para estabelecer o contedo das
sentenas e solucionar possveis problemas de ambigidades, a traduo acaba por
exigir um conhecimento geral sobre o assunto em questo. Um relatrio criado em
1966 por um conselho consultivo, descobriu que no existe nenhum sistema de
traduo automtica para texto cientfico em geral, e no existe nenhuma
perspectiva imediata nesse sentido.
Outra dificuldade encontrada foi a impossibilidade de sanar muitos dos
problemas que a IA estaria buscando resolver. A grande maioria dos primeiros
programas de inteligncia artificial resolvia os problemas apenas se utilizando do
experimento entre diferentes combinaes de passos at encontrar a possvel
soluo. Inicialmente tal estratgia funcionou, pois havia um nmero muito pequeno
de possveis aes e as seqncias de solues mantinham-se muito curtas. Antes
de se desenvolver a teoria da complexidade computacional, existia uma crena geral
que para a resoluo de problemas maiores era apenas uma questo de haver
hardwares com maior capacidade de memria e mais rpidos. Mas claro que tal
definio foi logo ofuscada quando os pesquisadores perceberam que para provar
determinados teoremas, era necessrio se envolver em mais que algumas dezenas
de fatos. Sabe-se que nos dias atuais, muitas ferramentas para a traduo
automtica de textos continuam incompletas e imperfeitas, todavia, so amplamente
utilizadas na internet e at mesmo para ajuda na traduo de documentos tcnicos,
comercias e governamentais.
15
3 RECONHECIMENTO DE VOZ
Com o avano da tecnologia atual e a descoberta de novos padres houve a
necessidade de se adequar a estes, uma vez que a obteno de dados e
informaes est cada vez mais acessvel ao usurio final. As novas tecnologias
fazem parte do atual cotidiano e em conseqncia disto, houve uma adequao
tanto por parte dos meios de comunicao quanto dos usurios destas. Com isto, a
busca de aperfeioamento na utilizao destas determinadas tecnologias assumiu
relevncia neste contexto.
Tabela 1 - ndice de acertos no reconhecimento de voz - Unidades da Federao
Estados do Brasil
Bahia
Minas Gerais
Esprito Santo
Rondnia
Mato Grosso
Nmero de pessoas
230
267
197
203
200
Percentual de acertos
89%
87%
91%
92%
90%
16
17
18
19
HMMs
tm
demonstrado
melhores
resultados
em
aplicaes
20
Fonte: http://www.clubedohardware.com.br
21
5 APLICAES
Na atualidade, inmeras so as aplicaes que envolvem o reconhecimento
e processamento da fala, e a cada dia surgem novas reas que se beneficiam de tal
tcnica. Para Guilhoto e Souza (2002), um bom exemplo a rea da sade, onde se
obtem sucesso com a reduo das despesas e aumento significativo da eficincia. O
reconhecimento de voz aqui pode ajudar equipes mdicas no que se refere a
eliminar a necessidade de transcrever manualmente seus relatrios, ao se utilizar de
um pequeno aparelho porttil que funciona como um gravador, enquanto se procede
ao diagnstico de seus pacientes.
Reconhecimento de voz;
Reconhecimento de ris;
Reconhecimento de mo;
Reconhecimento de face;
22
chamada por carto e a grande maioria dos servios pagos das prestadoras. Ainda
dentro da rea de telecomunicao, Valiati (2000) descreve ainda outros exemplos:
Dentre os vrios servios fornecidos destaca-se a utilizao de
pginas amarelas, onde o usurio requisita o nome de uma
empresa,o produto ou o nome promocional e o sistema se encarrega
de fornecer o nmero, como tambm j possibilita a realizao da
ligao direta com a empresa. Outro servio permite que sejam
realizadas ligaes de qualquer telefone, bastando ao usurio
informar um nmero de identificao, previamente, fornecido pela
operadora, possibilitando que tenha acesso s suas ligaes que
esto em sua secretria eletrnica, como tambm realize ligaes de
sua prpria linha telefnica, no sendo necessrio pra isto saber todo
o nmero da pessoa com quem deseja entrar em contato, mas
somente fornecer um apelido previamente cadastrado. (VALIATI,
2000, p. 78)
23
24
Fonte: http://www.ibm.com.br/viavoice
25
arquivos atravs da voz. Tambm permite que se faa uso do texto ditado em
diversos programas como editores de texto, editores de e-mail e browsers,
proporcionando assim a possibilidade de se acessar a internet ou editar e envias emails com mais comodidade e facilidade. Sua instalao relativamente simples e
no requer conhecimento avanado na rea. Depois de instalado, o software
necessita realizar alguns ajustes de hardware, porm, ao invs de menus de
configurao extensos e complicados, o assistente o guia por algumas etapas de
fcil compreenso, que auxiliaro o usurio a configurar o microfone, definir
componentes de udio, ajustar o fone, testar a reproduo de udio e coletar
informaes dentre outras configuraes.
26
7 CONCLUSO
O processamento de voz est presente em diversas reas tecnolgicas que
vo desde a telecomunicao ao acesso a ambientes restritos por meio do
reconhecimento biomtrico do locutor atravs da fala. Sendo assim, hoje j existe a
necessidade de uma adequao por parte dos usurios e dos meios de
comunicao para a utilizao das mesmas. O que antes era somente tema de
filmes de fico cientfica, hoje real, e passou a ser um dos tpicos mais discutidos
em meio s novas tecnologias. Muitos softwares esto a surgir, ou sendo
desenvolvidos no mercado, a se aprimorar e a se adaptar atual realidade e
necessidade do consumidor final.
Este trabalho objetivou esclarecer as definies do processamento de voz,
bem como as reas de atuao da tecnologia, padres utilizados, benefcios,
vantagens, dificuldades e restries enfrentadas e sua evoluo e aprimoramento.
Tambm foram demonstrados diversos exemplos onde o processamento de voz
obteve ganhos significativos, tanto no mbito pessoal, quanto profissional. Uma vez
que o ser humano fala, em mdia, sete vezes mais rpido do que escreve, a
converso da fala para texto traz enormes benefcios em rapidez e eficincia,
fazendo com que o reconhecimento de voz permita ao usurio ditar textos que so
transcritos para softwares processadores de texto e posteriormente podendo utilizarse dos dados transcritos para outras finalidades como, por exemplo, a impresso de
relatrios ou o envio de e-mails.
Foi demonstrado tambm como o reconhecimento da fala torna possvel o
acesso a computadores por indivduos portadores de deficincias fsicas ou com
dificuldades para digitar, que antes os impossibilitavam de serem inseridos no
mercado de trabalho. Como a voz uma caracterstica biomtrica do ser humano,
nica e inerente a ele, o reconhecimento de locutor torna possvel o acesso s
informaes ou ambientes restritos por meio do reconhecimento da fala do usurio,
sendo um grande aliado da segurana da informao.
Viu-se que as tecnologias que trabalham com o processamento da fala tm
inmeras aplicaes2, fazendo com que haja um aumento substancial na produo
de aparelhos e equipamentos compatveis com essa tecnologia, como os aparelhos
2 Teste de funcionalidade das notas
27
28
REFERNCIAS
A SOCIEDADE Brasileira. O Rio Branco, Rio Branco, 31 mar. 2008. Disponvel em:
<http://www.uninorteac.com.br>. Acesso em: 31 mar. 2011.
ALVARENGA, Pedro; et. al. Operaes em ponto flutuante. In: CONGRESSO
NACIONAL DE PROGRESSO DA CINCIA. 2010, Jaru. Resumos eletrnicos...
Jaru: Unicentro, 2011. 1 CD-ROM.
AVALON SISTEMAS. Teste de Software. SQL Magazine. So Paulo; n. 4, p. 20-32,
mar. 2010.
AZEVEDO, Lara Santos; LIRA, Gustavo. Os conhecimentos da Internet. SQL
Magazine. Rio de Janeiro; n. 4, mar. 2009. Disponvel em:
<http://www.uninorteac.com.br>. Acesso em: 30 mar. 2011.
BARRETO, Sebastio Lima; et. al. Aplicaes Web com Php. Rio Branco: tica,
1990.
BOTELHO, Eduardo. Teste de aplicao. In: SENA, Joo. Teste de Software. 3 ed.
Rio de Janeiro: Erica, 2010. p. 30-40.
BRUNORO, Dharis. Sistema de Controle de Combustvel: Um estudo de caso na
Polcia Civil do Estado do Acre. 2009. 134 f. Monografia (Especializao em
Sistemas de Informao)-Unio Educacional do Norte, Ariquemes, 2009.
DESENVOLVIMENTO WEB com ASPNET. A Gazeta, Rio Branco, p. 22, 30 mar.
2011.
EXRCITO BRASILEIRO. Tcnicas de Batalha. In: LIMA, Eduardo Costa. Guerras
nos tempos modernos. So Paulo: tica, 2010. p. 30-50.
GONALVES, Silvana Andrade. Webcast: Educao na Internet. 2010. 230 f. Tese
(Doutorado)-Programa de Ps-Graduao em Cincia da Computao-UFAC, Rio
Branco, 2010. 1 CD-ROM.
LIMA, Carlos Andr; LIMA, Jorge Andr; FILHO, Maurcio. Pilotagem Noturna. 4
Rodas. So Paulo; n. 30, p. 34-36, jan. 2010.
LIMA, Eduardo Costa; RANGEL, Pedro Paulo. Comisso Prpria de Avaliao. In:
SOUZA, Edison da Silva. Reconhecimentos de Cursos. 3 ed. Rio de Janeiro:
rica, 2010. p. 40-50.
LIMA, Rosa Teixeira. Fisiologia do exerccio. 2009. 100 f. Trabalho de concluso
de curso (Graduao em Educao Fsica)-Universidade Federal do Acre,
Ariquemes, 2009.
NASCIMENTO, Joo Paulo. Teste de JUnit. Rio Branco: tica, 2011.
O DESEMPREGO na cidade grande. A Gazeta, Rio Branco, p. 7, 31 mar. 2000.
29
30