Você está na página 1de 21

RECONHECIMENTO DE FALA E PROCESSAMENTO DA LINGUAGEM NATURAL

Ademar Evandro Rosa ademar@cefetsc.rct-sc.br Jorge Busatto Casagrande jorge@pulso.acate.com.br UNED/SJ Praia Comprida 88103-310 So Jos/SC Fone (048)247-3646 Consuelo Sielski Santos consuelo@cefetsc.rct-sc.br Maria Clara K. Schneider mclara@cefetsc.rct-sc.br Maurcio Gariba Jnior gariba@cefetsc.rct-sc.br ETF-SC Av. Mauro Ramos, 950 88020-300 Florianpolis/SC Fone (048)224-1500

RESUMO
O presente artigo trata do reconhecimento da voz, visando identificar os nveis lingsticos de processamento da linguagem natural, de modo a entender o processo da comunicao humana com vistas interao homem e computador. Analisa os diferentes componentes do processo de compreenso da linguagem natural, percebendo de que maneira esses componentes agem no entendimento da voz pela mquina. Sero abordadas as fases do reconhecimento da fala, interfaces e metas, suas modelagens e classificaes, referenciando a teoria com aplicaes prticas bem como alguns softwares de reconhecimento da voz pela mquina. Com os avanos cientficos e tecnolgicos to evidentes, torna-se emergente o desenvolvimento de uma interface homem e computador, voltada para o reconhecimento da fala agregando valores at ento descartados pelo impedimento tecnolgico. Assim, a popularizao deste tema nos permite conhecer e desenvolver novas frentes de pesquisa.

PRLOGO
Temos conscincia de que num espao de tempo relativamente pequeno, as transformaes provocadas pelas novas tecnologias atingiram as vrias dimenses do desenvolvimento humano, quais sejam: culturais, econmicas, educacionais e polticas. Essas transformaes iniciaram no sc. XVIII com o advento de Revoluo Industrial, quando surgiram as primeiras mquinas. A Revoluo Industrial provocou alteraes significativas no setor produtivo, pela mudana de paradigma em relao ao papel do homem na sociedade.

De modo semelhante, nosso sculo est sendo marcado por transformaes tecnolgicas que esto mudando o enfoque das relaes pessoais, comerciais, polticas, etc. Novas tecnologias foram desenvolvidas aps a 1a e 2a guerras mundiais, em conseqncia do crescimento industrial, encaminhando grandes investimentos para a rea tecnolgica com vistas a melhorar o processo de produo. O crescimento inicial da informtica foi provocado pela guerra fria, com a necessidade de armazenamento blico e com a absurda corrida espacial em que americanos e russos disputavam uma competio pelos avanos tecnolgicos. Esses avanos ocasionaram uma mudana nas questes ligadas educao, no tocante ao currculo. Convm salientar que desenvolvimento ps industrial. a informtica na educao conseqncia do

Enfoca Almeida (1987:27) A origem do pensamento e dos aparelhos computacionais est ligada visceralmente ao desenvolvimento de um modo de produo voltado para o rendimento industrial e blico de modelo concentrador. De modo algum, pode-se imaginar que a origem do computador tenha vinculao com as necessidades de camadas carentes ou com a soluo dos problemas de distribuio de renda. No entanto, crer na impossibilidade de que esta conquista tecnolgica possa ir recebendo um sinal que lhe imprimia sentido oposto crer numa histria mecnica e fatalista. Como resultado do processo de industrializao e com o progresso tecnolgico, a informtica tomou conta de nossas vidas num caminho sem retorno. Desse modo, profundas alteraes tem se percebido na busca da compreenso do raciocnio, gerenciando novos comportamentos, indo ao encontro de novos entendimentos e percepes acerca do desenvolvimento de pesquisas em Inteligncia Artificial. Uma das reas com que a Inteligncia Artificial tem se preocupado o processamento da Linguagem Natural, que consiste em compreender como se efetua a comunicao entre as pessoas e criar sistemas computacionais a partir dessas combinaes com fatos lingsticos. O grande desafio vislumbrado para o futuro que, alm da linguagem escrita, o computador seja capaz de reconhecer a linguagem falada. As interfaces que esto sendo disseminadas e utilizadas esto voltadas para a Linguagem Natural, permitindo o dilogo falado entre o homem e a mquina. O presente trabalho visa analisar de que maneira o processamento da linguagem natural pode servir de parmetros para a compreenso da fala pelo computador e suas possveis conseqncias num mundo em grandes mudanas.

Todas essas transformaes decorrentes da evoluo tecnolgica remete-nos ao reencantamento necessrio para nos tornarmos pessoas realizadas e plenas, usando-a em benefcio de uma mudana de paradigmas em prol do desenvolvimento cultural e social.

COMPONENTES DA LINGUAGEM
I. Nveis Lingsticos da Linguagem Estudiosos ligados s reas da psicologia, lingstica e psico-lingstica, mesmo defendendo teses e idias no convergentes, concordam que o ser humano necessita de uma lngua para pensar, raciocinar e se comunicar. Esse contexto envolve toda uma estrutura sinttica e semntica de reconhecimento de uma lngua. Assim duas partes so relevantes para proceder a linguagem natural: a compreenso e a produo. A compreenso abrange reconhecimento com preciso da linguagem natural, a transformao de uma representao em outra, a qual se efetua atravs de uma ao apropriada. A noo de compreenso no absoluta entre as pessoas, essa ocorre atravs de todos os sentidos. Nos computadores ela vem sendo empregada mais intensamente em linguagem escrita, mas tambm relacionada em imagens e fala. Assim, a compreenso pode ser entendida como recognio e processamento de palavras, no precisando de sua reconstruo. No existe uma definio ampla que aborde todo o entendimento do que significa uma frase e o que compreenso da linguagem. Quanto produo, destaca-se uma estrutura de dicionrio mais densa e ordenada, sendo necessria para o acompanhamento no processo de anlise e gerao de linguagem natural.

II. Aspectos de cada parte da linguagem Anlise Lxico-morfolgica Numa sentena, as palavras ou expresses elementares da lngua so identificadas, obtendo diferentes significados, com as diversas informaes que se encontram disponibilizadas atravs do dicionrio. No entanto, deparamo-nos com palavras que apresentam diferentes significados e, muitas vezes, torna-se difcil escolher o mais apropriado quando a mesma encontra-se fora do contexto de uma frase. Por exemplo, podemos citar: manga, banco, casa, entre outros. Se

formos abordar a compreenso da lngua como um mapeamento de palavras, iremos verificar que palavras ambgas so mais complexas descontextualizadas. Resolver os casos de ambigidade morfolgica um problema difcil, precisam estar interrelacionados com os demais nveis, como por exemplo, o sinttico. Uma tcnica bem organizada para representar conjuntos de palavras a utilizao de autmatos. Na construo de compiladores esses autmatos podem ser usados na modelagem e implementao de analisadores lxicos. Pesquisas acerca de analisadores lxicos, com base em autmatos propicia vrias maneiras de executar a mesma tarefa. Existem vrias formas usadas para desenvolver processadores de linguagem natural. Como essa complexa, na sua forma e regras, difcil a implementao de um autmato que tenha xito nessa atividade.

Anlise Sinttica A anlise sinttica um dos componentes de uma linguagem. o modo como a lngua est organizada, no uma novidade, nada mais do que a pesquisa gramatical. A gramtica de qualquer lngua no deve estar atrelada a regras rgidas, uma vez que nenhum conjunto simples de regras pode discorrer todas as maneiras em que se d a comunicao entre as palavras. A sintaxe trata da relao lgica das palavras numa sentena. Analisar sintaticamente uma sentena significa decomp-la em seus elementos constituintes (sujeito, predicado, objeto, adjunto e outros), verificando assim a relao lgica existente entre esses elementos. O analisador sinttico usa gramaticalmente a linguagem a ser analisada em conjunto com uma seqncia de informaes, advindas da anlise lxico-morfolgica, no que se refere s palavras, procurando construir rvores de derivao para cada frase, enfocando a coerncia gramatical ou no desta frase. relevante uma sintaxe delinear uma maneira de narrar os modos de conectar as palavras. A preocupao fornecer regras sobre a ordem em que as palavras devem estar dispostas na sentena de modo que essa tenha um sentido, sendo importante apropri-las a fim de que direcionem a maneira de construir as frases. Sabe-se das dificuldades encontradas para elaborar um grupo de regras que seja completo para descrever a lngua. Mesmo com essas dificuldades, existem algumas formas de encaminhar esse processo. Em geral, as sentenas se estruturam a partir de um sujeito e o predicado, por essa razo dois termos so considerados essenciais:

Ex1: Mrio sujeito

correu predicado

Entretanto, podemos ter o sujeito e o predicado constitudos de mais do que uma palavra. Ex2: O grande Cames escreveu Os Lusadas Sujeito predicado

O que preciso, garantir regras que determinem a maneira de construir sentena, garantindo que se uma sentena for concebida com seus elementos na ordem correta, ela estar certa, como mostram os exemplos 1 e 2. Uma forma de verificar as estruturas da sentena e as regras por ela seguidas, o uso do diagrama em rvore.

Sentena

Sujeito

Predicado

artigo

adjetivo

substantivo

Verbo

belo

homem

fugiu

Anlise Semntica
5

A anlise semntica consiste em trabalhar com os significados das frases tais quais so ordenados pelos significados de suas partes, incorporando o lxico e o gramatical. Um analisador semntico deve obedecer aos parmetros de tal forma que a frase tenha sentido, pois nem tudo o que obedece s mais regras simples da gramtica tem significado. Como exemplo podemos citar: A rua atropela curiosamente. uma sentena formada corretamente, sendo composta por artigo, substantivo, verbo e advrbio, no entanto no tem sentido. Rua um substantivo, mas no pode vir acompanhada do verbo atropelar, pois ela no atropela. Atropelar um verbo, ao qual no se pode aplicar o advrbio curiosamente. Resumindo, uma sentena correta do ponto de vista da sintaxe, mas, analisando semanticamente, vemos que no tem sentido. Para a semntica existir, necessrio que anteriormente tenha sido feita a anlise sinttica. Podemos concluir ento, que o analisador semntico necessita do analisador sinttico.

Anlise Pragmtica A anlise pragmtica refere-se s inferncias que se devem fazer s anlises lxicas, sinttica e semntica, principalmente no que consiste o sentido integrado de um texto, tendo um valor prtico e objetivo. Refora-se que a compreenso de um texto no ocorre de forma parcelada. Conforme avanamos, constri-se a interpretao do todo, interligando lxico, gramatical e pragmtico. Devem-se enfocar duas partes relevantes para melhorar a compreenso atravs do conhecimento: destacar a parte fundamental da base de conhecimento disponvel; fazer uso desse conhecimento para encontrar solues para as ambigidades e fazer ligaes com as coisas que foram descritas ou pronunciadas. Esses aspectos so fundamentais para criar um analisador pragmtico, devendo-se tambm levar em considerao a quantidade de conhecimento disponvel, as propriedades lingsticas de um discurso coerente, bem como o uso da base de conhecimento para facilitar a compreenso. Todas as colocaes aqui apresentadas so importantes no sentido de trabalhar em um programa de reconhecimento de voz, para o qual necessrio ter o conhecimento do
6

processamento da linguagem natural, seus componentes, nveis lingsticos e do que diz respeito anlise lxica, gramatical e pragmtica, bem como seus analisadores.

RECONHECIMENTO DE VOZ
H alguns anos atrs, conversar com um computador era considerado pura fico, muito distante de ser concretizado. Mas, o desejo do homem em comandar processos, interagir com a mquina de forma mais amigvel possvel, evitando o uso exagerado de comandos, via um teclado ou mouse, tornou-se algo necessrio como uma evoluo natural da convivncia tecnologia x homem. O intuito no somente adicionar novas interfaces de entrada de dados, mas tambm criar novas opes de sadas de dados, como substituir o terminal de vdeo na apresentao dos resultados, por respostas de voz sintetizada ou aes diretas no controle de algum processo. A simples edio de um texto pode ser ditada para o computador como se este fosse um redator obediente reconhecendo todos as tarefas faladas pelo locutor. Para que essa idia se concretize so necessrias muitas horas de trabalho, principalmente em um software que reconhea a voz e a ao da fala sendo executadas por um processamento natural da linguagem, como se o computador inteligentemente tomasse a ao correta. claro que um processo como esse precisa de muitas variveis a serem consideradas. Uma delas que se pode iniciar com a digitalizao da voz para que esta possa ser inserida no mundo digital dentro do computador, esta a parte mais fcil... a partir da, a prxima etapa reconhecer a voz. Isso deve ser efetuado com bases tcnicas de inteligncia artificial, especialmente em redes neurais artificiais. Existe tambm um outro aspecto que devemos distinguir para essa primeira etapa neste processo: a diferena entre reconhecer e compreender a fala. Reconhecer a fala consiste em reconhecer fonemas, slabas e palavras para formar a mensagem original, como foi pronunciada. Como exemplo disto tm-se os editores de texto atravs da fala.. J, compreender a fala, consiste em entender consensualmente o significado da mensagem, visando fazer com que o sistema execute algo. Para tal, so aceitos eventuais erros. Um exemplo disto seria como, num determinado comando por voz fosse ordenado: por favor inicie ...rueh... exell. O comando reconhecido como inicie aplicativo exell, ignorando algumas palavras (por favor) e subentendendo outras (aplicativo), pois o entendimento se d por certas palavras-chave (inicie, exell). Esta distino importante pois notar a habilidade de um sistema responder inteligentemente fala, um critrio muito significativo para avaliao dos sistemas de fala.

Histrico

Os primeiros trabalhos realizados em reconhecimento de voz datam do sculo XVII, foi preciso esperar o meio deste sculo para que aparecessem as primeiras experincias em reconhecimento. Em uma cronologia podemos resumir os seguintes trabalhos: 1930 - O americano R. J. Wensley construiu o Televox, primeiro autmato capaz de receber ordens por telefone e executar alguns movimentos correspondentes. 1952 - Daves apresenta um sistema inteiramente de cabos capaz de reconhecer os dez nmeros pronunciados por um locutor. Sistema este aperfeioado em 1958 para uma verso que aceita diversos locutores; 1956 - Olson e Belar propuseram um sistema ambiciosamente chamado de mquina de escrever fontica, capaz tambm de reconhecer uma dezena de palavras. 1958 - Denes, define um sistema em duas etapas no qual a primeira realiza um reconhecimento puramente acstico que, na segunda, ser refinado pela utilizao de conhecimentos lingsticos. 1960 - A apario dos mtodos numricos e a utilizao do computador do uma nova dimenso a estas pesquisas. 1966 - Sistemas em laboratrio conseguem identificar corretamente 30 a 50 palavras ditas por diferentes pessoas. Essas experincias eram baseadas na comparao das formas das palavras. 1968 - Alter e Reddy verificam a utilidade das informaes lingsticas no reconhecimento da fala. Vicens em 1969 e Tubach em 1970 concretizam trabalhos neste enfoque. 1971 a 1976 - Projeto americano financiado pela ARPA (Advanced Research Projects Agency) - Tratamento da fala contnua fortemente influenciado pela inteligncia artificial. Propunha tambm aceitar um grande nmero de locutores cooperativos, compreender um vocabulrio de mil palavras, utilizar uma sintaxe artificial no escopo de uma tarefa precisa, respondendo em tempo prximo ao real. 1975 surge o DRAGON e em 1976 o HARPY que trabalhavam com um discurso contnuo de um nico usurio com um vocabulrio de at 1000 palavras, obtendo acertos entre 84 e 97%. 1985 - TANGORA da IBM uma verso que sacrifica a fala contnua para um acerto de 97% e vocabulrio de 20.000 palavras. 1987 - Laboratrios Bell reconhecem, com uma preciso de 97%, os dgitos de um telefone. 1988 - SPHINX preciso de 96% em fala contnua independente do locutor e em tempo real com um vocabulrio de 1000 palavras. final da dcada de 80 - Teuvo Kohonen, da Universidade de Tecnilogia de Helsinki, desenvolve uma mquina de escrever por voz utilizando uma combinao de DSP com sistemas baseados em regras e redes neuronais. Obteve taxas de 92 a 97% utilizando casos extremo de conversaes fala-texto, contnua, com vrios locutores e grande vocabulrio com de segundo de resposta. Permitiu a visualizao de um futuro promissor. 1994 - Muitos artigos proclamam a chegada do reconhecimento de voz no mercado. Um mercado promissor que deve atingir US$ 1 bilho at 1999. Desenvolvimento dos Sistemas como o Personal Ditaction System da IBM e Dragon Dictate da Dragon Systems.
8

MODELAMENTO DE UM SISTEMA DE RECONHECIMENTO DA FALA


Antes de se conhecer um sistema computadorizado de reconhecimento de fala, deve-se verificar como isso ocorre naturalmente. Para que haja comunicao necessrio que se possuam dois personagens: o locutor e seu interlocutor, ou ainda, o emissor e o receptor da mensagem. O emissor produzir uma mensagem fazendo com que determinada idia que possua seja transformada em sons, atravs do comando de nervos motores do aparelho fonador, ou seja, o emissor tem uma idia e a codifica em smbolos que so transmitidos ao receptor. O receptor decodifica estes smbolos em um cdigo interno (idia), ou seja, o receptor perceber a mensagem, atravs de nervos sensoriais do seu aparelho auditivo, procurando transformar os sons recebidos na idia original. A comunicao pode ser considerada boa, caso haja um isomorfismo entre os estados internos de idia tanto do emissor quanto do receptor. Um reconhecedor da fala ser sempre o receptor da mensagem. Uma configurao tpica de um reconhecedor pode ser constitudo por um microfone (fazendo as funes de nervos sensoriais do aparelho auditivo) conectado a um sistema ou dispositivo (hardware+software) ligado ao computador. Esse dispositivo consiste basicamente em executar a tarefa ao qual se destina nas seguintes fases: 1. transformar atravs de hardware, as ondas sonoras (sinal analgico) em nmeros (sinal digital) para algum processamento pelo software; 2. atravs de um software feita a captao da massa de dados numricos vindos do hardware, reconhecendo alguma palavra. No desenvolvimento e aprimoramento desse software que se concentra o esforo de milhares de pesquisadores em todo o mundo. Esse o corao do dispositivo; 3. anlise do sinal e extrao de parmetros: a quantidade de bits por segundo gira na faixa dos 50.000 nos sistemas com boa qualidade de recepo. Esta uma massa muito grande de dados para ser tratada. Logo, devem ser aplicados meios de reduo ou extrao dessa informao, sem perder as caractersticas do sinal representativo da mensagem. Para tal, so utilizadas vrias tcnicas, entre elas: transformada discreta de Fourier, banco de filtros, densidade de passagem por zero, etc; 4. determinao do ponto final da fala: determinar quando os dados recebidos no significam mais a fala propriamente dita, mas apenas rudo do ambiente, ou mesmo o silncio. 5. normalizao em freqncia e tempo: a necessidade de normalizao em freqncia origina-se do fato que cada usuario-locutor possui timbre e entonao diferentes, fazendo com que as freqncias para um mesmo fonema sejam diferentes. A normalizao em tempo advm das diferentes velocidades com que se pode ser dita uma palavra.

6. reconhecimento: aps terem sido efetuados os passos anteriores (na ordem apresentada ou no), algum modo de identificao deve ser aplicado. Vrias tcnicas so utilizadas como: comparaes com dicionrios, regras de produo, programao dinmica, modelo escondido de Markov (hidden Markov model a mais recente das redes neuronais) Em sntese, um diagrama de blocos bsico de um reconhecedor de voz pode ser assim estruturado:

BANCO DE DADOS INTELIGENTE

Modelos de preciso

Modelos de Lxica

Modelos de Linguagem

REPRESENTAO

CLASSIFICAO

BUSCA

SINAL DE FALA

PALAVRAS RECONHECIDAS

REPRESENTAO: neste bloco so extradas as caractersticas do sinal da fala e colocadas em um padro de sinal computacional. Esse bloco um determinante na qualidade do sistema. Aqui que o sinal de fala, passa para a linguagem do computador, e suas caractersticas devem portar informaes que identifiquem o locutor como por exemplo a medida de energia, intensidade, coeficientes de predio linear, coeficientes cepstrais e outros. Os softwares utilizados nesse processo so geralmente a Transformada Rpida de Fourier (FFT) e Codificao Preditiva Linear (LPC). Essas tcnicas so peas chave para identificar o locutor e suas caractersticas. CLASSIFICAO: nesta etapa se realiza o reconhecimento do locutor dentre vrios a serem identificados. Aqui parmetros como taxa da fala, tamanho do vocabulrio e estado emocional/fsco do locutor so representativos. Cadeias de Markov (HMM) e distncia Euclidiana (Calcula-se a distncia das caractersticas da fala e do banco de amostras) so mtodos utilizados para modelagem. Devido a manipulao neste estgio de grande massa de dados, utilizam-se os conceitos de Redes Neurais (RNA) porque baseiam-se no comportamento biolgico do Crebro Humano, onde so processadas as informaes do corpo humano, em especial do aparelho auditivo neste caso. BANCO DE DADOS INTELIGENTE: alm do vocabulrio, uma grande dose de inteligncia artificial deve ser empregada aqui para que se habilite todo o sistema a fazer decises inteligentes e que para fazer com que ele aprenda com a experincia. O vocabulrio projetado de modo a conter as palavras de um grupo de usurios especficos

10

como advogados, radiologistas, etc... O tipo de pronncia dos fonemas para cada locutor tambm deve ser previsto e aprendido.

Metas do Reconhecimento da Fala Para o reconhecimento da voz, observa-se que o que se dispe hoje fator limitante. Essas limitaes podem assim ser elencadas: a) qualidade do microfone - o espectro do sinal convertido deste componente pode trazer erros na cadeia do processo de reconhecimento; b) modo da fala: isolada ou contnua. Isto est relacionado capacidade de processamento e da qualidade do software na separao das palavras reconhecidas; c) estilo da fala: leitura ou fala espontnea. Uma leitura certamente gera maiores probabilidades de que se tenha uma eficincia melhor no reconhecimento da fala. J a espontnea representa uma dificuldade maior principalmente com relao sua velocidade e aos vcios de linguagem que apresenta; d) independncia ou no do usurio que fala: treinar o computador de modo que este reconhea um ou mais usurios, diferenciando o sexo ou idade deste. Ainda pode-se considerar o estado fsico do usurio como stress, nervosismo, ansiedade, etc.; e) tamanho do vocabulrio: a quantidade de palavras tambm relativa capacidade de processamento e armazenamento do computador. Pode-se aplicar conceitos de inteligncia artificial para que o computador adicione ao seu vocabulrio, palavras que no tenham sido reconhecidas anteriormente; f) modelo de linguagem no sentido de quanta sofisticao deve existir nas regras de gramtica. Isso varia para cada lngua. Em especial na lngua Portuguesa isso mais complicado; g) perplexidade, no sentido de quantos significados poder existir para uma palavra em particular. Por exemplo a palavra "banco" , pode significar um lugar para sentar ou uma instituio bancria. Resta ao computador analisar o sentido das frases para determinar o seu sentido. Palavras cognatas tambm so constantemente encaradas como um erro no reconhecimento; h) rudo no ambiente: isso est intimamente ligado ao processamento do sinal (DSP), no qual deveria distinguir a voz do usurio (sinal) de conversas ou rudos no ambiente (rudo=lixo) Estas barreiras so as que devem estar na lista dos pesquisadores de modo que, quando vencidas, iro trazer o real significado para inmeras aplicaes futuras. Atualmente o que temos so tecnologias mais voltadas para transcrever do que para reconhecer fala. Isto no ajuda muito j que aps a transcrio ainda temos que interagir para corrigir erros manualmente. O que se espera mesmo, que o computador se comporte como um humano nesta tarefa. Um exemplo disto a solicitao de troca de canal de um televisor que se encontra na sala, por uma dona de casa que est na cozinha, longe do alcance visual e sua filha escuta, prximo sala, o ltimo CD de seu grupo favorito. Se uma pessoa, mesmo com um pequeno grau de inteligncia, estivesse na sala, distinguiria a ordem e executaria a tarefa, apesar de no estar vendo a pessoa que est ordenando e ouvindo outros sons, entenderia naturalmente o pedido. Outras situaes como por exemplo
11

estar executando ordens atravs de um telefone, seria muito interessante poder ouvir do computador, ao atender uma chamada telefnica um sinal que o mesmo est entendendo a fala do locutor com um tpico arr ou como? o que o mesmo fala. Ainda temos outras caractersticas que vo alm do analtico reconhecimento da fala. Ns humanos, nem sempre usamos a fala como nico meio de nos comunicar. Gestos, olhares, expresses faciais ou movimento com corpo e mos tambm fazem parte da comunicao. Para o reconhecimento da fala, observar estas outras caractersticas, apesar de muitas vezes serem redundantes fala, intensifica sua compreenso. Mas essa abordagem j vai alm do processo aqui exposto. claro no deve ser esquecido nas pesquisas. Assim se traduzem as metas que devem ser buscadas. Os limites, certamente, esto concentrados no tratamento da informao binria entregue ao computador. A capacidade de armazenamento e processamento do hardware est dia a dia aumentando. A idia aperfeioar as aplicaes de inteligncia artificial aos softwares que trataro os dados.

INTERFACES HOMEM X COMPUTADOR


Interface um dispositivo que serve de limite comum a vrias entidades comunicantes, as quais se exprimem em uma linguagem especificada a cada uma. Para que a comunicao seja possvel, o dispositivo deve assegurar a conexo fsica entre as entidades e efetuar as operaes de traduo entre os formalismos existentes em cada linguagem. Uma vez que a comunicao esteja estabelecida, a interao pode ocorrer entre as entidades. Uma interface um local para encontro ou interao. Vrios profissionais de informtica estimam que a utilizao da linguagem natural o que melhor pode se oferecer ao usurio em termos de interface. A utilizao de linguagem natural no garante que a interface seja natural. Isto , fazer com que o usurio possa digitar seus comandos de acordo com seu vocabulrio coloquial facilita seu acesso ao computador, porm oferecer-lhe uma interface, atravs da qual ele consiga dar entrada a esta mesma linguagem por voz ou escrita manual, seria mais prximo ao modo comum dele se comunicar. O computador de prxima gerao ser integrado com interfaces tipo caneta, mouse, teclado e voz, mas nenhuma opo de entrada dominar. O usurio que selecionar seu dispositivo de entrada baseado na aplicao e nas suas preferncias pessoais. Outros modos de interao como telas sensveis ao toque, luvas (datagloves), sistemas de cmaras que captam gestos, sistemas que controlam o movimento dos olhos, so formas de interfaces de que podem ser providos os computadores. O objetivo tornar o computador com interfaces mais naturais possveis de modo a fazer com que o usurio nem perceba a utilizao de uma delas.

12

INTERFACES DE VOZ
A predominncia da fala como linguagem natural se d historicamente pelo fato de o homem utilizar a audio para comunicao, deixando os outros sentidos livres para exercerem outras atividades. A utilizao da fala como interface homem mquina facilita a utilizao de um sistema uma vez que eles tm se tornado cada vez mais complexos. Reconhecimento de fala um dos pontos chave do cliente de negcios diz Bob McBreen, gerente de produto para a Microsoft Windows Sound System. Ele acredita que o reconhecimento da fala ser parte integrante da computao no futuro. A imaginao o limite para definir aplicaes para este novo tipo de interface. Porm existem restries atualmente. A primeira restrio a capacidade de memria e de processamento. As tcnicas atualmente utilizadas no podem evoluir muito mais em razo das restries de capacidade, j que acarretar em solues como a diminuio do vocabulrio. Outra restrio tornar o ditado mais pausado, possibilitando o sistema compreender cada palavra, demandando menor tecnologia de processamento.

APLICAES
Os sistemas de reconhecimento de voz e o processamento de linguagem natural tm garantido, nesses ltimos anos, avanos no campo tecnolgico, principalmente com o desenvolvimento de interfaces que podero se comunicar atravs da voz. Na rea comercial, por exemplo, o ano de 1997 foi marcado pela incrementao de quase todos os produtos com facilidade de interao com a Internet e, em 1998, segundo vrios analistas da rea, o reconhecimento de voz estar embutido em alguns aplicativos. Para definirmos algumas aplicaes importante que se verifiquem as caractersticas dos usurios juntamente com o ambiente em que se ir atuar, como: hardware, software, tipo de aplicao, etc. Neste sentido, descreveremos a seguir exemplos de aplicaes prticas:

Em Telecomunicaes: Consrcio: INESC (Instituto de Engenharia e Computadores, Lisboa) IT (Instituto de Telecomunicaes Plo Coimbra) FEUP (Faculdade de Engenharia da Universidade do Porto)

13

O presente projeto rene estas trs instituies com o objetivo de investigar a rea de reconhecimento de voz para o portugus, com aplicaes no domnio das telecomunicaes. Este trabalho esta baseado em 7 tpicos principais: 1. 2. 3. 4. 5. 6. 7. pr-processamento espectral baseado em modelos de audio; reconhecimento de fonemas com independncia do locutor; reconhecimento de dgitos com deteco de palavras-chaves; segmentao automtica e etiquetagem de locues de dgitos; reconhecimento de vocabulrios de grande dimenso; reconhecimento do locutor; identificao automtica da lngua em fala contnua.

Pretende ainda, com este projeto, trabalhar na construo de sistemas de reconhecimento de voz robustos e confiveis, para serem utilizados em vrias aplicaes de telecomunicaes, bem como discutir mais amplamente as vrias tcnicas, sua difuso junto a operadoras e outras prestadoras de servios.

Na Educao: No mercado existem algumas aplicaes educativas que permitem avaliar a pronncia dos locutores, recorrendo as tcnicas de reconhecimento de voz. Isso feito comparando uma determinada palavra ou frase com padres preestabelecidos, sendo posteriormente avaliada e classificada por um sistema computacional. Por exemplo, os alunos podem gravar a sua prpria voz e passar em seguida a gravao para verificarem a pronncia e testar a sua compreenso. Dentro desse aspecto, o sistema computacional baseia-se no estudo de diversas variveis, das quais podemos relacionar: a) b) c) d) e) tipo de discurso (palavras isoladas, frases); nmero de locutores no discurso; tipo de locutores no discurso (homem, mulher, criana); tamanho do vocabulrio (pequeno, mdio, grande); sistema de transmisso (microfone, telefone).

Para Deficientes Fsicos: A introduo da informtica na educao relativamente recente. A criao de software e hardware especfico para deficientes fsicos supriu uma carncia existente, possibilitando que essa clientela superasse suas desvantagens fsicas. Para os deficientes visuais, os sistemas de reconhecimento de voz permitem evitar a utilizao do teclado e podem ser treinados para reconhecer centenas de comandos de um usurio em particular, mas geralmente falham, se necessitam receber comandos de mais
14

de um usurio. Quando so ajustados para reconhecer mltiplos usurios, o nmero de comandos que passa a entender com segurana uma frao daqueles disponveis para o reconhecimento de um usurio especfico. O reconhecimento de voz, como forma eficaz de comandos de entrada para computadores, ainda economicamente vivel, porm os trabalhos adicionais nesta rea de pesquisa certamente iro abrir maiores possibilidades de auxlio adaptativo para os deficientes visuais. A Escola Tcnica Federal de Santa Catarina (ETF-SC), em parceria com a Fundao Catarinense de Educao Especial (FCCE), desenvolveu atravs de seu Ncleo de Eletrnica uma cadeira de rodas microcontrolada comandada por voz. Utilizando o software Voice Manager que reconhece palavras em ingls para a sua utilizao em substituio ao mouse ou teclado. Os dados so transmitidos via comunicao serial, utilizando o protocolo de comunicao RS-232, a uma interface que permitir que o microcontrolador interprete-os corretamente, enviando cdigos de acionamento.

Sistema de Reconhecimento de Locutor utilizando Redes Neurais: Mestrando: Andr Gustavo Adami Orientador: Prof. Dr. Dante Augusto Couto Barone Instituio: Universidade Federal do Rio Grande do Sul O processo de reconhecimento de locutor necessita de uma certa preciso pois a aplicao do mesmo ser em atividades determinsticas que obrigam a certeza do resultado. Em vista disso, a busca de melhores algoritmos visam sanar este problema encontrado neste tipo de aplicao. Com o advento das Redes Neurais como classificadores ou at extratores de caractersticas de sinais, pode-se prever o aparecimento de uma soluo vivel e tima para tais aplicaes. Isso deve-se ao fato de que as Redes Neurais baseiam-se no biolgico do crebro humano, onde realizado o processamento das informaes do corpo humano, em especial, do aparelho auditivo. Um caminho que pode ser utilizado na soluo da complexidade do problema, baseado no aparelho auditivo humano, a diviso de tarefas atravs do uso de modelos especficos em cada tarefa, pelo fato de que o aparelho auditivo humano composto por vrios tipos de neurnios com diferentes graus de conexes. Por isso, pode-se pensar em uma soluo de separar os locutores em funo de um determinado critrio que diferencie os locutores para facilitar a classificao, como por exemplo, pelo sexo. Como o processamento de voz envolve grande quantidade de dados, para a melhor soluo do problema ser necessrio implementar o dispositivo que, por ser especfico, proporciona um grande desempenho na aplicao descrita.

15

Uso de Sistemas Multi-Agentes no Processamento da Linguagem Natural: Projeto: NALAMAS Atravs de um projeto cooperativo desenvolvido em conjunto por pesquisadores de 06 instituies, no Brasil: PUCRS, UFRGS, UFSC, UNICAMP e USP e, em Portugal, a Universidade Nova de Lisboa. O objetivo dessa equipe centrou-se em estudar algumas questes relacionadas as arquiteturas multi-agentes no processamento da linguagem natural como: quem so os agentes lingsticos? sero eles os agentes associados a sintagmas ou palavras? ou ser mais adequada uma abordagem associada aos domnios de processamento lingstico? como estes agentes se organizam em sociedade, para a compreenso da linguagem natural? possvel imaginar sociedades (ou subsociedades) de agentes adaptadas para o processamento de fenmenos complexos requeridos no processamento da linguagem natural? ou sero fenmenos resolvidos por agentes especficos? E, conseqentemente, chegar especificao de uma arquitetura na rea.

Computador Falante: Empresa: British Telecom Os laboratrios de pesquisa e desenvolvimento da British Telecom, em Suffolk, no Reino Unido, trabalham com cabeas falantes h cerca de 10 anos. Cada uma delas baseada em uma armao tridimensional de arame, que modificada para se adequar aos traos do rosto de uma pessoa especfica. Sobre a armao superposta a imagem digital do rosto de uma pessoa, criando iluso de uma cabea tridimensional. Cada modelo incorpora lbios, dentes, maxilar e lngua. Por meio de um teclado, o usurio registra texto que convertido em palavras faladas pelos software Laureate, da BT, um sofisticado programa de converso que converte o texto em discurso falado realista, com vrios diferentes sotaques possveis. Algumas aplicaes futuras da tecnologia podem incluir secretrias pessoais eletrnicas que leiam as mensagens de e-mail que o usurio recebe e atendam a seus pedidos, alm de guias virtuais que sairiam caa de informaes e depois as apresentariam ao usurio sob forma oral.

Eliza: Programa desenvolvido durante as primeiras experincias com linguagem e Inteligncia Artificial e que podia manter uma boa conversao com uma pessoa humana sobre uma certa variedade de tpicos. O princpio de funcionamento era baseado na deteco de algumas palavras-chaves e, alterando os tempos verbais e extraindo clusulas das mensagens dos usurios, podia responder ao interlocutor. Por exemplo, se o usurio
16

digitasse Odeio sorvete, o programa detectaria a palavra-chave odeio e responderia No bom odiar. Estas duas tcnicas reposta a palavras-chaves e alterao de tempos verbais acompanhadas de alguns outros truques especializados, podem produzir um programa que mantenha uma conversao razovel com o usurio. Existem a disposio programas Eliza em Basic que tm somente algumas pginas.

Reconhecimento de Voz no Sistema de Reservas da United Airlines: Empresa: Applied Language Technologies, Inc A Applied Language Technologies, Inc. (AL Tech) desenvolveu um software de reconhecimento de voz para aplicaes telefnicas. Este software faz parte da primeira fase do desenvolvimento de um sistema empregado na United Airlines para reservas de vos. Com este sistema, os empregados da United podem reservar viagens rapidamente e, facilmente, a toda hora e em qualquer lugar sem precisar falar com um agente de reservas. Os empregados com este software interagem com o sistema, como por exemplo: Chicago to Denver tomorrow at three in the afternoon ou Miami to So Paulo on October 14th on flight 983. Os empregados da United podem checar e fazer reservas dos 2.300 vos dirios e marcar viagens dentro dos 136 destinos que a United oferece. O software de reconhecimento de voz conecta a United com todo o sistema de informao em tempo real. O software da AL Tech prov um nmero de caractersticas chaves, como linguagem natural, vocabulrios dinmicos, de que necessitamos para uma aplicao bem sucedida.

SOFTWARES DE RECONHECIMENTO DE VOZ


Com o avano da Inteligncia Artificial, a rea de reconhecimento de voz tem passado por uma srie de obstculos, obtendo bons resultados ultimamente. Hoje, qualquer computador pessoal (PC ou Mac) pode estar equipado para reconhecer e reagir a voz humana. A seguir, esto descritos alguns softwares encontrados comercialmente: 1. IBM Via Voice Gold Caractersticas: pode abrir arquivos e e-mail, formatar textos ou surfar pela Internet com a voz natural; ordena documentos e e-mail em ambiente Windows 95 e NT; aplica-se para usurios profissionais, em negcios, em casa, na escola; reconhece as lnguas: francesa, alem, espanhola, italiana e inglesa; pode-se falar naturalmente sem pausa entre as palavras; apresenta vocabulrio base com 22.000 palavras e pode ser expandido para 64.000 palavras; tem 260.000 dicionrio de palavras de backup;

17

permite correo de voz; compatvel com sistemas operacionais Windows 95 e Windows NT 4.0; recomenda-se processador equivalente ou superior a Intel Pentium 150 MHz MMX; possui memria RAM de 32 MB para Windows 95 e 48 MB para Windows NT 4.0; apresenta espao em disco rgido de 125 MB.

2. Conversa Web (Conversa Conversation Computing) Caractersticas: permite navegar pela Internet, qualquer link pode ser ditado para o computador; possibilita a realizao no borwser dos comandos Reload, Back ou Forward; compatvel com Internet Explorer 4.0; reconhece apenas a lngua inglesa. 3. Dragon Naturally Speaking (Dragon Systems, Inc.) Caractersticas: suporta aplicaes do Microsoft Office 97; apresenta a verso Classic Edition com capacidade para 30.000 palavras e Power Edition de 60.000; reconhece as seguintes lnguas: ingls americano; ingls britnico; francs, alemo, italiano, espanhol; requer no mnimo processador 486/66 MHz, 16 MB RAM para o Classic Edition e 20 MB para Power Edition (com adio de 4 MB para NT); compatvel com Windows 3.x, Windows 95, com limite para o Windows NT; suporta uma variedade de placas de som padro 16 bit; tem espao em disco rgido necessrio: 36 MB para o Classic e 54 MB para o Power Edition.

4. Philips Speech Processing (Philips): Caractersticas: pode-se falar naturalmente sem pausa entre as palavras; utilizado principalmente em reconhecimento de voz na telefonia;

5. Watson Speech Recognition (AT & T): Caractersticas: usado para Netscape Navigator 3.x ou superior e Microsoft Internet Explorer 3.x ou superior; compatvel com Windows 95 ou Windows NT 4.0;

18

requer no mnimo processador Pentium 90 MHz, 16 MB RAM; necessita de espao em disco rgido de 25 MB; suporta placa de som e microfone.

6. Naturally Speaking: Caractersticas: compatvel com Windows 95 ou Windows NT 4.0; possui 30.000 vocabulrios ativos; requer no mnimo processador Pentium 133, 32 MB RAM ou 48 MB para NT 4.0.

7. VoiceType (IBM): Caractersticas: apresenta 25.000 a 40.000 palavras de uso corrente; no capaz de reconhecer fala contnua, sem pausas entre as palavras. 8. VoicePad (Kurzweil): Caractersticas: Apresenta 25.000 a 40.000 palavras de uso corrente; no capaz de reconhecer fala contnua, sem pausas entre as palavras; requer no mnimo processador Pentium 100, 16 MB RAM.

CONSIDERAES FINAIS
Apesar do evidente interesse na pesquisa, ainda existem algumas barreiras sobre a tecnologia e o futuro do reconhecimentos de fala. O fundador da Creative Labs e criador da multimdia, Sim Wong Hoo por exemplo, defende a idia de que desenvolvimentos nesta rea s iro atender deficientes fsicos incapazes de utilizar mouse ou teclado. Discorda-se completamente, pois apesar do que existe disponvel, o reconhecimento de voz, ainda mostra muitas limitaes, compartilha-se com a viso da Microsoft, que julga a voz como o futuro da computao e atualmente possui cerca de 80 cientistas trabalhando para disponibilizar num futuro prximo, chips e/ou softwares eficientes com preos acessveis, de modo a ser incorporados a eletrodomsticos que reconhecero os comandos do usurio. Como o processamento de voz um sistema complexo que necessita de um elevado nmero de dados, requerendo preciso, confiabilidade e segurana, ... etc.......linguia.....

19

REFERNCIAS BIBLIOGRFICAS:

1. ALLEN, James. Natural Language Understading. Benjamin/Cummings Pub. Co., 1994. 2. MAGNI, A..Redes Neurais Artificiais e Informaes de excitao no Reconhecimento Automtico do Locutor. In: Congresso Brasileiro de Redes Neurais, II. Curitiba, Outubro 1995. Anais. 1995. 3. MORGAN, D. P. e SCOFIELD, C. L. Neural Networks and Speech Processing. Morwell, Kluwer, 1991. 4. KRULEE, G. K. Computer processing of natural language. Prentice-Hall, 1991. 5. RICH, Elaine. Inteligncia Artificial. Mc Graw-Hill,. 1988 6. BENNANNI, Y. e GALINNARI, P. A. Modular Connectionist Architecture for TextIndependente Talker Identification. In: IEEE International Joint Conferende on Neural Network. Seattle, Vol. 3, Julho 1991

LINKS:

1. 2. 3. 4. 5. 6. 7. 8. 9. 10.

http://www.dragonsys.com/news/pressrelease/pworld617.html Dragon NaturallySpeaking Selected for two 1998 PC World Class Awards. http://www.talk2me.com/dragon-dictate.html Dragon Systems Announces Major to DragonDictate for Windows. http://www.voice-recognition.com/NaturallySpeaking.html What speech recognition program is right for my needs? http://www.altech.com/united.htm Altech Speech Recognition Software used by United Airlines in employee reservation system. http://www.speech.inesc.pt/rec/rec_pt.hmtl Reconhecimento de Fala e suas Aplicaes em Telecomunicaes. http://www.att.com/aspg Advanced Speech Products Group. http://www.v2tech.com/software/default.html Voice Recognition Software. http://www.smfa.edu/students/lewis/Sprec.htm Speech Recognition Software is here. http://www.inf.ufgrs.br/~adami/semianda.html Sistema de Reconhecimento de Locutor Utilizando Redes Neurais. http://www.software.ibm.com/is/voicetype/product98_main.html ViaVoice 98 Highlights.
20

11. 12. 13. 14.

http://www.dds-corp.com/speech/intro.htm - An Introduction to Speech Recognition. http://www.nibgw.unicamp.br/~sabbatini - Fale devagar, por favor. http://www.cognitiosite.com/jorn2.html - Cincias Cognitivas http://www.eps.ufsc.br/disserta/hugo - Redes Neurais e Reconhecimento de Palavras Faladas (Marcel Hugo).

21