Java Speech

REVISTA CIENTFICA ELETRNICA DE SISTEMAS DE INFORMAO - ISSN 1807-1872 PUBLICAO CIENTFICA DA FACULDADE DE CINCIAS JURDICAS E GERENCIAIS DE GARA/FAEG ANO
II, NMERO, 04, FEVEREIRO DE 2006. PERIODICIDADE: SEMESTRAL _______________________________________________________________________________________
RECONHECIMENTO E SINTETIZAO DE VOZ USANDO JAVA SPEECH

MARANGONI, Josemar Barone
Docente da Faculdade de Cincias Gerenciais e Jurdicas de Gara FAEG/Gara josemarbarone@gmail.com
PRECIPITO, Waldemar Barilli

Docente da Faculdade de Cincias Gerenciais e Jurdicas de Gara FAEG/Gara waldemarbp@terra.com.br
RESUMO Java Speech uma ferramenta valiosa que pode ser utilizado para auxiliar vrias pessoas no trabalho do dia-a-dia. Neste estudo buscou-se verificar o reconhecimento e tambm o sintetizador da fala, apresentando suas vantagens e desvantagens e, ainda, quando deve ser utilizado ou no. Palavras-chave: Java Speech; fala. ABSTRACT Java Speech is a valuable tool where it can be used to assist some people in the day work. The study of Java was about recognizer and synthesizer and also of it speaks, where they present its advantages and disadvantages, when it must be used or not, its problems and benefits. Keywords: Java Speech; speaks.
1 Java Speech API As empresas podem beneficiar-se de uma larga escala de aplicaes da tecnologia da fala usando o Java Speech API. Por exemplo, os sistemas interativos da resposta de voz so uma alternativa atrativa s relaes sobre o telefone; os sistemas de ditado podem ser
consideravelmente mais rpidos do que a entrada datilografada para muitos usurios; a tecnologia de reconhecimento da fala melhora a acessibilidade aos computadores para muitas pessoas com limitaes fsicas. O Java Speech API define um padro para a utilizao da fala para interao com o computador. Duas tecnologias de fala so suportadas pelo Java Speech API. Uma delas o reconhecimento de fala (reconhecimento da fala) e a outra o sintetizador de fala (sntese da fala). O reconhecimento de fala fornece aos computadores a habilidade de escutar a lngua falada e de determinar o que foi dito, ou seja, processa a entrada de udio que contm a fala convertendo para texto. O sintetizador de fala, por sua vez, fornece o processo reverso de produzir a fala sinttica do texto gerado por uma aplicao, por um applet ou por um usurio. chamada freqentemente como a tecnologia text-to-speech (texto para fala). 1.1 Aplicaes permitidas no Java Speech As potencialidades da plataforma de Java fazem atrativo para o desenvolvimento de uma larga escala de aplicaes. Com a adio do Java Speech API, os programadores das aplicaes em Java podem estender e complementar relao de usurio existentes com entrada e sada de comunicao. Para programadores desse tipo de aplicaes de fala, a plataforma de Java oferece agora uma alternativa atrativa com: - Portabilidade: a linguagem de programao Java, os APIs e as mquinas virtuais esto disponveis para uma larga variedade de plataformas de hardware e de sistemas operacionais e so suportados pela maioria dos navegadores. - Ambiente poderoso e compacto: a plataforma Java fornece aos programadores uma poderosa orientao a objeto, utilizando garbage
collection que permite um desenvolvimento rpido e a confiabilidade melhorada. - Rede segura: a plataforma de Java inclui uma rede de segurana robusta. 1.2 Java Speech e outros Java APIs O Java Speech API um dos Java Media APIs, uma relao de software que fornece acesso a plataforma de udio, vdeo, grficos multimdia, grficos 2D e 3D, animaes, telefonia, imagem avanada, e mais. O Java Speech API, em combinao com os outros meios APIs de Java, permite que os programadores enriqueam aplicaes de Java com meios e potencialidades ricos de uma comunicao que se encontram com as expectativas de usurios de hoje, e pode realar uma comunicao pessoa-a-pessoa. 1.2.1 Aplicaes da tecnologia Speech A tecnologia Speech est tornando-se cada vez mais importante nas empresas que computam enquanto usada para melhorar relaes de usurio existentes e suportar meios novos da interao humana com computadores. A tecnologia do speech permite o uso hands-free (mos livres) dos computadores e suporta o acesso aos computadores fora da mesa de trabalho. O reconhecimento de fala e o sintetizador de fala podem melhorar a acessibilidade do computador para usurios com inabilidade e podem reduzir o risco de ferimento repetitivo da tenso e outros de problemas causados por relaes atuais.
1.3 Desktop e sistemas de telefone A tecnologia speech pode aumentar as relaes de usurio com os grficos, pode ser usada para fornecer alertas audveis com as respostas faladas de "Sim/No/OK que no tiram a ateno do usurio no que ele est fazendo. Por exemplo, editando um texto no Word o comando "use o tamanho 12, negrito Times new roman" substitui selees mltiplas do menu e cliques do mouse. Aplicaes em que as mos ficam ocupadas podem ser realados usando comandos da fala em combinao com aes do mouse e do teclado e melhorar a velocidade em que os usurios podem manipular objetos. Por exemplo, ao arrastar um objeto, um comando do speech poderia ser usado para mudar seu tipo a cor e de linha sem mover o ponteiro para a barra de menu ou uma paleta da ferramenta. Os comandos da linguagem natural podem fornecer melhorias na eficincia mas esto sendo usados cada vez mais em ambientes desktop. Para muitos usurios mais fcil e mais natural produzir comandos falados do que para recordar a posio das funes nos menus e nas caixas de dilogo. Em muitas situaes onde a entrada de teclado pouco prtica e as exposies visuais so restritas, a fala pode fornecer a nica maneira interagir com um computador. Por exemplo, os cirurgies e a outra equipe de funcionrios mdica podem incorporar relatrios quando suas mos so ocupadas e quando tocar em um teclado representa um risco da higiene. Em um veculo ou em uma manuteno de linha area, armazenando e muitas outras tarefas de mos ocupadas, as relaes de fala podem fornecer a entrada e a sada prtica de dados e podem permitir treinamento por computador.
A tecnologia est sendo usada por muitas empresas para segurar chamadas de cliente e pedidos internos para o acesso informao, aos recursos e aos servios. Por exemplo: "eu tenho e-mail?" "sim, voc tem 7 mensagens incluindo 2 mensagens de alta prioridade do gerente de produo." "leia-me por favor o correio do gerente de produo." o "e-mail chegou em 12:30pm..." e assim por diante. 2 Tecnologia Speech Apesar tecnologia de do investimento muito de substancial nos na pesquisa 40 anos, da o
reconhecimento
fala
ltimos
sintetizador de fala e as tecnologias do reconhecimento de fala tm ainda limitaes significativas. O mais importante, a sintetizador de fala no se encontra sempre com as expectativas elevadas dos usurios familiares com uma comunicao de fala humano humano-natural. Compreender as limitaes importante para o uso eficaz da entrada e da sada da fala em uma relao de usurio e para compreender algumas das caractersticas avanadas do Java Speech API. 2.1 Sntese da fala Um sintetizador de fala (sntese da fala), converte o texto escrito na lngua falada. A sntese da fala tambm referenciada como a converso TTS (text-to-speech). As principais etapas de se produzir um texto so: - Anlise da estrutura: processa o texto de entrada para determinar onde os pargrafos, as sentenas e outras estruturas comeam e terminam. Para a maioria das lnguas, os dados da pontuao e do formato so usados neste estgio.
- Pr-processamento do texto: analisa o texto de entrada para construes especiais da lngua. Em ingls, tratamentos especiais so requeridos para as abreviaturas, acrnimos, datas, pocas, nmeros, moeda corrente, endereos de e-mail e muitos outros formulrios. Outras lnguas necessitam processar especial para estes formulrios e a maioria das lnguas tem outras exigncias especializadas. A prxima etapa a converso do texto em fala que assim: - Converso do Texto ao fonema: converte cada palavra aos fonemas. Um fonema uma unidade bsica do som em uma lngua. O ingls dos Estados Unidos tem ao redor 45 fonemas incluindo os sons da consoante e da vogal. Diferentes lnguas tm conjuntos diferentes de sons (fonemas diferentes). Por exemplo, o japons tem poucos fonemas incluindo os sons no encontrados em ingls como, por exemplo, o ts de tsunami. - Anlise de Prosody: processe a estrutura de sentena, as palavras e os fonemas para determinar o prosody apropriado para a sentena. Prosody inclui muita das caractersticas da fala a exceo dos sons das palavras que esto sendo faladas. Isto inclui o passo (ou a melodia), o sincronismo (ou o ritmo), pausar, a taxa faladora, a nfase em palavras e muitas outras caractersticas. - Produo do waveform: finalmente, os fonemas e a informao prosody so usados produzir o waveform para cada sentena. H muitas maneiras em que a fala pode ser produzido, do fonema e informao prosody. A maioria dos sistemas atuais faz em uma de duas maneiras a concatenao dos pedaos da fala humano gravado, ou sntese do formato usando as tcnicas processando de sinal baseadas no conhecimento de como o som dos fonemas e de como prosody afeta aqueles fonemas. Os detalhes da gerao do waveform no so tipicamente importantes para os programadores desse tipo de aplicao.
2.2 Limitaes do Sintetizador de fala (Sntese da fala) O speech sintetizadores (sntese da fala) pode cometer erros. As orelhas humanas so bem ajustadas para detectar estes erros, assim o trabalho cuidadoso de programadores pode minimizar erros e melhorar a qualidade da sada da fala. O Java Speech API e o Java Speech Markup Language (JSML) fornece muitas maneiras para um programador de aplicao melhorar a qualidade da sada de um sintetizador de fala. O captulo 6 descreve tcnicas de programao para controlar uma sntese com o Java Speech API. Algumas de suas caractersticas que realam a qualidade incluem: * Habilidade de marcar o comeo e o fim dos pargrafos e das sentenas. * Habilidade de especificar pronunciaes para alguma palavra, acrnimo, abreviatura ou a outra representao especial do texto. * Controle explcito das pausas, dos limites, da nfase, do passo, da taxa faladora e do loudness para melhorar a sada prosody. Estas caractersticas permitem que um programador ou um usurio cancele o comportamento de um sintetizador de fala para corrigir a maioria dos erros potenciais. A seguir uma descrio de algumas das fontes de erros: * Anlise da estrutura: a pontuao e o formato no indicam consistentemente onde os pargrafos, as sentenas e outras estruturas comeam e terminam. Para o exemplo, o ponto final em "EUA." pode no ser interpretado como o fim de uma sentena. * Pr-processamento de texto: no possvel para um synthesizer saber todas as abreviaturas e acrnimos de uma lngua. No sempre possvel para um synthesizer determinar como processar datas e pocas, por exemplo, so "8/5" "oitavo dia de maio" ou "quinto dia de
agosto"? Se "1998" estiverem lidos como "mil novecentos e noventa e oito" (como um ano), como "mil novecentos e noventa e oito" (um nmero regular) ou como "um nove nove oito" (parte de um nmero de telefone). * Converso de Texto fonema : a maioria dos synthesizers podem pronunciar dez dos milhares ou mesmo das centenas dos milhares das palavras corretamente. Entretanto, h sempre as palavras novas que deve supor para (nomes especiais apropriados para povos, companhias, produtos, etc.), e as palavras para que a pronunciao est ambgua. * Anlise de Prosody: frasear corretamente uma sentena, para produzir a melodia correta para uma sentena e para enfatizar corretamente palavras, requer idealmente uma compreenso do sentido das lnguas que os computadores no possuem. Ao invs dos sintetizadores de falas tentarem supor o que um ser humano pode produzir e, s vezes, as suposies so artificiais e no naturais. * Produo do waveform: sem bocas, pulmes ou outro instrumento da fala humano, um sintetizador de fala produzir freqentemente uma fala que soa artificial, mecnico ou de outra maneira diferente da fala humano. Em algumas circunstncias um som robtico desejvel, mas para a maioria das falas que das aplicaes isso soa como perto do ser humano porque possvel e mais fcil de compreender e mais fcil de escutar por longos perodos de tempo. 2.3 Avaliao do Sintetizador de fala Os seres humanos so condicionados por uma vida de escutar e do falar. Os ouvidos humanos (e o crebro) so muito sensveis s mudanas pequenas na qualidade da fala. Um ouvinte pode detectar as mudanas que puderam indicar o estado emocional de um usurio, um
sotaque, um problema da fala ou muitos outros fatores. A qualidade da sntese da fala atual remanesce abaixo daquela da fala humano, assim os ouvintes devem fazer mais esforo do que o normal para compreender a fala e ignorar os erros. Para usurios novos, escutar um sintetizador de fala por perodos prolongados pode ser cansativo e insatisfatrio. 2.4 Reconhecimento de fala Reconhecimento de fala o processo de converter a lngua falada ao texto escrito ou a algum formulrio similar. As caractersticas bsicas de um identificador da fala que suporta a fala API de Java so: mono-lingual: suporta uma nica lngua especificada. Processa uma nica entrada de udio. Pode opcionalmente adaptar-se voz de seus usurios. Suas gramticas podem ser dinamicamente atualizadas. Tem um conjunto pequeno, definido de propriedades aplicao controle. As etapas principais de um identificador tpico de fala so: Projeto da gramtica: as gramticas definem as palavras que podem ser faladas por um usurio e pelos testes padres em que podem ser faladas. Uma gramtica deve ser criada e ativada para que um identificador saiba o que deve aguardar at escutar no udio de entrada. Processador de sinal: analisa as caractersticas do spectrum (freqncia) do udio de entrada. Reconhecimento do fonema: comparam os testes padres do spectrum aos testes padres dos fonemas da lngua que est sendo reconhecida. (uma breve descrio dos fonemas fornecida na seo da sntese de fala na discusso da converso do texto ao fonema).
Reconhecimento de palavras: comparam a seqncia de fonemas provveis de encontro s palavras e aos testes padres das palavras especificadas pelas gramticas ativas. Gerao de resultado: fornece a aplicao com a informao sobre as palavras que o identificador detectou no udio de entrada. A informao do resultado ser fornecida sempre uma vez que o reconhecimento de um nica sentena est completo, mas pode tambm ser fornecida durante o processo do reconhecimento. O resultado indica sempre a melhor suposio para o identificador de que o usurio tenha dito, mas pode tambm indicar suposies alternativas. Java Speech API suporta dois tipos bsicos de gramtica: gramticas da regras gramaticais e do ditado. Estes tipos da gramtica diferem na maneira em que as aplicaes ajustam as gramticas, nos tipos de sentenas que permitem, na maneira em que os resultados so fornecidos, na quantidade de recursos computacionais requeridos, e na maneira em que so usados eficazmente no projeto da aplicao. 3 Concluses O trabalho teve como sua maior importncia o estudo do Java Speech API. Concluiu-se que h muito que fazer ainda para chegar a ajudar deficientes fsicos, crianas ou idosos. Como projeto futuro poderia ser feito um aprimoramento do speech, para melhor reconhecimento da voz.
4 Referncias bibliogrficas: http://java.sun.com/products/java-media/speech/forDevelopers/jsapiguide/Preface.html

Java Speech

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Java Speech

Enviado por

Direitos autorais:

Formatos disponíveis

REVISTA CIENTFICA ELETRNICA DE SISTEMAS DE INFORMAO - ISSN 1807-1872 PUBLICAO CIENTFICA DA FACULDADE DE CINCIAS JURDICAS E GERENCIAIS DE GARA/FAEG ANO

II, NMERO, 04, FEVEREIRO DE 2006. PERIODICIDADE: SEMESTRAL _______________________________________________________________________________________

RECONHECIMENTO E SINTETIZAO DE VOZ USANDO JAVA SPEECH

PRECIPITO, Waldemar Barilli

4 Referncias bibliogrficas: http://java.sun.com/products/java-media/speech/forDevelopers/jsapiguide/Preface.html

Você também pode gostar