Escolar Documentos
Profissional Documentos
Cultura Documentos
A Intel lanou nesta semana um software que permite a um computador realizar tarefas similares leitura de lbios, como um novo auxlio a sistemas de reconhecimento de voz baseados em som. O software Audio Visual Speech Recognition (AVSR) promete melhorar a exatido dos programas de reconhecimento de voz em condies problemticas, especialmente aquelas com barulhos no ambiente, segundo um comunicado da Intel. A meta do AVSR permitir aos PCs sincronizar os dados de vdeo capturados com uma cmera ao som para trazer melhorias ao reconhecimento de voz. O programa parte de um projeto da Intel chamado OpenCV, uma "caixa de ferramentas" para desenvolvimento de aplicaes de "viso de computador", que usam algoritmos para detectar a face humana. Com o preo atual dos microprocessadores, a queda no valor das cmeras digitais e a melhoria na captura de vdeo com o uso de tecnologias mais rpidas, como o USB 2.0, a Intel acredita que os PCs atuais consigam rodar esses algoritmos em tempo real. O Open CV uma biblioteca de cdigo open source que j teve mais de 500 mil downloads. Mais informaes sobre o AVSR podem ser encontradas no site http://www.intel.com/research/mrl/research/avcsr.htm
[ Com traduo de PC World ] Notcias relacionadas: Intel prepara resposta ao Opteron
Intel retoma entrega do Pentium de 3 GHz Intel interrompe fornecimento de novo Pentium 4
Site relacionado: www.intel.com
IDG Now!
A Oracle anunciou que est iniciando um projeto para capacitar todas as suas aplicaes, incluindo o Oracle9i Application Server, para funcionar com reconhecimento de voz. A interface de voz deve oferecer grandes benefcios para equipes mveis de trabalho, que normalmente usam diversos aparelhos wireless que no possuem teclado ou mouse. Colocando tecnologia de reconhecimento de voz no Oracle9i Application Server, a Oracle afirma que vai acabar com a necessidade de uma plataforma proprietria para desenvolver aplicaes de voz. Usando interfaces XML nosso application server ter os drivers para todos os diferentes hardwares, disse Jacob Christfort, responsvel pela rea de tecnologia da OracleMobile. As prprias aplicaes da Oracle, incluindo Oracle Sales, Field Service, Business Intelligence e aplicaes de e-commerce, sero capacitadas com tecnologia de reconhecimento de voz at o final do prximo ano, diz Christfort. Uma plataforma de voz que seja independente do hardware permitir que as empresas mudem sistemas sem precisar programar novamente suas aplicaes, disse Christfort. Um dos primeiros usos da tecnologia de voz ser em pacotes de automao da fora de vendas.
SO PAULO - A Gradiente - ou melhor, seu centro de pesquisas tecnolgicas, o Genius - vai desenvolver uma soluo brasileira, em portugus e espanhol, de reconhecimento de voz para o comando de dispositivos. A iniciativa resultado da parceria do instituto com a americana SpeechWorks, uma das maiores empresas na rea, que j criou servios para United Airlines, AOL e Microsoft, entre outras. A idia criar uma soluo para que o usurio possa comandar, com sua voz, aparelhos eletrnicos como a tev, o DVD, o computador e os eletrodomsticos quem sabe at seu automvel, como pretende o Genius, substituindo de vez os botes, teclados e alavancas. Quando a soluo estiver pronta, estes aparelhos tero um software embutido, capaz de reconhecer e aceitar os comandos. De acordo com a Gradiente, no sero apenas os aparelhos da marca (vendidos no Brasil e na Amrica Latina) que podero utilizar a tecnologia, j que a empresa pretende licenciar a mesma para outros fabricantes, na forma de sistema embarcado. De acordo com uma matria publicada no jornal Valor Econmico, os primeiros aparelhos com a tecnologia de reconhecimento integrada devem chegar ao mercado em um ano e meio ou dois
Atualmente, alm da cooperao em sntese e reconhecimento de voz, o LIB desenvolve vem desenvolvendo tambm pesquisas na rea de
identificao consiste em determinar se o orador de teste est entre um conjunto determinado de oradores. Logo, o sistema pode dizer quem o orador de teste dentre os oradores de treinamento (no caso de conjunto fechado), ou dizer que o orador no se encontra dentro do conjunto de oradores de treinamento (caso de conjunto aberto). O maior gargalo de problemas encontrados para o avano da tecnologia de reconhecimento de orador o mesmo encontrado para a tecnologia de reconhecimento de fala. Existe uma grande variabilidade intraorador ao longo do tempo devido ao estado de sade (doenas respiratrias, laringites, etc), stress, fatores emocionais, esforo e velocidade de fala. Todos estes fatores fazem com que comecem a ocorrer mudanas significativas entre os parmetros de treino e teste, invalidando o reconhecimento (Cheung et all., 1978). Existe pois a necessidade de investigao cientfica em uma parametrizao mais eficiente e robusta para a rea de reconhecimento/verificao de oradores. Esta ento a meta principal desta linha de pesquisa, onde so investigadas tcnicas de parametrizao ligadas a morfo-fisiologia do aparelho fonador.
SEATTLE (Reuters) - Um novo grupo patrocinado pelas norteamericanas Microsoft e Intel para o estmulo ao reconhecimento de voz para computadores e internet conseguiu novos membros na quinta-feira, para o desenvolvimento da tecnologia e disseminao de seu uso. O Frum Salt est esboando as especificaes para Caracteres de Linguagem para Aplicativos de Fala (Speech Applications Language Tags), um recurso de reconhecimento de voz que pode ser usado em softwares, servios de Internet e aparelhos como computadores de bolso. Fundado em outubro pela Microsoft, Intel, Cisco Systems e Philips Electronics, alm de especialistas em tecnologia de voz como SpeechWorks International e Comverse Technology, o Frum Salt tem agora mais de dez novos membros, incluindo Compaq Computer e Korea Telecom. Outros novos afiliados incluem companhias pequenas que se enfocam em tecnologia de voz, como a Telera, a sueca PipeBeach e a canadense VoiceGenie. O Salt foi criado para que a tecnologia avance alm do padro VoiceXML, usado atualmente e mas considerado limitado demais, porque foi desenvolvido tendo em vista o reconhecimento de voz pelo telefone. O VoiceXML usado em servios telefnicos informatizados. O Salt, por sua vez, pretende combinar o reconhecimento de voz com imagens tradicionais e dados de texto, um recurso chamado de ``multimodal'' pelo setor. A conversa inteligente com computadores, como em ``Jornada nas Estrelas'' e ``2001: Uma Odissia no Espao'', no deve ocorrer em breve, porm. ``Esse tipo de coisa ainda est muito longe'', disse Rob Kassel, executivo da SpeechWorks que participa do frum. Entretanto, o Salt ser importante para aparelhos sem fio, como celulares e micros portteis, que s vezes tornam-se complicados no momento de entrar na Web ou baixar dados online. Quando o esboo do Salt estiver pronto, durante os prximos dois meses, o frum vai entregar os padres para um rgo de superviso, esperando uma aprovao rpida. ``Se no agirmos rapidamente, vamos terminar com um mercado todo fragmentado'', disse Kassel.
Reconhece at 15 comandos Placa aceita comandos em qualquer lngua, pois tem opo "treino" Sada TTL binria, fcil de usar com microcontroladores (PIC. AVR, Basic Stamp) Tamanho: 5,0 cm x 5,0 cm
Reconhece at 40 comandos Placa aceita comandos em qualquer lngua, pois tem opo "treino" Sada TTL binria, fcil de usar com microcontroladores (PIC. AVR, Basic Stamp) Tamanho: 7,0 cm x 9,0 cm
info@symphony.com.br
SYMPHONY - F:(11) 3966-7222 - Fax:(11) 9891-3996 1997-2002 Todos os direitos reservados
VoxAge mostra aplicaes para reconhecimento de voz Quinta-feira, 29/05/2003 - 08:40 A VoxAge, empresa especializada na integrao do atendimento ao cliente de maneira automatizada, tambm conhecido como integrao do telefone com computador (CTI - Computer Telephony Integration),est disponibilizando no mercado solues que podem ser empregadas pelas empresas para facilitar o cotidiano das pessoas. A tecnologia da VoxAge garante ao usurio maior comodidade e segurana ao interagir com a mquina. O reconhecimento e a autenticao de voz, com aplicao geralmente no ambiente de contact center, no se restringem apenas a esse tipo de mercado. O banco uma instituio utilizada com muita freqncia por todos. O atendimento do banco por telefone: consultas, transferncias, investimentos, previdncia, cartes de crdito pode ser automatizado por voz. Neste caso, interessante agregar valor ao sistema, implantando a autenticao biomtrica por voz para verificar a identidade do usurio, ao invs de senhas numricas tradicionais coletadas atravs de discagem. A VoxAge desenvolve tambm um sistema que armazena informaes com o contedo apropriado para cada ramo de atividade. Desde seguradoras, administradoras de cartes de crdito at as empresas de entretenimento podem fazer uso do reconhecimento de voz, pois atendero de forma personalizada e rpida as necessidades de seus usurios. Os servios so variados: a pessoa obtm a taxa de juros, o procedimento no caso de extravio no carto de crdito, movimentao mensal; no caso de seguros, ela pode consultar os tipos de planos, preos, franquias, sinistros e ainda no entretenimento, saber seu horscopo, reservar lugares, mesas de shows, restaurantes e preos de ingressos. Outra aplicao da VoxAge, que traz comodidade e conforto, so os sistemas para TV a Cabo, onde o telespectador escolhe os programas que quer comprar podendo se autenticar biometricamente com voz para autorizar a cobrana em seu carto de crdito ou fatura e ainda consultar a revista de programao dizendo o dia, canal e at faixa de horrios por voz. Diversas emissoras de TV possuem programas interativos, como os reality shows, que convidam o telespectador a participar durante a exibio do programa. Tambm podem ser criados sistemas em que o usurio possa, por exemplo, eliminar um participante dizendo apenas o nome do participante desejado entre alguns pr-definidos. A facilidade da implementao da tecnologia VoxAge abrange at os servios de entregas em domiclio (supermercados, farmcias, fast food). O servio pode ser automatizado atravs de catlogos/menus enviados aos consumidores. Eles ligam para a central de atendimento e falam o cdigo ou nome do produto e a quantidade desejada. O sistema confirma a compra, informa o valor, o troco e a data de entrega prevista.
as palavras "IBM" e "Microsoft". Tambm ajuda o fato de os programas contarem com mecanismos de correo automtica baseada em contexto. O ViaVoice capaz de descobrir se um conserto (do carro) tem de ser escrito de forma diferente de um concerto (de orquestra). No caso do programa da IBM, o recurso faz uma anlise estatstica de grupos com at trs palavras. No FreeSpeech, o recurso chama-se ConText e apia-se em um banco com as combinaes de palavras que ocorrem com maior freqncia. Tudo isso no seria possvel sem um bom computador mesa. Como requisito mnimo, os programas pedem PCs com chips da classe Pentium MMX. Mas os testes foram feitos em uma estao Mythos, da Microtec, com chip Athlon de 550 MHz e 128 Mb de memria SDRAM. Fosse outro o hardware, seria preciso esperar bem mais que os 15 minutos estimados pelo ViaVoice, para anlise de cada texto do treino. Na verdade, o Athlon reduziu esse tempo metade.
O uso do reconhecimento de voz como forma de interao no processo de atendimento garante alta taxa de produtividade e rpido retorno do investimento, devido ao baixo custo final de cada atendimento realizado. Veja a tabela comparativa abaixo, uma avaliao entre atendentes reais e PerSphone. PerSphone diminui drasticamente o custo operacional de cada chamada. A atualizao automtica dos dados e de diretrios de nomes permite a funcionalidade nos 365 dias por ano ininterruptos, o que acarreta numa maior quantidade de ligaes efetuadas e reduz a zero o custo com demais equipamentos.
Muito mais do que apostarem na "internet que fala ao telefone", as operadoras da telefonia fixa brasileira antevem a possibilidade de repaginar os tradicionais servios de voz, gerando trfego, e por conseqncia, aumentando a arrecadao.
Muito mais do que apostarem na "internet que fala ao telefone", as operadoras da telefonia fixa brasileira antevem a possibilidade de repaginar os tradicionais servios de voz, gerando trfego, e por conseqncia, aumentando a arrecadao. Na corrida pela liderana do negcio, trs gigantes saem na frente: Telemar, Telefnica e CTBC Telecom. As duas primeiras acabam de disponibilizar seus portais, respectivamente, Vocall (www.vocall.com.br) e Viacorp (www.viacorp.com.br). A CTBC Telecom planeja lanar o seu em maro. Nas estratgias, diferentes alvos. No caso da Telemar, por exemplo, o portal Vocall voltado para o internauta consumidor final. Somente depois de consolidada a operao, haver a sua expanso para novos servios, destacou o ento vice-presidente da operadora, Juarez Queiroz, que logo aps o anncio, deixou a empresa para ser o CEO (Chief Executive Officer) da Globo.com. Na Telefnica, o portal Viacorp foi uma iniciativa da subsidiria Telefnica Empresas e est direcionado para as pequenas e mdias empresas. J no ar, o produto, totalmente baseado em banda larga, contabiliza cerca de 200 clientes. De acordo com o vice-presidente de empresas da operadora, Carlos Augusto Ferreira, a proposta ofertar servios que englobem tarifas de R$ 50/ms, oferecendo desde hospedagem do site e um web mail para ser lido por telefone, at produtos mais caros, que permitam hospedagem, fullfilment, hospedagem individual, entre outros. Pioneirismo Em fevereiro, o portal, que hoje trabalha com o reconhecimento de voz, inicia a implementao da validao da fala. Para isso, a Telefnica estar investindo, no total, cerca de R$ 15 milhes. Ferreira admite tambm que o portal uma excelente arma das operadoras para gerar trfego nas tradicionais redes de voz. Ele no considera o produto um concorrente do WAP. Na Telemar, o portal Vocall alavanca uma estratgia de negcios. Atravs dele, a operadora planeja marcar o incio da sua corrida pelo mercado nacional. Tanto assim, que o portal o primeiro produto da telco disponibilizado em So Paulo. "Nessa fase, o trfego de voz ser tambm repassado para a Telefnica. Mas isso acontecer at 2002, quando poderemos atuar na regio", admite Queiroz. Segundo ele, a presena do Vocall em So Paulo no fere a Lei Geral de Telecomunicaes, j que a Internet considerada um servio de valor adicionado e o usurio s ter acesso ao portal atravs da Web. "Para ser usurio do produto, o assinante tem que se cadastrar no site e receber uma senha", explica o diretor de Marketing de Internet da Telemar, George Moraes.
Nos primeiros 90 dias, o Vocall ser gratuito, mas passado esse perodo, haver a cobrana de uma tarifa de R$ 5, mais os pulsos gastos durante a leitura dos e-mails, sendo que todo e qualquer correio eletrnico ser reconhecido pelo portal. Em maro, o Vocall estar disponvel para os assinantes de Braslia. Os investimentos da operadora foram de R$ 10 milhes.
Eliminando as barreiras tecnolgicas As operadoras sabem que existem barreiras tecnolgicas para o desenvolvimento dos portais de voz. Aqui no Brasil, ento, onde h uma profuso de sotaques e maneiras de falar, preciso testar e ajustar, permanentemente, o sistema de reconhecimento. Os sistemas utilizados so de ltima gerao, e no caso da Telemar, por exemplo, foi contratado junto a dois fornecedores: a francesa Elan, desenvolvedora de soluo para transformar texto/caracter em voz, e a norte-americana Nuance, especializada no reconhecimento da voz. Apesar dos ajustes finos naturais da soluo, o diretor de Novos Negcios da CTBC Telecom, Eduardo Parra, acredita que o assinante no rejeitar o servio, como fez em relao as URAs (Unidades de Respostas Audveis). "O brasileiro no gosta de teclar, de falar com mquinas que no interajam. No caso dos portais de voz, a tecnologia muito amigvel. Os sistemas se adaptam. Acredito e muito no sucesso", afirma o executivo. Desde setembro, a CTBC Telecom permite que contas sejam pagas via sistema de reconhecimento de fala na sua rea de atuao (Uberlndia e Interior Paulista). Parra afirma que 85% das ligaes realizadas so completadas. "Esse ndice comprova que a tecnologia vivel. Ainda h o que se trabalhar para que haja uma segurana efetiva que permita a adoo do sistema em operaes bancrias. Mas isso acontecer no mximo at o final desse ano", antecipa. Na viso dele, o portal de voz ter lugar de destaque nas aplicaes de comrcio eletrnico e nas transaes bancrias. Segundo Parra, o aperfeioamento do sistema, permitir que em muito pouco tempo a fala se transforme na maior e principal senha do ser humano. "Junto com a ris e com a impresso digital, a fala o que mais caracteriza uma pessoa. As possibilidades de falsificao ficariam reduzidas e poramos fim a memorizao de vrias senhas, um inferno para a maioria das pessoas", brinca o executivo.
Exemplos de outros projetos dentro da rea do NESP: Projeto NESP-VOCHAOS VOCHAOS: Voice in Chaos: pesquisa na rea de telecomunicaes envolvendo a gerao controlada de sinais provenientes de sistemas caticos a qual constitui tecnologia de ponta. O projeto VOCHAOS
objetiva o estudo de modelos de Redes Neurais Artificiais no aprendizado de processos caticos para posterior utilizao em sistemas de comunicaes baseados em combinao de sinais de banda bsica e sinais caticos controlados. Status: 1 mestrado concludo. Projeto NESP-FAINTVOICE Trata-se de mais um projeto exclusivo na rea de telecomunicaes; a idia do projeto desenvolver pesquisa referente deteco de sinais de voz em nveis inferiores aos do rudo mdio do canal. Pretende-se que modelos especficos de Redes Neurais Artificiais possam aprender a estatstica de sinais muito fracos de voz ao ponto de detect-los em meio a um forte nvel de rudo. Status: em aberto aguardando candidato;
A voz vai se aliar impresso digital e ao cdigo gentico para identificar criminosos ou garantir
segurana em operaes financeiras. O novo programa de computador que est sendo desenvolvido no Rio de Janeiro ser capaz de reconhecer, atravs da voz, a identidade de algum. Um seqestrador negociando ao telefone ou um cliente do banco que deseja movimentar seus investimentos tero suas emisses de voz rastreadas e identificadas. O projeto est sendo desenvolvido no Instituto Militar de Engenharia (IME) pelo doutor em Engenharia Eltrica pela Coppe/UFRJ tenente-coronel Jos Apolinrio Jnior. ''Os sinais de voz sero gravados e digitalizados para que sejam extradas caractersticas tpicas que permitam o reconhecimento automtico do locutor'', explicou Apolinrio. A primeira fase da pesquisa para a criao do inovador programa j comeou e inclui a gravao de vozes, melhoria de sinais degradados (escuta telefnica ou distoro de microfone) e independncia de texto para o reconhecimento (no precisa repetir a mesma palavra para fazer a identificao). O projeto - que custar R$ 120 mil na primeira fase - est sendo financiado pela Fundao Carlos Chagas Filho de Amparo Pesquisa (Faperj). Uma das principais aplicaes do novo sistema ser na Secretaria Estadual de Segurana Pblica, com a criao de um Banco de Voz pelo Instituto Carlos boli. Cada suspeito ou detido ter sua voz gravada e arquivada. ''Em situaes especiais, ser possvel descobrir o dono da voz e o prprio programa vai confirmar se ele mesmo'', afirmou o tenente-coronel. Como todos os presos do Rio de Janeiro passaro a ter suas vozes arquivadas, os fugitivos podero ser descobertos, por exemplo, pelo som de gravaes telefnicas. De acordo com Apolinrio, at hoje apenas a instituio norte-americana de investigao FBI (Federal Bureau of Investigation), com o auxlio da BAE Systems, criou um sistema semelhante. O Forensic Automatic Speaker Recognition, desenvolvido por Hirotaka Nakasone (FBI) e Steven D. Beck (BAE), destinado especialmente para resolver problemas forenses, como crimes, seqestros ou chantagens. muito usado como assistente nas investigaes ou como evidncia em certos crimes. ''No seria apropriado usarmos o mesmo programa por causa da diferena de idioma, o que acarreta em variaes de detalhes tcnicos'', observou o professor do IME. O projeto brasileiro vai alm ao prever maiores usos cotidianos, como nas telecomunicaes, transaes bancrias, mercado financeiro e segurana privada. O grau de preciso do programa inclui reconhecer a identidade vocal de uma pessoa em situaes adversas como rouquido, gripe, ameaa por arma ou rudos externos. ''No caso de bancos, por exemplo, ser possvel ter identificaes mais confiveis com a associao entre senhas e vozes'', disse o tenente-coronel. Entre os usos do programa esto o reconhecimento automtico do locutor (RAL) para restrio de acesso s reas controladas, reconhecimento automtico de fala (RAF) para comando de
computadores ou telefones - principalmente para deficientes -, sntese de voz para sistemas de resposta e alerta, codificao para segurana das comunicaes e aumento na velocidade de transmisso.
Sotaques - ''Os trabalhos na rea so estratgicos devido s suas potencialidades em diversas aplicaes civis e militares'', afirmou Apolinrio, que no momento faz as pesquisas em um laboratrio onde esto sendo gravados os diversos tipos de sotaques em Portugus. A primeira fase do projeto deve estar pronta em um ano. A prxima fase ser a criao do sistema operacional em si, que ter a necessidade de um analista de sistemas e contar com fonoaudilogos, especialistas em locuo e treinamento de operadores do sistema e tcnicos encarregados de armazenar os dados.