Reconhecimento de Voz: Paulo José Dos Santos Guilhoto Susana Patrícia Costa de Sousa Rosa

1
Universidade de Coimbra
Faculdade de Cincias e Tecnologias
Departamento de Engenharia Informtica

Reconhecimento de
voz

Sistemas Multimdia
2001/ 2002

Paulo Jos dos Santos Guilhoto
Susana Patrcia Costa de Sousa Rosa
Reconhecimento de Voz

2

Departamento de Engenharia Informtica
Faculdade de Cincias e Tecnologia da
Universidade de Coimbra

Trabalho de sntese realizado
para a disciplina de
Sistemas Multimdia
no mbito da
Licenciatura em Engenharia Informtica

Este trabalho est disponvel em
http://student.dei.uc.pt/~srosa/voz

Paulo J os dos Santos Guilhoto
guilhoto@student.dei.uc.pt

Susana Patrcia Costa de Sousa Rosa
srosa@student.dei.uc.pt

Novembro de 2001

3
ndice

Introduo ....................................................................................................4
O que o reconhecimento de voz?...............................................................5
Como que funciona?...................................................................................6
Transformao do PCM..................................................................................... 6
Reconhecimento de padres acsticos.................................................................. 7
Modelos lingusticos.......................................................................................... 8
Treino do software........................................................................................... 9
Natural Language Understanding (NLU).....................................................10
Fundamentos................................................................................................ 10
Gramticas................................................................................................... 11
Entraves implementao............................................................................... 11
Como escrever uma gramtica.......................................................................... 12
Aplicaes...................................................................................................13
Solues existentes.....................................................................................14
Histrico do desenvolvimento de software de reconhecimento de voz........................ 15
Fontes..........................................................................................................16


4
I ntroduo

H uns anos atrs, o reconhecimento de voz era considerado por muitos como sendo apenas
obra de fico cientfica. Contudo, desde o final da dcada de 1950, instituies de pesquisa
j estudavam meios de fazer com que a voz fosse processada pelo computador.
Actualmente, o reconhecimento de voz tornou-se real e passou a ser um dos tpicos mais
frteis no seio da investigao. De facto, muitas aplicaes esto actualmente a ser
desenvolvidas ou a surgir no mercado. Um dos exemplos mais vulgares, com o qual a
maioria de ns certamente j teve contacto, a tecnologia de chamada por voz, presente
em alguns telemveis existentes no mercado.

Este trabalho pretende assim, representar o estado da arte, pelo que, para alm de temas
como o funcionamento do reconhecimento de voz, a complexidade dos aspectos tcnicos
envolvidos e a evoluo dessas tcnicas, tambm iro ser explorados temas como os
produtos actualmente existentes, suas caractersticas e potencialidades, e as aplicaes que
esto a tirar partido desta tecnologia.

5
O que o reconhecimento de voz?

Frequentemente, a expresso reconhecimento de voz utilizada com vrios sentidos, que,
na verdade, referem-se a tecnologias distintas. O processamento da voz pode ser aplicado
em quatro reas principais: comandos por voz, fala natural, sntese de voz e autenticao de
voz. Cada uma destas descrita a seguir:
q O reconhecimento de palavras (utilizado nos comandos de voz) caracteriza-se por
processar apenas um pequeno trecho de fala, de modo a identificar que tipo de
aco o sistema deve tomar. Este processamento torna-se simplificado, uma vez que
o sistema j sabe de antemo quais os comandos disponveis para o utilizador. Este
o caso de centrais de atendimento telefnico, onde o utilizador pode usar a voz em
vez de pressionar botes.
q O reconhecimento de fala natural (ou fala contnua) envolve uma ou mais frases, isto
, vrias palavras que tenham um sentido semntico. A fala reconhecida ento
convertida em texto. O tipo de aplicao mais comum para essa tecnologia o ditado
de documentos, para uso em processadores de texto, escrita de e-mails, etc.
q A sntese de voz o processo contrrio ao do reconhecimento da fala. O sintetizador
recebe um texto na forma digital e transforma-o em ondas sonoras, ou em outras
palavras, fazendo uma leitura em voz alta. Um programa de sntese de voz til nas
situaes em que o utilizador no pode desviar a ateno para ler algo ou no tem
acesso ao texto escrito, seja porque a informao est distante ou porque o utilizador
tem alguma deficincia visual.
q A autenticao baseia-se, por sua vez, no facto de que a voz nica para cada
pessoa e pode ser utilizada para identificar algum. Os sistemas de autenticao
podem ser aplicados para permitir o acesso de uma pessoa a uma determinada
funo.

Sendo assim, e dado que a temtica deste trabalho apenas o reconhecimento de voz, o
leitor dever ter em ateno que os captulos seguintes apenas iro cobrir a matria
referente aos dois primeiros conceitos acima referidos.

6
Como que funciona?

O reconhecimento de voz evoluiu bastante ao longo dos ltimos anos. Inicialmente, o
reconhecimento processava-se apenas em modo discreto, isto , o utilizador tinha que fazer
uma pausa entre cada palavra ditada. Actualmente, o utilizador j tem a possibilidade de
efectuar ditados contnuos ao computador. Para alm disso, o reconhecimento tambm se
tornou mais inteligente, uma vez que possui um conjunto de regras gramaticais
incorporadas, permitindo assim perceber melhor o que est a ser ditado.

O reconhecimento de voz usa diferentes tcnicas para reconhecer a voz humana. Funciona
assim como uma pipeline que transforma os sinais udio digitais provenientes da placa de
som em fala reconhecida. Estes sinais passam por diversas etapas, ao longo das quais so
aplicados mtodo matemticos e estatsticos de forma a tentar compreender o que est a
ser ditado.

Transformao do PCM

Quando o utilizador fornece um comando de voz pelo microfone, este transmitido para a
placa de som, sendo o sinal analgico amostrado 16.000 vezes por segundo. De seguida,
este transformado para digital atravs de uma tcnica chamada Pulse Code Modulation
(PCM). Esta forma digital do sinal no nem mais nem menos do que uma stream de
amplitudes representando o sinal analgico. No entanto, o software de reconhecimento de
voz no pode trabalhar directamente com base nesta stream, dado que muito complicado
procurar padres que possam ser relacionadas com o que est actualmente a ser ditado.
neste sentido que esta transformada num conjunto de bandas de frequncia discreta,
usando uma tcnica chamada Windowed Fast Fourier Transform (FFT). Esta consiste numa
amostragem do sinal udio em cada centsimo de segundo, mas desta vez no domnio da
frequncia. Assim, a stream de entrada agora representada por um conjunto de bandas de
frequncia discretas, podendo ser facilmente identificadas as componentes de frequncia de
um som. A partir destas componentes, possvel aproximar-nos do que o ouvido humano
ouve.

O prximo passo envolve o reconhecimento destas bandas de frequncia. Para isso, o
software de reconhecimento de voz possui uma base de dados de milhares de frequncias
ou fonemas. Um fonema a mais pequena unidade de fala de um idioma ou dialecto. A
dico de fonemas diferente entre si, tal que, ao substituir um fonema numa palavra, esta
passa a ter um significado completamente diferente. Por exemplo, se substituirmos o
fonema b na palavra bato pelo fonema m, o significado ser alterado para mato. A
base de dados de fonemas usada para comparar e identificar as banda de frequncia udio
que foram amostradas. Se, por exemplo, a frequncia de entrada tem um som igual ao t, o
software ir tentar compar-lo com o respectivo fonema na base de dados. Ao encontrar o
fonema correspondente, atribudo ao sinal de entrada o nmero identificador do fonema
na base de dados, tambm chamado de feature number.

Graas s transformadas de Fourier e base de dados de fonemas, tornou-se assim possvel
passar de um vector PCM com 16.000 entradas para um vector com apenas 100 entradas
(por segundo), transformando o processo de reconhecimento em tempo real fazvel.


7
Reconhecimento de padres acsticos

Aparentemente, o processo simples. A cada banda de frequncia seria associado o seu
fonema correspondente. O software iria de seguida juntar os fonemas em palavras, e o
computador passaria a compreender a voz humana. Aparentemente. No entanto, o processo
muito mais complicado quando comeamos a olhar para ele com mais detalhe. Podem
existir tantas variaes no som causado pelo modo como as palavras so pronunciadas, que
quase impossvel encontrar a entrada na base de dados correspondente ao som. A juntar a
isto, diferentes pessoas pronunciam a mesma palavra de forma diferente. Para complicar
ainda mais a situao, o ambiente tambm adiciona a sua componente de rudo: numa
situao em que o utilizador est na secretria do seu escritrio, com o consequente
ambiente ruidoso que da advm, o reconhecedor de voz pode apresentar resultados
diferentes de uma situao em que o utilizador est numa sala silenciosa com um microfone
de alta qualidade. Sem esquecer que o prprio som de um fonema varia conforme os
fonemas que o rodeiam e que o som produzido por um fonema altera-se desde o incio da
sua pronncia at ao seu fim. Sendo assim, o software tem que usar tcnicas complexas
para aproximar o som de entrada e descobrir quais os fonemas que esto envolvidos.

O rudo de fundo e os problemas de variao so solucionados com recurso a mtodos
estatsticos, ao permitirmos que um feature number seja usado por mais do que um fonema.
Isto apenas possvel porque a durao de um fonema longa se comparada com a
frequncia de amostragem de um centsimo de segundo. Isto quer dizer que enquanto um
fonema est a ser pronunciado, esto a ser atribudos vrios feature numbers. Admitindo
que o software j foi treinado, o que quer dizer que j foram estabelecidas as probabilidades
de ocorrncia de um determinado feature number num fonema, resta-nos calcular a
probabilidade do conjunto de feature numbers registados ser realmente ofonema (ver
exemplo na figura 1).

O reconhecedor de voz tambm necessita de saber quando que um fonema acaba e outro
comea. Para isto usada uma tcnica matemtica denominada Hidden Markov Models
(HMM). Admitindo que o reconhecedor de voz registou os feature numbers correspondestes
a dois fonemas consecutivos de uma palavra, torna-se complicado, a olho humano, distinguir
onde comeam e acabam os fonemas, sobretudo se estes dois fonemas tiverem algum
feature number em comum (ver figura 2). aqui que entra a tcnica das HMMs, que
Durante o processo de treino, o software registou as seguintes estatsticas, para os
fonemas b e m, respectivamente:
q No fonema b, a probabilidade de aparecer o som associado ao feature
number #52 de 55%, 30% para o #189 e 15% para o #53.
q No fonema m, a probabilidade de aparecer o som associado ao feature
number #52 de 10%, 10% para o #189 e 80% para o #53.

Vamos usar a anlise dos dados obtidos ao longo do treino durante o processo de
reconhecimento. Assumindo que foram ouvidos 6 feature numbers (#52, #52,
#189, #53, #52, #52) durante o reconhecimento, vamos calcular a probabilidade
de o conjunto ser o fonema b ou m, respectivamente:
q 55% * 55% * 30% * 15% * 55% * 55% = 0.41%
q 10% * 10% * 10% * 80% * 10% * 10% = 0.0008%

Verifica-se assim que o fonema pronunciado foi o b.
Figura 1 Exemplo de como reconhecido um fonema isolado

8
consiste na exploso combinatria das possibilidades de qualquer fonema ser seguido de
qualquer outro fonema, ligados por meio de transies com pesos associados, at que se
torna possvel distinguir com clareza onde comea e acaba o fonema. Contudo, este mtodo
no vivel se no forem aplicadas limitaes, como se ir ver de seguida, dadas as
gigantescas quantidades de memria necessrias.

Tambm de referir a importncia da existncia de um fonema silencioso, tambm ele
caracterizado por feature numbers, de forma a identificar pausas nas palavras ditadas.

Ainda existe um outro motivo de preocupao: o som de um fonema depende geralmente do
fonema anterior e posterior. O software de reconhecimento de voz consegue superar este
problema criando tri-fonemas, que so fonemas no contexto de fonemas consecutivos.
Dado que a lngua portuguesa tem 28 fonemas, existem 28*28*28 = 21.952 tri-fonemas, o
que constitui um nmero demasiado elevado em termos de esforo de computao, da que
os tri-fonemas que tenham um som semelhante sejam agrupados, acabando por se
transformar num s.

Muitos outros problemas subsistem, tal como a evoluo do som de um fonema no ser
constante, o prprio reconhecedor de voz no saber quando que o utilizador vai comear a
falar. Contudo, no nos vamos debruar sobre eles.

Modelos lingusticos

O software de reconhecimento de voz agora capaz de identificar fonemas que so
pronunciados. O passo seguinte consiste em reconhecer palavras, comparando as
combinaes de fonemas com as palavras contidas no dicionrio utilizado pelo programa.
Contudo, isto no assim to simples: o utilizador pode enganar-se ao pronunciar uma
palavra que no faz parte do dicionrio; o software de reconhecimento de voz pode
enganar-se ao reconhecer uma palavra; ainda no se sabe onde comea uma palavra e
acaba a outra; o processamento de voz continua incomportvel quer a nvel de exigncias de
CPU como de memria. por isto tudo que se torna necessrio para o reconhecedor de voz
restringir as possibilidades do que est a ser ditado, atravs do recurso a modelos
lingusticos e gramticas adequadas.

Se o sistema for programado para fazer o reconhecimento de comandos, o modelo
lingustico um pouco mais simples do que se fosse para reconhecimento da linguagem
natural. Nesse caso, o dicionrio contm todas as formas possveis de se pronunciar cada
comando registado no sistema. Para a fala contnua, preciso que o sistema utilize um
dicionrio com todas as palavras da lngua ou pelo menos com todas as palavras usadas com
maior frequncia.
Supondo que o fonema a, com probabilidades da ocorrncia de feature numbers
de 75% para #82, 15% para #98 e 10% para #52, surge depois do fonema b
numa determinada palavra, gerando assim a seguinte sequncia de feature
numbers: #52, #52, #189, #53, #52, #52, #82, #52, #82, etc.

Tomando em ateno que o feature number #52 aparece nos fonemas b e a,
torna-se difcil distinguir um do outro. Apenas podemos afirmar com certeza que o
fonema b antecede o fonema a, dada a localizao dos feature numbers.

Figura 2 Exemplo de como distinguir fonemas consecutivos

9
As condicionantes no ficam por aqui. O dicionrio deve tambm registar as classes
gramaticais de cada vocbulo. Para alm disso, preciso construir um modelo gramatical
com as construes possveis e a probabilidade de ocorrncia de cada tipo de construo.
Com a ajuda destas informaes, o software de reconhecimento de voz tem condies para
concluir que as frases foi trs anos e foi a trs anos no esto correctas, mas sim foi
h trs anos. Mais uma vez, para o caso do ditado discreto (reconhecimento de comandos),
as gramticas so muito mais simples, uma vez que o sistema sabe com antecedncia quais
as palavras que est espera. (Para mais informaes sobre o reconhecimento de
linguagem natural, ver a seco dedicada ao NLU Natural Language Understanding).

Antes disto, o software deve processar os fonemas para identificar correctamente o
agrupamento de palavras. Os fonemas contidos em foi h trs anos sugerem termos como
foia e trzanos, que no esto no dicionrio de vocbulos conhecidos, logo, so
descartados. Por outro lado, ao ouvir a palavra comunicao, o reconhecedor de voz ter
que decidir se ouviu comunica aco ou um nico termo. O modelo gramatical vai indicar
qual a construo mais plausvel. Os programas mais recentemente implementados fazem
a anlise de toda a frase, para ampliar a preciso do reconhecimento, tomando assim
vantagem do facto da linguagem apresentar uma estrutura. Po exemplo, supondo que o
reconhecedor de voz tem dvidas entre a escolha das palavras hora e ora, mas sabe que
a palavra anterior uma, ento est na possibilidade de efectuar a escolha certa porque
sabe que a sequncia uma hora faz mais sentido do que a sequncia uma ora. A tcnica
que est por detrs disto usa trigramas, baseados em modelos estatsticos, que calculam a
probabilidade de uma determinada sequncia de palavras ocorrer.

A maioria dos pacotes de reconhecimento da fala vem com dicionrios que contm cerca de
150 mil palavras do portugus. Os sistemas na lngua inglesa tambm trabalham com
aproximadamente a mesma quantidade de termos no dicionrio.

Treino do software

Apesar de todas as tcnicas mencionadas acima, para que serve uma grande base de dados
de fonemas se estes no correspondem nossa voz ou pronncia? Por exemplo, o que
que acontece quando uma base de dados desenvolvida no Brasil colocada venda em
Portugal?

Este um verdadeiro problema, e a nica soluo possibilitar ao utilizador treinar os
modelos acsticos. No caso de um sistema mono-utilizador, basta fornecer um texto pr-
determinado ao utilizador para este ditar. No caso de sistemas multi-utilizador, por exemplo
no caso de uma central telefnica, no vivel pedir a cada utilizador falar durante 15
minutos para treinar o reconhecedor de voz. A soluo para este caso efectuar um treino
conjunto do sistema por vrias pessoas, sendo os pesos das transies das HMMs ajustado
de acordo com a mdia dos modelos, de forma a tornar o sistema capaz de reconhecer o
maior nmero de utilizadores possvel.


10
Natural Language Understanding ( NLU)

Para um computador, um conjunto de palavras no possui nenhum significado intrnseco.
Pegar nos resultados do reconhecimento de voz e extrair informao til sobre a qual o
computador pode agir, no tarefa fcil. Dado que, mesmo as reas do crebro humano
que processam a linguagem ainda so largamente desconhecidas, os primeiros linguistas
aplicados rea da computao tiveram que comear do nada.

A rea de Natural Language Understanding (NLU) tem vindo a ser desenvolvida na sua
maioria por companhias telefnicas e organizaes ligadas rea da internet e redes IP. A
razo para tal sobretudo a fraca qualidade do sinal udio transmitido nas linhas
telefnicas, o que dificulta em muito a aplicao de centrais telefnicas automticas. aqui
que entra o NLU, usando 75% de reconhecimento de voz certificado para o transformar em
85% ou 90% graas anlise contextual.

Para este propsito, a anlise da estrutura gramatical da fala tem pouco interesse. Por isso,
e no mbito deste trabalho, iremos apenas fazer uma anlise muito superficial destas
tcnicas.

Fundamentos

De um ponto de vista mais informtico, o NLU funciona ao longo de um processo muito
similar com o processo de compilao de um programa, s que ao contrrio. Isto , em vez
de adoptar uma metodologia top-down, em que a compilao pra sempre que detectar a
falta de um ponto-e-vrgula (p.e), opta-se por uma abordagem bottom-up, tipicamente
pessimista, que assume de antemo que algo estar errado no seu input e prepara-se para
ter o melhor desempenho possvel.

Se tivessemos optado por aplicar a abordagem top-down parsing linguagem natural,
muitos problemas iriam surgir, nomeadamente:
q Todas as linguagens naturais coexistem com a ambiguidade, excepes s regras
gramaticais, e inconsistncia. A tarefa de definir uma gramtica de parsing para cada
linguagem torna-se praticamente impossvel.
q No se pode esperar que todas as pessoas falem de um modo pr-definido, porque
isso tornaria o sistema demasiadamente frgil.

O NLU utiliza uma aproximao mais robusta e objectiva perante este problema:
q Uma aplicao s dever definir uma gramtica para o menor subconjunto da
linguagem natural apropriada ao seu domnio. Desta forma, muita da ambiguidade
pode ser colocada de parte.
q Em vez de usar o top-down parsing, o NLU ir utilizar o bottom-up parsing,
tentando interpretar pequenos fragmentos de palavras soltas e combinando-as de
modo a obter uma imagem global do que se est a tentar dizer.

Por exemplo, na frase Eu quero ir para Lisboa esta tarde, o NLU interpreta as palavras
esta tarde como sendo a descrio de um instante no tempo, a palavra Lisboa como
sendo o nome de uma cidade, e a palavra para seguida do nome de uma cidade como
sendo a identificao de um destino. O resto da frase descartado porque j temos
elementos para extrair o sentido do que foi pronunciado.

11
Se algo correr mal, nomeadamente na entrada de voz, e o sistema reconhece a fala Elu
queru iri para Lisboa espa tarde, os fragmentos mais importantes para Lisboa e tarde
continuam a ser bem compreendidos (possivelmente com alguma incerteza, porque no
sabemos a que dia que o utilizador se est a referir) e 80-100% da fala bem interpretada
enquanto contedo, embora apenas 43% das palavras tenham sido exactamente
identificadas.

Gramticas

Ambos mtodos de parsing requerem um conjunto de regras no ambguas, completas e
objectivas de modo a serem codificadas numa gramtica. Algumas dcadas atrs, o linguista
e poltico Noam Chomsky definiu diversas classes de linguagem e as gramticas que as
suportam. Por exemplo, as expresses regulares podem ser processadas de um modo
linear, uma palavra de cada vez, enquanto que as gramticas sem contexto que definem
linguagens de programao so recursivas por natureza. Todo o sistema NLU baseado
nestes ideais.

Por exemplo, passemos a considerar uma gramtica muito simples, no mbito de um
sistema de controlo de viagens:
<CIDADE> -> Lisboa
<CIDADE> -> Funchal
<CIDADE> -> Porto
<CHEGADA> -> [indo] para <CIDADE>
<PARTIDA> -> [a partir] de <CIDADE>
<VIAGEM> -> <PARTIDA> <CHEGADA>
<VIAGEM> -> <CHEGADA> <PARTIDA>

Os termos dentro de <> so as variveis. As palavras dentro de [] so opcionais. As
regras da <VIAGEM> especificam que uma viagem definida seja com a cidade de partida
seguida pela de destino seja pelo contrrio. A regra <CHEGADA> especifica que podemos
definir um destino quer atravs de para seguido de uma cidade, quer dizendo indo para
seguido de uma cidade.
Desta forma, o sistema capaz de compreender frases como Para Funchal a partir de
Lisboa ou A partir de Funchal, para Porto.

Mesmo que a entrada de voz fosse destorcida e esta resultasse em Para bsdvger de
Lisboa, o sistema seria capaz de conseguir identificar a cidade de origem e fazer apenas
uma pergunta em relao ao destino, evitando assim perguntas tipo Por favor, repita!.

Entraves implementao

Quando as pessoas falam, so geralmente bastante descuidadas no que toca formulao,
produzem erros fonticos, como j tivemos oportunidade de ver na seco anterior. Muitas
fontes de erro so introduzidas nos dados de entrada do NLU:
q As pessoas no falam a um ritmo constante, h hesitaes, pausas e interjeies nos
momentos mais inoportunos.
q Frequentemente, quando uma pessoa fala, muda de opinio a meio de uma frase.
Por exemplo, um ouvinte humano percebe que no, desculpe, eu quis dizer sexta-
feira se refere a uma referncia anterior, contudo para um computador j no to
perceptvel.

12
q Por vezes, as pessoas duplicam frases ou dizem frases sem nexo sequencial, etc. Um
exemplo o caso em que ouvimos uma entrevista na TV, apercebemo-nos que a
discusso, dilogo ocorre naturalmente, mas, se tivermos acesso mesma entrevista
por escrito, depressa nos iremos perceber que h coisas que no tm nexo.
q As pessoas assumem que o ouvinte capaz de interligar os pronomes e locues
como o, ele e aquele aos conceitos respectivos. Mais uma vez, isto
extremamente complicado para um computador.

Como escrever uma gramtica

Para tornar o sistema o mais robusto possvel, os linguistas que escrevem as suas prprias
gramticas tero que criar regras que aceitem os erros mais comuns de entrada como sendo
vlidos, num determinado domnio. Tambm se espera que as regras de mais alto nvel (tal
como <viagem>, no exemplo anterior) suportem formulaes suficientes para manipular a
maioria dos casos (com suporte para aceitar lixo, se for caso disso, como dados vlidos).

Quando possvel, os linguistas devem tentar limitar os seus domnios em expresses
regulares, que podem ser analisadas com complexidade O(n), enquanto gramticas sem
contexto requerem O(n). Infelizmente, isto raro acontecer excepto em alguns casos.

Contudo, isto no assim to bvio. Cada vez que adicionamos uma regra para cobrir um
novo caso, esta corre o risco de introduzir alguma ambiguidade e colocar em risco a
funcionalidade do sistema. O crescimento na complexidade exponencial; uma vez que o
sistema atinja uma centena de regras, torna-se quase impossvel introduzir o suporte para
uma nova frase sem comprometer o j comprovado funcionamento de dez outras.

Como consequncia, alguns investigadores esto a comear a experimentar a aprendizagem
automtica de regras gramaticais. Por exemplo, no nosso caso acima, uma verso inteligente
do sistema deveria descobrir que o nome de uma cidade a seguir palavra para
geralmente i ndicativo de um destino, desde que tenhamos treinado o sistema com vrios
exemplos onde explcito que para Lisboa indica que queremos ir para l. Por enquanto,
os resultados so interessantes, mas no atingiram ainda qualidade suficiente para passarem
a ser disponibilizados comercialmente.


13
Aplicaes

Como se pode imaginar, o reconhecimento de voz apresenta ganhos significativos no
processo de transcrever documentos para processadores de texto. Tirando vantagem do
facto de que o ser humano ser capaz de ditar sete vezes mais rpido do que escrever,
conseguem-se, nalguns casos, ganhos de produtividade de 60%. Contudo, as vantagens da
tecnologia de reconhecimento de voz no esto limitadas aos ambientes de escritrio, como
se poderia pensar. Quando se est em viagem, por exemplo, pode-se utilizar um gravador
digital para ditar memorandos, mensagens de correio electrnico, ou notas de reunio que
podem ser depois transcritas para vrios programas. E uma vez que os gravadores esto a
ficar cada vez mais pequenos, quase nem damos conta quando transportamos um no bolso.

As possveis aplicaes no ficam por aqui. Um exemplo a indstria da sade, que se
depara actualmente com factores crticos de sucesso como a reduo das despesas e
aumento da eficincia. O reconhecimento de voz pode aqui ajudar as equipas mdicas
eliminando a necessidade de transcrever manualmente os relatrios mdicos, bastando para
isso o uso de um pequeno aparelho porttil, parecido com um gravador, enquanto se
procede ao diagnstico dos pacientes.
Do mesmo modo, numa seguradora, os ganhos podem ser imensos. Imaginemos que um
inspector de seguros est a avaliar um sinistro no terreno. Ao usar o reconhecimento de voz,
possvel que, ao mesmo tempo que este est a descrever o caso, os dados do processo
comecem a chegar seguradora, permitindo que o cliente veja o seu caso resolvido muito
mais rapidamente.

Um exemplo tpico de aplicao do reconhecimento de voz so as centrais telefnicas
automticas, nas quais o utilizador pode dizer naturalmente que deseja falar com uma
determinada pessoa e o sistema repassa a chamada para o posto correspondente. Em caso
de dvida, por exemplo no caso em que se pede para falar com uma determinada pessoa e
existem mais pessoas com o mesmo nome na empresa/organizao, o sistema interage com
o cliente dando alternativas para que seja feita a escolha.

Ainda assim, o reconhecimento de voz est a comear a aparecer onde menos se esperava.
exemplo disso a rea dos jogos, onde se prev que num futuro prximo comecem a surgir
jogos totalmente comandados por voz. De incio, supe-se que as tcnicas de
reconhecimento comecem a ser aplicadas em jogos com pouca interaco e onde,
sobretudo, haja poucos sons ambientes, uma vez que estes iriam dificultar em muito o
processo de reconhecimento de voz. Os jogos de estratgia so os mais fortes candidatos a
serem alvo da aplicao destas tcnicas.

14
Solues existentes

Dragon Systems, Lernout & Hauspie (L&H), IBM e Philips so as maiores empresas que
actuam neste mercado. As duas primeiras fazem parte do mesmo grupo, desde que a belga
L&H (http://www.lhsl.com) comprou a norte-americana Dragon (http://www.dragonsys.com)
em 2000. H pouco mais de um ano, a Dragon detinha cerca de 60% do mercado de
sistemas de reconhecimento de voz, no mundo, com a IBM e L&H disputando cerradamente
o segundo lugar. A Dragon, no entanto, nunca investiu no desenvolvimento do
reconhecimento da lngua portuguesa, e a L&H no fez mais do que incluir o nosso idioma
entre as opes de dicionrio, no tradutor Power Translator. A IBM cedo demonstrou
interesse em criar uma verso para portugus do seu produto IBM ViaVoice
(www.ibm.com/speech), embora s numa verso orientada para o portugus brasileiro. A
Philips comercializava ainda bem pouco tempo o produto FreeSpeech 2000
(http://www.speech.philips.com), orientado para utilizadores em ambientes domstico e de
escritrio. Contudo, e talvez porque as perspectivas de futuro no eram muito prometedoras,
a Philips decidiu enveredar no desenvolvimento de produtos exclusivamente para
profissionais.

De um modo geral, todos os produtos, para alm de permitirem que o utilizador dite os seus
textos num processador de texto do tipo Microsoft Word, permitem criar macros para a
introduo de texto ou ditado com qualquer aplicao Windows. De igual modo, todos eles
(excepto o NaturallySpeaking) permitem comandos de voz fiveis para a inicializao de
programas e para correr macros de teclado/rato previamente criadas. Paralelamente, todos
os produtos disponibilizam algumas funcionalidades Web com capacidade de voz.

O Dragon NaturallySpeaking caracteriza-se pela sua facilidade de utilizao, incluindo a
formatao e a navegao na Web atravs de comandos de voz. Alm disso, como conta
com uma optimizao melhorada para novos processadores e com melhoramentos a nvel do
reconhecimento de voz e de comandos, o NaturallySpeaking disponibiliza uma exactido
impressionante (cerca de 95%). Este programa s prejudicado pelo facto de apresentar
um suporte limitado em termos de linguagem natural com outras aplicaes alm do
Microsoft Word. Em sua defesa, a sua funcionalidade NaturalWeb permite inserir facilmente
URLs e seleccionar ligaes nas pginas atravs da voz. O NaturallySpeaking conta ainda
com atalhos de formatao e de ditado intuitivos, bastando dizer "cap", por exemplo, ou "all
cap" para definir maisculas.

Com uma taxa de exactido de 94%, o L&H Voice Xpress disponibiliza tudo o que de bsico
se pode esperar de um programa de reconhecimento de voz. O ponto forte do programa
reside nos seus comandos intuitivos de linguagem natural para o Microsoft Word, para o
Excel e para o processador de texto simples do Voice Xpress. No entanto, as suas
funcionalidades de correco so limitadas, faltando-lhe, por exemplo, a reproduo udio.

O IBM ViaVoice, o mais avanado produto de reconhecimento de voz da IBM e disponibiliza
bastantes funcionalidades, tanto para ditados como para o controlo de aplicaes. O
ViaVoice ainda capaz de guardar o udio das ltimas mil palavras ditadas para reproduo,
algo que nos pode ajudar a corrigir enganos. Esta funcionalidade essencial se os
utilizadores quiserem delegar a edio a outra pessoa. Com uma exactido de 98%, este
produto actualmente o mais fivel do mercado.


15
Histrico do desenvolvimento de software de reconhecimento de voz

Final da dcada
de 1950
Primeiras pesquisas tecnolgicas para o reconhecimento de voz.
1964 IBM apresenta um sintetizador de voz para a fala de dgitos.
1978 A Texas Instruments lanou o primeiro chip dedicado sntese de voz.
1993 IBM lana o primeiro software comercial para reconhecimento de voz, o
IBM Personal Dictation System, para OS/2.
1993 Apple apresenta um conjunto de rotinas para Mac, para reconhecimento
e sntese de voz.
1993 Universidade Federal do Rio de J aneiro desenvolve Dosvox, com sntese
de voz em portugus, para deficientes visuais usarem PCs com DOS.
1994 Dragon Systems apresenta o Dragon Dictate para ditados.
1996 IBM apresenta o MedSpeak/Radiology, primeiro produto para
reconhecimento da fala contnua em tempo real.
1996 OS/2 Warp o primeiro sistema a embutir comandos de voz.
1997 Dragon Systems lana o primeiro programa de uso geral para
reconhecimento da fala contnua em ingls.
1997 IBM lana o ViaVoice, para fala contnua.
1998 IBM lana ViaVoice em portugus.
1998 MicroPower lana DeltaTalk, sintetizador de voz em portugus.
1999 Philips lana FreeSpeech 2000, com reconhecimento da fala em
portugus.
1999 Lotus e Corel acrescentam recursos de voz a seus pacotes de aplicativos.
2000 L&H adquire Dragon Systems e lana L&H Dragon NaturallySpeaking 5.0.
2001 Telemar lana Vocall, primeiro servio de voz aberto ao pblico, com
sntese e reconhecimento da fala, para e-mails e agenda.
2001 L&H colocada venda, por se encontrar em grave crise financeira.
2001 Microsoft acrescenta recursos de voz (para ditados e comandos) ao
Office XP. Na verso em portugus, essa facilidade est ausente.


16
Fontes

q Philips Speech Processing
www.speech.philips.com
q Indiatimes InfoTech How speech recognition works
http://www.indiatimes.com/infotech/help/software/voicereq.html
q Revista PC World Biometria: Reconhecimento de voz
http://pcworld.terra.com.br/pcw/testes/tecno_hard/0030.html
q Revista PC World Oua e seja ouvido! O computador j conversa com voc
http://pcworld.terra.com.br/pcw/testes/tecno_hard/0040.html
q GIGNews.com - Speech Processing for Games
http://www.gignews.com/fdlspeech1.htm
q Samsung Electronics Research Center in Russia
http://research.samsung.ru/surveys/1999-11/05-1.html
q ZDNet Portugal PC Magazine
http://www.zdnet.pt/pcmagazine/analises/software/0002/voz1.shtml
q Guia do PC
http://www.guiadopc.com.br/testes/viavoice.htm

q http://ciips.ee.uwa.edu.au/~roberto/research/speech/local/howsr.htm

Reconhecimento de Voz: Paulo José Dos Santos Guilhoto Susana Patrícia Costa de Sousa Rosa

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Reconhecimento de Voz: Paulo José Dos Santos Guilhoto Susana Patrícia Costa de Sousa Rosa

Enviado por

Direitos autorais:

Formatos disponíveis

1

Você também pode gostar