Reconhecimento fala-texto português

Revista Científica Periódica - Telecomunicações ISSN 1516-2338
Conversão Fala-texto para o Português com Segmentação

Sub-silábica e Vocabulário Ilimitado
Francisco J. Fraga
Instituto Nacional de Telecomunicações - Santa Rita do Sapucaí - MG - Brasil
Resumo  A tarefa de implementação de um utilizados modelos de palavras inteiras [1], porém a

sistema de conversão fala-texto com vocabulário necessidade de treinar o sistema pronunciando-se
ilimitado, para o português falado no Brasil, pode diversas vezes cada palavra, necessariamente limita o
ser realizada mediante duas etapas consecutivas: O tamanho do vocabulário a poucas centenas de pala-
reconhecimento de fonemas por meio de uma vras. A solução se encontra no uso de modelos
segmentação sub-silábica e a conversão da (unidades fonéticas) menores, tais como sílabas, semi-
seqüência de fonemas em texto. Este artigo sílabas, fonemas ou alofones.
apresenta um sistema de reconhecimento No entanto, na medida em que é reduzido o
automático de fala com estas características, número de unidades a serem treinadas, quase sempre
descrevendo brevemente o método de segmentação se aumenta a taxa de erros, pois fenômenos tais como
juntamente com o reconhecedor de fonemas e mais as nasalizações e a coarticulação entre os diversos
detalhadamente o algoritmo de conversão fonemas são difíceis de modelar, devido ao elevado
fonológico-grafêmica. Este último é inteiramente número de diferentes contextos nos quais ocorrem [2].
baseado em regras extraídas da própria estrutura Observando-se a estrutura fonética do português
da língua portuguesa, permitindo a passagem do falado no Brasil, percebe-se que o fato de as vogais
nível dos fonemas para o das palavras sem recorrer ocuparem um papel de destaque (a proporção entre o
a nenhum tipo de tabelas de pronúncia. Desta número de vogais e o de consoantes é maior que a de
forma o sistema é capaz de reconhecer qualquer outros idiomas) sugere o uso de unidades de
palavra pertencente ao léxico da língua reconhecimento baseadas nas vogais, como é o caso
portuguesa, sem limitação com relação ao tamanho das sílabas, pois a vogal é sempre o centro da sílaba.
do vocabulário abrangido. Sendo assim, pode-se dividir cada sílaba em uma parte
ascendente, do início até o centro da vogal, e outra
Palavras–Chave  Reconhecimento de fonemas, descendente, do centro até o final. A estas partes da
modelos ocultos de Markov, sistemas fala–texto. sílaba assim definidas dá-se o nome de semi-sílabas.
Abstract  It is possible to implement a speech–to– O número de semi-sílabas do português é inferior a
text system with unlimited vocabulary by 700; dividindo-se este conjunto em grupos correspon-
connecting two subsystems: A phoneme recognizer, dentes a cada vogal, obtém-se sub-vocabulários da
which is performed by sub–syllabic segmenting the ordem de algumas dezenas, que é o tamanho ideal
incoming speech, and a phonologic–graphemic para o emprego bem sucedido da técnica HMM.
converter. This paper presents an automatic Outra questão relacionada com o tamanho do
speech recognition system with these features. The vocabulário é a necessidade do uso de modelos de
segmentation method and the phoneme recognizer pronúncia das palavras. Alguns sistemas de reconhe-
are briefly described while the phonologic– cimento automático de fala, especialmente desenvolvi-
graphemic converter is detailed. The algorithm dos para a língua portuguesa e atualmente implemen-
that allows the transition from the phoneme level tados com sucesso1, podem chegar a reconhecer um
to the word level is based on rules obtained from vocabulário de cerca de 60.000 palavras. Em tais sis-
the structure of the portuguese language. This task temas, o vocabulário pode ser expandido pelo próprio
is achieved without any kind of pronouncing tables, usuário, incluindo cada nova palavra que deseja que o
which allows the system to recognize any word that sistema seja capaz de reconhecer. No entanto, por
belongs to the portuguese lexicon, without mais extenso que seja o vocabulário assim formado,
limitation on the size of the vocabulary. ele nunca poderá ser classificado como ilimitado,
mesmo sendo flexível, pois cada nova palavra deverá
Index Terms  Phoneme recognition, hidden ser individualmente acrescentada ao vocabulário.
Markov models, speech–to–text systems. Esse procedimento está relacionado com o método
de reconhecimento de fala utilizado por esses siste-
I. INTRODUÇÃO mas. O método mais usado, por ser o que apresenta
melhor desempenho, é o de associar um modelo
Quando se pensa em construir um sistema de oculto de Markov a cada unidade fonética [3]. Em
reconhecimento de fala visando a geração automática geral, as unidades fonéticas correspondem aos fone-
de texto, logo se coloca a questão das unidades mas da língua na qual pretende-se realizar o reconhe-
fonéticas a serem utilizadas. A técnica dos modelos cimento de fala. Para os sistemas de vocabulário gran-
ocultos de Markov (“Hidden Markov Models -
HMM”) produz resultados excelentes quando são 1
Por exemplo, o “ViaVoice”, da empresa IBM.
44
Telecomunicações - Volume 04 - Número 02 - Dezembro de 2001

de, além dos modelos de palavras formados pela con- que posteriormente são convertidas em uma seqüência
catenação das unidades fonéticas, costuma-se usar fonêmica. Mediante esta segmentação prévia, o
também um modelo estatístico da língua em questão. reconhecimento de fala contínua pode ser feito com o
O modelo de língua atribui probabilidades aos eventos mesmo método usado para palavras isoladas, sem a
de sucessão de palavras em frases que façam sentido necessidade do uso de algoritmos de busca, tais como
naquela língua [4]. Estes modelos reduzem a perple- o Level Building [7].
xidade2 a algumas dezenas, aumentando consideravel-
mente a taxa de acertos no reconhecimento e dimi- Fonema Exemplo Fonema Exemplo
nuindo o tempo gasto pelo algoritmo de busca.
Para saber quais unidades devem ser concatenadas
para formar uma determinada palavra, torna-se A basta k careca
necessário gerar modelos de pronúncia para cada
palavra do vocabulário. Os modelos de pronúncia são E dela l gazela
seqüências de fones ou fonemas, que indicam ao E mesmo L mulheres
mecanismo de reconhecimento quais unidades
fonéticas devem ser concatenadas para formar cada I dizem m nenhuma
palavra do vocabulário.
Nos sistemas mais modernos, que permitem ao O forte n na
usuário adicionar novas palavras ao vocabulário, a O bonito N sonhe
geração dos modelos de pronúncia é feita de forma
automática a partir da grafia das palavras. Para tanto, U guri p potente
fazem uso do mesmo algoritmo empregado pelos ~a manda r ser
softwares de síntese de fala (text-to-speech), que a
partir da grafia de uma palavra geram a sua pronúncia ~e homens R carro
(seqüência de fonemas) [5]. Uma maneira de fazer
~i importa s bons
com que estes sistemas de vocabulário grande tornem-
se sistemas de vocabulário ilimitado seria elaborar um ~o conforto t fonte
algoritmo que fizesse o caminho contrário: A partir de
uma determinada pronúncia, isto é, de uma seqüência ~u uns v jovem
de fonemas, gerar a correspondente grafia da palavra. B bula x chefe
O objetivo deste trabalho foi o de averiguar a
possibilidade de converter uma seqüência de fonemas D jurando z pesa
em uma ou várias seqüências de grafemas (letras
F fenda y mãe
formando palavras), sem usar nenhum tipo de tabelas
de pronúncia como se faz habitualmente [6]. Para tanto, G gonzos w pão
o que se fez foi descobrir regras específicas, aplicáveis
ao português do Brasil, de transformação de seqüências J gerentes
de fonemas em grafemas, possibilitando o uso de um Tabela 1: Fonemas da Língua Portuguesa
vocabulário ilimitado. A seção 2 traz uma breve
explicação da etapa de reconhecimento dos fonemas do Não faz parte do escopo deste artigo a descrição
português brasileiro, através de uma segmentação do detalhada do método utilizado na segmentação do
sinal de fala em semi-sílabas. Na seção 3 é apresentado sinal de fala. A descrição e o detalhamento da
o algoritmo de conversão de seqüências de fonemas em implementação do sistema completo foram
possíveis grafemas na língua portuguesa. A seção 4 apresentados como tese de doutorado [8]. A
trata dos resultados obtidos na conversão fala-texto e abordagem empregada no referido sistema foi a de
finalmente a seção 5 faz a conclusão, indicando as segmentar cada palavra a ser reconhecida em semi-
vantagens do uso deste algoritmo de conversão sílabas, que posteriormente são convertidas em uma
fonológico-grafêmica em sistemas de reconhecimento seqüência fonêmica, contendo também a indicação da
automático de fala. posição do acento tônico dentro da seqüência.
No entanto, qualquer outro sistema que realize o
reconhecimento de fonemas do português brasileiro,
II. RECONHECIMENTO DE FONEMAS
pode ser usado como entrada para o algoritmo de
conversão fonológico-grafêmica, desde que obedeça a
II.1 FONEMAS E SEMI-SÍLABAS
notação apresentada na Tabela 1. Esta notação difere
daquela padronizada pelo Alfabeto Fonético
A abordagem empregada para realizar o
Internacional apenas por razões de ordem prática,
reconhecimento de fonemas foi a de segmentar cada
visando facilitar a implementação computacional do
palavra a ser reconhecida em unidades sub-silábicas,
algoritmo de conversão fonológico-grafêmica.
A fim de conseguir a realização de todas as etapas
2
O conceito de perplexidade (PP) deriva do conceito de da conversão fala-texto, visando um vocabulário
entropia (H), sendo que PP = 2H. A perplexidade, quando limitado apenas pela estrutura da língua portuguesa,
aplicada a um modelo de língua, indica o número médio de tivemos de fazer algumas restrições. São elas a
palavras que podem seguir-se a uma palavra previamente exigência de pronúncia pausada e clara, principalmente
determinada.
45

das vogais, e a eliminação dos encontros vocálicos vogal-consoante não são permitidas no português, o
(ditongos e tritongos). Estas restrições foram feitas a mesmo acontecendo com algumas combinações
fim de facilitar a tarefa de segmentação, que exige a consoante-vogal, ambas assinaladas com um X na
identificação da vogal central de cada sílaba, e diminuir Tabela 2. Verificamos também que, quando
o número de possíveis semi-sílabas. futuramente forem considerados os encontros
A seguir apresentamos (Tabela 2) a relação das consonantais e os ditongos, o número destas
sílabas simples (consoante - vogal - consoante) que combinações proibidas cresce consideravelmente,
foram as escolhidas para esta fase de desenvolvimento aumentando ainda mais a viabilidade do presente
do sistema. Nesta relação elas já figuram divididas em enfoque.
semi-sílabas ascendente e descendente, pois assim serão
modeladas e treinadas. As semi–sílabas ascendentes II.2. BASE DE DADOS DE FALA
são formadas pela concatenação da consoante inicial
com a vogal central (indicadas com VOG na tabela. A base de dados de treinamento constitui um ponto
Analogamente, as semi–sílabas descendentes são chave para o bom desempenho de um reconhecedor
formadas pela seqüência de vogal central e consoante baseado em HMM, principalmente se forem
final (indicadas com CF na Tabela 2). empregadas funções densidades de probabilidade
CONSOANTES INICIAIS VOG CF contínuas, como é o caso deste projeto. Para treinar
satisfatoriamente os modelos, foram necessárias
- b d f G j k l L mn N p r R s t v x z - r s dezenas de gravações de cada uma das sílabas [2],
todas elas pronunciadas por um único locutor do sexo
masculino. Para captação do sinal de voz foi utilizado
a um microfone profissional unidirecional, em ambiente
sem isolação acústica (diante de um microcomputa-
E dor). A amostragem foi efetuada por uma placa de
som Sound Blaster 16-ASP da Creative Labs à taxa de
22 kHz, com 16 bits por amostra.
e
II.3. PARÂMETROS DO PROCESSAMENTO
DIGITAL DA VOZ.
i
As elocuções foram analisadas por meio de uma
O janela Hammig de 20 ms, aplicada a cada 10 ms em
um sinal pré-enfatizado pela função de transferência 1
- 0.95z-1. A seguir foram extraídos, para cada janela,
o 12 coeficientes mel–cepstrais [9], aos quais foi
acrescentado o valor do logaritmo da energia total de
cada segmento, normalizada pela energia máxima de
u
cada elocução. Também foram calculadas os parâme-
tros delta–mel e delta–energia (derivadas de primeira
~ X ordem), de acordo com a expressão
a
åQτ =1 τ( mt + τ − mt − τ )
~ X ∆mt =
2åQτ=1 τ 2
e
onde mt é o coeficiente mel–cepstral extraído na janela
X ~ X de tempo com índice t. Nesta implementação usamos
i Q = 2, ou seja, consideramos as diferenças entre os
X ~ X coeficientes de janelas adiantadas e atrasadas de 1 e de
o 2 intervalos de 10 ms. Portanto, o vetor de observação
é composto por 12 coeficientes mel–cepstrais, 12
X ~ X coeficientes delta–mel, log–energia e delta–log–
u energia, formando um vetor de 26 componentes.
Tabela 2 : Semi-sílabas simples
II.4. TOPOLOGIA DOS MODELOS OCULTOS
Pela Tabela 2 pode-se notar claramente a vantagem DE MARKOV
do uso da semi-sílaba, pois na língua portuguesa
qualquer sílaba termina em vogal (seguida ou não de r Foram considerados três modelos para cada sílaba:
ou s) ou em ditongo decrescente (seguido ou não de Um modelo de vogal, destinado a reconhecer a região
s). Os ditongos decrescentes não aparecem na tabela central da sílaba, um modelo para a semi-sílaba
por causa das restrições adotadas nesta fase de ascendente e outro para a descendente. Para todos eles
implementação do sistema. Sendo assim, existem foi utilizada a topologia left-right conforme ilustra a
poucas combinações possíveis para as semi-sílabas figura 1, sendo considerados 4 estados para as regiões
descendentes, mesmo porque várias combinações
46

ascendente e descendente e 3 estados para a região significado do signo tia; dizemos então que [t] e [tch]
central. são alofones do fonema / t / [11].
Em nível fonológico, por exemplo, temos as
0.4 0.7 1.0 variações de pronúncia das palavras mentira (
pronunciada / m~itìra / ou / m~etìra / ) e homem (
pronunciada como / Òm~ey / ou como / `~om~e / ).
æ æ 0.3 æ O algoritmo foi desenvolvido tendo em conta estas
0.2
1 à 2 à 3 variações de pronúncia em nível fonológico, de forma
que elas não impedem a obtenção da grafia correta,
ä
como é possível observar pelos exemplos mostrados
0.4 na Tabela 4.
Para se ter uma idéia da complexidade deste
Figura 1 : HMM usado para as vogais
algoritmo de conversão fonológico-grafêmica,
Os valores decimais que aparecem junto a cada apresentamos na Tabela 3 as regras relativas
uma das transições indicam a probabilidade de unicamente ao fonema / s / quando presente no meio
mudança ou de permanência em cada estado. Observe- da palavra (o sinal ~ indica negação lógica). Os
se que a somatória das probabilidades das transições comandos 2I e 3I na Tabela 3 são os responsáveis pela
de cada estado é sempre igual a 1. A cada estado está multiplicação de possibilidades grafemáticas, oriundas
associada uma função densidade de probabilidade de uma única seqüência fonêmica de entrada. De fato,
composta por uma mistura de 4 distribuições o número de possibilidades geradas pelo algoritmo
gaussianas, com matriz de covariância diagonal. O uso varia muito de acordo com o fonema visado e seu
preferencial da matriz de covariância diagonal respectivo contexto. Este fato pode ser verificado por
obedece a razões de ordem prática, pois o tempo de meio da Tabela 3, nas regras de decisão onde são
reconhecimento aumentaria bastante caso fossem averiguados os fonemas anteriores ou posteriores ao
utilizadas matrizes de covariância completas, o mesmo fonema / s /.
ocorrendo em escala muito maior com o tempo de A Tabela 4 mostra diversas seqüências de fonemas
treinamento. submetidas ao conversor fonológico-grafêmico e suas
respectivas saídas em forma de possibilidades
III. ALGORITMO DE CONVERSÃO grafemáticas. É interessante observar, em todos os
FONOLÓGICO-GRAFÊMICA casos mostrados na Tabela 4, que todas as
possibilidades grafemáticas, quando pronunciadas,
A entrada deste algoritmo será uma seqüência convergem para a mesma seqüência fonêmica de
fonológica (fonêmica) de acordo com a notação entrada.
apresentada na Tabela 1 e contendo a indicação da Isso explica em parte porque é tão fácil errar na
posição do acento tônico por meio de um apóstrofo. escrita das palavras, pois elas de fato podem ser
Antes de iniciar a transformação fonológico-grafêmica, grafadas de muitas maneiras diferentes. Ou seja, a
os fonemas são previamente analisados e através de grafia correta é uma convenção, determinada por
uma série de restrições impostas à seqüência fonológica razões de ordem histórica e filológica. O contrário
obtida, consegue-se uma depuração inicial, que visa também pode ser observado em alguns casos, isto é,
eliminar as seqüências de fonemas não permitidas pela diferentes seqüências de entrada geram a mesma
língua portuguesa. A seguir os fonemas são saída; como no caso da palavra homem, que é
classificados, de acordo com a sua posição na seqüência apresentada na tabela, sendo obtida por meio de dois
de entrada, em fonemas iniciais, mediais ou finais. diferentes modos de pronúncia.
Entram então em jogo as regras específicas para Na mesma tabela, a palavra de saída
cada fonema e seu contexto, isto é, seus antecedentes e ortograficamente correta foi assinalada em negrito por
subseqüentes dentro da palavra. Tendo a Lingüística e um corretor ortográfico de uso comercial3. Esta
a Filologia como fontes de conhecimento específicos correção ortográfica constitui a última fase do sistema
do português brasileiro [10], produz-se como saída completo de conversão fala-texto, com vocabulário
uma série de palavras, ordenadas por critérios ilimitado, a partir do português falado no Brasil [8].
probabilísticos extraídos do léxico, que formam o As possibilidades grafemáticas de saída mostradas na
assim chamado conjunto de possíveis grafemas para Tabela 4 são apresentadas pelo algoritmo por ordem
uma dada seqüência fonológica da língua portuguesa. de probabilidade, sendo as primeiras aquelas grafias
Procura-se considerar como “lícitas” diversas mais freqüentemente relacionadas com a seqüência
variações de pronúncia de algumas regiões brasileiras, fonêmica de entrada. Para obter esta hierarquia de
mas somente aquelas que acarretam diferenças na possibilidades e as regras de conversão fonema-letra,
transcrição fonológica. As de nível fonético são foi necessário um amplo trabalho de pesquisa e
absorvidas pelo reconhecedor de fonemas na classificação das grafias mais freqüentes, tomando-se
passagem para o nível fonológico. Como exemplo de por base todo o léxico da língua portuguesa [12].
variação de pronúncia em nível fonético temos o caso Como pode-se observar, no caso da seqüência
da palavra tia, na qual o fonema inicial / t / pode ser fonológica /ses`~aw/, apresentada na tabela, mais de
pronunciado usando-se o som plosivo [t] ou sua forma uma palavra ortograficamente correta é assinalada.
africada [tch]. A troca de [t] por [tch] não altera o
3
“ProVerb” versão 2.0 da empresa “PC software”.
47

R1 Fonema posterior é vogal ou semivogal

R2 Fonema anterior é vogal oral Entrada : Entrada : Entrada :
R3 Palavra começa com / e / ou / ine / /Òm~ey/
/m~itìra/ /asÈsu/
R4 Fonema posterior é / E / Saída :
R5 Fonema post. é / e /, / i /, / ~e /, / ~i / ou / y / Omem
Saída : Saída :
R6 Fonema posterior é / ~o / ou / ~u / Homem
mintira acesso
R7 Fonema posterior é / E /, / e / ou / ~e / Ómen
mentira hacesso
R8 Fonema posterior é / ~i / ou / ~i / Hómen
mintera assesso
R9 Fon. anter. é vogal nasal, semivogal ou / R /
mentera hassesso
R10 Fonema anterior é / b /
aceço
R11 Fonema anterior é vogal nasal
haceço
R12 Fon. post. é / E /, / e /, / i /, / ~e /, / ~i /, / y /
Entrada : Entrada : asseço
LER FONEMA MEDIAL / s /
hasseço
/`~om~e/ /awz`~eti/
Se ~R1 → 2I ( x , s ) acesço
Saída : Saída :
Se R1R2~R3R4 → 2I ( c , ss ) hacesço
Se R1R2~R3~R4R5 → 3I ( c , sc , ss ) omem ausênti
assesço
Se R1R2~R3~R4~R5~R6 → 3I ( ç , sç , ss ) homem hausênti
hassesço
Se R1R2~R3~R4~R5R6 → I ( ss ) ômen alsênti acessu
Se R1R2R3R7 → 2I ( xc , ss ) hômen halsênti hacessu
Se R1R2R3~R7R8 → 3I ( c , sc , ss ) auzênti
assessu
hauzênti
Se R1R2R3~R7~R8~R6 → 3I ( ç , sç , ss ) hassessu
Entrada : alzênti
Se R1R2R3~R7~R8R6 → I ( ss ) aceçu
halzênti haceçu
Se R1~R2R9~R12 → 2I ( ç , s ) /ses`~aw/
ausente asseçu
Se R1~R2~R9R10 → 3I (c , sc , s ) Saída :
hausente
Se R1~R2R9R12~R11 → 2I ( c , s ) hasseçu
sessão alsente
Se R1~R2R9R12R11 → 3I (c , sc , s ) acesçu
cessão halsente
hacesçu
Se R1~R2~R9~R10~R12 → I(s) seção auzente
assesçu
Se R1~R2~R9~R10R12 → I(c) ceção
hauzente hassesçu
Tabela 3: Regras para o fonema medial / s / sesção
alzente
Nesse e em outros casos semelhantes, que são cesção
muito poucos na língua portuguesa, a decisão final halzente
entre as palavras só poderia ser feita por meio de uma
análise semântica da frase completa.
Tabela 4: Exemplos de conversão fonológico-grafêmica
realizadas pelo algoritmo
IV. RESULTADOS
palavra falada.
A base de dados de teste usada para obter as taxas Primeiramente mostraremos (Tabela 5) os
de acerto finais do sistema completo de conversão resultados para as n primeiras possibilidades
fala-texto é composta de 200 frases, pausadamente ortograficamente corretas geradas pelo sistema, para
pronunciadas por um locutor do sexo masculino. As cada palavra de cada uma das 200 frases pronunciadas.
frases continham 1729 palavras e 6988 fonemas,sendo As distribuições percentuais referem-se ao melhor
que destes 3496 eram vogais e 3492 eram consoantes. candidato encontrado desde o primeiro até o n-ésimo.
A etapa de reconhecimento de fonemas fornece ao A seguir apresentamos (Tabela 6) os resultados de
conversor fonológico-grafêmico não apenas uma, mas reconhecimento sem levar em conta a correção
várias possíveis seqüências fonêmicas para cada ortográfica, tomando as n primeiras possibilidades
48

este mesmo sistema, se o texto final gerado for

Fonemas Palavras Inserção Exclusão submetido a uma análise sintática e semântica,
Corretos Corretas Fonemas Fonemas desenvolvendo-se para tanto as ferramentas de
inteligência artificial correspondentes.
95,9 % 87,0 % 0,72 % 1,07 %
98,0 % 92,8 % 0,66 % 0,72 % V. CONCLUSÃO
98,6 % 94,4 % 0,63 % 0,69 % Descrevemos neste artigo a implementação de um
99,0 % 96,5 % 0,55 % 0,61 % sistema de conversão fala–texto, com segmentação
prévia da fala em semi–sílabas antes de proceder ao
Tabela 5: Resultados de reconhecimento para as primeiras
grafias corretas
reconhecimento dos fonemas. Com mais detalhe,
descrevemos o algoritmo que converte a seqüência de
grafemáticas geradas e comparando-as com a palavra fonemas reconhecidos em grafemas, inteiramente
realmente falada. baseado em regras extraídas da própria estrutura da
Podemos notar na primeira linha de cada tabela, que língua portuguesa, que permite passar do nível dos
os resultados de reconhecimento de palavras são fonemas para o das palavras sem recorrer a nenhum
pobres, se comparados aos resultados de tipo de tabelas de pronúncia. Utilizando como etapa
reconhecimento de fonemas. Porém, eles melhoram posterior um software de correção ortográfica, atingiu-
significativamente quando tomamos um maior número se uma taxa de acerto razoável no reconhecimento de
de possibilidades, mormente quando é usada a correção palavras, considerando que trata-se de um vocabulário
ortográfica. Nesse sentido, é interessante notar uma ilimitado.
diferença marcante entre o nosso sistema e aqueles Esta taxa aumentaria consideravelmente caso fosse
outros que utilizam-se de tabelas de pronúncia e implementada uma etapa posterior de pós-proces-
modelos de língua, onde a taxa de acerto para as samento de texto, realizado por um analisador sintático
palavras ou frases é sempre maior que a taxa de e semântico. Esse pós-processamento seria feito com
reconhecimento de fonemas [13]. base nas técnicas de processamento de língua natural
[14], porém adaptadas para esta finalidade específica,
Fonemas Palavras Inserção Exclusão como já se tentou fazer para o caso da língua alemã
[15]. Essa sugestão, integrando ao atual sistema
Corretos Corretas Fonemas Fonemas
algumas ferramentas de inteligência artificial, seria a
87,9 % 60,6 % 1,33 % 1,08 % melhor continuação que poderia fazer-se do presente
trabalho.
90,7 % 67,8 % 1,33 % 1,05 % REFERÊNCIAS
91,8 % 71,0 % 1,33 % 1,02 %
[1] L. R. Rabiner, B. H. Huang; An Introduction to
95,2 % 81,4 % 1,30 % 0,93 %
Hidden Markov Models, IEEE ASSP Magazine,
Tabela 6: Resultados de reconhecimento para as primeiras january 1986.
possibilidades grafemáticas
[2] Denis Jouvet; Modèles de Markov pour la
Esta é uma característica própria dos sistemas que reconnaissance de la parole, France, 1996. X. D.
visam um vocabulário grande porém limitado ; pois esta Huang, Y. Ariki, M. A. Jack; Hidden Markov
restrição permite, por eliminação, escolher a palavra ou Models for Speech Recognition, Edinburgh
University Press, 1990.
frase que melhor corresponde à seqüência fonética
reconhecida. Pelo contrário, no nosso sistema, que [3] CHIEN, L. F. ; CHEN, K-J. ; LEE, L-S. “A
almeja o reconhecimento de palavras pertencentes a um Best-First Language Processing Model
vocabulário ilimitado, as taxas de reconhecimento de Integrating the Unification Grammar and
palavras são e serão sempre inferiores às taxas de acerto Markov Language Model for Speech
dos fonemas. Isto porque não existe nenhum modo de Recognition Applications”. IEEE Transactions
restringir a busca pelas palavras corretas a não ser por on Speech and Audio Processing, vol. 1, nº 2,
meio da correção ortográfica, já implementada com pp 221-239, April 1993.
sucesso, e da análise sintática e semântica das frases, [4] VAN COILE, B. “On the Development of
sugeridas como trabalho futuro. Pronunciation Rules for Text-to-Speech
Por isso queremos chamar a atenção para a última Synthesis”. Proceedings of Eurospeech
linha da Tabela 5: A significativa melhora dos Conference, Berlin, Sep 1993, pages 1455-1458
resultados com o aumento do número de candidatos [5] ZHAO, Y. “A Speaker-Independent
considerados mostra que, se pudéssemos escolher Continuous Speech Recognition System Using
sempre o melhor dentre eles, alcançaríamos elevadas Continuous Mixture Gaussian Density HMM of
taxas de reconhecimento de palavras. Acreditamos Phoneme-Sized Units”. IEEE Transactions on
portanto que as altas taxas de reconhecimento de Acoustics, Speech and Signal Processing, vol.
fonemas (99%) e de palavras (96,5%), obtidas 1, nº 3, pp 345-361, July 1993.
quando se toma o melhor dentre os primeiros 6 [6] RABINER, L. Fundamentals of Speech
candidatos de palavras, não são uma meta inatingível. Recognition, Prentice Hall Press, 1993.
Estimamos que estas taxas poderão ser alcançadas por
49

[7] FRAGA, F. J.; SAOTOME, O. Conversão Fala- SOBRE O AUTOR

Texto em Português do Brasil Integrando
Segmentação Sub-Silábica e Vocabulário Francisco José Fraga da Silva nasceu em São Paulo,
Ilimitado. Tese de Doutorado, ITA, 1998. em 25 de setembro de 1965. Formou–se em Engenharia
[8] DAVI, S. ; MERMELSTEIN, P. Comparision Eletrônica com ênfase em Telecomunicações pela
of Parametric Representations for Monosyllabic Escola Politécnica da Universidade de São Paulo
Word Recognition. IEEE Trans. ASSP, vol. 28, (POLI-USP), em 1987. Foi pesquisador do Laboratório
pp 357-366, 1980 de Sistemas Integrados (LSI) da Escola Politécnica da
Universidade de São Paulo em 1988. Concluiu o
[9] SILVA,M.C.; KOCH, I.G. Lingüística
Mestrado em Engenharia Eletrônica pela mesma
Aplicada ao Português: Morfologia, Cortez,
instituição, no ano de 1991. Durante o ano de 1992 foi
1983.
professor colaborador do Instituto Tecnológico de
[10] LYONS, J. Introduction to Theoretical Aeronáutica (ITA) de São José dos Campos – SP. Em
Linguistics. Cambridge University Press, 1998 recebeu o título de Doutor em Ciência pelo
Cambridge, 1968. Instituto Tecnológico de Aeronáutica (ITA) de São José
[11] FERREIRA, AURÉLIO B. H. Novo Dicionário dos Campos – SP. Em 1999 desenvolveu softwares de
da Língua Portuguesa, Nova Fronteira, 1975. Reconhecimento Automático de Fala para as empresas
[12] MORAIS, E. S.; VIOLARO, F. “Sistema LG e Compo do Brasil., com resursos da lei de
Híbrido ANN-HMM para Reconhecimento de informática. Atualmente é Professor Adjunto em tempo
Fala Contínua”. Anais do XV Simpósio integral do INATEL, onde desenvolve e ministra cursos
Brasileiro de Telecomunicações, pp 117-120, nas áreas de Comunicação Digital e Processamento
Setembro de 1997. Digital de Sinais, nos níveis de Graduação, Pós-
[13] PEREIRA, F.C.N.; GROSZ, B. J. Natural graduação lato sensu e Mestrado em Telecomuni-
Language Processing, Elsevier, 1993. cações.
[14] MUDLER, J. “A System for Improving the E-mail: fraga@inatel.br
Recognition of Fluently Spoken German
Speech”. Proceedings of IJCAI, pp 633-635,
1983.
50

Reconhecimento fala-texto português

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Reconhecimento fala-texto português

Enviado por

Direitos autorais:

Formatos disponíveis

Revista Científica Periódica - Telecomunicações ISSN 1516-2338

Conversão Fala-texto para o Português com Segmentação

Instituto Nacional de Telecomunicações - Santa Rita do Sapucaí - MG - Brasil

Resumo  A tarefa de implementação de um utilizados modelos de palavras inteiras [1], porém a

Telecomunicações - Volume 04 - Número 02 - Dezembro de 2001

Telecomunicações - Volume 04 - Número 02 - Dezembro de 2001

Telecomunicações - Volume 04 - Número 02 - Dezembro de 2001

Telecomunicações - Volume 04 - Número 02 - Dezembro de 2001

R1 Fonema posterior é vogal ou semivogal

Telecomunicações - Volume 04 - Número 02 - Dezembro de 2001

este mesmo sistema, se o texto final gerado for

Telecomunicações - Volume 04 - Número 02 - Dezembro de 2001

[7] FRAGA, F. J.; SAOTOME, O. Conversão Fala- SOBRE O AUTOR

Telecomunicações - Volume 04 - Número 02 - Dezembro de 2001

Você também pode gostar