Escolar Documentos
Profissional Documentos
Cultura Documentos
de, além dos modelos de palavras formados pela con- que posteriormente são convertidas em uma seqüência
catenação das unidades fonéticas, costuma-se usar fonêmica. Mediante esta segmentação prévia, o
também um modelo estatístico da língua em questão. reconhecimento de fala contínua pode ser feito com o
O modelo de língua atribui probabilidades aos eventos mesmo método usado para palavras isoladas, sem a
de sucessão de palavras em frases que façam sentido necessidade do uso de algoritmos de busca, tais como
naquela língua [4]. Estes modelos reduzem a perple- o Level Building [7].
xidade2 a algumas dezenas, aumentando consideravel-
mente a taxa de acertos no reconhecimento e dimi- Fonema Exemplo Fonema Exemplo
nuindo o tempo gasto pelo algoritmo de busca.
Para saber quais unidades devem ser concatenadas
para formar uma determinada palavra, torna-se A basta k careca
necessário gerar modelos de pronúncia para cada
palavra do vocabulário. Os modelos de pronúncia são E dela l gazela
seqüências de fones ou fonemas, que indicam ao E mesmo L mulheres
mecanismo de reconhecimento quais unidades
fonéticas devem ser concatenadas para formar cada I dizem m nenhuma
palavra do vocabulário.
Nos sistemas mais modernos, que permitem ao O forte n na
usuário adicionar novas palavras ao vocabulário, a O bonito N sonhe
geração dos modelos de pronúncia é feita de forma
automática a partir da grafia das palavras. Para tanto, U guri p potente
fazem uso do mesmo algoritmo empregado pelos ~a manda r ser
softwares de síntese de fala (text-to-speech), que a
partir da grafia de uma palavra geram a sua pronúncia ~e homens R carro
(seqüência de fonemas) [5]. Uma maneira de fazer
~i importa s bons
com que estes sistemas de vocabulário grande tornem-
se sistemas de vocabulário ilimitado seria elaborar um ~o conforto t fonte
algoritmo que fizesse o caminho contrário: A partir de
uma determinada pronúncia, isto é, de uma seqüência ~u uns v jovem
de fonemas, gerar a correspondente grafia da palavra. B bula x chefe
O objetivo deste trabalho foi o de averiguar a
possibilidade de converter uma seqüência de fonemas D jurando z pesa
em uma ou várias seqüências de grafemas (letras
F fenda y mãe
formando palavras), sem usar nenhum tipo de tabelas
de pronúncia como se faz habitualmente [6]. Para tanto, G gonzos w pão
o que se fez foi descobrir regras específicas, aplicáveis
ao português do Brasil, de transformação de seqüências J gerentes
de fonemas em grafemas, possibilitando o uso de um Tabela 1: Fonemas da Língua Portuguesa
vocabulário ilimitado. A seção 2 traz uma breve
explicação da etapa de reconhecimento dos fonemas do Não faz parte do escopo deste artigo a descrição
português brasileiro, através de uma segmentação do detalhada do método utilizado na segmentação do
sinal de fala em semi-sílabas. Na seção 3 é apresentado sinal de fala. A descrição e o detalhamento da
o algoritmo de conversão de seqüências de fonemas em implementação do sistema completo foram
possíveis grafemas na língua portuguesa. A seção 4 apresentados como tese de doutorado [8]. A
trata dos resultados obtidos na conversão fala-texto e abordagem empregada no referido sistema foi a de
finalmente a seção 5 faz a conclusão, indicando as segmentar cada palavra a ser reconhecida em semi-
vantagens do uso deste algoritmo de conversão sílabas, que posteriormente são convertidas em uma
fonológico-grafêmica em sistemas de reconhecimento seqüência fonêmica, contendo também a indicação da
automático de fala. posição do acento tônico dentro da seqüência.
No entanto, qualquer outro sistema que realize o
reconhecimento de fonemas do português brasileiro,
II. RECONHECIMENTO DE FONEMAS
pode ser usado como entrada para o algoritmo de
conversão fonológico-grafêmica, desde que obedeça a
II.1 FONEMAS E SEMI-SÍLABAS
notação apresentada na Tabela 1. Esta notação difere
daquela padronizada pelo Alfabeto Fonético
A abordagem empregada para realizar o
Internacional apenas por razões de ordem prática,
reconhecimento de fonemas foi a de segmentar cada
visando facilitar a implementação computacional do
palavra a ser reconhecida em unidades sub-silábicas,
algoritmo de conversão fonológico-grafêmica.
A fim de conseguir a realização de todas as etapas
2
O conceito de perplexidade (PP) deriva do conceito de da conversão fala-texto, visando um vocabulário
entropia (H), sendo que PP = 2H. A perplexidade, quando limitado apenas pela estrutura da língua portuguesa,
aplicada a um modelo de língua, indica o número médio de tivemos de fazer algumas restrições. São elas a
palavras que podem seguir-se a uma palavra previamente exigência de pronúncia pausada e clara, principalmente
determinada.
45
das vogais, e a eliminação dos encontros vocálicos vogal-consoante não são permitidas no português, o
(ditongos e tritongos). Estas restrições foram feitas a mesmo acontecendo com algumas combinações
fim de facilitar a tarefa de segmentação, que exige a consoante-vogal, ambas assinaladas com um X na
identificação da vogal central de cada sílaba, e diminuir Tabela 2. Verificamos também que, quando
o número de possíveis semi-sílabas. futuramente forem considerados os encontros
A seguir apresentamos (Tabela 2) a relação das consonantais e os ditongos, o número destas
sílabas simples (consoante - vogal - consoante) que combinações proibidas cresce consideravelmente,
foram as escolhidas para esta fase de desenvolvimento aumentando ainda mais a viabilidade do presente
do sistema. Nesta relação elas já figuram divididas em enfoque.
semi-sílabas ascendente e descendente, pois assim serão
modeladas e treinadas. As semi–sílabas ascendentes II.2. BASE DE DADOS DE FALA
são formadas pela concatenação da consoante inicial
com a vogal central (indicadas com VOG na tabela. A base de dados de treinamento constitui um ponto
Analogamente, as semi–sílabas descendentes são chave para o bom desempenho de um reconhecedor
formadas pela seqüência de vogal central e consoante baseado em HMM, principalmente se forem
final (indicadas com CF na Tabela 2). empregadas funções densidades de probabilidade
CONSOANTES INICIAIS VOG CF contínuas, como é o caso deste projeto. Para treinar
satisfatoriamente os modelos, foram necessárias
- b d f G j k l L mn N p r R s t v x z - r s dezenas de gravações de cada uma das sílabas [2],
todas elas pronunciadas por um único locutor do sexo
masculino. Para captação do sinal de voz foi utilizado
a um microfone profissional unidirecional, em ambiente
sem isolação acústica (diante de um microcomputa-
E dor). A amostragem foi efetuada por uma placa de
som Sound Blaster 16-ASP da Creative Labs à taxa de
22 kHz, com 16 bits por amostra.
e
II.3. PARÂMETROS DO PROCESSAMENTO
DIGITAL DA VOZ.
i
As elocuções foram analisadas por meio de uma
O janela Hammig de 20 ms, aplicada a cada 10 ms em
um sinal pré-enfatizado pela função de transferência 1
- 0.95z-1. A seguir foram extraídos, para cada janela,
o 12 coeficientes mel–cepstrais [9], aos quais foi
acrescentado o valor do logaritmo da energia total de
cada segmento, normalizada pela energia máxima de
u
cada elocução. Também foram calculadas os parâme-
tros delta–mel e delta–energia (derivadas de primeira
~ X ordem), de acordo com a expressão
a
åQτ =1 τ( mt + τ − mt − τ )
~ X ∆mt =
2åQτ=1 τ 2
e
onde mt é o coeficiente mel–cepstral extraído na janela
X ~ X de tempo com índice t. Nesta implementação usamos
i Q = 2, ou seja, consideramos as diferenças entre os
X ~ X coeficientes de janelas adiantadas e atrasadas de 1 e de
o 2 intervalos de 10 ms. Portanto, o vetor de observação
é composto por 12 coeficientes mel–cepstrais, 12
X ~ X coeficientes delta–mel, log–energia e delta–log–
u energia, formando um vetor de 26 componentes.
Tabela 2 : Semi-sílabas simples
II.4. TOPOLOGIA DOS MODELOS OCULTOS
Pela Tabela 2 pode-se notar claramente a vantagem DE MARKOV
do uso da semi-sílaba, pois na língua portuguesa
qualquer sílaba termina em vogal (seguida ou não de r Foram considerados três modelos para cada sílaba:
ou s) ou em ditongo decrescente (seguido ou não de Um modelo de vogal, destinado a reconhecer a região
s). Os ditongos decrescentes não aparecem na tabela central da sílaba, um modelo para a semi-sílaba
por causa das restrições adotadas nesta fase de ascendente e outro para a descendente. Para todos eles
implementação do sistema. Sendo assim, existem foi utilizada a topologia left-right conforme ilustra a
poucas combinações possíveis para as semi-sílabas figura 1, sendo considerados 4 estados para as regiões
descendentes, mesmo porque várias combinações
46
ascendente e descendente e 3 estados para a região significado do signo tia; dizemos então que [t] e [tch]
central. são alofones do fonema / t / [11].
Em nível fonológico, por exemplo, temos as
0.4 0.7 1.0 variações de pronúncia das palavras mentira (
pronunciada / m~it`ira / ou / m~et`ira / ) e homem (
pronunciada como / `Om~ey / ou como / `~om~e / ).
æ æ 0.3 æ O algoritmo foi desenvolvido tendo em conta estas
0.2
1 à 2 à 3 variações de pronúncia em nível fonológico, de forma
que elas não impedem a obtenção da grafia correta,
ä
como é possível observar pelos exemplos mostrados
0.4 na Tabela 4.
Para se ter uma idéia da complexidade deste
Figura 1 : HMM usado para as vogais
algoritmo de conversão fonológico-grafêmica,
Os valores decimais que aparecem junto a cada apresentamos na Tabela 3 as regras relativas
uma das transições indicam a probabilidade de unicamente ao fonema / s / quando presente no meio
mudança ou de permanência em cada estado. Observe- da palavra (o sinal ~ indica negação lógica). Os
se que a somatória das probabilidades das transições comandos 2I e 3I na Tabela 3 são os responsáveis pela
de cada estado é sempre igual a 1. A cada estado está multiplicação de possibilidades grafemáticas, oriundas
associada uma função densidade de probabilidade de uma única seqüência fonêmica de entrada. De fato,
composta por uma mistura de 4 distribuições o número de possibilidades geradas pelo algoritmo
gaussianas, com matriz de covariância diagonal. O uso varia muito de acordo com o fonema visado e seu
preferencial da matriz de covariância diagonal respectivo contexto. Este fato pode ser verificado por
obedece a razões de ordem prática, pois o tempo de meio da Tabela 3, nas regras de decisão onde são
reconhecimento aumentaria bastante caso fossem averiguados os fonemas anteriores ou posteriores ao
utilizadas matrizes de covariância completas, o mesmo fonema / s /.
ocorrendo em escala muito maior com o tempo de A Tabela 4 mostra diversas seqüências de fonemas
treinamento. submetidas ao conversor fonológico-grafêmico e suas
respectivas saídas em forma de possibilidades
III. ALGORITMO DE CONVERSÃO grafemáticas. É interessante observar, em todos os
FONOLÓGICO-GRAFÊMICA casos mostrados na Tabela 4, que todas as
possibilidades grafemáticas, quando pronunciadas,
A entrada deste algoritmo será uma seqüência convergem para a mesma seqüência fonêmica de
fonológica (fonêmica) de acordo com a notação entrada.
apresentada na Tabela 1 e contendo a indicação da Isso explica em parte porque é tão fácil errar na
posição do acento tônico por meio de um apóstrofo. escrita das palavras, pois elas de fato podem ser
Antes de iniciar a transformação fonológico-grafêmica, grafadas de muitas maneiras diferentes. Ou seja, a
os fonemas são previamente analisados e através de grafia correta é uma convenção, determinada por
uma série de restrições impostas à seqüência fonológica razões de ordem histórica e filológica. O contrário
obtida, consegue-se uma depuração inicial, que visa também pode ser observado em alguns casos, isto é,
eliminar as seqüências de fonemas não permitidas pela diferentes seqüências de entrada geram a mesma
língua portuguesa. A seguir os fonemas são saída; como no caso da palavra homem, que é
classificados, de acordo com a sua posição na seqüência apresentada na tabela, sendo obtida por meio de dois
de entrada, em fonemas iniciais, mediais ou finais. diferentes modos de pronúncia.
Entram então em jogo as regras específicas para Na mesma tabela, a palavra de saída
cada fonema e seu contexto, isto é, seus antecedentes e ortograficamente correta foi assinalada em negrito por
subseqüentes dentro da palavra. Tendo a Lingüística e um corretor ortográfico de uso comercial3. Esta
a Filologia como fontes de conhecimento específicos correção ortográfica constitui a última fase do sistema
do português brasileiro [10], produz-se como saída completo de conversão fala-texto, com vocabulário
uma série de palavras, ordenadas por critérios ilimitado, a partir do português falado no Brasil [8].
probabilísticos extraídos do léxico, que formam o As possibilidades grafemáticas de saída mostradas na
assim chamado conjunto de possíveis grafemas para Tabela 4 são apresentadas pelo algoritmo por ordem
uma dada seqüência fonológica da língua portuguesa. de probabilidade, sendo as primeiras aquelas grafias
Procura-se considerar como “lícitas” diversas mais freqüentemente relacionadas com a seqüência
variações de pronúncia de algumas regiões brasileiras, fonêmica de entrada. Para obter esta hierarquia de
mas somente aquelas que acarretam diferenças na possibilidades e as regras de conversão fonema-letra,
transcrição fonológica. As de nível fonético são foi necessário um amplo trabalho de pesquisa e
absorvidas pelo reconhecedor de fonemas na classificação das grafias mais freqüentes, tomando-se
passagem para o nível fonológico. Como exemplo de por base todo o léxico da língua portuguesa [12].
variação de pronúncia em nível fonético temos o caso Como pode-se observar, no caso da seqüência
da palavra tia, na qual o fonema inicial / t / pode ser fonológica /ses`~aw/, apresentada na tabela, mais de
pronunciado usando-se o som plosivo [t] ou sua forma uma palavra ortograficamente correta é assinalada.
africada [tch]. A troca de [t] por [tch] não altera o
3
“ProVerb” versão 2.0 da empresa “PC software”.
47
48
50