Você está na página 1de 10

Metodologias para Projeto e Aquisio de uma Base de

Dados Lingsticos Visando ao Treinamento e Avaliao de


Sistemas de Reconhecimento de Fala

Edmilson Morais
1
, Jussara M. Viera
2
, Pablo Arantes
2
,
Ana Cristina F. Matte
3


1
FEEC - Faculdade de Engenharia Eltrica e Computao, UNICAMP
2
IEL - Instituto de Estudos da Linguagem, UNICAMP
3
FALE - POSLIN - Estrutura Sonora da Linguagem, UFMG

{emorais}@decom.fee.unicamp.br
Abstract. The aim of this work is to describe a methodology for designing and
recording linguistic databases for training and evaluation of speech
recognition systems. All the methods presented on this paper were specifically
developed for Hidden Markov Model based speech recognition systems.
Moreover, the techniques and recommendations for database design and
recording presented here are specific for speech recognition applications such
as embedded systems for mobile phones, Palm-Top, Toys, audio and video
equipments and information kiosks.
Resumo. O objetivo deste trabalho descrever uma metodologia para projeto
e aquisio de bases de dados lingsticos, voltadas ao treinamento e
avaliao de sistemas de reconhecimento automtico de fala. Todas as
tcnicas para projeto de bases de fala descritas neste artigo sero voltadas
para sistemas de reconhecimento de fala baseados na tecnologia de Modelos
Ocultos de Markov e para tarefas especficas de reconhecimento de fala, tais
como: sistemas embarcados para telefonia mvel, Palm-Top, brinquedos,
produtos eletroeletrnicos (udio e vdeo), portais de voz e quiosques para
informaes.
1. Introduo

Todos os sistemas modernos de reconhecimento automtico de fala so baseados em
mtodos estatsticos tais como HMM (Hidden Markov Models) e ANN (Artificial
Neural Networks). Todos estes mtodos demandam, em geral, uma grande massa de
dados lingsticos para que sejam treinados e avaliados adequadamente. Alm disso,
muitos dos algoritmos utilizados nos sistemas de reconhecimento de fala so
dependentes de aspectos lingsticos e, portanto, requerem pesquisas e
desenvolvimentos especificamente direcionados para a lngua abordada. Conscientes
deste fato, alguns projetos e associaes foram criados na Europa e nos Estados Unidos
com o objetivo de projetar, coletar e distribuir bases de dados lingsticos para vrias
das lnguas faladas no mundo [1, 8, 9].

Apesar de algumas iniciativas Europias e Norte Americanas para construo de
bases de dados lingsticos datarem do incio da dcada de 90, at o presente momento,
os autores deste projeto desconhecem a existncia de uma base de dados lingsticos
III TIL 2118
sobre o portugus brasileiro, doravante PB, que tenha sido especificamente projetada
para motivar pesquisas e desenvolvimentos na rea de reconhecimento automtico de
fala no Brasil e que seja de domnio pblico. Em outras palavras, os autores deste
projeto desconhecem a existncia de uma base de dados voltada para o reconhecimento
de fala do PB, que seja de larga extenso, que tenha sido devidamente projetada,
adquirida e rotulada, e que esteja disponvel gratuitamente para Universidades e
empresas de base tecnolgica.

A soluo at ento adotada por muitos grupos de pesquisa no Brasil tem sido a
construo de bases de dados locais e de uso particular. Alunos de Mestrado e
Doutorado que trabalham com reconhecimento de fala tm despendido um tempo
enorme no desenvolvimento de bases que, em geral, no so construdas de maneira
apropriada e que, alm disso, no possuem a extenso suficiente para validar os novos
mtodos, tcnicas ou algoritmos propostos
1
. Outro ponto extremamente importante
associado ausncia de uma base de dados lingsticos, comum a vrios grupos de
pesquisa, a impossibilidade de uma comparao fidedigna dos resultados
experimentais obtidos entre os grupos.

Nos ltimos dez anos, inmeros grupos de pesquisa e empresas de base
tecnolgica tm sido criados na Europa, Estados Unidos e Japo [3] visando ao
desenvolvimento de sistema para reconhecimento automtico de fala. As seis reas mais
focadas para possveis aplicaes so: (1) Telefonia mvel, (2) Sistemas de informao
Portais de voz ou quiosques de informao, (3) Dispositivos de udio e vdeo, (4)
Dispositivos automotivos, (5) Brinquedos e (6) Palm-Top. A existncia de bases de
dados lingsticos para o Ingls, para o Japons e para vrias outras lnguas Europias,
tm sido de fundamental importncia para o sucesso de tais grupos e empresas.

Motivados pela enorme importncia que uma base de dados lingsticos, de alta
qualidade e de domnio pblico ter no desenvolvimento da rea de reconhecimento de
fala no Brasil, os autores deste trabalho vm por meio deste propor uma metodologia
para a construo de tal base de dados.

A Seo 2 deste artigo descreve em detalhes a metodologia proposta para projeto
e aquisio da base de dados. Nesta seo so apresentados detalhes sobre a escolha das
aplicaes-alvo, seleo dos locutores, projeto do corpus, gravao e etiquetagem das
sentenas, anlise das gravaes, licena de uso, documentao e disponibilizao do
material. A Seo 3 conclui este trabalho apresentando algumas consideraes finais.
2. Metodologia

Algumas das principais etapas na criao de uma base de dados lingsticos, voltada ao
treinamento e avaliao de sistemas de reconhecimento de fala, so:
Definio das provveis aplicaes-alvo
Seleo dos locutores
Seleo das sentenas a serem gravadas
Aquisio
Segmentao e etiquetagem

1
Infelizmente, muitas defesas de Tese na rea de Reconhecimento Automtico de Fala sobre o portugus
brasileiro, defendidas no Brasil, terminam com a velha retrica: No havia dados suficientes para validar
o algoritmo proposto.
III TIL 2119
Anlise da qualidade acstica das gravaes
Avaliao da qualidade vocal dos locutores
Licena de uso
Documentao e disponibilizao da base de dados

2.1. Definio das Provveis Aplicaes-Alvo

Treinar e avaliar sistemas de reconhecimento de fala capazes de operar com alto
desempenho em qualquer tarefa e/ou ambiente acstico um desafio que o estado-da-
arte da tecnologia de fala ainda no capaz de atingir. A maneira mais simples e
comumente utilizada para contornar este problema desenvolver sistemas especficos
para determinadas aplicaes e/ou condies acsticas. O desenvolvimento de tais
sistemas dependentes de tarefa demanda tecnologias especficas e bases de dados
lingsticos especialmente projetadas para tais fins. Partindo-se de tal premissa, toda a
metodologia apresentada neste artigo foi desenvolvida visando a aplicaes de
reconhecimento de fala especificamente voltadas para um nmero reduzido de
aplicaes-alvo:
Sistemas embarcados para telefonia mvel
Palm-Tops
Brinquedos
Produtos eletroeletrnicos (eletrodomsticos, sistemas de udio e vdeo...)
Portais de voz
Quiosques para informaes

A motivao para a escolha de tais aplicaes-alvo foi a realizao de alguns
estudos europeus indicando o potencial econmico de tais reas [2].

2.2. Seleo dos locutores

Recomenda-se que todos os candidatos a locutores sejam submetidos a um protocolo de
entrevista e avaliao. Este protocolo deve ser aplicado por especialistas em Lingstica
e Fonoaudiologia e deve possuir os seguintes itens:
Identificao. Aqui sero registradas informaes, tais como: nome, idade, data
de nascimento, sexo, cidade em que viveu na maior parte da infncia e da
adolescncia e a naturalidade dos pais. Outro item importante a ser registrado o
uso ou no de algum tipo de aparelho ortodntico ou prtese dentria.
Caracterizao da sade vocal: Aqui ser realizada uma caracterizao de
hbitos como fumo e ingesto de bebida alcolica. Uso de medicamentos (o que
inclui, por exemplo, anticoncepcional ou qualquer outro hormnio para
mulheres). Estado das vias areas superiores (laringe, faringe, nariz,
especialmente). Queixas vocais e auditivas. Possveis alteraes vocais (em
mulheres) associadas ao ciclo menstrual.
Avaliao de aspectos vocais e de produo da fala. Aqui sero avaliados
aspectos tais como: Ritmo, intensidade, qualidade vocal, nveis de
inteligibilidade, ressonncia e articulao.

No sero aceitos locutores que apresentarem as seguintes caractersticas:
Omisses, substituies, adies e transposies articulatrias, mesmo que se
constituam por razes sociolingsticas
III TIL 2120
Movimentos de mandbula que confiram uma articulao naturalmente travada
ou exagerada
Excesso de presso area na produo de fonemas plosivos (que possam levar a
variaes demasiadamente bruscas de amplitude)
Uso profissional da voz, por exemplo, locutores de rdio (por apresentarem uma
fala significativamente diferente da fala de um locutor padro)

As seguintes caractersticas sero toleradas nos locutores:
Protruso de lngua nos fonemas /t/, /d/, /n/, /s/ e /z/
Regionalismos quanto aos fonemas /r/, /t/, /d/, /s/ /j/
Graus leves de ressonncia vocal nasal, rouquido e soprosidade
Uso de aparelhos ortodnticos e prteses dentrias desde que a produo de fala
e voz satisfaa o nvel de qualidade desejado

O treinamento de sistemas de reconhecimento estatstico de fala demanda bases de
dados lingsticos ricas em variabilidades acsticas. A forma mais usual de se obter tais
variabilidades por meio de um nmero elevado de locutores, com caractersticas
dialetais diversas e com idades variadas. As Tabelas 1 e 2 a seguir apresentam sugestes
quanto ao nmero total de locutores e suas respectivas faixas etrias e distribuies
geogrficas e dialetais. A Tabela 2 leva em considerao tanto a diversidade de dialetos
quanto a importncia econmica da regio.

Tabela 1: Faixa etria dos locutores

Faixa etria N de locutores N de homens N de mulheres
De 18 a 30 anos 550 225 225
De 31 a 45 anos 300 150 150
De 46 a 60 anos 150 75 75
Total 1000 500 500

Tabela 2: Distribuio dialetal dos locutores

Regio/Estado Dialetos Populao nacional Nmero de
locutores
Sul Paranaense, Catarinense, Gacho 15% 200
So Paulo Regio metropolitana, Litonarneo, Centro
paulista, Oeste paulista
23% 225
Sudeste Carioca, Mineiro, Capixaba 21% 225
Nordeste Baiano, Pernambucano, Cearense 25% 275
Norte e Centro Oeste Centro Oeste, Amazonense 16% 75
Total 100% 1000

2.3. Seleo das sentenas a serem gravadas

As sentenas a serem gravadas devem ser definidas em funo das aplicaes-alvo.
Aspectos importantes a serem considerados durante o processo de construo ou seleo
destas sentenas so:
As sentenas devem ser lidas ou pronunciadas espontaneamente? Sentenas
lidas so adequadas ao treinamento de sistemas de reconhecimento de fala bem
articulada e pronunciada sem hesitaes. Sistemas visando ao reconhecimento
de fala espontnea devem ser treinados com o uso de bases de fala espontnea.
Quais as variabilidades fontico-acsticas que realmente so importantes no
treinamento e avaliao dos sistemas? As variabilidades espectrais limitadas aos
III TIL 2121
segmentos fonticos da fala (fones, difones e trifones nos mais variados
contextos) so as caractersticas mais relevantes para o bom treinamento de
sistemas de reconhecimento baseados em HMMs. Aspectos prosdicos ou supra-
segmentais no so, em geral, bem explorados pelos sistemas baseados em
HMMs e, portanto, sua presena na base de dados no muito relevante.
ou no importante incluir sentenas ou palavras especficas para as
aplicaes-alvo? Como os sistemas baseados em HMMs empregram mtodos
estatsticos que aprendem a partir dos exemplos de treinamento, de se esperar
que treinar o sistema com palavras que apresentem uma alta probabilidade de
ocorrncia durante o uso do sistema, ir provavelmente aumentar o desempenho
do mesmo. Entretanto, esta incluso de palavras especficas deve ser realizada
com cuidado para evitar grandes alteraes no balanceamento fontico-acstico
do corpus.
Como construir ou selecionar um conjunto timo de sentenas? Uma das
tcnicas mais usuais a de selecionar, a partir de um grande corpus (por
exemplo, sentenas extradas do Jornal Folha de So Paulo), um subconjunto de
sentenas que satisfaa as especificaes fontico-acsticas consideradas mais
relevantes. Alm das sentenas selecionadas, prtica comum, como citado
acima, a incluso de sentenas e/ou palavras especficas para as aplicaes-alvo
que se deseja contemplar.

A Tabela 3 apresenta uma sugesto para as sentenas, palavras e comandos a serem
gravados. importante enfatizar mais uma vez que os itens da Tabela 3 foram definidos
em funo das aplicaes-alvo citadas na Seo 2.1.

Tabela 3: Itens a serem gravados

Num. Itens Quantidade
1 Sentenas lidas 85
2 Sentenas foneticamente compactas 5
3 Palavras foneticamente ricas 5
4 Palavras/frases especficas p/ as aplicaes-alvo 150
5 Dgitos conectados 5
6 Dgitos contnuos 5
7 Nmeros telefnicos 5
8 Horas do dia 5
9 E-mail e endereos html 5
10 Dinheiro 5
11 Nomes de cidades 5
12 Nomes prprios 5
13 Dias da semana, ms, ano e datas importantes 5
14 Caracteres especiais de computador 5
15 Palavras soletradas 5
Total 300

A seguir so traadas algumas consideraes sobre os itens da Tabela 3

2.3.1 Sentenas lidas
Sugere-se a gravao de 85 sentenas foneticamente ricas para cada um dos 1000
locutores. O objetivo obter uma cobertura de todos os fones, bem como uma boa
cobertura dos difones e trifones mais freqentes do PB. O termo sentenas
foneticamente ricas no ser utilizado no sentido de uma distribuio de fonemas
similar distribuio tpica do PB. O termo sentenas foneticamente ricas ser
utilizado neste artigo para expressar:
III TIL 2122
Exemplos de treinamento suficientes para todos os fones, incluindo os fones
mais raros.
Boa cobertura dos difones e trifones mais freqentes. importante ressaltar a
necessidade de se respeitar um bom balanceamento dialetal.
Nmero mnimo de exemplos de um determinado fone, para toda a base de
dados, igual a 1000. Esta imposio somente deve ser relaxada para o caso de
fones considerados muito raros. Apenas 5% do total dos fones podem ser
considerados muito raros.

Para que seja alcanada uma boa diversidade acstica no conjunto de sentenas
lidas, recomenda-se:
No deve existir mais do que 5 exemplares idnticos de cada sentena em todo o
corpus.
Cada fonema deve ser pronunciado por pelo menos 95% dos locutores.

Um bom mtodo para a seleo das sentenas pode ser encontrado no site,
http://gps-tsc.upc.es/veu/personal/sesma/index.html

Com o objetivo de obter uma boa variabilidade de pronncias e de contornos
prosdicos recomenda-se:
Sentenas de tamanho variados, entre 8 e 12 palavras
90% de frases declarativas, 5% de frases exclamativas, 5% de frases
interrogativas

Todas as sentenas devem ser individualmente conferidas para verificar se no h
nada semanticamente ofensivo ou inapropriado.

2.3.2 Sentenas foneticamente compactas
Devem ser gravadas 5 sentenas foneticamente compactas. Estas sentenas devem
apresentar as seguintes propriedades:
Larga variabilidade fontico-acstica
Ser de fcil leitura, isto , devem minimizar possveis hesitaes ou dificuldades
de leitura por parte dos locutores

Estas sentenas foneticamente compactas devem ser comuns a todos os 1000
locutores. Estas sentenas devem ser segmentadas manualmente e utilizadas para o
treinamento inicial do sistema.

2.3.3 Palavras foneticamente ricas
Devem ser gravadas 5 palavras com contextos fonticos relativamente pouco
freqentes, raros, na lngua Portuguesa. Estas palavras devem ser utilizadas para
tentar satisfazer a condio de 1000 exemplares de cada fone em todo o corpus.

2.3.4 Palavras e frases especficas para as aplicaes-alvo
150 palavras/comandos e frases especficas para as aplicaes-alvo. A Tabela 4
apresenta alguns possveis exemplos para palavras/sentenas especficas:

Tabela 4: Exemplo de alguns comandos especficos para as aplicaes-alvo

Classes de comandos Exemplos de comandos especficos para aplicao
Comandos para ativar e desativar sistemas Ligar, desligar, cancelar, senha, ok, sair...
Dispositivos CD, DVD, PDA, MP3, microfone, vdeo cassete...
Conectividade Bluetooth, rede, servidor, cliente, sincronizar...
III TIL 2123
Navegao em diretrios Menu, diretrio, lista, opes, detalhes...
Edio de texto Copiar, colar, corrigir, ditar, adicionar, inserir...
Dispositivos de vdeo Maximizar, limpar, zoom, brilho, contraste, cor...
Dispositivos de udio Volume, aumentar volume, grave, agudo...
Navegao na Internet Internet, hyperlink, conectar, responder, enviar, urgente...
Funes para agendas eletrnicas Calendrio, agenda, apontamentos, contatos...
Lazer e diverso Cinema, teatro, arte, cultura, moda, comdia...

2.3.5 Sequncia de dgitos
5 dgitos isolados: Dgitos devem ser pronunciados com uma pausa entre eles.
Por exemplo - Dois, trs, nove, sete, um, zero...
5 dgitos conectados: Os dgitos devem ser pronunciados de forma contnua, sem
pausas entre eles. Por exemplo - Cinco - quatro - dez - um - dois - seis...
5 dgitos contnuos: Por exemplo - Dois mil quinhentos e cinqenta e dois

2.3.6 Nmeros telefnicos
5 nmeros de telefones. Escolher nmeros que representem discagens locais, estaduais
e internacionais.

2.3.7 Horas do dia
5 expresses de horas do dia. Por exemplo: Cinco horas da tarde. Dezessete horas...

2.3.8 E-mail e endereos html
5 descries de e-mails e endereos html.

2.3.9 Expresses descrevendo quantidade de dinheiro
5 sentenas descrevendo dinheiro. Por exemplo: oito mil trezentos e quarenta reais

2.3.10 Nomes de cidades
5 nomes de ruas. Por exemplo: Rua Treze de Maio, Avenida Brasil... Contemplar nomes
freqentes.

2.3.11 Nomes prprios de pessoas
5 nomes prprios (incluindo nomes e sobrenomes). Por exemplo: Joo Pedro da Silva.
Deve-se contemplar nomes prprios freqentes no Brasil.

2.3.12 Dias da semana, meses, datas importantes e feriados
5 expresses de datas. Por exemplo: Segunda-feira, Maro, 21 de Abril, Natal...

2.3.13 Caracteres especiais do teclado do computador
5 caracteres especiais de teclado de computador. Por exemplo: Arroba, Cifro...

2.3.14 Palavras soletradas
Soletrar palavras no uma prtica muito usual no PB (por se tratar de uma lngua
quase fontica) Entretanto, nos casos de alguns sobrenomes e nomes de cidades, o
soletrado pode s vezes ser importante. So recomendadas 5 palavras soletradas: 2
nomes de pessoas, 2 nomes de cidades e 1 seqncia aleatria de letras.

2.4. Aquisio

2.4.1 Software para aquisio
Recomenda-se que as sentenas e/ou palavras/comandos sejam lidas da tela de um
computador. O ideal seria a utilizao um software para aquisio com as seguintes
funcionalidades:
III TIL 2124
Cadastro das informaes do protocolo de entrevista e avaliao dos locutores,
ver Seo 3.2.
Conduo do processo de gravao, indicando aos locutores o que deve ser
pronunciado.
Visualizao grfica do sinal de voz gravado e aviso sobre possveis problemas
de saturao ou nvel muito baixo de sinal.

2.4.2 Cenrio de gravao
Sugere-se uma gravao em ambiente silencioso, sujeito apenas a rudos semelhantes ao
de um escritrio. A relao sinal/rudo (RSR) deve ser controlada na faixa entre 30 e
60dB, aproximadamente. Os autores deste artigo esto conscientes que algumas das
aplicaes-alvo sugeridas na Seo 3.1 estaro, muito provavelmente, sujeitas a RSR
acima de 60dB. Portanto, talvez fosse mais adequado a realizaes de gravaes em
diferentes cenrios, sujeitos a RSR na faixa entre 30 e 90dB. Entretanto, a aquisio de
uma base de dados em diferentes cenrios e sujeita a elevados nveis de rudo uma
tarefa deveras complexa. Outra tarefa no menos complexa a segmentao fontico-
acstica de uma base de dados que tenha sido adquirida em ambientes com elevado
nvel rudo. O que os autores deste artigo sugerem uma aquisio em ambiente de
escritrio e uma posterior mistura, aditiva ou convolutiva, do sinal gravado com rudos
diversos [6].

Com o objetivo de se obter diferentes relaes sinal-rudo, para o sinal gravado,
sugere-se a gravao, simultnea, de trs canais:
Gravao a curta distncia: entre 3 a 5 cm dos lbios do locutor.
Gravao a mdia distncia: entre 30 e 40 cm dos lbios do locutor.
Gravao a longa distncia: entre 100 e 110 cm dos lbios do locutor.

2.4.3 Equipamentos de gravao
LapTops providos de placa de som digital externa de alta qualidade. Microfones do
tipo headset de alta qualidade para realizao das gravaes a curta distncia.
Microfone de mesa localizado entre 30 e 40 cm do locutor para realizao das gravaes
a mdia distncia. Microfone de mesa localizado entre 100 e 110 cm do locutor para
realizao das gravaes a longa distncia.

2.4.4 Condies de gravao
Os trs canais devem ser gravados, simultaneamente, com taxa de amostragem de
22kHz e quantizados com 16 bits.

2.5. Segmentao e etiquetagem

Depois de gravadas, todas as sentenas devem ser transcritas ortograficamente. Esta
transcrio consiste na verificao do que realmente foi falado pelo locutor. Se houver
alguma diferena entre as sentenas originais e o que foi falado pelo locutor ento as
devidas correes devem ser efetuadas.

Deve ser realizada a transcrio ortogrfico-fontica de todas as palavras presentes no
corpus. Para que isto seja feito, torna-se necessrio a definio de um alfabeto fontico
e tambm a construo de um transcritor ortogrfico-fontico. A Tabela 5 apresenta
uma proposta para o alfabeto fontico a ser utilizado.


III TIL 2125
Tabela 5: Proposta para o alfabeto fontico a ser utilizado: SAMPA-PB

SampaPB IPA Ex. SampaPB IPA Ex. SampaPB IPA Ex. SampaPB IPA Ex.
Vogais plenas

d d data j j caixa

iw iw riu
a a saco

g g gata w w mau

Ow 5w sol
E seco(verb)

f I faca 6 n pria

ow ow sou
O 5 soco(verb)

s s saca Ditongos nasais

uw uw azul
e c seco(adj)

S j chata aNw n w mo

Iw w dirio
o o soco

v o vaca ANw n w bno

I@ o Drio
i i sico
z
z zaca aNj n j me

Uw ow cnsul
u u suvo
Z
jaca eNj c j dente

U@ oo cngruo
Vogais reduzidas

r r, y, x
carro
oNj o j pe

Ij j srie
A n saca

m m mata Ditongos orais

I& c crie
I saque

n n nata aj aj pai

Uj oj tnue
U saco

J p nhoque Ej j papis

U& oc tnue
& c pssego

R r prato ej cj eixo
I6
n
pria
@ o cmodo

l I galo oj oj pois
U6
on
contnua
Consoante de ataque

L t galho Oj 5j di
Alofonias importantes
p p pata

Fones em coda uj uj fui
T
tj
time
t t tata

N n, santo aw aw mau
D
d
dica
k k cata

5 s casca Ew cw cu

b b bata

4 ,x, r carta ew cw meu


Deve ser realizada uma transcrio fontica larga (no muito detalhada) de todas as
sentenas. Esta transcrio pode ser obtida atravs do uso de regras automticas para a
insero de possveis efeitos de co-articulao entre palavras. [5]

O ltimo passo a segmentao fontico-acstica das sentenas. A segmentao
manual de todas as sentenas a serem gravadas seria uma tarefa extremamente tediosa e
economicamente invivel. Por esta razo, a soluo proposta pelos autores deste projeto
a construo de segmentador fontico-acstico semi-automtico para o PB, baseado
em HMM [7].

2.6. Anlises

Avaliao acstica das gravaes: Realizao de algumas anlises acsticas para
verificar a qualidade sonora das gravaes (Relao sinal rudo, nvel de amplitude das
gravaes...).

Avaliao da qualidade vocal dos locutores: Realizao de algumas anlises para
caracterizar a qualidade vocal dos locutores (Qualidade acstica das vogais, Jitter,
Shimmer, taxa de locuo de cada locutor...).

2.7. Licena de uso

Deve-se preparar um termo de licena de uso a ser assinado pelos locutores,
disponibilizando os sinais gravados para os fins devidamente especificados.

2.8. Documentao e disponibilizao da base de dados

Documentao descrevendo todos os tens importantes relacionados com a definio das
III TIL 2126
aplicaes-alvo, seleo dos locutores, seleo das sentenas, aquisio, anlise,
avaliao da base de dados, licenas e disponibilizao do material.

Sugere-se a disponibilizao da base de dados por meio do uso de CD, DVD ou de
servios de ftp ou http.

3. Consideraes Finais

Neste trabalho foi apresentada uma metodologia para projeto e aquisio de bases de
dados lingsticos visando aos treinamentos e avaliaes de sistemas de reconhecimento
de fala. A metodologia foi desenvolvida tendo como nfase algumas aplicaes-alvo
consideradas comercialmente interessantes. No que diz respeito seleo dos locutores
a serem gravados, foi proposto um protocolo de entrevista e avaliao, bem como
distribuies dialetais e de faixa etria dos locutores. Foram discutidos aspectos
fontico-acsticos considerados importantes no projeto das sentenas a serem gravadas.
Uma descrio detalhada de um conjunto de itens a serem gravados (sentenas,
palavras, comandos, soletrado, dgitos...) foi apresentada. Consideraes sobre cenrios,
equipamentos e condies de gravao foram traadas. Discusses sobre transcries
ortogrficas, converses ortogrfico-fontica e segmentao fontica, semi-automtica,
foram apresentadas. Um alfabeto fontico foi proposto. Algumas anlises acsticas e
fontico-acsticas a serem realizadas aps a aquisio da base de dados foram
mencionadas. Finalmente, foram feitos alguns comentrios sobre licena de uso,
disponibilizao da base de dados e documentao.

Os autores deste trabalho acreditam que uma base de dados lingsticos para o
PB, de alta qualidade e de domnio pblico, ser de extrema importncia para o
desenvolvimento da rea de reconhecimento de fala no Brasil. Esperamos que este
trabalho possa, de alguma forma, contribuir para o projeto e aquisio de tal base de
dados.

Referncias

[1] LCD, Linguistic Data Consortium, http://www.ldc.upenn.edu/ . ELRA, European Language Resources Association,
http:/www.elra.info/. ELDA, Evaluations and Language Resources Distribution Agency,
http://www.elda.fr/sommaire.php
[2] SpeechDat projects., http://www.speechdat.org/. Speecon project., http://www.speechdat.org/speecon/index.html
[3] Empresas na rea de Tecnologia da Fala., http://www.scansoft.com, http://www.nuance.com,
http://www.research.att.com/programs/VES.html, http://www.research.att.com/programs/VES.html.
[4] Ynoguti C., A., Barbosa, P., A., and Violaro, F., A Large Speech Database for Brazilian Portuguese Spoken Language
Research, Proceedings of the VI Encontro para o Proc. Comp. da Lngua Portuguesa, PROPOR2003, Junho de
2003, Faro, Portugal. pp. 193-196, ISBN 3-540-40436-8.
[5] Albano, E. and A. Moreira, Archisegment-based letter-to-phone conversion for concatenative speech synthesis in
Portuguese, Proceeding of the ICSLP 96, vol 3, pp. 1708-1711, 1996.
[6] Couvreur, L., et al, On the use of artificial reverberations for ASR in highly reverberant environments. 2 IEEE
Benelux Signal Proc. Symposium, Hilvarenbeek, Holanda, Maro, 2000.
[7] Wightman, C., W., Talkin, T. D., The Aligner: Text-to-Speech Alignment Using Markov Models , Progress in
Speech Synthesis, Jan P. H. van Sante [et al], editors, chapter 25, pp. 313, Spring-Verlang, New York, USA, 1996.
[8] Listerri, J., et al, Corpus Orales para el Desarrollo de las Tecnologas Hable en Espaol , Oralia Anlisis del Discurso
Oral 8, 2005 (em prensa). http://liceu.uab.es/~joaquim/publicacions/Oralia_04.pdf
[9] Listerri, J., Transcripicn, Etiquetado y Codificacin de Corpus Orales , In Gmez Guinovart, J., et al (Eds.) Panorama
de la Investigacin en lingstica informtica. RESLA, Revista Espaola de Lingstica Aplicada, Volumen
Monogrfico. p. 53-82.
III TIL 2127

Você também pode gostar