Você está na página 1de 13

Dicionrios electrnicos de lxicos terminolgicos.

"Seguros"
ELISABETE MARQUES RANCHHOD*, CRISTINA MOTA**

Abstract

In this paper we discuss the issues raised by the integration in the dictionary
modules of the system DIGRAMA of a set of Portuguese technical terms belonging
to the area of Insurance.
We first refer to the linguistic analysis of those terms, to the formalisation of their
properties and to how they were introduced in the system. Afterwards, we describe
their implementation for Windows 95/NT, mentioning the main features of the
database associated with the terminology.
Given the recognised importance of terminologies and, in particular, of those
specifically developed for automatic use, it is our purpose to continue this work and
to develop other terminologies.

Faculdade de Letras da Universidade de Lisboa e Centro de Automtica da Universidade Tcnica de

Lisboa, Instituto Superior Tcnico


elisabet@label.ist.utl.pt
**

Centro de Automtica da Universidade Tcnica de Lisboa, Instituto Superior Tcnico

cristina@label2.ist.utl.pt

I WORKSHOP DA APL
SOBRE
LINGUSTICA COMPUTACIONAL
Lisboa, Maio de 1998

Dicionrios electrnicos de lxicos terminolgicos.


"Seguros"

Elisabete Ranchhod (FLUL/CAUTL)


Cristina Mota (IST/CAUTL)

1998

Dicionrios electrnicos de lxicos terminolgicos.


"Seguros"*
Elisabete Ranchhod, FLUL/CAUTL**
Cristina Mota, IST/CAUTL**

Palavras-chave: dicionrios electrnicos, terminologias, documentao automtica.

1. Introduo

Na prtica lexicogrfica corrente, costume distinguir os dicionrios de


termos tcnicos dos que no tm essa especificidade. Assim, so, por um lado,
elaborados dicionrios de lngua, ou de uso, e, pelo outro, dicionrios especializados,
ou terminologias, que contm lxico prprio de uma rea cientfica ou tcnica. Esta
separao justifica-se devido s dificuldades de ordem prtica que colocaria a
dicionarizao do elevado nmero de termos tcnicos existentes em qualquer lngua,
nmero que cresce incessantemente com o desenvolvimento cientfico e tecnolgico.
Em relao aos dicionrios electrnicos, contudo, essa dificuldade no se
coloca, ou, pelo menos, no se coloca da mesma forma. Os actuais instrumentos
informticos permitem tratar e manipular grandes quantidades de dados
lexicogrficos, desde que estejam devidamente formalizados.
Neste trabalho, referir-nos-emos aos mtodos de tratamento automtico de
um conjunto de termos pertencentes rea tcnica dos Seguros, a fim de serem

Estudo parcialmente financiado pelo Programa PRAXIS XXI (Proj. 2/2.1/CSH/775/95).

Gostaramos de deixar aqui um agradecimento muito especial a Vtor Franca, que colaborou na
apresentao oral que serviu de base a este artigo e na elaborao de algumas das informaes
especficas que constam da base de dados.
**

Faculdade de Letras da Universidade de Lisboa e Centro de Automtica da Universidade Tcnica de

Lisboa, Instituto Superior Tcnico Av. Rovisco Pais P1096 LISBOA.


elisabet@label.ist.utl.pt , http://www.ist.utl.pt/pt/investigacao/
**

Instituto Superior Tcnico/ Centro de Automtica da Universidade Tcnica de Lisboa.

Av. Rovisco Pais P1096 LISBOA.


cristina@label2.ist.utl.pt

integrados nos mdulos de dicionrios do sistema DIGRAMA. A apresentao est


organizada em duas partes: na primeira, proceder-se- a uma breve anlise dos
termos e indicar-se- o modo como foram introduzidos no sistema; na segunda, ser
descrita a sua implementao em Windows 95/NT, mencionando em particular as
caractersticas da base de dados associada terminologia.

2. Lxicos terminolgicos do sistema DIGRAMA

O lxico tcnico (terminologia) de que iremos falar constitudo por 632


termos. Estes dados foram recenseados em vrios tipos de aplices por Vtor Franca,
que os analisou e formalizou (Vtor Franca, 1997). As solues encontradas para a
sua integrao no sistema de dicionrios DIGRAMA1 so igualmente vlidas para
tratar dados terminolgicos pertencentes a outras reas tcnicas ou cientficas.
Antes de abordar a questo da formalizao dos dados e do seu posterior
tratamento informtico, referiremos o modo como se articulam os dicionrios
terminolgicos e os dicionrios gerais (no terminolgicos).
A separao de um e de outro tipo de dicionrios , como se aludiu acima,
frequentemente adoptada. Em consequncia, a anlise automtica de um texto
tcnico necessita de recorrer utilizao de um dicionrio terminolgico do domnio,
mas no pode evitar a consulta de um dicionrio geral. Na verdade, embora no
existam estatsticas sobre o assunto, no difcil verificar que qualquer texto tcnico
contm, em maior ou menor grau, vocabulrio corrente. A consulta aos dois tipos de
dicionrios, no parece trazer qualquer inconveniente, se se tiver em conta que nos
nossos dias os computadores j podem tratar com relativa rapidez quantidades de
dados de dimenses apreciveis. No entanto, esta soluo encontra outro tipo de
dificuldade. Se verdade que os textos tcnicos fazem uso do lxico geral, no
menos verdade que os textos no tcnicos podem incluir lxico terminolgico. H
termos que so frequentemente usados e aparecem com naturalidade em qualquer
tipo de texto, prestando-se, assim, a figurar num dicionrio geral. Se a no
estiverem, eles no sero reconhecidos em operaes de anlise de texto. o caso,
para dar exemplos da terminologia dos Seguros, de companhia de seguros ou seguro
1

Para uma breve caracterizao dos dicionrios de palavras simples e compostas do sistema

DIGRAMA, ver o artigo de E. Ranchhod neste volume.

de vida. Para evitar o inconveniente do no reconhecimento de uma palavra que,


sendo um termo, o uso consagrou como vocbulo corrente, as entradas que
estivessem nesta situao teriam de figurar no dicionrio geral e nos dicionrios
terminolgicos. Isso duplicaria indesejavelmente as entradas e criaria outra
dificuldade no trivial: a de decidir quais os termos que devem fazer parte do lxico
geral e quais os que a no tm cabimento. O problema da duplicao de entradas
ver-se-ia agravado pelo facto de alguns termos pertencerem a mais do que um
domnio tcnico ou cientfico, sem que haja argumentos convincentes para a sua
hierarquizao.
No que respeita introduo de terminologias no sistema DIGRAMA,
tommos a deciso de integrar os lxicos terminolgicos, devidamente identificados,
nos correspondentes dicionrios de palavras simples e compostas. Esta opo evita
alguns dos inconvenientes que se mencionaram, mas s poder ser plenamente
justificada pelos resultados experimentais obtidos por anlise de textos tcnicos e no
tcnicos de grandes dimenses (vrios milhes de palavras).

2.1. Introduo dos termos nos dicionrios do sistema


No sistema DIGRAMA, os lxicos terminolgicos recebem, pois, um
tratamento em tudo idntico ao do restante lxico. No que diz respeito terminologia
dos Seguros, os termos por que actualmente constituda foram, depois de
adequadamente identificados como tal, integrados nos mdulos dos dicionrios a que
pertencem: (i) os termos constitudos por palavras simples, como aplice,
sobreprmio, etc. figuram no DIGRAS; (ii) os termos que correspondem a palavras
compostas: aplice aberta, companhia de seguros, etc., foram includos no
DIGRAC. Adicionalmente constituiu-se uma base de dados com informaes
terminolgicas especficas, que vo sendo progressivamente melhoradas e
completadas, cujo funcionamento, autnomo ou no, ser descrito mais adiante.
Como acontece frequentemente com os lxicos terminolgicos, os elementos
da terminologia dos seguros so na sua esmagadora maioria constitudos por nomes
compostos. A codificao destes termos para utilizao automtica no difere

substancialmente da que foi definida para tratamento dos nomes compostos2 em


geral. Os nomes compostos tcnicos foram, de acordo com a sua constituio interna,
integrados em classes formais, o que, entre outras vantagens (por exemplo,
especificao de vrias zonas de pesquisa), permite prever comportamentos
morfolgicos tpicos. Formalizaram-se e codificaram-se as regras de variao
flexional de cada termo; especificou-se o gnero global do composto. No que
respeita aos termos que so palavras simples, os mtodos de tratamento so tambm
idnticos aos das palavras simples correntes.
Todos os termos, simples e compostos, so identificado com o seu domnio
tcnico ou cientfico atravs de um cdigo especfico; no caso dos Seguros, a esta
informao corresponde o cdigo TS. Estes cdigos identificadores podem ser usados
em combinao, a fim de permitir dar conta da pertena de um termo a mais do que
uma terminologia (situao frequente).

2.1.1. Formato das entradas


Tomando como exemplos os termos utilizados antes: aplice, sobreprmio,
aplice aberta e companhia de seguros, as correspondentes entradas lexicais tm o
seguinte formato:
aplice,N300,TS
sobreprmio,N200,TS
aplice aberta, N,NA1301,TS
companhia de seguros, N,NDN300,TS

Todas so nomes (N); aplice exclusivamente feminino (300), sobreprmio


exclusivamente masculino. As entradas compostas pertencem tambm aos nomes,
sendo a sua classe formal indicada pelo cdigo alfabtico que, separado por vrgula,
segue imediatamente o cdigo categorial (NA: nome + adjectivo; NDN: nome + de +
nome). A zona numrica contm informaes sobre a flexo do composto e sobre o
seu gnero global. Os dois constituintes do composto aplice aberta so flexionveis
no plural, sendo o gnero global do composto idntico ao do primeiro elemento
(1301); quanto a companhia de seguros, s a primeira palavra susceptvel de
2

Para uma anlise pormenorizada dos problemas postos pelo tratamento dos nomes compostos ver

BAPTISTA, J. (1994).

variao, variao do mesmo tipo da que apresenta quando no faz parte de um


composto; o gnero global do termo tambm idntico ao do primeiro constituinte.
Para alm desta descrio gramatical, a base de dados correspondente, contm
vrios tipos de informao complementar, organizada por diferentes campos. Parte
desta informao (nomeadamente a que est contida no campo notas tcnicas) no
est codificada e destina-se a ser exclusivamente usada por utilizadores humanos (em
ambiente informatizado, naturalmente).

3. Caractersticas gerais da base de dados terminolgica

Tal como j foi referido anteriormente, os dicionrios electrnicos


terminolgicos encontram-se integrados no sistema DIGRAMA, fazendo parte dos
dicionrios electrnicos gerais. A formalizao de um termo contm um cdigo que
indica a que terminologia(s) pertence esse termo. A informao terminolgica est
organizada numa base de dados que contm a informao especfica de cada termo,
colocada nos seguintes campos:

Nome: identificao do termo na sua forma cannica. Exemplo: seguro de


sade.

Notas Tcnicas: breve descrio do valor do termo, que corresponde, tanto


quanto possvel, a uma definio precisa do mesmo. A nota tcnica de seguro
de sade contm a seguinte informao: Modalidade que garante a
comparticipao em despesas com a doena ou, em caso de internamento
hospitalar, por doena ou acidente, para alm de um perodo de carncia
estipulado, o reembolso de despesas

inerentes necessria assistncia

cirrgica, medicamentosa e outras..

Variao gramatical: especifica as possibilidades de variao morfolgica


dos termos. No caso que nos serve de exemplo, o termo permite a flexo
plural do primeiro constituinte: seguros de sade.

Termos Equivalentes: lista de termos que tm o mesmo valor do termo que


estiver a ser descrito, no caso, seguro de doena. De notar que nem sempre
possvel preencher este campo, porque, na maior parte dos casos, cada termo
corresponde a um conceito nico. Nesta situao frequente, o campo ser
preenchido com (Nenhum).

Termos Relacionados: lista de termos que esto de alguma forma


relacionados com o termo que estiver a ser descrito e cuja consulta poder ser
indispensvel para uma melhor compreenso do mesmo. Trata-se de um
conjunto de termos unidos pelo mesmo campo nocional. Retomando ainda o
mesmo exemplo, encontram-se neste campo os termos: seguro de
internamento hospitalar, seguro de assistncia mdica hospitalar, seguro
indemnizatrio, seguro de indemnizao, seguro social, seguro de
acidentes e doena, seguro de cuidados de sade. Caso esta lista seja
vazia, o campo ser preenchido igualmente com (Nenhum).

4. Acesso aos dicionrios e base de dados

Figura

representa

esquematicamente

modo

como

se

inter-relacionam os vrios mdulos de dicionrios do sistema e sua articulao com a


base de dados.

Dicionrios DIGRAMA
de palavras simples e compostas
Base
de
Dados A

Terminologia A
Terminologia B

Base
de
Dados B

Terminologia C

Base
de
Dados C

Analisador
de
Texto

Ferramenta de Pesquisa
de
Termos

Figura A Comunicao entre os mdulos do sistema

Como se verifica, os vocbulos de uma terminologia fazem parte dos


dicionrios gerais respectivos, possuindo um cdigo prprio que indica em que base
de dados se encontra a informao terminolgica especfica. Dado que um termo
pode pertencer a mais do que uma terminologia, essa informao dada pela
combinao de mais do que um cdigo.

4.1 Ferramentas para utilizao das terminologias


As ferramentas elaboradas para manipulao das terminologias podem
pesquisar os dicionrios de duas formas: acedendo ao dicionrio geral e procurando
todos os termos que tm um cdigo que os identifica como elementos da(s)
terminologia(s) pretendida(s) ou, ento, acedendo apenas a um sub-dicionrio
(constitudo, no caso dos Seguros, pelas entradas marcadas TS), extrado
automaticamente dos dicionrios gerais. A pesquisa na base de dados pode ser feita
de forma autnoma ou passando primeiro por uma pesquisa nos dicionrios (ver
4.1.1 e 4.1.2).
Passaremos, ento, a descrever o funcionamento da ferramenta de pesquisa de
termos desenvolvida para Windows 95/NT e que foi testada com uma terminologia
de seguros, embora esteja concebida para qualquer outra terminologia.

4.1.1 Pesquisa de termos


Como se pode ver pela Figura B, a interface bastante simples e fcil de usar.
O utilizador apenas tem de ir seleccionando termos e consultando a informao
respectiva (operaes descritas nos pontos 2, 5 e 6). Em alternativa, este poder
introduzir um termo para que a ferramenta o encontre (operao descrita no ponto 7).
Estes dois tipos de utilizao correspondem a dois tipos de pesquisa
diferentes. Enquanto que no primeiro, a ferramenta pesquisa somente a base de
dados, fazendo um acesso directo mesma, no segundo a ferramenta faz a pesquisa
em duas fases: inicialmente consulta os dicionrios, extraindo a forma cannica do
termo introduzido e, em seguida, com base nessa forma, faz, ento, a pesquisa na
base de dados.

4
1

5
6

Figura B Funcionalidade da ferramenta de pesquisa

1 -- Corre a ferramenta de anlise de texto (ver 4.1.2).


2 -- Lista dos termos que constituem a terminologia. Seleccionando um termo
desta lista, visualiza-se a sua informao terminolgica na janela.
3 -- Descrio tcnica do termo seleccionado.
4 -- Informao sobre as variaes flexionais que o termo permite.
5 -- Lista de termos equivalentes ao termo seleccionado, no caso de existirem.
Seleccionando um termo desta lista, equivale a seleccion-lo na lista de
termos, ou seja, passa-se a visualizar a informao referente a esse termo.
6 -- Lista de termos relacionados com o termo seleccionado. Tambm possvel
seleccionar um termo desta lista para visualizao.
7 -- Permite ao utilizador introduzir um termo para visualizao, o qual passa a
estar seleccionado na lista de termos. A informao especfica
terminolgica actualizada na janela.
8 -- Trata-se de um filtro que o utilizador pode usar para visualizao de
informao parcial e especfica, por exemplo, alistar: (i) os termos que
comecem por uma dada letra; (ii) os que estejam num dado intervalo; (iii)
os que tenham uma determinada estrutura sintctica; (iv) os que contenham
uma determinada sequncia de caracteres, etc.

Para alm da seleco directa de um termo, possvel avanar para o termo


seguinte e anterior por ordem alfabtica, usando as setas (3e4) que esto na barra de
ferramentas. Tambm possvel avanar ou recuar por ordem de consulta, usando as
setas com cauda ( e ).
4.1.2 Anlise de texto
Com a ferramenta de anlise de texto, possvel aplicar qualquer dicionrio
do sistema DIGRAMA a um texto. Porm, quando o dicionrio aplicado corresponde
a uma terminologia, os termos que ficam em evidncia so os que constam da
terminologia escolhida. A informao terminolgica especfica correspondente pode
ser solicitada a partir da seleco de um desses termos no texto em anlise.
Por exemplo, na Figura C aplicou-se, numa primeira fase, a terminologia dos
seguros ao texto, surgindo a janela 1 que corresponde indexao dos termos
encontrados (e que estaro em evidncia no texto). Em seguida seleccionou-se o
termo seguros de vida para visualizao, surgindo a janela 2 que contm a
informao especfica desse termo.

Janela 1

Janela 2

Informao lexical extrada dos


dicionrios

Informao terminolgica extrada


da base de dados de seguros

Figura C Anlise de um texto usando uma terminologia de seguros

Ao contrrio do que acontece com a ferramenta de pesquisa de termos, o


analisador de texto faz sempre primeiro uma pesquisa nos dicionrios terminolgicos
para encontrar a forma cannica do termo e, s depois, que faz a pesquisa na base
de dados, nunca acedendo directamente mesma.

5. Desenvolvimentos futuros

Dada a reconhecida importncia das terminologias e, em particular, das que


so elaboradas com o objectivo especfico da sua utilizao automtica, nossa
inteno prosseguir este tipo de trabalho, alargando-o a novas terminologias e
melhorando alguns aspectos da formalizao lingustica que ainda no esto
adequadamente tratados. Mencionaremos apenas um que da maior importncia: a
ocorrncia de formas truncadas de termos mais extensos. Estas formas curtas, que
podem resultar de truncaturas do termo tanto esquerda como direita, aparecem
frequentemente nos textos, sendo imprescindvel, por diversas razes, lig-las
forma completa de que so uma reduo.
Do ponto de vista da implementao em Windows, dever-se-o introduzir a
breve trecho funcionalidades novas, entre elas, as que permitam criar e editar
terminologias, visando facilitar ao utilizador (e em particular aos linguistas) a
construo e manuteno das mesmas.
Outro objectivo equipar a base de dados com informao multimdia, a fim de
tornar mais atractivo e mais claro o contedo das terminologias.

BIBLIOGRAFIA
BAPTISTA, Jorge (1994), Estabelecimento e formalizao de classes de nomes
compostos, Tese de Mestrado, Faculdade de Letras da Universidade de Lisboa
(242p.).
BAUDOT, Jean (1984), A model for a Bilingual Terminology Minibank, Lebende
Sprachen, n2, Munique: Langensheidt (pp. 49-54).
ELEUTRIO S.; E. RANCHHOD; H. FREIRE; J. BAPTISTA (1995), A System of
Electronic Dictionaries of Portuguese. Lingvisticae Investigationes, XIX:1,
Amsterdam/Philadelphia: John Benjamins Publishing Company (pp. 57-82).
FRANCA, Vtor (1997), Um lxico terminolgico: Seguros, Tese de Mestrado,
Faculdade de Letras da Universidade de Lisboa (206p).
GROSS, Maurice (1986), Lexicon-Grammar. The Representation of Compound
Words, COLING-86, Bona (pp.1-6).
RANCHHOD, E.; S. ELEUTRIO (1996), Construo de Dicionrios Electrnicos do
Portugus. Problemas Tericos e Metodolgicos. In Actas do Congresso
Internacional sobre o Portugus, Lisboa: Colibri (pp. 265-282).
RANCHHOD, E. (1998), Dicionrios e anlise lexical automtica. In Actas do
Workshop sobre Lingustica Computacional da APL (no prelo).

Você também pode gostar