Você está na página 1de 23

A HOMONMIA NO PORTUGUS: TRATAMENTO SEMNTICO

SEGUNDO A ESTRUTURA QUALIA D E PUSTEJOVSKY


COM VISTAS A IMPLEMENTAES COMPUTACIONAIS

Claudia Z A V A G L I A

RESUMO: No presente trabalho, apresentamos uma proposta de tratamento semntico de formas ambguas do portugus do Brasil, no caso, lexias homgrafas, com o escopo de oferecermos estratgias lingsticas para a sua implementao computacional em Sistemas de Processamento das Lnguas Naturais (SPLN). O Lxico Gerativo de Pustejovsky foi usado como
modelo terico. Nesse modelo, a Estrutura Qualia - EQ (e os papis Formal, Tlico, Agentivo e
Constitutivo) foi selecionada como um dos expedientes lingstico-semnticos para a realizao da desambiguao das formas homnimas. Para que os dados analisados e tratados pudessem ser manipulados, elaboramos uma Base de Conhecimento Lexical (BCL) cujo repertrio lingstico possui seus itens lexicais correlacionados e interligados por diferentes tipos de
relaes semnticas presentes na EQ.
PALAVRAS-CHAVE: Homonmia; estrutura Qualia; lxico computacional; base de conhecimento lexical, processamento das lnguas naturais

Introduo
De acordo c o m Biderman (1996, p.27), "o lxico o lugar da estocagem da significao e dos contedos significantes da linguagem humana". A mesma autora ressalta
e m obra anterior:
o lxico pode ser considerado como tesouro vocabular de uma determinada lngua. Ele inclui a nomenclatura de todos os conceitos lingsticos e no-lingsticos e de todos os referentes do mundo fsico e do universo cultural, criado por todas as culturas humanas atuais
e do passado (BIDERMAN, 1981, p.138).

Departamento de Letras Modernas - Instituto de Biocincias, Letras e Cincias Exatas - UNESP - 15054-000 - So Jos
do Rio Preto - SP - Brasil. E-mail: zavaglia@lem.ibilce.unesp.br.

Alfa, So Paulo, 47 (2): 77-99,2003

77

Com efeito, o lxico de uma lngua abrange todas as palavras desse sistema l i n gstico, inclusive as gramaticais, que se encontram contempladas o u no e m dicionrios.
O lxico das lnguas naturais foi gerado por u m processo de nomeao, a partir do
momento em que o homem, por meio das palavras, passou a dar nome a todas as entidades que faziam parte do mundo que o circundava (BIDERMAN, 1998c).
Desde h muito tempo, o lxico t e m sido relacionado c o m a memria humana. De
fato, as entradas lexicais e m u m dicionrio so como registros da memria e m u i t o
provavelmente a estruturao do lxico se assemelha quela da memria, fato esse
que permite u m a recuperao rpida e veloz das palavras que o c o n s t i t u e m (BIDERM A N , 1981, p.28). C o m efeito, fala-se de Lxico Mental, isto , as palavras que se encontram estocadas na mente humana.
Quando nos referimos ao tratamento automtico das lnguas naturais, seja de variadas formas ou por variados mecanismos, estamos tratando essencial e primordialmente da estruturao de itens lexicais de u m a maneira formal, ou seja, de codificao e decodificao de dados. Na forma como sero armazenados esses dados, seja
e m listas imensas de palavras, seja por analisadores morfolgicos, seja por ndices alfanumricos em forma de cdigos, ou de qualquer outro modo, veriicar-se- u m a dependncia da estruturao lingstico-formal dos mesmos. A propsito, B i d e r m a n
(1998b) diz:
[...] o lxico est associado ao conhecimento e o processo de nomeao em qualquer lngua
resulta de uma operao perceptiva e cognitiva. Assim sendo, no aparato lingstico da memria humana, o lxico o lugar do conhecimento sob o rtulo sinttico de palavras - os
signos lingsticos. Eis por que precisamos comear a trabalhar com esta imensa galxia
de signos que devemos conhecer melhor. preciso desvendar o mistrio de como se estrutura o lxico da nossa lngua (BIDERMAN, 1998b, p.179).
nesse sentido que o computador est fadado a incompletudes, j que u m , dentre tantos, mistrios sobre a mente humana ainda , justamente, a forma como so estocados os dados na memria do homem. Por conseguinte, a forma de armazenamento de dados na memria de u m a mquina contm as mesmas (e talvez b e m mais)
obscuridades que o no-conhecimento sobre mecanismos mentais humanos gera para os pesquisadores. Nesse sentido, Button et al. (1998) afirmam:
A analogia entre "a mente" e "o computador" tambm foi contestada com base no fato de
que se equivoca sobre o funcionamento dos computadores e sobre a natureza dos programas que os dirigem (so neles executados). O ponto at onde os computadores podem ser
usados para simularem atividades humanas d uma impresso enganosa do grau em que o
computador est realmente "igualando" o desempenho simulado. Os computadores podem
ser capazes de gerar sries de palavras, smbolos matemticos etc, que correspondem corretamente aos requisitos da linguagem humana, sistemas de clculo etc, mas - para diz-lo

78

Alfa, So Paulo, 47 (2): 77-99, 2003

muito grosseiramente, por enquanto - a diferena crucial entre a simulao da mquina e o


desempenho humano que esse ltimo envolve o entendimento do que as sries de palavras e frmulas significam, ao passo que a primeira, no (BUTTON et al., 1998, p.12).
Biderman (1981, p.139) sugere:
[...] em virtude do nmero elevadssimo dos elementos do lxico e da complexidade combinatria resultante desse nmero, necessrio supor que o crebro organiza uma estrutura
dos dados lxicos de grande funcionalidade, para que ele possa recuperar em fraes mnimas de segundo (100 a 700 milissegundos) no s o significado de uma palavra, mas todas
as suas caractersticas gramaticais e os usos que lhe so adequados, conforme o contexto
do discurso, a situao momentnea e o registro lingstico requerido pela situao, pelo
interlocutor e pelo assunto.
Essa mesma autora nos diz que, provavelmente, o lxico est encadeado e m redes semnticas, i.e., a sua integrao est estruturada por vrios campos lxicos. E
ainda: "os padres neuronais da memria lxica devem ter estabelecido redes de ligaes entre os lexemas de modo funcional" (BIDERMAN, 1981, p.139). Da sua proposta
de Rede Semntica e Campo Lxico (BIDERMAN, 1981, p.140), a autora deduziu que a
associao entre signos estabelecida de duas maneiras: por contiguidade/similaridade e por oposio de contrrios. Inferimos, portanto, que as relaes semnticas da
sinonmia e da antonmia fazem parte, essencialmente, do conjunto de estruturao
do lxico mental de u m ser humano.
E m consonncia, Bogaards (1994, p.70-71) diz que as relaes entre os elementos
do lxico m e n t a l so de dois tipos: (i) relaes intrnsecas, que se baseiam nos diferentes tipos de informaes lingsticas (semnticas, morfolgicas, fonolgicas etc.) e
(ii) relaes associativas, que so baseadas na co-ocorrncia freqente de itens. No
que diz respeito natureza semntica das relaes intrnsecas, podemos descrev-las
e m termos de sinonmia, antonmia e hiponmia; por sua vez, as relaes associativas
baseiam-se no conhecimento de m u n d o e no conhecimento enciclopdico: palavra
guerra

so associadas palavras como morte,

combate,

misria

etc.

Tais concepes nos levam a acreditar que uma das maneiras de se ordenar a estruturao de lxico e m computadores poderia ser via Redes Semnticas e Associaes Semnticas. Essas redes poderiam organizar-se por meio de relaes semnticas
(hperonmia, sinonmia, antonmia, meronmia) j que, ao que tudo indica, essa seria a
forma que, possivelmente, mais se assemelharia estocagem de dados na mente h u mana.
E m conformidade, Bezerra (2002, p.3) enuncia:
Em nossa memria de longo tempo, ou memria profunda, armazenamos as unidades lexicais da lngua que falamos associadas em diversas combinaes: sintagmticas, paradigmticas, hiponmicas, conceituais, discursivas, dependendo dos modelos da lngua que fa-

Alfa, So Paulo, 47 (2): 77-99, 2003

79

amos e de nossas experincias anteriores ou de nossos esquemas culturais. Como no lxico que se cruzam informaes fontico-fonolgicas, semnticas, sintticas e pragmticas,
deve-se consider-lo em relao linguagem em geral, como uma competncia, neste caso, lexical, que o falante deve desenvolver, para ampliar sua competncia comunicativa.
Elaborar repertrios lexicais para serem tratados computacionalmente contribuiria, no somente para as cincias que se interessam por processamento automtico
de lnguas naturais, mas tambm para a formao de acervos lexicais para a memria
de computadores, e, conseqentemente, para a composio de seus "conhecimentos"
que pudessem servir a toda sorte de pesquisadores:
Sendo o lxico de uma lngua essencialmente abrangente e complexo, seria de se
esperar que fenmenos lingsticos igualmente complexos e abrangentes caracterizassem e fizessem parte da lngua natural qual ele se encontra vinculado.
U m desses fenmenos a homonmia, alm da polissemia, da sinonmia, entre outros. A homonmia e a polissemia causam o fenmeno da ambigidade; por conseguinte, temos de consider-lo como caracterstico de uma lngua natural.
Devemos observar, porm, que a ambigidade nao existe do ponto de vista do produtor do discurso, mas sim do seu receptor. De fato, quando u m falante produz u m texto, muito provavelmente, no se d conta de u m significado alternativo que possa existir no interior de seu discurso, seja ele falado ou escrito; ao contrrio, ele t e m b e m claro
em sua mente o que deseja expressar, como afirma Leffa (1998).
Ora, ser no mbito do lxico, b e m como dos fenmenos lingsticos geradoresde ambigidades interpretativas, que u m estudioso deparar-se- c o m inmeros e m pecilhos ao aventurar-se a descrever os seus mecanismos para o Processamento das
Lnguas Naturais (doravante PLN).
E m conformidade, Carvalho (2001, p.l) ressalta:
A ambigidade (lexical, estrutural), intrnseca a qualquer lngua natural, um dos aspectos
que maiores problemas colocam ao processamento automtico de um texto. A nvel lexical,
a ambigidade provocada pela homografia, que existe em qualquer lngua natural, mas
que particularmente abundante no caso das lnguas que, como o portugus, tm um sistema morfolgico bastante desenvolvido.
Dessa forma, o fenmeno da homonmia causa srios obstculos para o desenvolvimento do PLN, mxime para casos de homografia, e lingistas computacionais tent a m , insistentemente, buscar meios de fazer c o m que a mquina disponha de mecanismos interpretativos de desambiguao que se aproximem daqueles que o h o m e m
possui. Com efeito, Carvalho (2001, p.3) pe e m relevncia esse problema quando diz:
Ainda que os vrios casos de homografia de que temos vindo a falar no levantem, em geral, problemas aos falantes da lngua, eles representam, retomando a idia com que inicimos o captulo, um obstculo quase totalidade das operaes efectuadas ao nvel do tra-

80

Alfa, So Paulo, 47 (2): 77-99,2003

lamento automtico de textos escritos. A fiabilidade dos resultados de uma operao de


anlise extremamente simples, como por exemplo, a localizao num texto dos adjectivos
que ocupem uma posio pr-nominal, atravs da expresso regular: < A x N > est fortemente condicionada pela existncia de homografia entre as categorias descritas nessa expresso e outras categorias gramaticais.

Objetivos
Com o presente artigo, apresentamos uma proposta para o tratamento de itens lexicais homnimos da lngua portuguesa do Brasil, c o m vistas sua implementao
computacional, por meio de Base de dados relacionais, mais especificamente uma Base de Conhecimento Lexical (doravante BCL). A hiptese principal que se faz que o
fenmeno da homonmia passvel de tratamentos computacionais e que podemos
manipul-lo e m implementaes para base de dados lexicais c o m eficincia. Ressaltamos que o problema da homonmia gramatical resolvido, e satisfatoriamente, por
sistemas computacionais q u e realizam anlises morfossintticas automticas (parsers) que possuam desambiguadores. A mquina capaz de produzir solues de desambiguao sinttica de uma maneira bastante aceitvel. Entretanto, tais sistemas
no do conta de outros problemas de ambigidade, como a homonmia semntica e
a polissemia. Tal fato ocorre porque a mquina no t e m a capacidade de relacionar sem a n t i c a m e n t e itens lexicais e m meio a construes sintticas o u inseridos e m u m
contexto, como faz o homem, de forma inerente. Como situa Carvalho (200r, p.38): "As
mquinas no tm competncia lingstica, pelo q u e ' preciso dizer-lhes tudo, e
preciso dizer-lhes t u d o de forma completa, explcita e coerente'" ( R A N C H H O D apud
CARVALHO, 2001. p.38).
Assim, a ineficincia de desambiguadores de t i p o gramatical justifica a proposta
2

de u m a Base de dados conceituai, que ser proposta com a finalidade de suprir as necessidades de u m analisador sinttico , alm de atender possveis novos sistemas que
3

realizem tratamento semntico.


E m PLN, no que diz respeito ambigidade lexical, por exemplo, causada pela homonmia, o computador ter pelo menos duas possibilidades de interpretao para
u m a mesma forma. Para os casos de homonmia categorial, os resultados p o d e m ser
desastrosos se, ao invs de classificar uma forma contextualizada como verbo, o c o m 2 Carvalho (2001) aponta alguns casos problemticos de no resoluo de ambigidades causadas pela homografia, com
a aplicao de gramticas para a desambiguao, em anlises lexicais. Por exemplo, nos contextos seguintes, a mquina no etiquetou corretamente as palavras "muda" e "s" nos exemplos: (,..| visveis e a moda muda muito mais rapidamente. No existe, penso aquela |...| e sim. | | que a sua alma s entra em actividade vulcnica quando o politico
[..]. "As palavras "muda" e "s" foram reconhecidas como adjetivos, quando, na realidade, se trata de uma forma do verbo mudar e do advrbio s, respectivamente" (CARVALHO, 2001, p.93).
3 Zavaglia (1999) cita vrios casos de homografia categorial que no foram satisfatoriamente tratados pelo parser do Revisor Gramatical ReGra entre substantivo X adjetivo (lexia "cara", "tinta", "vaga", "polmica", "fluxo", "queda") e entre
substantivo X verbo (lexia "ajuda"), por exemplo.

Alfa, So Paulo, 47 (2): 77-99.2003

81

putador categoriz-la como substantivo, por exemplo. Para Revisores gramaticais a u tomticos, tais interpretaes errneas interferem na performance da ferramenta, gerando insatisfao para seus usurios.
Unir informaes semnticas s informaes de u m a gramtica formal, o u seja,
dot-la de u m a base de conhecimento de mundo, u m caminho para amenizar problemas de ambigidade em PLN, segundo a literatura atual. Desse modo, na gramtica formal seriam introduzidos marcadores semnticos que permitiriam mquina resolver casos de ambigidade segundo

u m esquema

de c o m p a r t i l h a m e n t o ou

no-compartilhamento de dados. De fato, Medeiros (1999, p.8) diz: "Os aspectos semnticos devem ser contemplados para solucionar problenlas no resolvidos pela anlise sinttica, como, por exemplo, o da ambigidade lexical e estrutural, e o das sinonmias".
Ainda que, no presente, no saibamos com preciso quais sero os resultados (positivos ou negativos) de suas aplicaes, temos a certeza de que informaes de c u nho meramente sintticas ou morfossintticas no mais satisfazem pesquisadores e m
Lingstica Computacional, pois so insuficientes no PLN. De fato, somente c o m a elaborao de Base de dados conceituais poder-se-o obter anlises de textos c o m bons
resultados.
A adoo do modelo sugerido por Pustejovsky (1995) deveu-se a pelo menos quatro componentes nele contidos: (i) atualizao terica, (ii) representatividade do significado, (iii) natureza computacional, (iv) aplicabilidade (Cf. Projeto SIMPLE e m LENCI,
1999). A idia de que o Lxico Gerativo (LG) capaz de dar conta do conhecimento
semntico global que temos sobre as palavras, segundo o prprio autor, faz dele u m
modelo adequado para solucionar o problema da representao lexical que envolve o
fenmeno da homonmia. Admitindo-se, portanto, que t a l suposio seja verdadeira,
tentaremos mostrar que a homonmia pode ser, realmente, definida conforme os parmetros de u m dos aspectos dessa teoria.

Investigao terica: o fenmeno da homonmia e


modelo semntico adotado
Da investigao terica que realizamos, detalhada e m Zavaglia (2002), constatamos que a homonmia, enquanto fenmeno de uma lngua natural, no mais intrigante e enigmtica do que a sua prpria definio, ou seja, a sua compreenso e a sua delimitao. Para defini-la, os autores oscilam entre critrios diacrnicos, convergncia
fontica, divergncia semntica, influncia estrangeira, polissemia homonmica, critrios sintticos e morfolgicos, distines estilsticas e sociais, ortografia, entre outros.
Por conseguinte, definimos como parmetros tericos de nossas pesquisas, no que
diz respeito ao fenmeno da homonmia, os seguintes postulados:

82

Alfa, So Paulo, 47 (2): 77-99, 2003

(I)

A homonmia o fenmeno lingstico em que se t e m a identidade de duas


lexias no plano da expresso, ou seja, formas perfeitamente iguais que se dist i n g u e m semanticamente (um significante para dois significados, no plano
do contedo) o u a identidade de duas construes gramaticais, gerando a
ambigidade. O primeiro refere-se homonmia lexical e o segundo homonmia estrutural.

(II)

Para a homonmia lexical, a igualdade de formas pode se realizar tanto graficamente como fonicamente. No primeiro caso, as lexias possuem identidade
de grafia (homografia) e, no segundo, identidade de som (homofonia). E assim, temos lexias homgrafas que: (i) so distintas quanto ao seu significado
e idnticas, tanto oralmente como gramaticalmente, caso esse denominado
de Homonmia Semntica; como: caboi. "Militar que t e m posio superior ao
soldado e inferior ao sargento" X cabo*

"Extremidade de u m objeto que ser-

ve para para segurar"; colniai. "Pas ou regio dependente de u m outro pas


em situao econmico-poltica superior" X colnia* "Lquido que serve para se perfurmar que possui uma essncia menos concentrada do que a do seu
extrato"; parbola i "Histria que contm u m fundo m o r a l ou religioso" X
parbola* "Curva cujos pontos so equidistantes de u m ponto fixo e de uma
reta fixa"; calarj. "Emudecer, no falar" X calara"Penetrar,

repercutir"; (ii)

so distintas quanto ao fato de pertencerem a classes gramaticais diversas e


serem idnticas oralmente caso esse denominado de Homonmia Categorial,
como: caai (substantivo) X caaz (verbo); calai (substantivo) X^ cala2 (verbo); (iii) so distintas quanto ao seu timo e idnticas oral e graficamente, caso esse denominado de Homonmia Etimolgica, como: mangai
malaiala manga.) X manga*

" F r u t o " (Do

"Parte do vesturio" [Do lat. manica, 'manga de

tnica'.]; (iv) so distintas na sua realizao oral, caso esse denominado de


Homonmia Heterfona , nas quais o substantivo realiza-se fonicamente co4

mo [e] e o verbo como [ej, para a vogal "e", como nos seguintes exemplos:
acertoi

(substantivo) Xacertoz

(verbo); comeoi (substantivo)

Xcomeo2

(verbo)
(III) As lexias homfonas so aquelas distintas na grafia e idnticas no som, como
por exemplo: sensor:

"dispositivo" Xcensor,

"crtico":

cesso

"ato de ce-

der" X seo: "segmento, diviso" X sesso: "espao de tempo que dura uma
reunio, u m ato"
(IV) J a homonmia estrutural realiza-se quando temos duas construes gramaticais idnticas c o m sentidos diferentes:
no carro que andava) X Entrei

Entrei

no carro andando

no carro andando

(entrei

(entrei no carro enquanto

eu andava).

Forma que possui grafia idntica a de uma outra (orma e ambas se pronunciam diferentemente.

Alfa, So Paulo, 47 (2): 77-99, 2003

83

A organizao conceituai da BCL assemelha-se quela de u m thesaurus,

j que

os itens lexicais se encontram correlacionados e interligados por diferentes tipos de


relaes semnticas. Atualmente, para os estudos de PLN, o levantamento e a identificao das relaes lxico-semnticas entre as palavras so de extrema importncia,
j que fundamentais como fontes de recursos lingsticos para implementao c o m putacional. De fato "a informao lexical e semntica instrumento indispensvel para programas que analisam e 'compreendem' textos e m lngua natural" (DEL FIORENTINO, 1995, p.8).
E m nossa concepo, pressupomos que u m dos maiores problemas de ambigidade interpretativa para o PLN, a saber, o fenmeno da homonmia, pode ser tratado a
partir de subsdios lingsticos oferecidos mquina, tais como as relaes semnticas de itens lexicais em redes de significao.
As definies, b e m como as entradas das formas homgrafas, que c o n s t a m da
amostragem de nossa pesquisa, foram extradas do Dicionrio Didtico de Portugus
de Biderman (1998a), doravante DDBI. A escolha desse dicionrio foi devida, p r i n c i palmente, cuidadosa elaborao dos verbetes para os homnimos, por parte de sua
autora, b e m como ao critrio de delimitao para uma forma homnima, a saber: aquele de base semntica. Alm disso, em sua elaborao, a autora utilizou-se de u m corpus representativo da lngua portuguesa do Brasil e valeu-se de dados de freqncia
lexical para a constituio da sua nomenclatura. Vejamos o exemplo:
ato s.m. a-to. Ao humana, considerada do ponto de vista objetivo e no durante o^
seu transcurso. Todo mundo responsvel por seus atos. Este foi um grande ato de coragem! Este bombeiro merece uma medalha. O chefe dispensou o funcionrio; foi um
ato justo.
1

ato s.m. a-to. 1. Solenidade ou cerimnia para marcar um fato. Os grevistas marcaram
um ato pblico para s 16:00h. 2. Deciso publica emitida por uma autoridade e publicada em dirio oficial. O governador admitiu novos funcionrios, atravs de uma ato administrativo, que o dirio oficial publicou ontem. 3. Evento que se registra, porque representa um acordo comercial, ou de natureza permanente entre as partes. O marido e a
mulher devem estar presentes no ato de venda de uma propriedade comum ao casal.
2

ato s.m. a-to. 1. Cada uma das divises de uma pea de teatro. O drama est dividido
3

em dois atos. 2. Momento considerado como dramtico. O ltimo ato da vida deste ditador ser provavelmente sangrento.
Tabela 1 - Exemplo extrado do D D B I (BIDERMAN, 1998a, p l l 7 ) .

A T O uma forma que possui 3 conceitos ou significados diferentes no interligados entre si, i.e., u m significante c o m trs significados; trata-se, portanto, de formas
homnimas. O sentido

explicado ou definido por "ao humana, considerada do

ponto de vista objetivo e no durante o seu transcurso". J o sen tido

possui trs acep-

es, separadas entre si por caracteres numricos; trata-se de u m a forma homgrafa

84

Alfa, So Paulo, 47 (2): 77-99,2003

que possui trs sentidos correlatos entre si e, portanto, polissmicos. Por sua vez, o
sentido

possui duas definies, sendo considerada tambm u m vocbulo polissmi-

co, como exemplificado para o

sentido .
2

Os sentidos das entradas apresentadas na Tabela (1) so identificados do seguinte modo: ato 0_1 / 0_2a / 0_2b / 0_2c / 0_3a / 0_3b, e m que:
a) cada forma homgrafa classificada por meio de u m cdigo de identificao
que contm duas partes separadas por u m trao: X_X;
b) a primeira parte , justamente, a classificao-identificao de forma homgrafa, a partir de u m caractere numrico, a saber: 0_X, e m que " 0 " representa "forma homgrafa":
c) a segunda.parte do cdigo corresponde ao nmero de ocorrncias da homografia para aquela forma, a partir de u m caractere tambm numrico: 0 _ 1 ; 0_2
(identifica uma forma homgrafa que possui dois significados);
d) a segunda parte do cdigo pode conter, tambm, u m caractere alfabtico que
identifica a ocorrncia da polissemia para cada forma homgrafa: 0 _ l a , 0 _ l b ;
0_2 (identifica u m a forma homgrafa que possui dois significados, cujo primeiro polissmico, c o m dois sentidos), indicada e registrada no interior do verbete, geralmente, por meio de caracteres numricos.
No mbito computacional, os termos genuse

differentia,

emprestados de Arist-

teles , foram introduzidos por Amsler (1980), a partir do momento e m que toda defini5

o de u m a entrada lexical (ou definiendum)

de u m dicionrio padro, segundo o au-

tor, pode ser analisada como u m a seqncia constituda por u m t e r m o indicador do


genus e por u m outro indicador da differentia.

Os dicionrios convencionais possuem

uma tipologia de definio prpria, i . e., apresentam u m i t e m lexical considerado como sendo o ncleo da definio que antecedido ou seguido por modificadores.
Os modificadores do genus terminus tm papel importante e fundamental na definio do conceito da entrada lexical. De fato, eles constituem as differentiae

da defi-

nio e oferecem indcios de significao que delimitam o conceito no interior da definio expresso pelo genus

terminus.

Por taxionomia entende-se "palavras baseadas e m relaes especficas existentes, geralmente, entre o definiendum

e o genus terminus e m uma definio lexicogr-

fica padro" (CALZOLAPJ et al., 1991, p.25).


Partindo-se da afirmao de que as definies contidas e m u m dicionrio possuem informaes semnticas (AMSLER, 1980), buscamos estabelecer a taxionomia
existente para as formas homgrafas c o m categoria idntica, no caso, nome. Como
ponto de partida para essa estruturao, foram identificados os genus terminus de ca-

Dentre muitos de seus feitos e contribuies, (o estabelecimento da lgica formal, por exemplo), Aristteles estabeleceu a
distino entre atributos: o gnero, a espcie, a diferena, o prprio e o acidente. Segundo o filsofo, o gnero se refere
classe mais ampla a queosuieito pode pertencer: "O homem um animal" e a diferena permite situar o sujeito relativamente s subclasses em que se divide o gnero: "O homem animal racional" (ARISTTELES 2000. pl7, grifo do autor).

Alfa, So Paulo, 47 (2): 77-99.2003

85

da entrada homgrafa, b e m como para cada acepo semntica. De fato, u m a forma


homgrafa, no interior de sua definio, possui significados polissmicos, como, por
exemplo, em: ato (uma acepo), ato
1

(trs acepes) e ato

(duas acepes), como

descrito anteriormente.
A nossa metodologia partiu do pressuposto de que a definio de cada u m dos
sentidos de u m lema contm pelo menos uma relao semntica entre o prprio lema
e o genus

terminus

ou tambm entre o lema e a dieientia

das definies (DEL

FIORENTINO, 1995).
A extrao do genus terminus das definies das entradas lexicais de u m dicionrio u m a etapa importante e essencial para que se realize u m a organizao taxionmica de u m repertrio lexical, segundo u m a estrutura hereditria e m termos de h i peronmia. Com efeito, o genus terminus ser localizado no vrtice dessa estrutura.
Uma lngua natural utiliza-se de u m a enorme variedade de realizaes lexicais
e/ou sintticas para expressar os conceitos do mundo elaborados nessa lngua. De fato, o lxico de uma lngua, b e m como a sua realizao sinttica, imensurvel; at hoje, tem-se, efetivamente, apenas aproximaes de realizaes lexicais e no confirmaes de nmeros finitos. U m dicionrio buscar se servir, portanto, de todos os recursos
lingsticos de que uma lngua possui para poder expressar o conceito de u m i t e m lexical. Tais conceitos so definidos por meio de relaes semnticas que os itens lexicais da definio do definiendum

mantm entre si.

A partir das definies do DDBI (BIDERMAN, 1998a) formalizadas, procedemos


extrao do genus terminus e da sua relao semntica com o definiendum,

ou seja, a

taxionomia. Alguns tipos de relaes semnticas, e seus princpios, interessam de modo particular ao modelo semntico que propomos para a organizao da base de dados lexical. O significado de cada i t e m lexical pertencente a essa base estruturado,
justamente, a partir das relaes semnticas que o conceito desse i t e m lexical m a n tm c o m outro i t e m lexical. De fato, os conceitos so interligados e m uma "cadeia significativa", ou seja, por meio de associaes. Cada i t e m lexical situa-se e m u m determinado lugar dessa cadeia e todos eles so correlacionados, por meio de conexes,
queles com os quais possui pelo menos uma relao semntica.
Segundo Picoche (1992, p.138):
[...] um fato biolgico que os homens sejam aptos a perceber diversos nveis de abstrao
e a passar facilmente de um para o outro; uma propriedade universal da linguagem humana ser capaz de explicar e de condensar, de poder exprimir em mais de uma palavra aquilo
que dito em uma palavra (expansion - expanso) e de poder [...] resumir em uma palavra
aquilo que dito com mais de uma palavra (condensation - condensao).
Tal afirmao no se aplica a u m computador, ao contrrio. A mquina perceber
nveis de abstrao se a ela forem oferecidos dados para t a l , fato esse que vale t a m 6

Se isso for realmente possvel.

86

Alfa, So Paulo, 47 (2): 77-99, 2003

bm para as capacidades de expanso e condensao. A mesma autora ainda diz que


todo homem que dotado da fala manipula espontaneamente conjuntos de sinnimos
e at mesmo as suas equivalncias. E m contrapartida, a mquina dever apresentar
procedimentos artificiais para a manipulao desses sinnimos e de seus equivalentes.
A decomposio do significado proposta por Pustejovsky (1995) e m sua teoria
capaz de oferecer caminhos para que u m a mquina recupere u m conjunto de sinnimos e/ou equivalentes para u m a determinada unidade lxica. Com efeito, a partir do
m o m e n t o e m que a definio de u m i t e m lexical apresenta o seu contedo por meio
de relaes de significao c o m outros itens lexicais em uma cadeia significativa, itens
sinnimos (se existirem) podem ser recuperados para uma unidade lxica. O mesmo
aplicar-se- busca/recuperao de itens hipernimos, hipnimos, antnimos, mernimos. Com efeito, para o autor, u m lxico gerativo caracterizado como u m sistema
computacional que envolve, no mnimo, quatro nveis de representao: (i) Estrutura
A r g u m e n t a i {Argument

Structure),

e m que se t e m a especificao do nmero e do t i -

po de argumentos lgicos e como eles so realizados sintaticamente; (ii) Estrutura de


Evento {Event Structure),

na qual h a definio do tipo de evento de u m i t e m lexical

e u m a frase. I n c l u i eventos do tipo ESTADO, PROCESSO e TRANSIO que podem


ter u m a estrutura de subeventos; (iii) Estrutura Ouala {Qualia Structure)

que inclui

modos de explicao compostos pelos papis F O R M A L , CONSTITUTIVO, TLICO e


AGENTIVO e (iv) Estrutura de Herana Lexical (LexicalInheritance

Structure),

e m que

se t e m a identificao de como uma esttutura lexical se relaciona c o m outras estruturas e a sua contribuio para a organizao global do lxico.
Assim, Pustejovsky (1995, p.62) prope que a semntica de u m i t e m lexical " a " seja definida como uma estrutura composta por quatro componentes:
a = < A , e, X, Y > em que:
7

A a estrutura argumentai; e a especificao do tipo de evento; K estabelece o


vnculo desses dois parmetros na Estrutura Qualia e Y determina qual informao
hereditria na estrutura lexical global.
A nosso ver, Pustejovsky (1995) procura recuperar as dimenses do significado de
u m i t e m lexical a partir dos conceitos individuais de outros itens lexicais, tendo como
ponto de partida a natureza do significado inerente e j cristalizado nas unidades lxicas. Neste caso, a afirmao de Richelet (sc. XVII) de que u m a definio " u m discurso que explica nitidamente a natureza de uma coisa" (apud PICOCHE, 1992, p.140)
vlida e pertinente.
A partir do momento que Pustejovsky (1995) especifica quatro papis fundamentais do significado de uma palavra na Estrutura Qualia (Constitutivo, Formal, Tlico e

Adaptao nossa da simbologia da teoiia de Pustejovsky (1995)

Alfa, So Paulo, 47 (2): 77-99, 2003

87

Agentivo), o autor est delimitando o significado por meio de marcas distintivas . De


8

fato, cada u m dos aspectos essenciais do significado de u m i t e m lexical possui traos


que os especificam:
Constitutivo ou Partes Constituintes (Constitutive),

i.e., aquele que exprime a

relao entre u m objeto e suas partes constituintes;


Formal {Formal), o u seja, aquele que identifica o objeto e m u m domnio mais
amplo;
Tlico {Telic), aquele que expressa o objetivo/escopo e a funo do objeto;
Agentivo (Agentive),

i.e., aquele que considera fatores envolvidos na origem do

objeto.
Retomando os mesmos exemplos citados acima, confiramos:
ato$0_l
"CONST=

Qualia -

AGENT

'

CONST

= ao

FORMAL
TELIC

ato$0_2a

Qualia -

= agir
=

T E L I C = comemorar

ato$0_2c

Qualia =

T E L I C = decidir
AGENT

Qualia =

AGENT =

FORMAL = divlSi
TELIC = dividir

ato$0_3b

CONST =. pea
)

TELIC = acordar

F O R M A L = deciso

ato$0_3a

CONST =
Qualia -

CONST

F O R M A L = solenidade

AGENT

ato$0_2b

CONST = v i d a
Qualia =

AGENT =

FORMAL =
TELIC =
AGENT =

Para Picoche (1992, p.140), e m u m a definio lingstica, o que importa a especificidade, ou seja, a indicao de traos distintivos pertinentes a u m i t e m lexical que
o diferenciar de outros itens lexicais.

Base de conhecimento lexical: uma sugesto de modelo


E m nossa proposta, os dados que figuram na Base de Conhecimento Lexical - BCL
se encontram dispostos de modo a poderem ser utilizados e m uma rede semntica e m
sistemas computacionais, u m a vez que possuem caractersticas e propriedades da
mesma.
A elaborao de recursos lexicais que contenham informaes semnticas faz-se
importante para sistemas que tratam da desambiguao dos sentidos das palavras,

Cabe lembrar que no necessariamente todos os papis qualia devem estar preenchidos.

88

Alfa, So Paulo, 47 (2): 77-99,2003

como por exemplo, a Traduo Automtica, a Recuperao de Informao, Motores de


Busca, entre outros.
A semntica capaz de resolver muitos casos de homografia na linguagem falada
e escrita. Tendo e m vista a pragmtica do discurso e o seu poder de desambiguao,
a ambigidade gerada pelos homnimos na fala satisfatoriamente resolvida. Ao contrrio, em u m contexto de escrita, a ambigidade u m dos grandes inimigos da interpretao correta de u m texto. O homem, enquanto falante de u m a lngua, possui i n tuies interpretativas que o levam a resolver certas ambigidades de u m a lngua
natural de forma at mesmo inconsciente. Inversamente, o computador no possui tais
intuies e u m dos maiores desafios dos lingistas computacionais justamente esse,
ou seja, tentar transportar para a mquina os mesmos mecanismos de interpretao
desambiguadora prprios dos seres humanos.
O modelo de representao aqui proposto contm informaes de tipo semntico
e morfossinttico. Essas ltimas restringiram-se classe gramatical, ao gnero e ao
nmero das palavras. E m contrapartida, privilegiamos o tipo de informaes semnticas, introduzindo uma srie de relaes semnticas entre as palavras que tm o escopo de, justamente, resgatar de forma minuciosa o significado de cada i t e m lexical e m
questo.
E m PLN, sabe-se da importncia que se atribui a esses dois tipos de componentes, dado que pesquisadores na rea afirmam que a sintaxe no prescinde (e no deve
prescindir) da semntica e m anlises automticas. De fato, Salton (apud MEDEIROS,
1999, p.64) afirma que "a sintaxe sozinha no resolve muitas ambigidades que complicam a tarefa de anlise de contedo" e ainda, Binot (1991, p.61) ressalta que "essa
necessidade de informao semntica reconhecida h m u i t o tempo: a resoluo de
ambigidades, elipses, atos do discurso deve apoiar-se no sentido das palavras e no
contexto do discurso". Da mesma forma Hagge e Duarte (1995) defendem que analisadores somente sintticos o u somente semnticos do conta apenas de u m a parte
do tratamento da linguagem e que nos dias de hoje ningum nega a necessidade de
considerar a lngua de u m ponto de vista sinttico e semntico.
Nos mesmos moldes de SIMPLE (LENCI, 1999) e ItalWordNet (e suas antecessoras WordNet e EuroWordNet, (CALZOLARI, 2000), e m que se procurou esquematizar
por meio de correlaes cada hipnimo ao seu hipernimo (e vice-versa) gerando, assim, u m sistema de hereditariedade do tipo lexical, neste trabalho, realizou-se u m esforo de individualizar os hipnimos e os hipernimos das formas homnimas, c o m o
intuito de estabelecer u m sistema de hereditariedade semntica. Por conseguinte, u m
i t e m homnimo identificado, caracterizado e desambiguado a partir das caractersticas que herda de seu hipnimo (ou das outras relaes semnticas c o m as quais
mantm ligao) que, por sua vez, herda de seu hipernimo.
O modelo semntico aqui proposto no pretende definir de modo direto o signifi-

Alfa, So Paulo, 47 (2): 77-99, 2003

89

cado de cada i t e m homgrafo. Pretende to somente sugerir o significado para cada


i t e m homgrafo, b e m como para suas ocorrncias polissmicas, por meio de termos
interligados a cada ocorrncia homgrafa que tm por escopo delimitar o seu campo
significativo.
Dada a suposio de que mltiplas dimenses do significado so necessrias para comear a caracterizar unidades lexicais e m u m nvel semntico, a Estrutura Qualia tem sido utilizada como u m dos princpios cruciais de organizao para a represen9

tao e interpretao do significado lexical de uma frase em sistemas computacionais


de complexidade variada. De fato, ela capaz de suprir o vocabulrio bsico para expressar aspectos diferentes do significado lexical. O objetivo geral ir alm de u m a
hierarquia dimensional, resgatando, assim, o padro de relaes de hiponmia e hiperonmia.
Informaes baseadas na Estrutura Qualia podem ser especificadas por todas as
partes do discurso, embora, e m primeira instncia, ela parea ser mais diretamente
adequada para a caracterizao dos nomes (LENCI, 1999). Justifica-se, dessa forma, o
fato de termos nos detido na codificao de formas homnimas cuja categoria a do
nome.
A Estrutura Qualia a estrutura representacional para expressar partes do aspecto componencial do significado lexical, na medida e m que resgata ou captura diferentes graus de complexidade entre itens lexicais e sustenta u m conjunto de inferncias
disponvel para default, quer dizer, essas inferncias tm de ser usadas de modo geral,
como se fossem u m padro a ser seguido.
E m SIMPLE (LENCI, 1999), a Estrutura Qualia usada como sintaxe bsica para a
construo do significado lexical (PUSTEJOVSKY apud LENCI, 1999). Cada papel Qualia pode ser visto como u m elemento independente o u u m a dimenso independente
do vocabulrio para a descrio semntica. A partir da compreenso do papel da Estrutura Qualia, possvel formular u m conjunto de questes que, de u m a perspectiva
terica, so o ncleo da pesquisa em semntica lexical e, de u m a perspectiva prtica,
permite realizar uma codificao sistemtica em larga escala.
O modelo de Lxico Gerativo imps alguns requisitos para a representao do aspecto componencial do significado lexical. Para satisfazer essas exigncias, os papis
Qualia, no projeto SIMPLE, foram implementados como relaes entre unidades semnticas (SemU) e, e m u m nmero mais restrito de casos, como valued features

(ca-

ractersticas de valor). Tal fato levou ao desenvolvimento de u m a estratgia representacional que permite a lexicgrafos, por exemplo, representarem ou codificarem u m a
riqueza de relaes semnticas existentes e m uma lngua natural, na medida e m que

Um exemplo da utilizao da Estrutura Quaha como representao do significado pode ser visto em Hathout (1996) onde
esto as especificaes da elaborao de uma base de conhecimento lexical para o domnio da qumica, na qual as informaes especficas das entidades desse domnio correspondem ao papel Formal da Estrutura Qualia.

90

Alia, So Paulo, 47 (2): 77-99, 2003

mantm a estrutura bsica de propriedades dos tipos semnticos dados em termos de


Estrutura Qualia.
Cada u m dos quatro papis Qualia representado como uma relao que est e m
alternncia c o m o topo da hierarquia de outras relaes especficas, representando os
subtipos de informao de uma dado Quale. Essa hierarquia nos quatro papis Qualia
chamada de Conjunto de Qualia Ampliado {Extended

Qualia Set). Para cada u m dos

quatro papis Qualia foi especificado u m Conjunto de Qualia Ampliado, ou seja, foram
especificados subtipos de u m dado papel Qualia que so coerentes c o m a sua interpretao.
A partir dos itens lexicais "nadador" e "peixe", vejamos algumas razes lingsticas para que seja includo o Conjunto de Qualia Ampliado na captura de similaridades
entre palavras pertencentes s mais diversas reas conceptuais.
U m nadador claramente u m indivduo cuja funo tpica " n a d a r " (nos exemplos que seguem, os termos entre " < " e " > " so de unidades semnticas (SemUs)):
nadador

Qualia

F O R M A L =

isa(<nadador>,<pessoa>)

TELIC = i s _ t h e _ a c t i v i t y _ o f

1 0

(<nadador>,<nadar>)

No processo de decodificao da semntica do i t e m lexical " p e i t e " , pode-se querer codificar a informao de que uma das atividades tpicas de u m peixe nadar. Permutando-se os dois nomes c o m m adjetivo, poder-se- perceber o comportamento
lingstico diferente dos dois itens lexicais:
(1)

um velho

nadador

(i) uma pessoa que velha e que nada.


(ii) uma pessoa que nada h muito tempo.
(2)

um velho

peixe

(i) u m peixe que velho.


(ii) u m peixe que nada h muito tempo. **
A informao de que u m peixe " n a d a " no faz parte corretamente da dimenso
tlica, i.e, no funciona como u m objetivo hereditrio. A propriedade de nadar no
acrescenta uma informao tlica para o item, mas especifica o "peixe" na sua dimenso constitutiva/fsica. Por esta razo, a informao de que u m peixe nada expressa
no papel Constitutivo de Qualia, por meio da relao Constitutive_activity:

10 uma relao da Qualia Ampliada e significa "_a_atividade_de"

Alfa, So Paulo, 47 (2): 77-99, 2003

91

peixe

Qualia =

F O R M A L

lSA(<peixe>,<animal>)

C O N S T = Constitutive_activity

1 1

(<peixe>,<nadar>)

E m nosso modelo de representao, para que fosse possvel resgatar as d i m e n ses do significado de u m i t e m homnimo, lanamos mo de u m a codificao de base relacional, a partir das possibilidades decomposicionais que nos oferece a noo da
Estrutura Qualia de Pustejovsky (1995) e da Estrutura Qualia A m p l i a d a de SIMPLE
(LENCI, 1999). Desse modo, a ambigidade semntica entre formas homnimas ser
tratada por meio de papis formais, constitutivos, tlicos e agentivos de acordo com a
informao lingstica que cada unidade homnima carrega consigo. Por meio da caracterizao das informaes nesses quatro tipos de papis, o significado da
ou forma

ou forma

forma

ser recuperado de forma desambiguada. Alm disso, a relao

semntica que o i t e m homnimo mantm c o m u m outro i t e m lexical de u m repertrio


lexical oferecer indcios para a sua desambiguao. E ainda, a formalizao e m u m a
base ontolgica poder, ainda, suprir eventuais ambigidades que o conceito do i t e m
homnimo poder gerar, dependendo do contexto no qual encontrar-se- inserido. Os
valores dos papis Qualia da Unidade Semntica (SemU) so apresentados por meio
de relaes entre SemU e outras SemUs que especificam a natureza dessas relaes.
O conjunto de relaes proposto para representar a informao Qualia contm as relaes que esto disponveis no Lxico Gerativo e tambm as que foram introduzidas
e m SIMPLE. De forma esquemtica, cada papel da Estrutura Qualia possui as seguintes relaes semnticas:
FORMAL

usado por

destinado_a

usado_contra

uma relao da Qualia Ampliada e significa "Avidade_constitutiva"

92

Alfa, So Paulo, 47 (2): 77-99,2003

AGENTIVO

ongem

produzido_por
iesultado_de

experincia_agentiva

derivado_de

CONSTITUTIVO

contm
atividade_constitutiva

_um_membRD_de

tem_como_cor

tem_como_membro

_parte_de
propriedade_de

quantifica

medido_poi

De posse de todas as informaes que julgamos necessrias para a construo do


paradigma da nossa BCL, a saber,
informao ontolgica (subdividida e m Tipo, que corresponde ao hipnimo;
12

Supertipo,

que corresponde ao hipernimo e Domnio);

informao Qualia (papis Formal, Agentivo.Tlico e Constitutivo);


informao morfossinttica (Rep_PDD,

i.e., Representao das partes do discur-

so e Rep_Mor. i.e., Representao morfolgica);


informao definiconal, i.e., a definio extrada do dicionrio de base, representada por Glossrio;
informao pragmtica , i.e., a contextualizao do uso do i t e m homnimo, re13

presentada por

Exemplo;

permitimo-nos legitimar o seguinte modelo de BCL, que ora visualizamos por meio do
exemplo da forma homnima banco:
12 Paia esse tipo de trabalho, elaboramos uma Ontologia de conceitos que procura representar o conhecimento de mundo
por meio de categorias de representao, divididas em Classes Fundamentais (Tipo e Supertipo) e Domnios. Como
amostragem, temos as categorias" 1. Entidade", "1.1. Entidade Concreta", "1.1.1. Localizao" "1.1.2. Manufaturado";
"1.1.3. Alimentos", "1.1.4 Entidade Viva"; "1.2 Entidade Abstrata". "1.2.1. Tempo". "1.2.2. Fato Cognitivo", "1.2.3. Padro
Moral", "1.2.3.4. Doutrina"; "2. Escopo"; "3. Agentivo"; "4. Constitutivo"; "5. Propriedade"; "6. Representao"; "7. Evento" para as Classes Fundamentais e "Alimento", "Agricultura/Pesca/Silvrcultura", "Negcios", "Servios", "Atividades Artesanais", "Indstria de Transformao", "Construo", "Poltica e Governo", entre outros, para Domnios A estrutura arbrea completa dessa Ontologia, com exemplificao de inseres de lexias para cada categoria ou sub-categoria, pode
ser vista em Zavaglra (2002).
13 Os exemplos foram extrados de um corpus fundamental de 11 milhes de palavras do Laboratrio de Estudos Lexicogrficos da Unesp de Araraquara

Alfa, So Paulo, 47 (2): 77-99, 2003

93

b a n c o [0_1 / 0_2)
HomoU :

"banco$0_l"

SemU :

<banco>

1 4

1 5

DesamU :

"objeto$P_l"

Tipo:

[Moblia]

Supertipo:

[Manufaturado]

Domnio:

Mveis (Mobiliaria)

1 6

Formal:

_um(<banco>,<objeto>)

Agentivo:

<Nil >

Constitutivo:

/erfo_de(<banco>, <pedra>)

1 7

feito_de(<banco>,<madeira>)

_parte_ d e ( < b a n c o > , < m o b l i a > )


Tlico:

usado_para(<banco>,<sentar>)

Glossrio:

O b j e t o a l o n g a d o , c o m o u s e m e n c o s t o , e m q u e vrias p e s s o a s p o d e m a s s e n t a r - s e

Exemplo:

No sei se por causa do vinho, quando me larguei, ou me largaram no banco


traseiro do carro, pareceu-me ver, sentado na calada, meu superego arrancando
os cabelos (CP)

Rep_PDD:

NOME

Rep_Morfo:

MASC SING

HomoU:

"banco$0_2"

SemU:

<banco>

DesamU:

"empresa$P_l"

Tipo:

( L o c a l Construdo]

Supertipo:

[Localizao]

Domnio:

S i s t e m a Bancrio

Formal:

um(<banco>,<empresa>)

Agentivo:

<Nil>

Constitutivo:

est_e/n(<banco>,<cidade>)

Tlico:

usado_para(<banco>,<depositar_dinheiro>)

Glossrio:

E m p r e s a f i n a n c e i r a q u e o p e r a c o m d i n h e i r o , ttulos e o u t r o s v a l o r e s , o n d e s e

usado_para(<banco>,<emprestar_dinheiro>)

deposita dinheiro e que pode emprestar dinheiro


Exemplo:

Dessa vez desceu um senhor engravatado, coisa difcil por ali, com ares de gerente

Rep_PDD:

NOME

Rep_Morfo:

MASC SING

de banco (CP)

Tabela 2 - Forma homnima BANCO

Unidade Homnima,
Unidade Semntica.
Unidade Desambiguadora.
O smbolo <N> usado quando o elemento no sofie vanao na composio.
Essa flecha indica que as duas tabelas encontiam-se conelacionadas

94

Alfa, So Paulo, 47 (2): 77-99,2003

Por meio de u m a representao grfica (diagrama), pretendemos tornar explcitos


os vnculos que cada u m a dessas informaes possui c o m a unidade homnima e m
questo, e m que:
Entidades so: S e m U (Unidade Semntica); H o m o U (Unidade Homnima); D e s a m U (Unidade Desambiguadora). Toda S e m U possui pelo menos duas H o moU, j que estamos tratando de formas homnimas. Exemplo: a S e m U <banco> possui duas H o m o U , a saber: " b a n c o $ 0 _ l " e " b a n c o $ 0 _ 2 " . Toda H o m o U
possui u m a D e s a m U : " b a n c o $ 0 _ i " possui a D e s a m U " o b j e t o $ P _ l " e " b a n co$0_2" possui a D e s a m U "empresa$P_l".
Relacionamentos so os vnculos "", " t e m " , "significa", "denota", "desambigua".
Relaes semnticas so rtulos de arcos que l i g a m dois ns. Por exemplo, e m
" b a n c o $ 0 _ l " : os ns <banco> e <objeto> so ligados pelo arco de rtulo "_um";
<banco> e <pedra> por "feito_de"; <banco> e <tecido> por "feito_de"; <banco>
e <mobTia> por "_parte_de" e <banco> e <sentar> por "usado_para". Essas relaes semnticas se encontram na Estrutura

Qualia. Vejamos o diagrama:

Diagrama d a s entidades/relacionamentos
PALAVRA

SemU
DesamU

Conceito

ontolgico

Definio

^)

Domnio

^)

Ni,

Alfa, So Paulo, 47 (2): 77-99, 2003

Tipo

Supertipo~^)

95

Figura (1) Diagrama Entidades/Relacionamento

Consideraes finais
A Estrutura Qualia do Lxico Gerativo serviu como estrutura representacional para expressar partes do aspecto componencial do significado lexical, na medida e m que
se d e m o n s t r o u capaz de resgatar ou de capturar diferentes graus de complexidade
entre itens lexicais e de sustentar, ainda, u m conjunto de inferncias que est disponvel para default, ou melhor, essas inferncias so usadas como u m padro a ser seguido. Para cada u m dos quatro papis Qualia, especificamos u m Conjunto de Qualia A m pliado, o u seja, esmiuamos subtipos de u m dado papel Qualia por meio de diversas
relaes semnticas, dependendo das caractersticas intrnsecas a cada papel Qualia.
A BCL conta hoje c o m cerca de 200 formas homnimas de categoria nominal, estruturadas e organizadas segundo o modelo exposto.
Como resultado concreto de nossas pesquisas, anlises e investigaes, nos propusemos a apresentar uma verso computacional de nosso modelo de Base de Conhec i m e n t o Lexical - BCL que foi i m p l e m e n t a d a pelo Ncleo I n t e r i n s t i t u c i o n a l de L i n gstica Computacional - NILC da Universidade de So Paulo - USP/So Carlos que
se encontra residente no prprio NILC, e m u m a mquina servidora, c o m a seguinte
configurao: P e n t i u m I I M M X , 266 M H z , 128 M b R A M , c o m sistema operacional
Windows 2000 Server (ZAVAGLIA, 2002).

96

Alfa, So Paulo, 47 (2): 77-99, 2003

Agradecimentos
A o CNPq pelo auxlio financeiro concedido e m ocasio do doutorado sanduche
realizado no Istituto

di Linguistica

Computazionale

diPisa - LLC, onde parte desta pes-

quisa foi desenvolvida, sob a coordenao da Prof. Nicoletta Calzolari, coordenadora


do NILC - Profa. Dra. Maria das Graas Volpe Nunes e computloga Juliana Greghi
pelo apoio e estmulo recebidos para a implementao computacional da BCL e Profa.
Dra. Maria Tereza Camargo Biderman, orientadora e incentivadora.
ZAVAGLIA, C. Homonymy in Portuguese: the use of Pustejovsk's Qualia structure approach to
foster computational implementations. Alfa, So Paulo, v.47, n.2, p.77-99, 2003.

ABSTRACT: This paper applies Pustejovsky's Qualia structure approach to describe homography
in Brazilian Portuguese and highlights specific linguistic strategies for treating the phenomenon
within the natural language processing domain. Pustejovsk's quale roles - Formal, Telic, Agentive
and Constitutive - were selected as semantic devices to aid natural language processing systems
in the task of lexical disambiguation. The proposal was implemented in a toy Lexical-KwowledgeBase system where lexical items are interrelated by quale roles
m KEYWORDS:
processing

Homonymy;

Qualia structure;

lexical knowledge

base; natural

language

Referncias bibliogrficas
AMSLER, R. A. The structure ofthe Merriam-Websterpocket

dictionary. 1980. Dissertation (Phd)

- University of Texas, Austin, 1980.


ARISTTELES: vida e obra. So Paulo: Nova Cultural, 2000. (Os Pensadores).
BEZERRA, M. A. Leitura e escrita: condies para aquisio de vocabulrio. Intercmbio. Disponvel em: <Http://lael.pucsp.br/intercambio/08bezerra.ps.pdf>. Acesso em: 29 maio 2002.
BIDERMAN, M. T. C. A estruturao mental do lxico. In: ESTUDOS de filologia e lingstica: em
homenagem a Isaac Nicolau Salum. So Paulo: T. A. Queiroz, Ed. da Universidade de So Paulo,
1981. p. 131-145.
. Lxico e vocabulrio fundamental. Alfa, So Paulo, v. 40, p. 27-46,1996.
. Dicionrio didtico de portugus. 2 ed. So Paulo: tica, 1998a.
. A face quantitativa da linguagem: um dicionrio de freqncias do portugus. Alfa, So
Paulo, n.42, n.esp. p.161-181,1998b.
. As cincias do lxico. In: OLIVEIRA, A. M. P. P.; ISQUIERDO, A. N. (Orgs.). As cincias do
lxico: lexicologia, lexicografia, terminologia. Campo Grande: Ed. UFMS, 1998c. p.11-20.
BINOT, J. L. et al. Reprsentation smantique et interprtation dans une interface en langage
naturel. Le Franais Moderne, Paris, v.59, n i , p. 57-84,1991.

Alfa, So Paulo, 47 (2): 77-99,2003

97

BOGAARDS, R Le vocabulaire dans l'apprentissage des langues trangres. France: Hatier/Didier,


1994.
BUTTON, G. et al. Computadores, mentes e conduta. Traduo de Roberto Leal Ferreira. So Paulo: Ed. Unesp, 1998.
CALZOLARI, N. et al. Acquiring and representing semantic information in a lexical knowledge
base. In: WORKSHOP ON LEXICAL SEMANTICS AND KNOWLEDGE REPRESENTATION, 1.,
1991, Berkeley. Proceedings... California: ESPRIT BRA-3030 ACQUILEXWP N.016,1991.
CALZOLARI, N. et al. SI-TAL- Documento di specifiche tecniche di SI-TAL: manuale operativo.
In:

. ItalwordNet: rete semantico-lessicale per r italiano. Piza: Consorzio Pisa Ricerche (CPR),

Istituto Trentino di Cultura, Istituto per la Ricerca Scientifica e Tecnolgica - (ITC-INST.), 2000.
Capitolo 2.
CARVALHO, P. C. Q. da F. Gramticas de resoluo de ambigidades resultantes da homografia
de nomes e adjetivos. 2001. Dissertao (Mestrado) - Faculdade de Letras da Universidade de
Lisboa, Lisboa, 2001.
DEL FIORENTINO, M. O Estrazione di informazione semntica da un dizionario-macchina delia
lingua italiana: problemi di disambiguazione e di riorganizzazione delle tassonomie semantiche.
1995. Tesi (Laurea) - Universit degli Studi di Pisa, Facolt di Lettere e Filosofia, Piza, 1995.
HAGGE, C; DUARTE, I. Construo de gramticas formais para o processamento da linguagem natural. MATEUS, M. H.; BRANCO, A. H. (Org.) Engenharia da Linguagem. Lisboa: Colibri,
1995. p. 71-93.
HATHOUT, N. Pour la construction d'une base de connaissances lexicologiques partir du Trsfcr
de la Langue franaise: les maqueurs superficiels dans les dfinitions spcialises. Cahier de
lexicologie: Revue Internationale de Lexicologie et de Lexicographie, Paris, v.68, p. 137-173,1996.
LEFFA, V.J. A resoluo da ambigidade lexical sem apoio do conhecimento de mundo. Revista
intercmbio, So Paulo, v.6, ptel, p. 869-889,1998.
LENCI, A et. al. SMPLE-Semantic Information for Multifunctional Plurilingual Lxica: linguistic
specifications: deliverable D2.1. Pisa: University of Pisa and Institute of Computational Linguistics
of CNR, 1999.
MEDEIROS, M. B. B. Tratamento automtico de ambigidades na recuperao da Informao.
1999. Tese (Doutorado) - Universidade de Braslia, Brasilia, 1999.
PICOCHE, J. Precis de lexicologie franaise: l'tude et l'enseignement du vocabulaire. Paris:
Nathan, 1992.
PUSTEJOVSKY, J. The generative lexicon. Cambridge: The MIT Press, 1995.
ZAVAGLIA, C. A homonmia e o computador. Estudos Lingsticos, So Paulo, v.28, p. 738-743,
1999.
. Anlise da homonmia no portugus, tratamento semntico com vistas a procedimentos
computacionais. 2002. Tese (Doutorado) - Faculdade de Cincias de Letras - UNESP, Araraquara, 2002.

98

Alfa. So Paulo, 47 (2): 77-99, 2003

Bibliografia consultada
BIDERMAN, M.T.C. Polissemia versus homonmia. In. SEMINRIO DO GEL, 38., 1991, Franca.
Anais... Franca. Unio das Faculdades Francanas, 1991 p. 283-290.
. Dicionrio de freqncias do portugus contemporneo. [S. 1: s.n], 1997.1 Disquete
. O dicionrio como norma na sociedade. In: ENCONTRO NACIONAL DO GT DE LEXICOLOGIA, LEXICOGRAFIA E TERMINOLOGIA DA ANPOLL, 1., 1997, Rio de Janeiro. Anais... Rio de Janeiro: Ed. Universitria UFPE, 1997. p.161-180.
. Os dicionrios na contemporaneidade: arquitetura, mtodos e tcnicas. In: OLIVEIRA, A.
M. P. P., ISQUIERDO.A. N. (Org.). As cincias do lxico, lexicologa, lexicografia, terminologia.
Campo Grande: Ed. UFMS, 1998. p.129-142.
BOGURAEV, B. et al. Acquisition of lexical knowledge for natural language: processing systems.
In: Techinical Annex. ESPRIT BRA - 3030. Cambridge (UK), 1988.
CHISHMAN, R. L. de O. A teoria do lxico gerativa, uma abordagem crtica. 2000. Tese (Doutorado) - Pontfice Universidade Catlica do Rio Grande do Sul, Porto Alegre, 2000.
EVENZ, M. W. (Ed.). Relational models of the lexicon: representing knowledge in semantic
networks. Cambridge: Cambridge University Press, 1988.
REHFELDT, G. K. Polissemia e campo semntico: estudo aplicado aos verbos de movimento. Porto Alegre: EDURGS/FAPA/FAPCCA, 1980.
RICH, E. Inteligncia artificial Traduo de Newton Vasconcelos. So Paulo: McGraw-Hill, 1988.
SPANU, A. Pluridimensionalit delle tassonomie dei dizionario. Pisa, 1995. ILC - LDB n.2 (T.152),
CNR-ILC.

Alia, So Paulo, 47 (2): 77-99, 2003

99

Você também pode gostar