Escolar Documentos
Profissional Documentos
Cultura Documentos
Claudia Z A V A G L I A
RESUMO: No presente trabalho, apresentamos uma proposta de tratamento semntico de formas ambguas do portugus do Brasil, no caso, lexias homgrafas, com o escopo de oferecermos estratgias lingsticas para a sua implementao computacional em Sistemas de Processamento das Lnguas Naturais (SPLN). O Lxico Gerativo de Pustejovsky foi usado como
modelo terico. Nesse modelo, a Estrutura Qualia - EQ (e os papis Formal, Tlico, Agentivo e
Constitutivo) foi selecionada como um dos expedientes lingstico-semnticos para a realizao da desambiguao das formas homnimas. Para que os dados analisados e tratados pudessem ser manipulados, elaboramos uma Base de Conhecimento Lexical (BCL) cujo repertrio lingstico possui seus itens lexicais correlacionados e interligados por diferentes tipos de
relaes semnticas presentes na EQ.
PALAVRAS-CHAVE: Homonmia; estrutura Qualia; lxico computacional; base de conhecimento lexical, processamento das lnguas naturais
Introduo
De acordo c o m Biderman (1996, p.27), "o lxico o lugar da estocagem da significao e dos contedos significantes da linguagem humana". A mesma autora ressalta
e m obra anterior:
o lxico pode ser considerado como tesouro vocabular de uma determinada lngua. Ele inclui a nomenclatura de todos os conceitos lingsticos e no-lingsticos e de todos os referentes do mundo fsico e do universo cultural, criado por todas as culturas humanas atuais
e do passado (BIDERMAN, 1981, p.138).
Departamento de Letras Modernas - Instituto de Biocincias, Letras e Cincias Exatas - UNESP - 15054-000 - So Jos
do Rio Preto - SP - Brasil. E-mail: zavaglia@lem.ibilce.unesp.br.
77
Com efeito, o lxico de uma lngua abrange todas as palavras desse sistema l i n gstico, inclusive as gramaticais, que se encontram contempladas o u no e m dicionrios.
O lxico das lnguas naturais foi gerado por u m processo de nomeao, a partir do
momento em que o homem, por meio das palavras, passou a dar nome a todas as entidades que faziam parte do mundo que o circundava (BIDERMAN, 1998c).
Desde h muito tempo, o lxico t e m sido relacionado c o m a memria humana. De
fato, as entradas lexicais e m u m dicionrio so como registros da memria e m u i t o
provavelmente a estruturao do lxico se assemelha quela da memria, fato esse
que permite u m a recuperao rpida e veloz das palavras que o c o n s t i t u e m (BIDERM A N , 1981, p.28). C o m efeito, fala-se de Lxico Mental, isto , as palavras que se encontram estocadas na mente humana.
Quando nos referimos ao tratamento automtico das lnguas naturais, seja de variadas formas ou por variados mecanismos, estamos tratando essencial e primordialmente da estruturao de itens lexicais de u m a maneira formal, ou seja, de codificao e decodificao de dados. Na forma como sero armazenados esses dados, seja
e m listas imensas de palavras, seja por analisadores morfolgicos, seja por ndices alfanumricos em forma de cdigos, ou de qualquer outro modo, veriicar-se- u m a dependncia da estruturao lingstico-formal dos mesmos. A propsito, B i d e r m a n
(1998b) diz:
[...] o lxico est associado ao conhecimento e o processo de nomeao em qualquer lngua
resulta de uma operao perceptiva e cognitiva. Assim sendo, no aparato lingstico da memria humana, o lxico o lugar do conhecimento sob o rtulo sinttico de palavras - os
signos lingsticos. Eis por que precisamos comear a trabalhar com esta imensa galxia
de signos que devemos conhecer melhor. preciso desvendar o mistrio de como se estrutura o lxico da nossa lngua (BIDERMAN, 1998b, p.179).
nesse sentido que o computador est fadado a incompletudes, j que u m , dentre tantos, mistrios sobre a mente humana ainda , justamente, a forma como so estocados os dados na memria do homem. Por conseguinte, a forma de armazenamento de dados na memria de u m a mquina contm as mesmas (e talvez b e m mais)
obscuridades que o no-conhecimento sobre mecanismos mentais humanos gera para os pesquisadores. Nesse sentido, Button et al. (1998) afirmam:
A analogia entre "a mente" e "o computador" tambm foi contestada com base no fato de
que se equivoca sobre o funcionamento dos computadores e sobre a natureza dos programas que os dirigem (so neles executados). O ponto at onde os computadores podem ser
usados para simularem atividades humanas d uma impresso enganosa do grau em que o
computador est realmente "igualando" o desempenho simulado. Os computadores podem
ser capazes de gerar sries de palavras, smbolos matemticos etc, que correspondem corretamente aos requisitos da linguagem humana, sistemas de clculo etc, mas - para diz-lo
78
combate,
misria
etc.
Tais concepes nos levam a acreditar que uma das maneiras de se ordenar a estruturao de lxico e m computadores poderia ser via Redes Semnticas e Associaes Semnticas. Essas redes poderiam organizar-se por meio de relaes semnticas
(hperonmia, sinonmia, antonmia, meronmia) j que, ao que tudo indica, essa seria a
forma que, possivelmente, mais se assemelharia estocagem de dados na mente h u mana.
E m conformidade, Bezerra (2002, p.3) enuncia:
Em nossa memria de longo tempo, ou memria profunda, armazenamos as unidades lexicais da lngua que falamos associadas em diversas combinaes: sintagmticas, paradigmticas, hiponmicas, conceituais, discursivas, dependendo dos modelos da lngua que fa-
79
amos e de nossas experincias anteriores ou de nossos esquemas culturais. Como no lxico que se cruzam informaes fontico-fonolgicas, semnticas, sintticas e pragmticas,
deve-se consider-lo em relao linguagem em geral, como uma competncia, neste caso, lexical, que o falante deve desenvolver, para ampliar sua competncia comunicativa.
Elaborar repertrios lexicais para serem tratados computacionalmente contribuiria, no somente para as cincias que se interessam por processamento automtico
de lnguas naturais, mas tambm para a formao de acervos lexicais para a memria
de computadores, e, conseqentemente, para a composio de seus "conhecimentos"
que pudessem servir a toda sorte de pesquisadores:
Sendo o lxico de uma lngua essencialmente abrangente e complexo, seria de se
esperar que fenmenos lingsticos igualmente complexos e abrangentes caracterizassem e fizessem parte da lngua natural qual ele se encontra vinculado.
U m desses fenmenos a homonmia, alm da polissemia, da sinonmia, entre outros. A homonmia e a polissemia causam o fenmeno da ambigidade; por conseguinte, temos de consider-lo como caracterstico de uma lngua natural.
Devemos observar, porm, que a ambigidade nao existe do ponto de vista do produtor do discurso, mas sim do seu receptor. De fato, quando u m falante produz u m texto, muito provavelmente, no se d conta de u m significado alternativo que possa existir no interior de seu discurso, seja ele falado ou escrito; ao contrrio, ele t e m b e m claro
em sua mente o que deseja expressar, como afirma Leffa (1998).
Ora, ser no mbito do lxico, b e m como dos fenmenos lingsticos geradoresde ambigidades interpretativas, que u m estudioso deparar-se- c o m inmeros e m pecilhos ao aventurar-se a descrever os seus mecanismos para o Processamento das
Lnguas Naturais (doravante PLN).
E m conformidade, Carvalho (2001, p.l) ressalta:
A ambigidade (lexical, estrutural), intrnseca a qualquer lngua natural, um dos aspectos
que maiores problemas colocam ao processamento automtico de um texto. A nvel lexical,
a ambigidade provocada pela homografia, que existe em qualquer lngua natural, mas
que particularmente abundante no caso das lnguas que, como o portugus, tm um sistema morfolgico bastante desenvolvido.
Dessa forma, o fenmeno da homonmia causa srios obstculos para o desenvolvimento do PLN, mxime para casos de homografia, e lingistas computacionais tent a m , insistentemente, buscar meios de fazer c o m que a mquina disponha de mecanismos interpretativos de desambiguao que se aproximem daqueles que o h o m e m
possui. Com efeito, Carvalho (2001, p.3) pe e m relevncia esse problema quando diz:
Ainda que os vrios casos de homografia de que temos vindo a falar no levantem, em geral, problemas aos falantes da lngua, eles representam, retomando a idia com que inicimos o captulo, um obstculo quase totalidade das operaes efectuadas ao nvel do tra-
80
Objetivos
Com o presente artigo, apresentamos uma proposta para o tratamento de itens lexicais homnimos da lngua portuguesa do Brasil, c o m vistas sua implementao
computacional, por meio de Base de dados relacionais, mais especificamente uma Base de Conhecimento Lexical (doravante BCL). A hiptese principal que se faz que o
fenmeno da homonmia passvel de tratamentos computacionais e que podemos
manipul-lo e m implementaes para base de dados lexicais c o m eficincia. Ressaltamos que o problema da homonmia gramatical resolvido, e satisfatoriamente, por
sistemas computacionais q u e realizam anlises morfossintticas automticas (parsers) que possuam desambiguadores. A mquina capaz de produzir solues de desambiguao sinttica de uma maneira bastante aceitvel. Entretanto, tais sistemas
no do conta de outros problemas de ambigidade, como a homonmia semntica e
a polissemia. Tal fato ocorre porque a mquina no t e m a capacidade de relacionar sem a n t i c a m e n t e itens lexicais e m meio a construes sintticas o u inseridos e m u m
contexto, como faz o homem, de forma inerente. Como situa Carvalho (200r, p.38): "As
mquinas no tm competncia lingstica, pelo q u e ' preciso dizer-lhes tudo, e
preciso dizer-lhes t u d o de forma completa, explcita e coerente'" ( R A N C H H O D apud
CARVALHO, 2001. p.38).
Assim, a ineficincia de desambiguadores de t i p o gramatical justifica a proposta
2
de u m a Base de dados conceituai, que ser proposta com a finalidade de suprir as necessidades de u m analisador sinttico , alm de atender possveis novos sistemas que
3
81
putador categoriz-la como substantivo, por exemplo. Para Revisores gramaticais a u tomticos, tais interpretaes errneas interferem na performance da ferramenta, gerando insatisfao para seus usurios.
Unir informaes semnticas s informaes de u m a gramtica formal, o u seja,
dot-la de u m a base de conhecimento de mundo, u m caminho para amenizar problemas de ambigidade em PLN, segundo a literatura atual. Desse modo, na gramtica formal seriam introduzidos marcadores semnticos que permitiriam mquina resolver casos de ambigidade segundo
u m esquema
de c o m p a r t i l h a m e n t o ou
no-compartilhamento de dados. De fato, Medeiros (1999, p.8) diz: "Os aspectos semnticos devem ser contemplados para solucionar problenlas no resolvidos pela anlise sinttica, como, por exemplo, o da ambigidade lexical e estrutural, e o das sinonmias".
Ainda que, no presente, no saibamos com preciso quais sero os resultados (positivos ou negativos) de suas aplicaes, temos a certeza de que informaes de c u nho meramente sintticas ou morfossintticas no mais satisfazem pesquisadores e m
Lingstica Computacional, pois so insuficientes no PLN. De fato, somente c o m a elaborao de Base de dados conceituais poder-se-o obter anlises de textos c o m bons
resultados.
A adoo do modelo sugerido por Pustejovsky (1995) deveu-se a pelo menos quatro componentes nele contidos: (i) atualizao terica, (ii) representatividade do significado, (iii) natureza computacional, (iv) aplicabilidade (Cf. Projeto SIMPLE e m LENCI,
1999). A idia de que o Lxico Gerativo (LG) capaz de dar conta do conhecimento
semntico global que temos sobre as palavras, segundo o prprio autor, faz dele u m
modelo adequado para solucionar o problema da representao lexical que envolve o
fenmeno da homonmia. Admitindo-se, portanto, que t a l suposio seja verdadeira,
tentaremos mostrar que a homonmia pode ser, realmente, definida conforme os parmetros de u m dos aspectos dessa teoria.
82
(I)
(II)
Para a homonmia lexical, a igualdade de formas pode se realizar tanto graficamente como fonicamente. No primeiro caso, as lexias possuem identidade
de grafia (homografia) e, no segundo, identidade de som (homofonia). E assim, temos lexias homgrafas que: (i) so distintas quanto ao seu significado
e idnticas, tanto oralmente como gramaticalmente, caso esse denominado
de Homonmia Semntica; como: caboi. "Militar que t e m posio superior ao
soldado e inferior ao sargento" X cabo*
repercutir"; (ii)
mo [e] e o verbo como [ej, para a vogal "e", como nos seguintes exemplos:
acertoi
(substantivo) Xacertoz
Xcomeo2
(verbo)
(III) As lexias homfonas so aquelas distintas na grafia e idnticas no som, como
por exemplo: sensor:
"dispositivo" Xcensor,
"crtico":
cesso
"ato de ce-
der" X seo: "segmento, diviso" X sesso: "espao de tempo que dura uma
reunio, u m ato"
(IV) J a homonmia estrutural realiza-se quando temos duas construes gramaticais idnticas c o m sentidos diferentes:
no carro que andava) X Entrei
Entrei
no carro andando
no carro andando
(entrei
eu andava).
Forma que possui grafia idntica a de uma outra (orma e ambas se pronunciam diferentemente.
83
j que
ato s.m. a-to. 1. Solenidade ou cerimnia para marcar um fato. Os grevistas marcaram
um ato pblico para s 16:00h. 2. Deciso publica emitida por uma autoridade e publicada em dirio oficial. O governador admitiu novos funcionrios, atravs de uma ato administrativo, que o dirio oficial publicou ontem. 3. Evento que se registra, porque representa um acordo comercial, ou de natureza permanente entre as partes. O marido e a
mulher devem estar presentes no ato de venda de uma propriedade comum ao casal.
2
ato s.m. a-to. 1. Cada uma das divises de uma pea de teatro. O drama est dividido
3
em dois atos. 2. Momento considerado como dramtico. O ltimo ato da vida deste ditador ser provavelmente sangrento.
Tabela 1 - Exemplo extrado do D D B I (BIDERMAN, 1998a, p l l 7 ) .
A T O uma forma que possui 3 conceitos ou significados diferentes no interligados entre si, i.e., u m significante c o m trs significados; trata-se, portanto, de formas
homnimas. O sentido
84
que possui trs sentidos correlatos entre si e, portanto, polissmicos. Por sua vez, o
sentido
sentido .
2
Os sentidos das entradas apresentadas na Tabela (1) so identificados do seguinte modo: ato 0_1 / 0_2a / 0_2b / 0_2c / 0_3a / 0_3b, e m que:
a) cada forma homgrafa classificada por meio de u m cdigo de identificao
que contm duas partes separadas por u m trao: X_X;
b) a primeira parte , justamente, a classificao-identificao de forma homgrafa, a partir de u m caractere numrico, a saber: 0_X, e m que " 0 " representa "forma homgrafa":
c) a segunda.parte do cdigo corresponde ao nmero de ocorrncias da homografia para aquela forma, a partir de u m caractere tambm numrico: 0 _ 1 ; 0_2
(identifica uma forma homgrafa que possui dois significados);
d) a segunda parte do cdigo pode conter, tambm, u m caractere alfabtico que
identifica a ocorrncia da polissemia para cada forma homgrafa: 0 _ l a , 0 _ l b ;
0_2 (identifica u m a forma homgrafa que possui dois significados, cujo primeiro polissmico, c o m dois sentidos), indicada e registrada no interior do verbete, geralmente, por meio de caracteres numricos.
No mbito computacional, os termos genuse
differentia,
emprestados de Arist-
teles , foram introduzidos por Amsler (1980), a partir do momento e m que toda defini5
uma tipologia de definio prpria, i . e., apresentam u m i t e m lexical considerado como sendo o ncleo da definio que antecedido ou seguido por modificadores.
Os modificadores do genus terminus tm papel importante e fundamental na definio do conceito da entrada lexical. De fato, eles constituem as differentiae
da defi-
nio e oferecem indcios de significao que delimitam o conceito no interior da definio expresso pelo genus
terminus.
Por taxionomia entende-se "palavras baseadas e m relaes especficas existentes, geralmente, entre o definiendum
Dentre muitos de seus feitos e contribuies, (o estabelecimento da lgica formal, por exemplo), Aristteles estabeleceu a
distino entre atributos: o gnero, a espcie, a diferena, o prprio e o acidente. Segundo o filsofo, o gnero se refere
classe mais ampla a queosuieito pode pertencer: "O homem um animal" e a diferena permite situar o sujeito relativamente s subclasses em que se divide o gnero: "O homem animal racional" (ARISTTELES 2000. pl7, grifo do autor).
85
descrito anteriormente.
A nossa metodologia partiu do pressuposto de que a definio de cada u m dos
sentidos de u m lema contm pelo menos uma relao semntica entre o prprio lema
e o genus
terminus
FIORENTINO, 1995).
A extrao do genus terminus das definies das entradas lexicais de u m dicionrio u m a etapa importante e essencial para que se realize u m a organizao taxionmica de u m repertrio lexical, segundo u m a estrutura hereditria e m termos de h i peronmia. Com efeito, o genus terminus ser localizado no vrtice dessa estrutura.
Uma lngua natural utiliza-se de u m a enorme variedade de realizaes lexicais
e/ou sintticas para expressar os conceitos do mundo elaborados nessa lngua. De fato, o lxico de uma lngua, b e m como a sua realizao sinttica, imensurvel; at hoje, tem-se, efetivamente, apenas aproximaes de realizaes lexicais e no confirmaes de nmeros finitos. U m dicionrio buscar se servir, portanto, de todos os recursos
lingsticos de que uma lngua possui para poder expressar o conceito de u m i t e m lexical. Tais conceitos so definidos por meio de relaes semnticas que os itens lexicais da definio do definiendum
ou seja, a
taxionomia. Alguns tipos de relaes semnticas, e seus princpios, interessam de modo particular ao modelo semntico que propomos para a organizao da base de dados lexical. O significado de cada i t e m lexical pertencente a essa base estruturado,
justamente, a partir das relaes semnticas que o conceito desse i t e m lexical m a n tm c o m outro i t e m lexical. De fato, os conceitos so interligados e m uma "cadeia significativa", ou seja, por meio de associaes. Cada i t e m lexical situa-se e m u m determinado lugar dessa cadeia e todos eles so correlacionados, por meio de conexes,
queles com os quais possui pelo menos uma relao semntica.
Segundo Picoche (1992, p.138):
[...] um fato biolgico que os homens sejam aptos a perceber diversos nveis de abstrao
e a passar facilmente de um para o outro; uma propriedade universal da linguagem humana ser capaz de explicar e de condensar, de poder exprimir em mais de uma palavra aquilo
que dito em uma palavra (expansion - expanso) e de poder [...] resumir em uma palavra
aquilo que dito com mais de uma palavra (condensation - condensao).
Tal afirmao no se aplica a u m computador, ao contrrio. A mquina perceber
nveis de abstrao se a ela forem oferecidos dados para t a l , fato esse que vale t a m 6
86
Structure),
que inclui
Structure),
e m que
se t e m a identificao de como uma esttutura lexical se relaciona c o m outras estruturas e a sua contribuio para a organizao global do lxico.
Assim, Pustejovsky (1995, p.62) prope que a semntica de u m i t e m lexical " a " seja definida como uma estrutura composta por quatro componentes:
a = < A , e, X, Y > em que:
7
87
objeto.
Retomando os mesmos exemplos citados acima, confiramos:
ato$0_l
"CONST=
Qualia -
AGENT
'
CONST
= ao
FORMAL
TELIC
ato$0_2a
Qualia -
= agir
=
T E L I C = comemorar
ato$0_2c
Qualia =
T E L I C = decidir
AGENT
Qualia =
AGENT =
FORMAL = divlSi
TELIC = dividir
ato$0_3b
CONST =. pea
)
TELIC = acordar
F O R M A L = deciso
ato$0_3a
CONST =
Qualia -
CONST
F O R M A L = solenidade
AGENT
ato$0_2b
CONST = v i d a
Qualia =
AGENT =
FORMAL =
TELIC =
AGENT =
Para Picoche (1992, p.140), e m u m a definio lingstica, o que importa a especificidade, ou seja, a indicao de traos distintivos pertinentes a u m i t e m lexical que
o diferenciar de outros itens lexicais.
Cabe lembrar que no necessariamente todos os papis qualia devem estar preenchidos.
88
89
(ca-
ractersticas de valor). Tal fato levou ao desenvolvimento de u m a estratgia representacional que permite a lexicgrafos, por exemplo, representarem ou codificarem u m a
riqueza de relaes semnticas existentes e m uma lngua natural, na medida e m que
Um exemplo da utilizao da Estrutura Quaha como representao do significado pode ser visto em Hathout (1996) onde
esto as especificaes da elaborao de uma base de conhecimento lexical para o domnio da qumica, na qual as informaes especficas das entidades desse domnio correspondem ao papel Formal da Estrutura Qualia.
90
quatro papis Qualia foi especificado u m Conjunto de Qualia Ampliado, ou seja, foram
especificados subtipos de u m dado papel Qualia que so coerentes c o m a sua interpretao.
A partir dos itens lexicais "nadador" e "peixe", vejamos algumas razes lingsticas para que seja includo o Conjunto de Qualia Ampliado na captura de similaridades
entre palavras pertencentes s mais diversas reas conceptuais.
U m nadador claramente u m indivduo cuja funo tpica " n a d a r " (nos exemplos que seguem, os termos entre " < " e " > " so de unidades semnticas (SemUs)):
nadador
Qualia
F O R M A L =
isa(<nadador>,<pessoa>)
TELIC = i s _ t h e _ a c t i v i t y _ o f
1 0
(<nadador>,<nadar>)
No processo de decodificao da semntica do i t e m lexical " p e i t e " , pode-se querer codificar a informao de que uma das atividades tpicas de u m peixe nadar. Permutando-se os dois nomes c o m m adjetivo, poder-se- perceber o comportamento
lingstico diferente dos dois itens lexicais:
(1)
um velho
nadador
um velho
peixe
91
peixe
Qualia =
F O R M A L
lSA(<peixe>,<animal>)
C O N S T = Constitutive_activity
1 1
(<peixe>,<nadar>)
E m nosso modelo de representao, para que fosse possvel resgatar as d i m e n ses do significado de u m i t e m homnimo, lanamos mo de u m a codificao de base relacional, a partir das possibilidades decomposicionais que nos oferece a noo da
Estrutura Qualia de Pustejovsky (1995) e da Estrutura Qualia A m p l i a d a de SIMPLE
(LENCI, 1999). Desse modo, a ambigidade semntica entre formas homnimas ser
tratada por meio de papis formais, constitutivos, tlicos e agentivos de acordo com a
informao lingstica que cada unidade homnima carrega consigo. Por meio da caracterizao das informaes nesses quatro tipos de papis, o significado da
ou forma
ou forma
forma
usado por
destinado_a
usado_contra
92
AGENTIVO
ongem
produzido_por
iesultado_de
experincia_agentiva
derivado_de
CONSTITUTIVO
contm
atividade_constitutiva
_um_membRD_de
tem_como_cor
tem_como_membro
_parte_de
propriedade_de
quantifica
medido_poi
Supertipo,
presentada por
Exemplo;
permitimo-nos legitimar o seguinte modelo de BCL, que ora visualizamos por meio do
exemplo da forma homnima banco:
12 Paia esse tipo de trabalho, elaboramos uma Ontologia de conceitos que procura representar o conhecimento de mundo
por meio de categorias de representao, divididas em Classes Fundamentais (Tipo e Supertipo) e Domnios. Como
amostragem, temos as categorias" 1. Entidade", "1.1. Entidade Concreta", "1.1.1. Localizao" "1.1.2. Manufaturado";
"1.1.3. Alimentos", "1.1.4 Entidade Viva"; "1.2 Entidade Abstrata". "1.2.1. Tempo". "1.2.2. Fato Cognitivo", "1.2.3. Padro
Moral", "1.2.3.4. Doutrina"; "2. Escopo"; "3. Agentivo"; "4. Constitutivo"; "5. Propriedade"; "6. Representao"; "7. Evento" para as Classes Fundamentais e "Alimento", "Agricultura/Pesca/Silvrcultura", "Negcios", "Servios", "Atividades Artesanais", "Indstria de Transformao", "Construo", "Poltica e Governo", entre outros, para Domnios A estrutura arbrea completa dessa Ontologia, com exemplificao de inseres de lexias para cada categoria ou sub-categoria, pode
ser vista em Zavaglra (2002).
13 Os exemplos foram extrados de um corpus fundamental de 11 milhes de palavras do Laboratrio de Estudos Lexicogrficos da Unesp de Araraquara
93
b a n c o [0_1 / 0_2)
HomoU :
"banco$0_l"
SemU :
<banco>
1 4
1 5
DesamU :
"objeto$P_l"
Tipo:
[Moblia]
Supertipo:
[Manufaturado]
Domnio:
Mveis (Mobiliaria)
1 6
Formal:
_um(<banco>,<objeto>)
Agentivo:
<Nil >
Constitutivo:
/erfo_de(<banco>, <pedra>)
1 7
feito_de(<banco>,<madeira>)
usado_para(<banco>,<sentar>)
Glossrio:
O b j e t o a l o n g a d o , c o m o u s e m e n c o s t o , e m q u e vrias p e s s o a s p o d e m a s s e n t a r - s e
Exemplo:
Rep_PDD:
NOME
Rep_Morfo:
MASC SING
HomoU:
"banco$0_2"
SemU:
<banco>
DesamU:
"empresa$P_l"
Tipo:
( L o c a l Construdo]
Supertipo:
[Localizao]
Domnio:
S i s t e m a Bancrio
Formal:
um(<banco>,<empresa>)
Agentivo:
<Nil>
Constitutivo:
est_e/n(<banco>,<cidade>)
Tlico:
usado_para(<banco>,<depositar_dinheiro>)
Glossrio:
E m p r e s a f i n a n c e i r a q u e o p e r a c o m d i n h e i r o , ttulos e o u t r o s v a l o r e s , o n d e s e
usado_para(<banco>,<emprestar_dinheiro>)
Dessa vez desceu um senhor engravatado, coisa difcil por ali, com ares de gerente
Rep_PDD:
NOME
Rep_Morfo:
MASC SING
de banco (CP)
Unidade Homnima,
Unidade Semntica.
Unidade Desambiguadora.
O smbolo <N> usado quando o elemento no sofie vanao na composio.
Essa flecha indica que as duas tabelas encontiam-se conelacionadas
94
Diagrama d a s entidades/relacionamentos
PALAVRA
SemU
DesamU
Conceito
ontolgico
Definio
^)
Domnio
^)
Ni,
Tipo
Supertipo~^)
95
Consideraes finais
A Estrutura Qualia do Lxico Gerativo serviu como estrutura representacional para expressar partes do aspecto componencial do significado lexical, na medida e m que
se d e m o n s t r o u capaz de resgatar ou de capturar diferentes graus de complexidade
entre itens lexicais e de sustentar, ainda, u m conjunto de inferncias que est disponvel para default, ou melhor, essas inferncias so usadas como u m padro a ser seguido. Para cada u m dos quatro papis Qualia, especificamos u m Conjunto de Qualia A m pliado, o u seja, esmiuamos subtipos de u m dado papel Qualia por meio de diversas
relaes semnticas, dependendo das caractersticas intrnsecas a cada papel Qualia.
A BCL conta hoje c o m cerca de 200 formas homnimas de categoria nominal, estruturadas e organizadas segundo o modelo exposto.
Como resultado concreto de nossas pesquisas, anlises e investigaes, nos propusemos a apresentar uma verso computacional de nosso modelo de Base de Conhec i m e n t o Lexical - BCL que foi i m p l e m e n t a d a pelo Ncleo I n t e r i n s t i t u c i o n a l de L i n gstica Computacional - NILC da Universidade de So Paulo - USP/So Carlos que
se encontra residente no prprio NILC, e m u m a mquina servidora, c o m a seguinte
configurao: P e n t i u m I I M M X , 266 M H z , 128 M b R A M , c o m sistema operacional
Windows 2000 Server (ZAVAGLIA, 2002).
96
Agradecimentos
A o CNPq pelo auxlio financeiro concedido e m ocasio do doutorado sanduche
realizado no Istituto
di Linguistica
Computazionale
ABSTRACT: This paper applies Pustejovsky's Qualia structure approach to describe homography
in Brazilian Portuguese and highlights specific linguistic strategies for treating the phenomenon
within the natural language processing domain. Pustejovsk's quale roles - Formal, Telic, Agentive
and Constitutive - were selected as semantic devices to aid natural language processing systems
in the task of lexical disambiguation. The proposal was implemented in a toy Lexical-KwowledgeBase system where lexical items are interrelated by quale roles
m KEYWORDS:
processing
Homonymy;
Qualia structure;
lexical knowledge
base; natural
language
Referncias bibliogrficas
AMSLER, R. A. The structure ofthe Merriam-Websterpocket
97
. ItalwordNet: rete semantico-lessicale per r italiano. Piza: Consorzio Pisa Ricerche (CPR),
Istituto Trentino di Cultura, Istituto per la Ricerca Scientifica e Tecnolgica - (ITC-INST.), 2000.
Capitolo 2.
CARVALHO, P. C. Q. da F. Gramticas de resoluo de ambigidades resultantes da homografia
de nomes e adjetivos. 2001. Dissertao (Mestrado) - Faculdade de Letras da Universidade de
Lisboa, Lisboa, 2001.
DEL FIORENTINO, M. O Estrazione di informazione semntica da un dizionario-macchina delia
lingua italiana: problemi di disambiguazione e di riorganizzazione delle tassonomie semantiche.
1995. Tesi (Laurea) - Universit degli Studi di Pisa, Facolt di Lettere e Filosofia, Piza, 1995.
HAGGE, C; DUARTE, I. Construo de gramticas formais para o processamento da linguagem natural. MATEUS, M. H.; BRANCO, A. H. (Org.) Engenharia da Linguagem. Lisboa: Colibri,
1995. p. 71-93.
HATHOUT, N. Pour la construction d'une base de connaissances lexicologiques partir du Trsfcr
de la Langue franaise: les maqueurs superficiels dans les dfinitions spcialises. Cahier de
lexicologie: Revue Internationale de Lexicologie et de Lexicographie, Paris, v.68, p. 137-173,1996.
LEFFA, V.J. A resoluo da ambigidade lexical sem apoio do conhecimento de mundo. Revista
intercmbio, So Paulo, v.6, ptel, p. 869-889,1998.
LENCI, A et. al. SMPLE-Semantic Information for Multifunctional Plurilingual Lxica: linguistic
specifications: deliverable D2.1. Pisa: University of Pisa and Institute of Computational Linguistics
of CNR, 1999.
MEDEIROS, M. B. B. Tratamento automtico de ambigidades na recuperao da Informao.
1999. Tese (Doutorado) - Universidade de Braslia, Brasilia, 1999.
PICOCHE, J. Precis de lexicologie franaise: l'tude et l'enseignement du vocabulaire. Paris:
Nathan, 1992.
PUSTEJOVSKY, J. The generative lexicon. Cambridge: The MIT Press, 1995.
ZAVAGLIA, C. A homonmia e o computador. Estudos Lingsticos, So Paulo, v.28, p. 738-743,
1999.
. Anlise da homonmia no portugus, tratamento semntico com vistas a procedimentos
computacionais. 2002. Tese (Doutorado) - Faculdade de Cincias de Letras - UNESP, Araraquara, 2002.
98
Bibliografia consultada
BIDERMAN, M.T.C. Polissemia versus homonmia. In. SEMINRIO DO GEL, 38., 1991, Franca.
Anais... Franca. Unio das Faculdades Francanas, 1991 p. 283-290.
. Dicionrio de freqncias do portugus contemporneo. [S. 1: s.n], 1997.1 Disquete
. O dicionrio como norma na sociedade. In: ENCONTRO NACIONAL DO GT DE LEXICOLOGIA, LEXICOGRAFIA E TERMINOLOGIA DA ANPOLL, 1., 1997, Rio de Janeiro. Anais... Rio de Janeiro: Ed. Universitria UFPE, 1997. p.161-180.
. Os dicionrios na contemporaneidade: arquitetura, mtodos e tcnicas. In: OLIVEIRA, A.
M. P. P., ISQUIERDO.A. N. (Org.). As cincias do lxico, lexicologa, lexicografia, terminologia.
Campo Grande: Ed. UFMS, 1998. p.129-142.
BOGURAEV, B. et al. Acquisition of lexical knowledge for natural language: processing systems.
In: Techinical Annex. ESPRIT BRA - 3030. Cambridge (UK), 1988.
CHISHMAN, R. L. de O. A teoria do lxico gerativa, uma abordagem crtica. 2000. Tese (Doutorado) - Pontfice Universidade Catlica do Rio Grande do Sul, Porto Alegre, 2000.
EVENZ, M. W. (Ed.). Relational models of the lexicon: representing knowledge in semantic
networks. Cambridge: Cambridge University Press, 1988.
REHFELDT, G. K. Polissemia e campo semntico: estudo aplicado aos verbos de movimento. Porto Alegre: EDURGS/FAPA/FAPCCA, 1980.
RICH, E. Inteligncia artificial Traduo de Newton Vasconcelos. So Paulo: McGraw-Hill, 1988.
SPANU, A. Pluridimensionalit delle tassonomie dei dizionario. Pisa, 1995. ILC - LDB n.2 (T.152),
CNR-ILC.
99