Você está na página 1de 6

Alternâncias sintáticas, estrutura de argumentos, synsets e

a rede Wordnet.Br
Bento Carlos Dias da Silva1, Maria Carolina Ávila2
1,2
Centro de Estudos Lingüísticos e Computacionais da Linguagem - Faculdade de
Ciências e Letras - Universidade Estadual Paulista (UNESP)
Caixa Postal 174 – 14.800-901 – Araraquara – SP – Brasil
bento@fclar.unesp.br, avilacarol@hotmail.com

Resumo. Os verbos exibem considerável variação na realização sintática dos


seus argumentos semânticos, fenômeno lingüístico que tem motivado a
investigação da interação entre estruturas gramaticais e representações
conceituais. Nesse sentido, este artigo delineia uma estratégia de análise
sintática e léxico-semântica para a classe de verbos calcada na hipótese de
que os verbos pertencentes a uma determinada classe semântica compartilham
um comportamento sintático semelhante. Como ilustração, aplica-se essa
estratégia à construção de synsets (conjuntos de sinônimos) de verbos da base
da Rede Wordnet do Português do Brasil, uma rede léxico-semântica de
unidades lexicais em desenvolvimento no projeto Wordnet.Br.

Palavras-chave. verbos; estrutura de argumentos; alternâncias sintáticas;


wordnets; semântica lexical computacional.

Abstract. Verbs exhibit considerable variation in the syntactic realization of


their semantic arguments. This fact motivates the investigation of the
interaction between grammatical structures and conceptual representations.
Accordingly, this paper outlines a particular syntactic and lexical-semantic
analysis for verbs which is couched in the hypothesis that the verbs of a
semantic class share similar syntactic behavior, i.e. each semantic class is
associated with the constructions in which the verbs of that group participate.
As an illustration, such analysis is applied to the construction of verb synsets
(sets of synonyms) of the Brazilian Portuguese Wordnet core database, a
lexical-semantic network under construction within the Wordnet.Br project.

Keywords. verbs; argument structure; diathesis alternations; wordnets;


computational lexical semantics.

1. Introdução
Este artigo discute uma estratégia de análise léxico-gramatical dos verbos que
parte da hipótese de que a realização sintática da estrutura de argumentos do verbo
reflete sua estrutura conceitual. Essa discussão aponta para duas importantes aplicações
da metodoloia: a descrição léxico-semântica e sintática dos verbos do Português e o
refinamento e ampliação da base de verbos da Rede Wordnet do Português do Brasil,
uma rede léxico-semântica de unidades lexicais em desenvolvimento no projeto
Wordnet.Br.1

Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 368 / 373]

Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 368 / 373 ]


Na seção 2, apresenta-se a metodologia, que se fundamenta nos estudos de
Levin e Rappaport-Hovav (1991), Levin (1993) e Moraes (2004) que as noções
lingüísticas de "estrutura de argumentos" e de "alternâncias sintáticas". Na seção 3,
definem-se os objetos "synsets", "redes wordnets" e "Wordnet.Br". Na seção 4, conclui-
se a discussão mostrando-se a relevância e operacionalidade da estratégia para a
descrição lingüística e computacional dos verbos aplicando-a no refinamento de um
synset extraído da base da rede Wordnet.Br.

2. O Método
Levin e Rappaport-Hovav (1991) investigam a natureza do conhecimento
lexical do falante (do inglês) no que diz respeito à sua competência para classificar as
unidades lexicais da língua em classes nocionais como, por exemplo, a classe dos
“verbos de remoção” (clear “retirar”, wipe “limpar com um pano”, remove “remover”).
Observe-se que, em uma primeira avaliação, esse verbos parecem projetar uma
única configuração sintática para sua estrutura de argumentos: o argumento A1,
tematicamente AGENT, projeta-se como Sujeito (Suj), o argumento A2, tematicamente
LOCATUM, como Objeto (Obj) e o argumento A3, tematicamente LOCATION, como
Complemento Oblíquo FROM (Obl). Em palavras: trata-se da classe dos verbos que
descrevem a remoção de um objeto físico (A1) de um local (A3) por um agente (A1).
Os exemplos (1), (2) e (3) ilustram essa análise.
(1) Doug (A1=AGENT-Suj) cleared the dishes (A2=LOCATUM-Obj) from the
table (A3=LOCATION-Obl ). FROM

(2) Kay (A1=AGENT-Suj) wiped the fingerprints (A2=LOCATUM-Obj) from


the counter (A3=LOCATION-Ob l). FROM

(3) Monica (A1=AGENT-Suj) removed the groceries (A2=LOCATUM-Obj)


from the bag (A3=LOCATION-Obl ). FROM

No entanto, uma investigação mais acurada revela que há modos alternativos de


expressão dos argumentos desses predicadores, i.é, esse verbos podem participar de
diferentes alternâncias sintáticas (ou "altermâncias de diátese"), cuja observação pode
auxiliar o analista a discriminar variações sutis do significado lexical.
Nos exemplos (4) e (5), verifica-se que os verbos clear e wipe, mas não o verbo
remove no sentido relevante para a análise (cuja frase, (6), está marcada com o sinal de
agramaticalidade “*”), participam da seguinte alternância: o argumento A2 desses
verbos não se realiza sintaticamente e o argumento A3 é alçado da função de
Complemento Oblíquo para a função de Objeto. Esse tipo de alternância é denominado
location-as-object-variant, isto é, a alternância em que o papel temático LOCATION é
"promovido" a objeto do verbo.
(4) Doug (A1=AGENT-Suj) cleared the table (A3=LOCATION-Obj).
(5) Kay (A1=AGENT-Suj) wiped the counter (A3=LOCATION-Obj).
(6) *Monica (A1=AGENT-Suj) removed the bag (A3=LOCATION-Obj).
Já os exemplos (7) e (8) demonstram que o verbo clear, mas não o verbo wipe,
participa de um outro tipo de alternância, denominado of-variant: o argumento A3, de
modo análogo ao da alternância anterior, é alçado da posição de Complemento Oblíquo

Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 369 / 373]


Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 369 / 373 ]
para a posição de Objeto, mas o argumento A2 é agora rebaixado da posição de Objeto
para a posição de Complemento Oblíquo introduzido pela preposição of.
(7) Doug (A1=AGENT-Suj) cleared the table (A3=LOCATION-Obj) of dishes
(A2=LOCATUM-Obl ). OF

(8) *Kay (A1=AGENT-Suj) wiped the counter (A3=Location-Obj) of


fingerprints (A2=LOCATUM-Obl ). OF

Essa breve análise de alternâncias sugere que os três verbos devem, na verdade,
encabeçar três classes semânticas distintas:
Classe 1: Classe dos verbos que especificam o processo de remoção de um
objeto (LOCATUM) de um determindo local (LOCATION). Trata-se da classe
formada por verbos como remove, dislodge “desalojar”, draw “sacar, arrancar,
tirar”, extract “extrair” e withdraw “retirar”.
Classe 2: Classe dos verbos que especificam o modo de remoção, isto é, verbos
como erase “limpar raspando ou esfregando”, shave “limpar cortando”, rub
“limpar esfregando” e scrape “limpar raspando”; ou que especificam o
instrumento empregado na remoção, como os verbos wipe, brush “limpar com
uma escova”, mop “limpar com um esfregão”, rake “limpar com um ancinho”,
vacuum “limpar com um aspirador de pó” e buff “limpar com uma camurça”;
Classe 3: Classe dos verbos que especificam o estado resultante da remoção,
mas não como esse estado é alcançado. Trata-se da classe dos verbos como
clear, clean “limpar” e empty “esvaziar”.
Uma análise mais refinada das classes 2 e 3 apresenta ainda um resultado
surpreendente: essas classes, contrariando a avaliação intuitiva inicial, não aglutinam
"verbos de remoção", mas "verbos de atividade" e "verbos de mudança de estado",
respectivamente. Aqueles participam da alternância conativa, ilustrada no exemplo
(10); estes participam da alternância causativo/incoativo, ilustrada no exemplo (11).
(10) Kay rubbed the counter. / Kay rubbed at the counter.
(11) The strong winds cleared the skies. / The skies cleared.
A seguir, aborda-se a aplicação desse procedimento analítico na montagem e
refinamento dos synsets de verbos de uma rede wordnet.

3. As Wordnets e a Rede Wordnet.Br


Inicialmente projetadas na Universidade de Princeton, nos Estados
Unidos, para o inglês americano e visando emular o léxico mental (MILLER e
FELLBAUM, 1991), as wordnets (“redes de palavras”) são bases relacionais de dados,
no sentido computacional do termo, formadas por unidades lexicais de uma língua
natural (cf. WORDNET 2.0, 2004). Do ponto de vista formal, uma wordnet estrutura-se
em termos de synsets (synonym sets), isto é, “conjuntos de sinônimos”, distribuídos em
quatro classes: synsets de verbos, de nomes, de adjetivos e de advérbios. Por definição,
cada synset que compõe a rede representa o conceito lexicalizado pelas unidades
lexicais sinônimas que o compõem. Além da relação léxico-semântica de sinonímia,
constitutiva do synset, uma rede wordnet codifica mais quatro relações entre synsets: a
antonímia, que é também uma relação de natureza léxico-semântica, e as relações de

Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 370 / 373]


Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 370 / 373 ]
natureza lógico-conceptual de hiponímia, meronímia, troponímia, causa e acarretamento
(CRUSE, 1986; FELLBAUM, 1998). Em termos gráficos, a relação de sinonímia
(materializada em cada synset) é representada pelos nós na rede e as demais relações
são representadas por arcos que interligam esses nós. Assim, o sentido de cada unidade
lexical não é dado por definições, como em um dicionário convencional, mas ele
emerge desse dois tipos de relações que a rede permite exprimir: relações intra e inter
synsets.
O sucesso desse tipo de empreendimento pode ser aferido com suas extensões,
em curso, para o português europeu, a WordNet.PT (MARRAFA, 2001), e para outras
línguas da Unidade Européia no âmbito do projeto EuroWordNet (VOSSEN, 1998):
alemão, espanhol, estoniano, francês, holandês, inglês, italiano e tcheco. Destaca-se,
além do interesse científico, seu potencial tecnológico: as wordnets representam
recursos lingüísticos robustos e úteis para aprimorar o desempenho de sistemas de
tradução automática e de motores de busca como o Google.
A base da rede Wordnet.Br, em fase desenvolvimento para o português
brasileiro, conforme ilustra a Tabela 1, reúne mais de 18 mil synsets, entre nomes,
verbos, adjetivos e advérbios (DIAS-DA-SILVA, OLIVEIRA e MORAES, 2002;
DIAS-DA-SILVA, 2003).
Tabela 1. Estatísticas da base da rede Wordnet.Br
Categoria N° de Unidades Lexicais N° de Synsets
Verbos 11.000 4.000
Nomes 17.000 8.000
Adjetivos 15.000 6.000
Advérbios 1.000 500
Total 44.000 18.500

4. A Aplicação do Método
No estágio de desenvolvimento atual, a base da rede Wordnet.Br está sendo
ampliada com informação contextual, isto é, para cada unidade lexical constitutiva dos
synsets, por meio de pesquisa em córpus, seleciona-se uma frase-exemplo para ilustrar o
sentido específico e em uso evocado pelo synset de que a unidade é membro. O córpus
de referência é composto por três fontes digitais de informação lexical, apresentadas na
respectiva ordem de prioridade da pesquisa: (i) o Córpus do NILC (CORPUS NILC,
2004), composto por textos escritos em português do Brasil, nos registros jornalístico,
didático e epistolar; (ii) textos do português do Brasil localizados na Internet por meio
do motor de busca Google; (iii) as abonações registradas nos dicionários Michaelis
(WEISZFLOG, 1998), Aurélio (FERREIRA, 1999) e Houaiss (HOUAISS, 2001).
Nesse processo de coleta e seleção de frases-exemplo, em que é crucial a
delimitação do sentido “evocado” pelo synset, os analistas encontram-se diante de
problemas diversos: desde a análise de synsets muito extensos, o que torna difícil a
identificação do sentido codificado no synset, passando pela análise de synsets com
unidades que não se conformam com o sentido “dominante” do synset, até a análise de
synsets cujas unidades não apresentam o mesmo comportamento sintático.
Parte desses problemas decorre de deficiências diversas que comprometem a boa
formação dos synsets: carência de técnicas precisas de análise léxical, análises lexicais
imprecisas ou equivocadas, erros de impressão e digitação, entre outras. A análise

Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 371 / 373]


Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 371 / 373 ]
exploratória do Synset_3742, em (12), extraído da base da rede Wordnet.Br, servirá de
ilustração da aplicação do método na busca de diferenças sutis de sentido.
(12) Synset_3742={comer, despojar, escamotear, escorchar, furtar, rapinar,
ratonear, roubar, safar, saquear, subtrair, tirar, tomar}
Para simplificar a análise, sem, entretanto, comprometer a apreciação das
potencialidades do método na descrição léxico-gramatical dos verbos, restringiu-se a
seleção de frases-exemplo que servem de contexto mínimo para as unidades lexicais à
Weiszflog (1998) do córpus de referência. A análise das frases permitiu a identificação
de quatro tipos diferentes de realização sintática dos argumentos dos verbos desse
synset, revelando diferenças sutis de sentido e apontando, portanto, para uma partição
do Synset_3742 em quatro novos synsets. O resultado preliminar dessa análise é
ilustrado em (13), (14), (15) e (16).
(13) Synset_3742a = {comer, furtar, rapinar, ratonear, roubar} - Alternância =
[A1=AGENT-Suj] - Frases: [nas negociatas, os políticos] ø (A1) Comeram a
valer; ...aquele que ø (A1) furtava, não ø (A1) furte mais; ...que ali se (A1)
roube, que ali se (A1) ratoneie, que ali se (A1) rapine.
(14) Synset_3742b = {despojar, escorchar, roubar} - Alternância =
[A1=AGENT-Suj, A3=LOCATION-Obj] - Frases: Os piratas (A1) despojaram
o navio (A3); ø (A1) Escorchavam o banco (A3); Alguém (A1) andava
roubando o armazém (A3).
(15) Synset_3742c = {comer, escamotear, furtar, rapinar, roubar, saquear,
subtrair, tirar, tomar} - Alternância = [A1=AGENT-Suj, A2=LOCATUM-Obj]
- Frases: Os mesários (A1) comeram tudo (A2) o que puderam; ø (A1)
Escamotear uma carteira (A2); ø (A1) Furtaste o osso (A2) e vou levar-te aos
tribunais; ø (A1) Rapinava tudo (A2) o que podia; Venais administradores, que
ø (A1) saqueiam os bens públicos (A2); ø (A1) Subtrair uma carteira (A2); ø
(A1) Tiraram o meu dinheirinho (A2), seu doutor; ø (A1) Tomar o alheio (A2).
(16) Synset_3742d = {roubar, safar, subtrair} - Alternância = [A1=AGENT-
Suj, A2=LOCATUM-Obj, A3=LOCATION-Obl] - Frases: ø (A1) Roubaram-te
(A3) a herança (A2); ø (A1) Safaram-lhe (A3) a carteira (A2); O moleque (A1)
subtraiu uma maçã (A2) ao quitandeiro (A3).
Concluindo. Admitindo-se a hipótese de que a expressão sintática da estrutura
de argumentos do verbo correlaciona-se com suas propriedades semânticas, a
discriminção das alternâncias sintáticas de que os verbos acima exemplificados
participam fornece um critério lingüisticamente motivado para isolar classes de verbos
semanticamente coerentes. Assim, do ponto de vista teórico, este trabalho contribui com
um método explícito de descrição léxico-semântica e sintática de verbos que opera na
interface entre a sintaxe e a semântica e, do ponto de vista prático, instumentaliza o
analista na montagem e refinamento dos synsets de verbos de redes semânticas do tipo
wordnet.

Notas
1
Este trabalho contou com auxílios do CNPq e FAPESP.

Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 372 / 373]


Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 372 / 373 ]
Referências
CORPUS NILC. Disponível em http://www.linguateca.pt/. Acesso em 13 ago. 2004.
CRUSE, D.A. Lexical semantics. Cambridge, Mass: Cambridge University Press, 1986.
DIAS-DA-SILVA, B.C.Human language technology research and the development of
the Brazilian Portuguese Wordnet. In: VCOVÁ, A.,
       
   

MÍROVSKÝ, J. (Ed.). Proceedings of the 17th International Congress of Linguists.


Prague: Matfyzpress, MFF-UK, 2003. 12 p.
DIAS-DA-SILVA, B.C.; OLIVEIRA, M.F., MORAES, H.R. Groundwork for the
development of the Brazilian Portuguese Wordnet. In: E.M. RANCHHOD; N.J.
MAMEDE (eds.) Advances in natural language processing. Berlin: Springer-
Verlag, 2002. p. 189-196.
FELLBAUM, C. (Ed.) WordNet: An electronic Lexical Database. 2. Ed. Cambridge
(Mass.): MIT Press, 1998.
FERREIRA, A.B. de H. Dicionário Aurélio eletrônico século XXI. (Versão 3.0). São
Paulo: LexiKon Informática Ltda., 1999.
HOUAISS, A. Dicionário eletrônico Houaiss da língua portuguesa. (Versão 1.0). Rio
de Janeiro: FL Gama Design Ltda., 2001.
LEVIN, B. English verb classes and alternations: a preliminary investigation.
Chicago: University of Chicago Press, 1993.
LEVIN, B.; RAPPAPORT-HOVAV, M. Wiping the slate clean: a lexical semantics
exploration. Cognition, Amsterdam, v. 41, p. 123-151, 1991.
MARRAFA, P. WordNet do Português: u ma base de dados de conhecimento
lingüístico. Lisboa: Instituto Camões, 2001.
MILLER, G. A., FELLBAUM, C. Semantic networks of English. Cognition,
Amsterdam, v. 41., n.1-3, p. 197-229, 1991.
MORAES, H. R. O jogo de interdependências entre a semântica do verbo e as
alternâncias de diátese. 2004. 119f. Dissertação (Mestrado em Lingüística e Língua
Portuguesa) – Universidade Estadual Paulista, Faculdade de Ciências e Letras,
Araraquara, 2004
VOSSEN, P., Special issue on EuroWordNet. Computers and the Humanities,
Dordrecht, v. 32., n. 2 e 3, 1998.
WEISZFLOG, W. (ed.) Michaelis português- moderno dicionário da língua
portuguesa. (Versão 1.0). São Paulo: DTS Software Brasil Ltda. 1998.

WORDNET 2.0. Disponível em http://www.cogsci.princeton.edu/cgi-bin/webwn.


Acesso em: 13 ago. 2004.

Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 373 / 373]


Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 373 / 373 ]