Escolar Documentos
Profissional Documentos
Cultura Documentos
papis semnticos
Magali Sanches Duran, Sandra Maria Alusio
Ncleo Interinstitucional de Lingustica Computacional
ICMC Universidade de So Paulo - So Carlos SP Brasil
magali.duran@uol.com.br, sandra@icmc.usp.br
Abstract. This paper reports the reflections regarding the particle searisen
during the annotation of a Brazilian Portuguese corpus with semantic role
labels. The particle se is multi-function in Portuguese and poses some
difficulties to be classified, even syntactically. As the guidelines used for such
semantic role labels annotation were conceived for English corpus, they
obviously are not suitable to tackle all the functions of se. Project decisions
present as a result a table with labels to be assigned to the particle se
pronoun, which may benefit not only SRL, but also other studies in Natural
Language Processing.
Resumo. Este artigo relata as reflexes acerca da partcula se que surgiram
durante a anotao de um corpus de portugus do Brasil com rtulos de papis
semnticos. A partcula se multifuncional em portugus e apresenta certa
dificuldade para ser classificada, mesmo sintaticamente. Como o guia usado
para anotao de rtulos de papis semnticos foi concebido para o ingls,
obviamente no consegue contemplar todas as funes do se. As decises de
projeto tomadas resultaram em uma tabela com os rtulos a serem atribudos
partcula se quando pronome, o que poder beneficiar no somente estudos
de rotulao de papis semnticos, como tambm outros estudos em
Processamento de Lnguas Naturais.
1. Introduo
A descrio do portugus pode ter como finalidade prover informaes a falantes nativos,
a aprendizes estrangeiros ou a sistemas computacionais. nesse ltimo caso que se
enquadra o trabalho descrito neste artigo. Reportamos as decises tomadas para anotar a
partcula se para fins de rotulao de papis semnticos em um corpus de portugus do
Brasil. O projeto de anotao semntica que motivou o trabalho aqui descrito o
Propbank-Br (Duran, 2009) e utilizou o corpus Bosque, parte manualmente revisada do
Floresta Sint(c)tica (http://www.linguateca.pt/floresta/).
A partcula se um dos casos que oferecem mais dificuldade para a anotao de
papis semnticos. Essa partcula tem duas classificaes morfolgicas: pronome e
conjuno (alm de poder ser substantivado como em Existe um se nesta questo ). No
corpus utilizado, que j estava sintaticamente anotado pelo parser Palavras (Bick, 2000),
21
Anais da II Jornada de Descrica
o do Portugu
es, p
aginas 2125, Cuiab
a, MT, Brasil, Outubro 2426, 2011.
c
2011
Sociedade Brasileira de Computac
ao
Exemplo
Testes
Pronome reflexivo
Pronome recproco
Partcula
apassivadora
Ele se feriu
Eles se encontraram
Vendem-se casas
ndice de
indeterminao do
sujeito
Partcula expletiva
Acabou-se a festa.
Partcula integrante
do verbo
nos projetos Framecorp (Chishman et al. 2009), Framenet Brasil (Salomo, 2009) e
Propbank-Br (Duran, 2009). Nos dois primeiros casos, o modelo seguido o da Framenet
(Baker et al. 1998) e no ltimo, o do Propbank (Palmer et al. 2005). natural, no entanto,
que muitas das definies contidas nos manuais de anotao dos modelos do ingls no
se apliquem ou no sejam suficientes para lidar com a lngua portuguesa. Isso exige
decises que contribuiro para a elaborao de um guia de anotao de papis semnticos
para o portugus.
3. Materiais e Mtodos
Estamos anotando a poro brasileira do Bosque, que possui 4213 sentenas. A
ferramenta de anotao utilizada a SALTO (Burchardt, 2006). Estamos anotando os
papis sobre a rvore sinttica, ou seja, agregamos uma nova camada de anotao a um
corpus j anotado sintaticamente pelo parser Palavras (Bick, 2000).
No caso do se anotado como pronome pelo parser Palavras, realizamos uma
dupla anotao no Propbank-Br. Uma anotao detalhada foi atribuda s sentenas em
que ele ocorre, visando trabalhos futuros (rtulos da primeira coluna da Tabela 2). Uma
anotao com rtulo de papel semntico, seguindo as instrues do Propbank, foi
atribuda em cima da anotao sinttica do se (terceira coluna da Tabela 2).
Rtulo atribudo Contedo
sentena
Rtulo atribudo ao
se
SE-REF-OD
SE-REF-OI
SE-REC
SE-PAS
SE-IND
SE-EXP
SE-VPR
argm-rec
argm-rec
argm-rec
nenhum
nenhum
nenhum
nenhum
4. Discusso
Para a atribuio de papis semnticos, estabelecemos as trs regras. A primeira delas
que os pronomes reflexivos e recprocos devem ser anotados com uma etiqueta especial,
argm-rec (Figura 1), o que permitir um ps-processamento para ligar esses pronomes
ao sintagma nominal que eles refletem e que so os ocupantes de um papel semntico na
estrutura argumental do verbo.
23
A terceira regra que a partcula se integrante do verbo deve ser ligada ao verbo por
meio da anotao (Figura 3).
5. Consideraes Finais
A anotao extra com as funes do se pronominal podero beneficiar tanto a anotao
de papis semnticos quanto esforos de aperfeioamento dos parsers. As instncias
anotadas podero ser usadas para levantar regras ou calcular correlao entre rtulos
morfolgicos, sintticos e os parmetros indicando as funes do se. Alguns recursos
lxicos j se anunciam importantes para subsidiar a desambiguao automtica das
funes do se: uma relao dos verbos transitivos diretos, dos transitivos indiretos e
dos intransitivos (importante para distinguir partcula apassivadora de ndice de
indeterminao do sujeito), uma relao de: verbos pronominais (esquecer-se, queixar-se,
arrepender-se etc.); verbos que admitem uso reflexivo (pentear-se, ferir-se, cortar-se etc.)
e verbos que admitem uso reflexivo recproco (beijar, abraar, encontrar, ver, amar etc.).
6. Agradecimentos
Agradecemos Fapesp pelo financiamento do projeto Propbank-Br, dentro do qual
realizamos o trabalho aqui relatado.
24
Referncias Bibliogrficas
Baker, C.F., Fillmore, C. J.; Lowe. J. B. (1998).The Berkeley FrameNet Project. In: Proceedings of
Computational Linguistics 1998 Conference, University of Montral, pp. 86-90.
Bick, E. (2000) The Parsing System Palavras Automatic Grammatical Analysis of Portuguese in a Constraint
Grammar Framework. Aarhus, Denmark, Aarhus University Press.
Burchardt, K. E. et alli. (2006) SALTO - A Versatile Multi-Level Annotation Tool. In: Proceedings of LREC2006, Genoa, Italy.
Chishman, R.; Bertoldi, A.; Padilha, J. G. (2009) Usando o FrameNet para a descrio semntica: um
experimento de anotao de corpus. In: Jornada de Descrio do Portugus, 2009, So Carlos. VII STIL,
2009. v. 1.
Duran, M. S. (2009) Propbank-Br: anotao de papis semnticos em um corpus do portugus do Brasil. Projeto
de Ps-Doc financiado pela FAPESP, Processo 2009/07394-9.
Fillmore, C. The Case for Case (1968) In: Bach and Harms (Ed.): Universals in Linguistic Theory. New York:
Holt, Rinehart, and Winston, 1-88.
Palmer, M.; Gildea, D.; Kingsbury, P. (2005) The Proposition Bank: An Annotated Corpus of Semantic
Roles. Computational Linguistics, 31:1., pp. 71-105, March, 2005.
Salomo, M. M. M. (2009) FrameNet Brasil: um trabalho em progresso. Calidoscpio Vol. 7, n. 3, p. 171-182,
set/dez 2009.
25