Você está na página 1de 5

O tratamento da partcula se para fins de anotao de

papis semnticos
Magali Sanches Duran, Sandra Maria Alusio
Ncleo Interinstitucional de Lingustica Computacional
ICMC Universidade de So Paulo - So Carlos SP Brasil
magali.duran@uol.com.br, sandra@icmc.usp.br

Abstract. This paper reports the reflections regarding the particle searisen
during the annotation of a Brazilian Portuguese corpus with semantic role
labels. The particle se is multi-function in Portuguese and poses some
difficulties to be classified, even syntactically. As the guidelines used for such
semantic role labels annotation were conceived for English corpus, they
obviously are not suitable to tackle all the functions of se. Project decisions
present as a result a table with labels to be assigned to the particle se
pronoun, which may benefit not only SRL, but also other studies in Natural
Language Processing.
Resumo. Este artigo relata as reflexes acerca da partcula se que surgiram
durante a anotao de um corpus de portugus do Brasil com rtulos de papis
semnticos. A partcula se multifuncional em portugus e apresenta certa
dificuldade para ser classificada, mesmo sintaticamente. Como o guia usado
para anotao de rtulos de papis semnticos foi concebido para o ingls,
obviamente no consegue contemplar todas as funes do se. As decises de
projeto tomadas resultaram em uma tabela com os rtulos a serem atribudos
partcula se quando pronome, o que poder beneficiar no somente estudos
de rotulao de papis semnticos, como tambm outros estudos em
Processamento de Lnguas Naturais.

1. Introduo
A descrio do portugus pode ter como finalidade prover informaes a falantes nativos,
a aprendizes estrangeiros ou a sistemas computacionais. nesse ltimo caso que se
enquadra o trabalho descrito neste artigo. Reportamos as decises tomadas para anotar a
partcula se para fins de rotulao de papis semnticos em um corpus de portugus do
Brasil. O projeto de anotao semntica que motivou o trabalho aqui descrito o
Propbank-Br (Duran, 2009) e utilizou o corpus Bosque, parte manualmente revisada do
Floresta Sint(c)tica (http://www.linguateca.pt/floresta/).
A partcula se um dos casos que oferecem mais dificuldade para a anotao de
papis semnticos. Essa partcula tem duas classificaes morfolgicas: pronome e
conjuno (alm de poder ser substantivado como em Existe um se nesta questo ). No
corpus utilizado, que j estava sintaticamente anotado pelo parser Palavras (Bick, 2000),

21
Anais da II Jornada de Descrica
o do Portugu
es, p
aginas 2125, Cuiab
a, MT, Brasil, Outubro 2426, 2011.
c
2011
Sociedade Brasileira de Computac
ao

observamos que a determinao automtica da classe morfolgica do se foi realizada


com xito. Na anotao sinttica realizada pelo parser Palavras, o se conjuno no
recebe nenhum rtulo individual (sua funo introduzir oraes subordinadas) ao passo
que o se pronominal recebe um rtulo de sintagma nominal (NP). No entanto, o parser
no distingue se o se pronominal recproco, reflexivo, partcula integrante do verbo,
partcula apassivadora, partcula expletiva ou ndice de indeterminao do sujeito, como
detalhado na Tabela 1:
Funo

Exemplo

Testes

Pronome reflexivo
Pronome recproco
Partcula
apassivadora

Ele se feriu
Eles se encontraram
Vendem-se casas

ndice de
indeterminao do
sujeito

Concordou-se com tudo o que foi


dito.

Partcula expletiva

Acabou-se a festa.

Partcula integrante
do verbo

Ele apaixonou-se assim que a viu.

Aceita substituio do se por a si mesmo


Admite substituio do se por um ao outro
Aceita transformao em passiva analtica: Casas so
vendidas.
S ocorre com verbos transitivos diretos.
Ocorre com verbos transitivos indiretos. No aceita
passiva analtica. Aceita substituio do se por
algum ou ningum. Verbo na 3. pessoa do
singular.
Aceita omisso do se sem que a frase se torne
incorreta. Ocorre com verbos intransitivos
No aceita substituio por a si mesmo

Tabela 1. Funes do se pronominal e testes para distingui-las

No nvel semntico, somente o se pronominal candidato a receber um papel


na estrutura argumental do verbo, pois ele pode refletir o verdadeiro ocupante do papel.
Ocorre, porm, que nem sempre o se pronominal reflete um argumento do verbo.
Quando o se for ndice de indeterminao do sujeito, partcula apassivadora, partcula
integrante do verbo ou partcula expletiva, no deve receber anotao de papel semntico.
A anlise automtica do parser, contudo, no fornece nenhuma informao que auxilie a
distinguir essas funes. A fim de suprir essa lacuna, decidimos realizar uma anotao
extra no corpus, com as funes do se pronominal, mesmo aquelas que no
correspondam a papis semnticos.
Na Seo 2 fornecemos uma breve descrio do que a anotao de papis
semnticos, na Seo 3 relatamos nosso mtodo de anotao, na Seo 4 fazemos a
discusso do assunto e na Seo 5 apresentamos as consideraes finais e apontamos
possibilidades de trabalhos futuros.

2. Anotao de Papis Semnticos


A anotao de papis semnticos consiste em atribuir rtulos de papis
semnticos aos argumentos de um verbo. A teoria subjacente a da semntica de frames,
de Fillmore (1968).
H pouco mais de uma dcada diversas iniciativas tm sido tomadas no sentido de
anotar corpora com papis semnticos, de modo a ter um modelo para a construo de
anotadores automticos de papis semnticos, o que permitir melhorar o processamento
automtico dos textos. As primeiras iniciativas foram para o ingls e so tomadas como
modelo para projetos semelhantes em outras lnguas. At o momento no h corpora de
portugus do Brasil disponveis com rtulos de papis semnticos, mas esto previstos
22

nos projetos Framecorp (Chishman et al. 2009), Framenet Brasil (Salomo, 2009) e
Propbank-Br (Duran, 2009). Nos dois primeiros casos, o modelo seguido o da Framenet
(Baker et al. 1998) e no ltimo, o do Propbank (Palmer et al. 2005). natural, no entanto,
que muitas das definies contidas nos manuais de anotao dos modelos do ingls no
se apliquem ou no sejam suficientes para lidar com a lngua portuguesa. Isso exige
decises que contribuiro para a elaborao de um guia de anotao de papis semnticos
para o portugus.

3. Materiais e Mtodos
Estamos anotando a poro brasileira do Bosque, que possui 4213 sentenas. A
ferramenta de anotao utilizada a SALTO (Burchardt, 2006). Estamos anotando os
papis sobre a rvore sinttica, ou seja, agregamos uma nova camada de anotao a um
corpus j anotado sintaticamente pelo parser Palavras (Bick, 2000).
No caso do se anotado como pronome pelo parser Palavras, realizamos uma
dupla anotao no Propbank-Br. Uma anotao detalhada foi atribuda s sentenas em
que ele ocorre, visando trabalhos futuros (rtulos da primeira coluna da Tabela 2). Uma
anotao com rtulo de papel semntico, seguindo as instrues do Propbank, foi
atribuda em cima da anotao sinttica do se (terceira coluna da Tabela 2).
Rtulo atribudo Contedo
sentena

Rtulo atribudo ao
se

SE-REF-OD
SE-REF-OI
SE-REC
SE-PAS
SE-IND
SE-EXP
SE-VPR

argm-rec
argm-rec
argm-rec
nenhum
nenhum
nenhum
nenhum

Pronome reflexivo como objeto direto


Pronome reflexivo como objeto indireto
Pronome reflexivo recproco
Partcula apassivadora
ndice de indeterminao do sujeito
Partcula expletiva
Partcula integrante do verbo

Tabela 2. Rtulos de anotao do se pronominal no Propbank-Br

4. Discusso
Para a atribuio de papis semnticos, estabelecemos as trs regras. A primeira delas
que os pronomes reflexivos e recprocos devem ser anotados com uma etiqueta especial,
argm-rec (Figura 1), o que permitir um ps-processamento para ligar esses pronomes
ao sintagma nominal que eles refletem e que so os ocupantes de um papel semntico na
estrutura argumental do verbo.

Figura 1. Anotao da partcula se pronominal com valor reflexivo no


Propbank-Br

23

A segunda regra que os pronomes na funo de partcula apassivadora, de ndice de


indeterminao do sujeito e de partcula expletiva no devem receber anotao de papel
semntico (Figura 2):

Figura 2. Partcula se pronominal com valor expletivo (no anotada no


Propbank-Br)

A terceira regra que a partcula se integrante do verbo deve ser ligada ao verbo por
meio da anotao (Figura 3).

Figura 3. Tratamento da partcula se integrante do verbo no Propbank-Br)

5. Consideraes Finais
A anotao extra com as funes do se pronominal podero beneficiar tanto a anotao
de papis semnticos quanto esforos de aperfeioamento dos parsers. As instncias
anotadas podero ser usadas para levantar regras ou calcular correlao entre rtulos
morfolgicos, sintticos e os parmetros indicando as funes do se. Alguns recursos
lxicos j se anunciam importantes para subsidiar a desambiguao automtica das
funes do se: uma relao dos verbos transitivos diretos, dos transitivos indiretos e
dos intransitivos (importante para distinguir partcula apassivadora de ndice de
indeterminao do sujeito), uma relao de: verbos pronominais (esquecer-se, queixar-se,
arrepender-se etc.); verbos que admitem uso reflexivo (pentear-se, ferir-se, cortar-se etc.)
e verbos que admitem uso reflexivo recproco (beijar, abraar, encontrar, ver, amar etc.).

6. Agradecimentos
Agradecemos Fapesp pelo financiamento do projeto Propbank-Br, dentro do qual
realizamos o trabalho aqui relatado.

24

Referncias Bibliogrficas
Baker, C.F., Fillmore, C. J.; Lowe. J. B. (1998).The Berkeley FrameNet Project. In: Proceedings of
Computational Linguistics 1998 Conference, University of Montral, pp. 86-90.
Bick, E. (2000) The Parsing System Palavras Automatic Grammatical Analysis of Portuguese in a Constraint
Grammar Framework. Aarhus, Denmark, Aarhus University Press.
Burchardt, K. E. et alli. (2006) SALTO - A Versatile Multi-Level Annotation Tool. In: Proceedings of LREC2006, Genoa, Italy.
Chishman, R.; Bertoldi, A.; Padilha, J. G. (2009) Usando o FrameNet para a descrio semntica: um
experimento de anotao de corpus. In: Jornada de Descrio do Portugus, 2009, So Carlos. VII STIL,
2009. v. 1.
Duran, M. S. (2009) Propbank-Br: anotao de papis semnticos em um corpus do portugus do Brasil. Projeto
de Ps-Doc financiado pela FAPESP, Processo 2009/07394-9.
Fillmore, C. The Case for Case (1968) In: Bach and Harms (Ed.): Universals in Linguistic Theory. New York:
Holt, Rinehart, and Winston, 1-88.
Palmer, M.; Gildea, D.; Kingsbury, P. (2005) The Proposition Bank: An Annotated Corpus of Semantic
Roles. Computational Linguistics, 31:1., pp. 71-105, March, 2005.
Salomo, M. M. M. (2009) FrameNet Brasil: um trabalho em progresso. Calidoscpio Vol. 7, n. 3, p. 171-182,
set/dez 2009.

25

Você também pode gostar