Você está na página 1de 8

13

Anais da II Jornada de Descri c ao do Portugues, paginas 1320, Cuiaba, MT, Brasil, Outubro 2426, 2011.
c 2011 Sociedade Brasileira de Computacao

Rumo a um Recurso Lexical para a Linguagem Jurdica
Brasileira
Anderson Bertoldi
1
, Rove Chishman
1

1
Programa de Ps-Graduao em Lingustica Aplicada - Universidade do Vale do Rio
dos Sinos (UNISINOS)
Caixa Postal 275 93.022-000 So Leopoldo RS Brasil
andersonbertoldi@yahoo.com, rove@unisinos.br
Abstract. This paper describes the initial steps to create a lexical resource for
the Brazilian legal language. It is presented the methodology adopted to
create the Processo_penal frame of the Brazilian legal system.
Resumo. Este artigo descreve as etapas iniciais do desenvolvimento de um
recurso lexical para a linguagem jurdica brasileira. apresentada aqui a
metodologia adotada para a criao do frame Processo_penal para o
sistema jurdico brasileiro.
1. Introduo
Este artigo descreve as etapas iniciais do desenvolvimento de um recurso lexical para a
linguagem jurdica brasileira. Trata-se de um projeto lexicogrfico baseado na
Semntica de Frames, sendo desenvolvido no mbito do projeto Tecnologias
Semnticas e Sistemas de Recuperao de Informao Jurdica
1
. Esse projeto prev a
construo de recursos lexicais e recursos baseados em conhecimento jurdico, como
lxicos e ontologias, para uso em recuperao de informao jurdica. O projeto
lexicogrfico que se apresenta neste artigo parte integrante desse conjunto de esforos
que vem sendo realizado na descrio do conhecimento e linguagem jurdicos
brasileiros.
Neste trabalho apresentam-se: (i) a metodologia adotada para a criao do frame
Processo_penal e (ii) os subframes que compem o frame Processo_penal,
bem como as unidades lexicais evocadoras desses subframes e os exemplos de
sentenas anotadas para o portugus.
2. Lxicos Jurdicos
Este trabalho, que aplica o paradigma FrameNet para a construo de uma base de dados
lexicais para a linguagem jurdica brasileira, inspira-se em trabalhos anteriores de
criao de bases de dados de linguagem jurdica: JurWordNet (Sagri et al., 2003) e
LOIS (Dini et al., 2005). Tanto a JurWordNet como a LOIS so bases de dados lexicais
terminolgicas baseadas na estrutura da WordNet (Miller, 1995).

1
O projeto Tecnologias Semnticas e Sistemas de Recuperao de Informao Jurdica conta com o
apoio da CAPES e do Conselho Nacional de Justia (Edital CNJ Acadmico n. 020/2010/CAPES/CNJ)
e coordenado pela professora Dra. Rove Chishman.
14

WordNets terminolgicas como a JurWordNet tm como objetivo melhorar a
recuperao de informao jurdica pela conexo de termos por meio da relao
semntica de sinonmia. Como a sinonmia no muito produtiva entre os termos
especializados, as relaes de sinonmia ligam os termos especializados usados pelos
operadores do Direito s palavras no especializadas usadas pelos cidados. Um
exemplo a palavra affitto (aluguel), utilizada pelo no especialista, e o termo jurdico
locazioni di immobili (locao de imvel), preferido pelos especialistas. Essa
organizao por rede de sinnimos reduz a barreira entre a linguagem especializada
utilizada pelo especialista e a linguagem no especializada utilizada pelo cidado no
especialista.
A LOIS (Lexical Ontologies for Legal Information Sharing) uma extenso
multilngue da JurWordnet. Relaes semnticas conectam termos jurdicos em
diferentes lnguas. A arquitetura da LOIS baseada na EuroWordNet (Vossen, 1998).
As wordnets de diferentes lnguas so conectadas atravs de um ndice de interlngua.
Tanto a JurWordNet quanto a LOIS seguem o paradigma WordNet (Miller,
1995). Neste trabalho, prope-se o uso do paradigma FrameNet (Fillmore et al., 2003)
para a construo de recursos lexicais jurdicos. O objetivo descreverem-se os
participantes dos atos jurdicos, como, por exemplo, o juiz e o ru.
3. O FrameNet e a Metodologia de Criao de Frames
O FrameNet uma base de dados lexicais que descreve o significado das palavras de
acordo com os princpios da semntica de Frames. No FrameNet, os itens lexicais so
concebidos como unidades lexicais. A unidade lexical a juno de uma palavra a um
significado. Assim, cada novo significado de uma palavra representar uma nova
unidade lexical. Nos termos da FrameNet, cada nova unidade lexical evoca um frame
semntico diferente.
Segundo Fillmore e Baker (2010), o mtodo de anlise lexical da FrameNet
segue cinco passos:
Caracterizao do frame. Caracteriza-se a situao descrita pelas unidades lexicais,
por exemplo, a priso de um suspeito, como no caso do frame Arrest.
Descrio e nomeao dos elementos de frame. Aps a caracterizao de um frame
especfico, identificam-se todos os possveis participantes da situao e criam-se nomes
para cada participante, por exemplo, AUTORIDADES, SUSPEITO, OFENSA e ACUSAES.
Seleo das unidades lexicais. Aps a descrio da situao e da identificao e
nomeao dos elementos de frame, as unidades lexicais e expresses evocadoras do
frame so identificadas: apprehend.v, apprehension.n, arrest.n, arrest.v, book.v, bust.n,
bust.v, collar.v, cop.v, nab.v, summons.v
Anotao de sentenas. Sentenas selecionadas para exemplificar os padres sintticos
e semnticos de cada unidade lexical so anotadas com elementos de frame.
Gerao automtica de entradas lexicais. Os exemplos anotados para cada unidade
lexical so transformados automaticamente em uma entrada lexical contendo a definio
da unidade lexical, as realizaes sintticas de cada elemento de frame e os padres
valncias.
15

Conforme Fillmore e Baker (2010), os elementos de frame representam
propriedades ou entidades que podem ou devem estar presentes em qualquer instncia
de um frame. A FrameNet diferencia os elementos de frame em centrais, perifricos e
extratemticos. Segundo Fillmore e Baker (2010), a distino entre esses tipos nem
sempre clara. De uma forma geral, elementos de frame que so obrigatoriamente
expressos so centrais. Os elementos de frame perifricos expressam em geral funes
de adjuntos, expressando tempo, lugar ou modo. A diferena entre elementos centrais e
perifricos depende da necessidade de complementao da unidade lexical. Os
elementos de frame extratemticos introduzem informao referente a outro frame,
como o propsito motivador de algum evento ou ao. Os elementos de frame
perifricos e extratemticos so agrupados na FrameNet sob a denominao de
elementos no-centrais.
4. O Desenvolvimento do Frame Processo_penal
Esta seo apresenta a metodologia utilizada para a descrio do frame
Processo_penal, a organizao dos subframes que compem esse frame e as
unidades lexicais evocadoras de frames. O foco da ateno nesta seo ser o
agrupamento das unidades lexicais segundo o frame por elas evocado, a definio dos
frames jurdicos, o reconhecimento dos elementos de frame centrais de cada frame
jurdico e anotao de exemplos de sentenas.
4.1. Metodologia
Este trabalho representa a primeira etapa de um projeto lexicogrfico que objetiva a
aplicao do paradigma FrameNet para a criao de um recurso lexical da linguagem
jurdica brasileira. Nessa fase do projeto, utilizou-se a metodologia de expanso
(Vossen, 1999). A metodologia de expanso utilizada por projetos como o Spanish
FrameNet (Subirats, 2009). A metodologia de expanso, aplicada ao desenvolvimento
de recursos lexicais baseados em frames, consiste em utilizar os mesmos frames
semnticos da FrameNet para o desenvolvimento da base de dados lexicais da nova
lngua, substituindo as unidades lexicais do ingls pelos seus equivalentes de traduo
na outra lngua e adaptando os frames semnticos quando necessrio.
Assim, a metodologia deste trabalho seguiu quatro passos:
(i) Primeiramente, identificaram-se equivalentes de traduo em portugus para
as unidades lexicais evocadoras de frame em ingls. Nessa etapa, utilizou-se o
Dicionrio Jurdico Bilngue Noronha (Goyos Junior, 1992) para no contar apenas com
a intuio dos pesquisadores sobre as lnguas em comparao.
(ii) Em segundo lugar, identificou-se o evento jurdico evocado por cada uma
das unidades lexicais em portugus. Essa etapa envolveu a anlise do conhecimento
jurdico vinculado pela unidade lexical em portugus, que nem sempre era compatvel
com o contexto jurdico evocado pelas unidades lexicais em ingls.
(iii) Em terceiro lugar, criaram-se os subframes que compem o frame
Processo_penal. Dois passos metodolgicos distintos foram seguidos nessa etapa.
No caso de o evento jurdico evocado pela unidade lexical em portugus ser
correspondente ao evento jurdico evocado pela unidade lexical em ingls, adotou-se a
16

metodologia de expanso. O frame semntico foi mantido o mesmo, apenas
substituindo-se as unidades lexicais do ingls pelas unidades lexicais em portugus e
anotando-se exemplos de sentenas em portugus para cada frame semntico. No caso
de o evento jurdico evocado pela unidade lexical em portugus no ser correspondente
ao evento evocado pela unidade lexical em ingls, adotaram-se os passos metodolgicos
utilizados pela FrameNet (Fillmore e Baker 2010), descritos na seo 3.
(iv) O ltimo passo envolveu a seleo de exemplos de sentenas e anotao
manual com elementos de frame. Para esta etapa, utilizou-se o corpus NILC. A anotao
de sentenas apresentada aqui no extensiva, e sim seletiva. Foram selecionadas
apenas aquelas sentenas que melhor exemplificam a anotao de sentenas com os
elementos de frame.
A metodologia apresentada aqui apresenta diversas limitaes. Primeiramente, a
metodologia de expanso no se presta bem para o domnio jurdico. Os frames
jurdicos tendem a apresentar mais incompatibilidades que compatibilidades, pois so
dois sistemas jurdicos que esto em contraste, o americano e o brasileiro. A
metodologia de expanso tambm limita a criao de novos frames na base de dados
lexicais da nova lngua, uma vez que se parte dos frames e das unidades lexicais j
descritos pela FrameNet. Outra limitao da metodologia utilizada diz respeito ao
corpus. O corpus NILC, apesar de ser representativo para a pesquisa realizada, no um
corpus especializado da linguagem jurdica. Assim, em futuras etapas do projeto
lexicogrfico descrito neste artigo, sero necessrias a anlise de documentos jurdicos e
a compilao de um corpus especializado. Atravs dos documentos jurdicos possvel
se identificar as fraseologias tpicas do Direito, o que no possvel de se identificar
com um dicionrio jurdico bilngue.
4.1. O Frame Processo_penal
O frame Processo_penal est dividido cinco subframes: Priso, Denncia,
Audincia_de_instruo, Pronnica, e Julgamento. O frame
Julgamento est dividido em trs subframes que representam os passos de um
julgamento pelo procedimento do Tribunal do Jri: Instruo, Veredito e
Sentena. O frame Julgamento est em relao de perspectiva com o frame
Julgar_acusado. O frame Julgar_acusado especifica o evento legal geral
representado pelo frame Julgamento. Enquanto o frame Julgamento representa os
principais passos de um Tribunal do Jri, o frame Julgar_acusado representa o
evento de julgar um ru. Ambos os frames descrevem o mesmo evento, mas de pontos
de vista diferentes. Como representam pontos de vista diferentes, as unidades lexicais
evocadoras de frame so diferentes para cada frame. A figura 1 apresenta a organizao
do frame Processo_penal.
O frame Priso descreve um ato em que AUTORIDADES privam um SUSPEITO
da liberdade por ACUSAES contra ele. Os elementos de frame centrais a este frame
so: AUTORIDADES, SUSPEITO, OFENSA, ACUSAES. As unidades lexicais evocadoras
deste frame so: prender, priso, fichar, deter, capturar, em cana. As sentenas
anotadas a seguir exemplificam as ocorrncias de cada unidade lexical e os elementos de
frame que ocorrem com cada uma delas.
17

(1) [Frana
AUTORIDADES
] prende [95 suspeitos
SUSPEITO
] [de colaborao com terror
argelino.
OFENSA
]

O frame Denncia representa um evento jurdico em que o promotor,
AUTORIDADE_DE_ACUSAO, denuncia o ACUSADO por ACUSAES contra ele. Os
elementos de frame centrais deste frame so ACUSADO, AUTORIDADE_DE_ACUSAO e
ACUSAES. As unidades lexicais evocadoras de frame so acusar, acusao, denunciar
e denncia.

(2) A partir desses documentos, [o Ministrio Pblico
AUTORIDADE_DE_ACUSAO
]
denunciou [os bicheiros
ACUSADO
] novamente e ficou comprovado que eles
mantinham suas atividades mesmo de trs das grades


Cenrio_de_crime
Cometer_crime Investigao_criminal Processo_penal
Julgamento
Julgar_
acusado
Apelao
Audincia_
Instruo
Denncia Priso
Instruo Veredito
Sentena
Pronncia

Figura 1. O frame Processo_penal
O frame Audincia_de_instruo representa a audincia preliminar em
que um JUIZ ouve o ACUSADO de um crime com o objetivo de decidir sobre o
prosseguimento do processo. So elementos de frame centrais JUIZ, ACUSADO,
TESTEMUNHAS e ACUSAES. As unidades lexicais evocadoras deste frame so
interrogar e depor.

(3) [Principal testemunha da chacina
TESTEMUNHA
] depe no II Tribunal do Jri
reafirma denncias e diz que Emanuel mentiu ao inocentar Crtes.

O frame Pronncia descreve o evento jurdico em que o JUIZ,presidente do
Tribunal do Jri, faz a apreciao preliminar das provas, em sentena, para submeter o
18

RU posteriormente a julgamento. Os elementos de frame centrais so JUIZ e RU. As
unidades lexicais evocadoras do frame Pronncia so pronncia e pronunciar.

(4) [O juiz
JUIZ
] deve pronunciar [o ru
RU
] (TJSP, RCrim 71.325, RT 648 / 275).

O frame Julgamento descreve o evento jurdico em que um JUIZ, presidente
do Tribunal do Jri, e um corpo de jurados, o JRI, devem decidir sobre a culpa ou
inocncia de um RU. A PROMOTORIA tenta provar a culpa e a DEFESA tenta provar a
inocncia do RU. Os elementos de frame centrais a este frame so JUIZ, JRI,
PROCURADOR, RU, DEFESA, ACUSAES, TRIBUNAL e AO. As unidades lexicais
evocadoras de frame so julgamento, processo e ao penal.

(5) O recurso pode provocar, em 95, um novo julgamento [dos acusados
RU
] [pelos
desembargadores do Tribunal de Justia do Estado.
JUIZ
]

O frame Instruo descreve a fase de instruo em plenrio, em que o JUIZ
interroga o RU e as TESTEMUNHAS da defesa e da acusao depem. Os elementos de
frame so RU, TESTEMUNHA e JUIZ. As unidades evocadoras de frame so depor,
interrogar e testemunhar.

(6) [Principal testemunha da chacina
TESTEMUNHA
] depe no II Tribunal do Jri
reafirma denncias e diz que Emanuel mentiu ao inocentar Crtes.

O frame Veredito descreve a fase de votao em que o JRI decide sobre a
culpa ou inocncia do RU. Os elementos de frame so JUIZ, DECISO, ACUSAES. As
unidades evocadoras de frame so decidir, considerar, absolver, inocentar, condenar,
condenao e veredito.

(7) Quanto a essa acusao, o [jri
JUIZ
] decidiu [absolver
DECISO
] [o ru Alexandre
Cardoso, o Topeira,
RU
] e [condenar
DECISO
] [Sandro Baggi e Andr Rodrigues da
Silva, o Gargamel.
RU
]

O frame Sentena descreve a fase do frame julgamento em que o JUIZ profere
a sentena ao RU. Os elementos de frame centrais so CONDENADO, TRIBUNAL, OFENSA
e PENA. A unidade lexical evocadora deste frame condenar.

(8) [Ubirajara
CONDENADO
] foi condenado [a 19 anos
PENA
] [para cada homicdio
OFENSA
]
e [a 12 anos
PENA
] [pela tentativa de homicdio de Orlando
OFENSA
]

19

O frame Julgar_acusado descreve o julgamento de um RU, que acusado
de um crime. Um corpo de jurados, o JRI, responsvel por avaliar as ACUSAES e
decidir se o RU culpado pelo crime, a OFENSA. Os elementos de frame centrais so
JUIZ, JRI, RU, OFENSA e ACUSAES. A unidade lexical evocadora deste frame
julgar.

(9) Para o governador, o fato de [os acusados
RU
] serem julgados [por um jri
popular
JRI
] muito positivo.

Apesar de se utilizar a metodologia de expanso para a criao do frame
Processo_penal, h muitas diferenas conceituais entre os frames da FrameNet e os
frames jurdicos brasileiros. Essas diferenas levam a certas concluses sobre a
continuidade do projeto lexicogrfico descrito neste artigo.
5. Direes Futuras
Este artigo descreveu o primeiro estgio de criao de um recurso lexical baseado em
frames para a linguagem jurdica brasileira. Iniciou-se o desenvolvimento desse recurso
lexical atravs do estudo do frame Criminal_process e sua expanso para o
sistema jurdico brasileiro, resultando no frame Processo_penal. Como uma
primeira concluso, possvel dizer que frames complexos so difceis de serem
expandidos para outras lnguas, por causa das diferenas entre os sistemas jurdicos e as
leis de cada pas. Agora necessrio testar frames que representam ndulos menores, ou
seja, frames menos complexos, como Law e Legality.
O desenvolvimento de um recurso lexical baseado em frames da linguagem
jurdica brasileira apenas parte de um projeto maior que objetiva a criao de recursos
lexicais e bases de dados de conhecimento, como lxicos e ontologias, para uso em
recuperao de informao jurdica. O projeto lexicogrfico apresentado aqui tem dois
objetivos. O primeiro o desenvolvimento de uma base de dados lexical de grande porte
da linguagem jurdica brasileira. O segundo o uso das etiquetas semnticas
desenvolvidas no mbito desse projeto para anotao semntica de um corpus jurdico
para ser utilizado como corpus de treinamento em processamento de linguagem natural.
A pressuposio aqui que as etiquetas semnticas da FrameNet no so
completamente aplicveis para outras lnguas. Considerando-se que o Direito uma
criao socialmente orientada, o evento jurdico descrito por alguns frames da FrameNet
podem no ser equivalentes em diferentes lnguas/sistemas jurdicos. Por essa razo,
decidiu-se expandir os frames quando possvel, adaptar aqueles frames que possussem
alguma similaridade e criar novos frames sempre que necessrio. Diferentemente das
bases de dados baseadas no paradigma WordNet, as relaes semnticas entre palavras
no so o foco de uma base de dados baseada em frames. Portanto, uma base de dados
baseada em frames tem diferentes aplicaes em processamento de linguagem natural e
recuperao de informao.
As etiquetas semnticas poderiam ser utilizadas em uma serie de aplicaes em
processamento de linguagem natural, como sumarizao automtica, recuperao de
20

informao jurdica e extrao de informao jurdica. A anotao automtica de
decises judiciais pode permitir a sumarizao automtica e a gerao automtica de
ementas. Essas ementas so resumos do teor das decises dos tribunais e permitem aos
advogados conhecerem o tema das decises sem ter que ler o documento na ntegra.
Outra possibilidade de uso dos frames semnticos para recuperao de informao
jurdica a anotao dos participantes nas decises judiciais, como o ru, o juiz, o
promotor, o advogado, e o resultado dos eventos legais, como o veredito e a pena.
O trabalho de descrio da linguagem jurdica brasileira est apenas no incio.
H ainda importantes procedimentos a serem feitos. Primeiro, expandir o nmero de
frames para melhor representar o universo da linguagem jurdica brasileira. Segundo,
compilar um corpus jurdico para ser utilizado em anotao semntica. Esse corpus
poderia ser utilizado como fonte de exemplos para a base de dados lexicais ou como
corpus de treino para aplicaes automticas. Terceiro, programar uma interface
amigvel para disponibilizar a base de dados gratuitamente. O estudo do frame
Processo_penal representa apenas o primeiro estgio deste projeto lexicogrfico
que est focado na inovao tecnolgica das bases de dados dos tribunais brasileiros.
Referncias
Dini, L. et al. (2005). Cross-lingual legal information retrieval using a WordNet
architecture. In: Proceedings of the 10th International Conference on Artificial
Intelligence and Law, Bologna. ACM Press: New York, p.163-167.
Fillmore, C.J.; Baker, C. (2010). A Frames Approach to Semantic Analysis. In: The
Oxford Handbook of Linguistic Analysis. Oxford: OUP, p. 313-339.
Fillmore, C. J.; Johnson, C. R.; Petruck, M. R. L. (2003). Background to FrameNet.
International Journal of Lexicography. Vol.16, N.3, p.235-250.
Goyos Jnior, D. N. (1992). Noronhas Legal Dictionary Noronha Dicionrio
Jurdico: English-Portuguese, Portuguese-English Ingls-Portugus, Portugus-
Ingls. 1.ed. So Paulo: Observador Legal.
Miller, G. A. (1995). WordNet: a lexical database for English. Communications of the
ACM. New York: ACM Press. Vol.38, N.11, p.39-41.
Sagri, M. T.; Tiscornia, D.; Bertagna, F. (2003). Jur-WorNet. In: Sojka, P. et al. (Eds.)
Second International Wordnet Conference. Brno: Masaryk University, p.305-310.
Subirats, C. (2009). Spanish FrameNet: A frame-semantic analysis of the Spanish
lexicon. In: Boas, H. C. (Ed.) Multilingual FrameNets in computational
lexicography: Methods and applications. Berlin/New York: Mouton de Gruyter,
p.136-162.
Vossen, P. (1998). Introduction to EuroWordNet. Computers and the Humanities.
Vol.32, N.2-3, p.73-89.
Vossen, P. (1999). EuroWordNet General Document. Version 3. Technical report,
University of Amsterdam.