Escolar Documentos
Profissional Documentos
Cultura Documentos
1. Introdução e Motivação
O grande volume de dados produzido diariamente na sociedade moderna requer o uso de
novas tecnologias para a organização, a classificação, a recuperação e o processamento de
informação. Na área jurídica, o número de ações movidas e julgadas tem crescido
rapidamente, gerando uma forte demanda por técnicas para melhor usufruir da informação
e do conhecimento contidos em um grande número de documentos relativos a julgamentos.
O processo jurídico gera diversos documentos desde o seu trâmite inicial até o seu
arquivamento e tem como resultado uma sentença ou um acórdão, produzido por um
magistrado. Uma sentença contém um julgamento proferido por um tribunal singular,
enquanto um acórdão é proferido por um tribunal coletivo. Esses documentos jurídicos
podem servir como base para a produção de novos documentos, por apresentarem decisões
legais que se desenvolveram e que acompanham a aplicação de leis em situações de fato.
Assim, a área jurídica carece de ferramentas para permitir recuperação rápida e
precisa da informação e apoiar os operadores de direito na composição de novos
documentos jurídicos a partir da extensa base de documentos disponíveis.
Atualmente, os profissionais do direito têm acesso a vários bancos de dados de
jurisprudência, pois a maioria dos tribunais brasileiros disponibiliza as suas sentenças e
acórdãos para o público em geral, com acesso via Internet ou através de sistemas
comercializáveis [Bueno 1999]. A ferramenta mais usada é a pesquisa sobre a
jurisprudência dos tribunais. A consulta é aberta a quem desejar fazê-la e a busca é feita
através de palavras-chaves. Entretanto, essa abordagem apresenta problemas de revocação e
precisão. As buscas meramente sintáticas não permitem a recuperação de documentos
contendo palavras semanticamente relacionadas às usadas na consulta e as expressões de
busca obtidas pela mera composição de palavras-chaves usualmente contêm ambigüidades.
Uma forma de contornar esses problemas é o uso de ontologias e anotação
semântica de documentos. A ontologia descreve relações semânticas entre termos
(conceitos e instâncias de conceitos) do domínio. A anotação semântica de um documento
descreve o seu conteúdo pela associação a conceitos e instâncias descritos na ontologia. Os
padrões e formalismos da web semântica permitem que esses metadados baseados em
semântica (ontologias e anotações) sejam processáveis por computador. Desta forma, a
especificação e a resolução de consultas passam a se beneficiar das relações semânticas
descritas na ontologia, possibilitando
o tratamento de ambigüidades e a recuperação de documentos semanticamente
relacionados aos termos expressos na consulta.
Este artigo apresenta uma arquitetura de sistema para a recuperação de informação
dirigida por semântica, a qual deve gerar diversos trabalhos de pesquisa e desenvolvimento.
A especificação da aplicação jurídica e da arquitetura do sistema de recuperação de
informação são contribuições desse trabalho. Porém, o foco desta pesquisa está no esboço
de uma ontologia para apoiar a recuperação de informação jurídica e na geração automática
de anotações semânticas, duas questões fundamentais para viabilizar a aplicação.
Caminhando nesse sentido, este artigo apresenta também um estudo comparativo de
ferramentas de anotação semântica descritas na literatura. A geração manual de anotações
semânticas exigiria demasiado esforço do especialista do domínio. A extração automática
de informação de documentos é uma alternativa para a geração de ontologias e anotações
semânticas. A análise das ferramentas de anotação leva em consideração a possibilidade
delas contribuírem na evolução da ontologia, à medida que cresce o acervo de documentos
e a variedade de assuntos tratados. Todavia, a geração automatizada da ontologia, sua
evolução e algoritmos eficientes para sua utilização na recuperação de informação estão
fora do escopo desse trabalho, sendo contemplados em outras pesquisas do grupo.
A Seção 2 desse artigo apresenta fundamentos para contextualizar o trabalho. A
Seção 3 mostra a arquitetura do sistema para recuperação de informação dirigida por
semântica. A Seção 4 descreve diversos trabalhos relacionados ao problema de anotação
semântica e apresenta uma tabela comparativa das ferramentas propostas na literatura. A
seção 5 apresenta trabalhos relacionados com a recuperação de informação jurídica. A
Seção 6 descreve os resultados esperados e as contribuições previstas.
2. Fundamentação Teórica
A recuperação da informação na web é difícil porque a web não é estruturada formal e
semanticamente. O foco da web atual está na disposição sintática de conteúdo para
visualização via navegador web e interpretação por parte dos seres humanos. O objetivo da
web semântica, por outro lado, é descrever semanticamente o conteúdo da web e permitir
que as máquinas processem descrições semânticas para efetuar tarefas mais sofisticadas em
prol das pessoas, tais como a recuperação de informação e composição de serviços
dirigidos por semântica [Lee, Hendler e Lassila 2001].
A web semântica propõe o uso de ontologias para descrever relações de significado
entre termos (conceitos e instâncias) de um domínio, e anotações semânticas (baseadas em
termos de ontologias), para descrever o conteúdo dos artefatos publicados. A seguir,
descrevemos essas duas construções fundamentais da web semântica e a sua utilização na
recuperação de informação.
2.1 Ontologia
3. Arquitetura do Sistema
O objetivo do nosso trabalho é atender algumas demandas do judiciário por ferramentas
computacionais para gerenciar e facilitar a recuperação da informação produzida. Além do
Tribunal de Justiça, Santa Catarina possui 112 comarcas espalhadas por seu território,
produzindo anualmente cerca de 50.000 sentenças e acórdãos. O sistema de automação do
judiciário catarinense permite o acompanhamento de cada processo, composição de
sentenças, troca de informações entre magistrados e operadores jurídicos. Esse sistema
permite a busca de informações por palavras-chaves, a qual é processada de maneira
meramente sintática, o que confere baixos índices de revocação e precisão nas respostas.
Utilizando alguns metadados associados aos documentos, tais como o número do processo
ou a data de expedição do documento, é possível estipular consultas mais precisamente.
Contudo, o conjunto de metadados disponível atualmente é pobre e carece de maior
formalização, para permitir a identificação dos assuntos tratados no conteúdo dos
documentos. Além disso, a característica distribuída do processo de geração e
gerenciamento dos documentos tem ocasionado heterogeneidade na estrutura dos
documentos e nos metadados utilizados por diferentes tribunais e comarcas.
Este trabalho propõe uma arquitetura para recuperação de informação dirigida por
semântica. Os objetivos gerais dessa arquitetura são:
a) Gerar ontologias e anotações semânticas de maneira automatizada, para organizar e
recuperar documentos, fornecendo suporte à jurisprudência;
1
http://www.w3.org/
2
http://www.w3.org/RDF/
3
http://www.w3.org/2004/OWL/
b) Criar uma interface de consulta simples, usando busca por palavras-chaves e
navegação na ontologia para seleção de termos para consultas;
c) Usar inferência sobre a ontologia para recuperar (trechos de) documentos que não se
refiram somente aos termos exatos expressos nas consultas, mas também a
entidades relacionadas (sinônimos, sub-classes, super-classes, componentes);
d) Capturar e usar informação de contexto (registro do perfil dos usuários e de suas
interações com o sistema,), para retornar resultados mais precisos e adequados às
necessidades do usuário.
A Figura 1 ilustra a arquitetura proposta para o sistema de recuperação de
informação de documentos dirigida por semântica. Os documentos jurídicos, tais como
acórdãos e sentenças, são continuamente gerados pelos operadores jurídicos e armazenados
em uma biblioteca digital. Esses documentos possuem formatos variados (e.g., DOC, RTF,
PDF, HTML) e não seguem um layout fixo e rígido, embora tenham diversas similaridades
na organização de suas seções e na linguagem utilizada. Utilizando essas similaridades
estruturais (de trechos) dos documentos, é possível aplicar técnicas de processamento de
linguagens naturais para identificar entidades nomeadas e associá-las a conceitos e
instâncias da ontologia jurídica, de modo a definir anotações semânticas para facilitar a
recuperação da informação desses documentos.
ontologia
anotação Extração e
semântica gerenciamento
Gerenciamento de
Ontologias de anotações
documentos
dfdfkdf
Biblioteca Digital
4
http://www.daml.org/2000/12/daml+oil-index
5
http://www.gate.ac.uk/
MnM [Motta, Vargas-Vera, Domingue, Lanzoni, Stutt e Ciravegna 2002]: É uma
ferramenta para anotar páginas web com metadados descritos em RDF/DAML+OIL.
MnM pode manipular várias ontologias simultaneamente. Usa o Amilcare, um
sistema de extração de informação integrado a diferentes ferramentas para anotação
semântica. Na MnM o usuário deve anotar manualmente um conjunto de
documentos de treinamento com termos da ontologia. A ferramenta usa esse
conjunto de treinamento para aprender as regras de extração das anotações.
Gerador de anotação semântica de autoria [Glonvezynski 2005]: Faz anotações
semânticas em documentos do OpenOffice, para identificação da autoria do
documento. O usuário deve selecionar manualmente o documento a ser anotado,
selecionar a ontologia e gerar a anotação em um processo semi-automático.
A Tabela 1 faz uma síntese das características dessas ferramentas que consideramos
mais relevantes para efeito de seleção de candidatas para suprir as funcionalidades do
módulo de extração e gerenciamento de anotações semânticas, da arquitetura para a
recuperação de informação de documentos, apresentada na Seção 3. Nota-se que a maioria
dessas ferramentas trabalha com documentos no formato HTML, sendo que muitas delas
funcionam associadas a navegadores web. RDF e OWL têm se firmado como padrão para
representar as ontologias e as anotações semânticas. Embora anotações não intrusivas sejam
mais desejáveis, até para permitir anotações alternativas, muitas ferramentas utilizam
anotações intrusivas. Somente KIM, AeroDAML e MnM implementam anotação
automática. Desses, somente a primeira e a última efetuam extração de informação
(entidades nomeadas do texto) baseada em ontologia. Suporte a evolução da ontologia (ao
identificar entidades nomeadas ainda não descritas) e anotação de trechos de documentos
(não apenas documentos inteiros) são características altamente desejáveis para a
funcionalidade de geração de anotações da arquitetura proposta nesse trabalho. A utilização
de treinamento, por outro lado, parece indispensável para assegurar a qualidade das
anotações em processos de anotação automáticos e híbridos.
Método de
Formato Formato da Suporta Usa Anotação
Nome da Tipo de Método de Extração de
dos Ontologia / Evolução da Treina- de Trechos
Ferramenta Anotação Anotação Entidades do
Documentos Anotação Ontologia mento de Texto
Texto
OntoMat Semi-
HTML OWL Intrusivo Interativa Sim Não Sim
Annotizer automática
Semantic DAML Não- Semi- IE
Word (.doc) Sim Sim Sim
Word +OIL Intrusivo automática (AeroText)
Não- Semi-
Annotea HTML RDF Interativo Não Não Não
Intrusivo automática
HTML,
texto, Semi-
Smore OWL Intrusivo OBIE Sim Sim Sim
email, automática
imagens
RDF/ Não- OBIE
KIM HTML Automática Sim Sim Sim
OWL Intrusivo (GATE)
RDF/
HTML, Não- IE
AeroDAML DAML Automática Não Sim Sim
texto Intrusivo (AeroText)
+OIL
HTML, OBIE
MnM OWL Intrusivo Híbrida Sim Sim Sim
texto (Amilcare)
Anotação de Writer Semi-
OWL Intrusivo Interativo Não Não Não
Autoria (.sxw) automática
Tabela 1 – Comparação de ferramentas de anotação semântica
5. Trabalhos Relacionados
A recuperação de informação na área jurídica é assunto de interesse dos pesquisadores. A
proposta de [Bueno 1999] descreve um modelo de recuperação em bases de informação
jurídica usando Raciocínio Baseado em Casos (RBC), que parte do princípio da analogia,
assumindo que problemas semelhantes têm soluções semelhantes. O conhecimento do
domínio jurídico é representado por um vocabulário controlado, que torna possível a
recuperação automática da informação, mediante a identificação de expressões jurídicas
desse vocabulário nos textos. O sistema permite consultas em linguagem natural e inclusão
de novos casos na base de conhecimento. A recuperação é feita através do matching parcial,
usando uma medida de similaridade.
Outra iniciativa é o IuriService [Davies,Studer e Warren 2006], uma aplicação
baseada na web que recupera respostas para questões do domínio jurídico. O sistema
funciona como uma plataforma de busca estendida em repositórios de FAQ (Frequently
Asked Questions). Permite ao usuário efetuar consultas em linguagem natural, retornando
as questões conhecidas mais semelhantes à consulta em linguagem natural. O sistema usa
técnicas de PLN e ontologias para recuperar as repostas. O domínio da aplicação é
modelado em uma ontologia denominada OPJK (Ontologies of Professional Legal
Knowledge) integrada a uma ontologia independente de domínio chamada PROTON.
6. Conclusões
Este trabalho é o embrião de um sistema de recuperação de informação de documentos
baseada em semântica, para uso em jurisprudência e outras aplicações. Suas principais
contribuições são: (i) descrição do problema de recuperação de informação de documentos
legais para apoio a jurisprudência; (ii) definição da arquitetura do sistema de recuperação
de informação baseado em semântica e (iii) estudo comparativo de ferramentas de anotação
descritas na literatura, com o intuito de conseguir subsídios para o desenvolvimento do
módulo de extração e gerenciamento de anotações semânticas previsto na arquitetura.
A arquitetura proposta envolve vários problemas a serem ainda endereçados. Dentre
as atividades futuras que pretende-se iniciar no âmbito deste subprojeto encontram-se:
1. montar (um esboço de) uma ontologia jurídica a ser utilizada na anotação e
recuperação de documentos;
2. selecionar, desenvolver e/ou adequar técnicas e ferramentas para gerar
automaticamente anotações semânticas para documentos, baseadas na ontologia
utilizada, fornecendo subsídios para a evolução dessa ontologia quando possível;
3. criar um repositório de anotações semânticas não-intrusivas, prevendo a
possibilidade de várias anotações para um dado documento.
4. definir critérios e realizar experimentos para aferir a qualidade das anotações
geradas, na recuperação de informação com alto índice de precisão e revocação.
Diversos outros trabalhos estão sendo desenvolvidos no âmbito do grupo de banco
de dados da Universidade Federal de Santa Catarina com vistas à implementação completa
da arquitetura aqui proposta. Os documentos jurídicos para realizar os experimentos
necessários à validação dos resultados para a aplicação jurídica serão fornecidos pelo
Tribunal de Justiça do Estado de Santa Catarina. Os trabalhos práticos não tiveram início. O
cronograma de trabalho do mestrado que originou este artigo está sendo elaborado de
acordo com o tempo restante para a conclusão da dissertação, iniciada em março de 2006 e
com término previsto para março de 2008.
7. Referências Bibliográficas
Benjamins V. R., Casanovas P., Breuker J., Gangami A. (2005) Law and the Semantic Web,
an Introduction. In Law and the Semantic Web. Em: Springer Verlag: Berlin.
Bueno, T. C. D. (1999) Uso da Teoria Jurídica para Recuperação de Jurisprudência
Criminal em Sistemas Baseado em Casos. Dissertação de Mestrado, Universidade
Federal de Santa Catarina.
Davies, J., Studer, R., Warren, Paul. (2006) Semantic Web technologies : trends and
research in ontology-based systems. (ed) Wiley : London, England.
Glonvezynski, R. A. (2005) Modelo de anotação de documentos para a codificação do
conteúdo semântico no processo de autoria. Dissertação de Mestrado, Universidade
Federal de Santa Catarina.
Gruber, T. R. (1993) A translation approach to portable ontology specification. Em:
Knowledge Acquisition, v. 5, p. 199-220.
Handschuh, S., Staab, S. (2002) Authoring and Annotation of Web Pages in CREAM.
Proceedings of the 11th International World Wide Web Conference - WWW2002, May
7-11, Honolulu, Hawaii, USA.
Kahan J., Koivunen M., Prud'Hommeaux E., Swick R. (2001) Annotea: An Open RDF
Infrastructure for Shared Web Annotations, in Proceedings of the WWW10 International
Conference, Hong Kong, May.
Kalyanpur, A., Parsia, B., Hendler, J., Goldbeck, J. (2004) SMORE-semantic markup,
ontology, and RDF editor. Proceedings of 3rd International Semantic Web Conference -
(ISWC-2004), Japan.
Kiryakov, A., Popov, B., Ognyanoff, D. (2003) Semantic Annotation, Indexing, and
Retrieval. 2nd International Semantic Web Conference (ISWC2003), Florida, USA. pp
484 a 499, Outubro, 2003.
Kogut, P., Holmes, W. (2001) AeroDAML: Applying Information Extraction to Generate
DAML Annotations from Web Pages. First International Conference on Knowledge
Capture (K-CAP 2001), Workshop on Knowledge Markup and Semantic Annotation,
Victoria, B.C
Lee, T. B., Hendler, J., Lassila, O. (2001) The Semantic Web. Em: Scientific American,
Maio.
Motta, E., Vargas-Vera, M., Domingue, J., Lanzoni, M., Stutt, A., Ciravegna, F. (2002)
MnM: Ontology driven semi-automatic and automatic support for semantic markup. In
13th International Conference on Knowledge Engineering and Knowledge Management
(EKAW02), Siguenza, Spain, pp 379–391.
Noy, N. F., McGuinness, D. L. (2000) Ontology development 101: a guide to creating your
first ontology. Stanford University, CA.
Popov, B., Kiryakov, A., Kirilov, A., Manov, D., Ognyanoff, D., Goranov, M. (2003) KIM –
Semantic Annotation Platform. Lecture Notes in Computer Science - Springer Berlin /
Heidelberg, Volume 2870, pp 834-849.
Tallis, M. (2003) Semantic Word Processing for Content Authors. In: Workshop Notes of
the Knowledge Markup and Semantic Annotation Workshop (SEMANNOT 2003),
Second International Conference on Knowledge Capture (K-CAP 2003), October 26,
Sanibel, Florida, USA.