Uma Arquitetura para Recuperação de Informação Baseada em Semântica e Sua Aplicação No Apoio A Jurisprudência

Uma Arquitetura para Recuperação de Informação Baseada em
Semântica e sua Aplicação no Apoio a Jurisprudência

Anselmo Maciel Nunes, Renato Fileto
Departamento de Informática e Estatística – Universidade Federal de Santa Catarina
Campus Trindade, Caixa Postal: 476, 88040-900, Florianópolis-SC, Brasil
{anselmo.maciel,fileto}@inf.ufsc.br
Abstract Information recovery based on mechanisms such as keyword search

presents problems of precision and recall. This paper explores the use of
ontologies and semantic annotations to cope with these problems, considering
applications in jurisprudence. It presents an application architecture for
semantic-based information extraction from documents and makes a
comparative analysis of tools for generating semantic annotations, one
fundamental module of the proposed architecture.
Resumo. Recuperação de informação baseada em mecanismos como buscas

por palavras-chaves apresenta problemas de precisão e revocação. Este artigo
explora o uso de ontologias e anotações semânticas para tratar esses
problemas, considerando aplicações em jurisprudência. Ele apresenta uma
arquitetura de aplicação para extração de informação de documentos baseada
em semântica e faz uma análise comparativa de ferramentas para a geração
de anotações semânticas, um módulo fundamental da arquitetura proposta.
1. Introdução e Motivação
O grande volume de dados produzido diariamente na sociedade moderna requer o uso de
novas tecnologias para a organização, a classificação, a recuperação e o processamento de
informação. Na área jurídica, o número de ações movidas e julgadas tem crescido
rapidamente, gerando uma forte demanda por técnicas para melhor usufruir da informação
e do conhecimento contidos em um grande número de documentos relativos a julgamentos.
O processo jurídico gera diversos documentos desde o seu trâmite inicial até o seu
arquivamento e tem como resultado uma sentença ou um acórdão, produzido por um
magistrado. Uma sentença contém um julgamento proferido por um tribunal singular,
enquanto um acórdão é proferido por um tribunal coletivo. Esses documentos jurídicos
podem servir como base para a produção de novos documentos, por apresentarem decisões
legais que se desenvolveram e que acompanham a aplicação de leis em situações de fato.
Assim, a área jurídica carece de ferramentas para permitir recuperação rápida e
precisa da informação e apoiar os operadores de direito na composição de novos
documentos jurídicos a partir da extensa base de documentos disponíveis.
Atualmente, os profissionais do direito têm acesso a vários bancos de dados de
jurisprudência, pois a maioria dos tribunais brasileiros disponibiliza as suas sentenças e
acórdãos para o público em geral, com acesso via Internet ou através de sistemas
comercializáveis [Bueno 1999]. A ferramenta mais usada é a pesquisa sobre a
jurisprudência dos tribunais. A consulta é aberta a quem desejar fazê-la e a busca é feita
através de palavras-chaves. Entretanto, essa abordagem apresenta problemas de revocação e
precisão. As buscas meramente sintáticas não permitem a recuperação de documentos
contendo palavras semanticamente relacionadas às usadas na consulta e as expressões de
busca obtidas pela mera composição de palavras-chaves usualmente contêm ambigüidades.
Uma forma de contornar esses problemas é o uso de ontologias e anotação
semântica de documentos. A ontologia descreve relações semânticas entre termos
(conceitos e instâncias de conceitos) do domínio. A anotação semântica de um documento
descreve o seu conteúdo pela associação a conceitos e instâncias descritos na ontologia. Os
padrões e formalismos da web semântica permitem que esses metadados baseados em
semântica (ontologias e anotações) sejam processáveis por computador. Desta forma, a
especificação e a resolução de consultas passam a se beneficiar das relações semânticas
descritas na ontologia, possibilitando
o tratamento de ambigüidades e a recuperação de documentos semanticamente
relacionados aos termos expressos na consulta.
Este artigo apresenta uma arquitetura de sistema para a recuperação de informação
dirigida por semântica, a qual deve gerar diversos trabalhos de pesquisa e desenvolvimento.
A especificação da aplicação jurídica e da arquitetura do sistema de recuperação de
informação são contribuições desse trabalho. Porém, o foco desta pesquisa está no esboço
de uma ontologia para apoiar a recuperação de informação jurídica e na geração automática
de anotações semânticas, duas questões fundamentais para viabilizar a aplicação.
Caminhando nesse sentido, este artigo apresenta também um estudo comparativo de
ferramentas de anotação semântica descritas na literatura. A geração manual de anotações
semânticas exigiria demasiado esforço do especialista do domínio. A extração automática
de informação de documentos é uma alternativa para a geração de ontologias e anotações
semânticas. A análise das ferramentas de anotação leva em consideração a possibilidade
delas contribuírem na evolução da ontologia, à medida que cresce o acervo de documentos
e a variedade de assuntos tratados. Todavia, a geração automatizada da ontologia, sua
evolução e algoritmos eficientes para sua utilização na recuperação de informação estão
fora do escopo desse trabalho, sendo contemplados em outras pesquisas do grupo.
A Seção 2 desse artigo apresenta fundamentos para contextualizar o trabalho. A
Seção 3 mostra a arquitetura do sistema para recuperação de informação dirigida por
semântica. A Seção 4 descreve diversos trabalhos relacionados ao problema de anotação
semântica e apresenta uma tabela comparativa das ferramentas propostas na literatura. A
seção 5 apresenta trabalhos relacionados com a recuperação de informação jurídica. A
Seção 6 descreve os resultados esperados e as contribuições previstas.
2. Fundamentação Teórica
A recuperação da informação na web é difícil porque a web não é estruturada formal e
semanticamente. O foco da web atual está na disposição sintática de conteúdo para
visualização via navegador web e interpretação por parte dos seres humanos. O objetivo da
web semântica, por outro lado, é descrever semanticamente o conteúdo da web e permitir
que as máquinas processem descrições semânticas para efetuar tarefas mais sofisticadas em
prol das pessoas, tais como a recuperação de informação e composição de serviços
dirigidos por semântica [Lee, Hendler e Lassila 2001].
A web semântica propõe o uso de ontologias para descrever relações de significado
entre termos (conceitos e instâncias) de um domínio, e anotações semânticas (baseadas em
termos de ontologias), para descrever o conteúdo dos artefatos publicados. A seguir,
descrevemos essas duas construções fundamentais da web semântica e a sua utilização na
recuperação de informação.
2.1 Ontologia
Uma ontologia é uma especificação explícita e formal de uma conceitualização

compartilhada [Gruber 1993]. “Conceitualização” refere-se a um modelo abstrato que
especifica uma hierarquia de conceitos relevantes para algum domínio de conhecimento.
“Explícita” significa que os conceitos usados e as restrições aplicadas a esses conceitos
estão definidos explicitamente. “Formal” refere-se ao fato de que a ontologia deve ser
processável por máquinas. Diferentes graus de formalidade podem ser atingidos [Noy e
McGuinness 2000]. “Compartilhada” diz respeito a conhecimento consensual, aceito
universalmente.
Uma ontologia inclui conceitos que descrevem o domínio de conhecimento,
relacionamentos entre esses conceitos, instâncias desses conceitos, relacionamentos entre
instâncias (que devem estar de acordo com os relacionamentos entre os conceitos
correspondentes) e axiomas. O uso de ontologias se justifica porque elas constituem uma
forma de compartilhar a mesma estrutura de informação entre pessoas e agentes de
software, permitindo o reuso do conhecimento do domínio.
2.2 Anotação Semântica
A especificação de anotações para documentos, isto é, definir marcações para descrever o

seu conteúdo, é um problema chave da web semântica, tanto para documentos existentes
quanto para novos documentos. Uma anotação deve ser bem definida, não ambígua e fácil
de compreender pelos especialistas de domínio, de modo a ser útil no processo de
recuperação de informação. Para atender a esses requisitos, uma anotação deve ser baseada
em um modelo formal de domínio, como por exemplo, uma ontologia.
A anotação semântica fornece uma ligação entre a informação armazenada em um
documento e a ontologia. Usualmente, uma anotação semântica é uma referência a um ou
mais termos formalmente definidos em uma ontologia. Quando usamos uma ontologia no
processo de anotação, devemos seguir a hierarquia ontológica. Isto provê uma boa
visualização do contexto para quem faz a anotação, minimiza os erros no processo da
anotação e reduz a ambigüidade.
[Kiryakov, Popov e Ognyanoff 2003] definem anotação semântica como um
“esquema específico para geração e uso de metadados”. O esquema refere-se a entidades
nomeadas que podem ser descritas (tais como pessoas, localizações, organizações ou outras
entidades que são referenciadas pelo nome em documentos de texto). O processo de
anotação começa pela identificação das entidades nomeadas no texto (e.g., o nome de uma
pessoa). Então é preciso ligar as entidades que aparecem no documento com suas
descrições semânticas na ontologia. A identidade da entidade é verbalizada através de uma
URI, o que permite ligação fácil e precisa com a sua descrição no repositório semântico.
O processo de anotação semântica pode ser aplicado a qualquer tipo de dado
(documentos HTML, PDF, texto, tuplas de bancos de dados, entre outros). O resultado do
processo de anotação semântica é associado a uma ontologia e gravado em um repositório.
A representação da anotação pode ser intrusiva ou não-intrusiva. A anotação intrusiva é
aquela gravada no próprio documento. A notação não-intrusiva, por outro lado, é
armazenada aparte e não modifica o documento. Utiliza ponteiros (usualmente baseados em
URIs) para referenciar os termos da ontologia e as entidades mencionadas no texto.
A estrutura de uma anotação semântica deve seguir as recomendações do W3C1, que
propõe o uso de linguagens baseadas em formalismos para representar semântica, como a
RDF2 ou OWL3. Essas linguagens permitem o reuso das anotações por diferentes
ferramentas de anotação e mecanismos de busca baseada em semântica.
3. Arquitetura do Sistema
O objetivo do nosso trabalho é atender algumas demandas do judiciário por ferramentas
computacionais para gerenciar e facilitar a recuperação da informação produzida. Além do
Tribunal de Justiça, Santa Catarina possui 112 comarcas espalhadas por seu território,
produzindo anualmente cerca de 50.000 sentenças e acórdãos. O sistema de automação do
judiciário catarinense permite o acompanhamento de cada processo, composição de
sentenças, troca de informações entre magistrados e operadores jurídicos. Esse sistema
permite a busca de informações por palavras-chaves, a qual é processada de maneira
meramente sintática, o que confere baixos índices de revocação e precisão nas respostas.
Utilizando alguns metadados associados aos documentos, tais como o número do processo
ou a data de expedição do documento, é possível estipular consultas mais precisamente.
Contudo, o conjunto de metadados disponível atualmente é pobre e carece de maior
formalização, para permitir a identificação dos assuntos tratados no conteúdo dos
documentos. Além disso, a característica distribuída do processo de geração e
gerenciamento dos documentos tem ocasionado heterogeneidade na estrutura dos
documentos e nos metadados utilizados por diferentes tribunais e comarcas.
Este trabalho propõe uma arquitetura para recuperação de informação dirigida por
semântica. Os objetivos gerais dessa arquitetura são:
a) Gerar ontologias e anotações semânticas de maneira automatizada, para organizar e
recuperar documentos, fornecendo suporte à jurisprudência;
1
http://www.w3.org/
2
http://www.w3.org/RDF/
3
http://www.w3.org/2004/OWL/
b) Criar uma interface de consulta simples, usando busca por palavras-chaves e
navegação na ontologia para seleção de termos para consultas;
c) Usar inferência sobre a ontologia para recuperar (trechos de) documentos que não se
refiram somente aos termos exatos expressos nas consultas, mas também a
entidades relacionadas (sinônimos, sub-classes, super-classes, componentes);
d) Capturar e usar informação de contexto (registro do perfil dos usuários e de suas
interações com o sistema,), para retornar resultados mais precisos e adequados às
necessidades do usuário.
A Figura 1 ilustra a arquitetura proposta para o sistema de recuperação de
informação de documentos dirigida por semântica. Os documentos jurídicos, tais como
acórdãos e sentenças, são continuamente gerados pelos operadores jurídicos e armazenados
em uma biblioteca digital. Esses documentos possuem formatos variados (e.g., DOC, RTF,
PDF, HTML) e não seguem um layout fixo e rígido, embora tenham diversas similaridades
na organização de suas seções e na linguagem utilizada. Utilizando essas similaridades
estruturais (de trechos) dos documentos, é possível aplicar técnicas de processamento de
linguagens naturais para identificar entidades nomeadas e associá-las a conceitos e
instâncias da ontologia jurídica, de modo a definir anotações semânticas para facilitar a
recuperação da informação desses documentos.
Gerenciame navegação, Recuperação e

nto de inferência,
contexto, ...
recomendação
de documentos
ontologias
Recuperação de Informação Dirigida por Semântica
Usuário
ontologia
anotação Extração e
semântica gerenciamento
Gerenciamento de
Ontologias de anotações
documentos
dfdfkdf
Biblioteca Digital
Figura 1 – Arquitetura Proposta

O módulo de gerenciamento de ontologias mantém uma ou mais ontologias
utilizadas na anotação de documentos e recuperação de informação dos mesmos. Ele é
responsável pela gerência da evolução das mesmas e serviços como consulta e adequação
de ontologias (e.g., extração de visões, conversões de formatos).
O módulo de recuperação e recomendação de documentos implementa a interface
com o usuário. Ele permite a navegação e a busca no conteúdo da biblioteca digital baseada
nas ontologias e nas anotações semânticas dos documentos.
O módulo de extração e gerenciamento de anotações da arquitetura é o responsável
pelo processamento dos documentos inseridos na biblioteca digital, extração de entidades
nomeadas dos mesmos, definição das anotações semânticas, além de manter e controlar o
repositório de anotações semânticas, bem como a ligação com seus respectivos documentos
anotados, para suportar a recuperação de informação dirigida por semântica. O processo de
anotação semântica é automatizado com técnicas de aprendizado de máquina, extração de
informação e outras. Esse processo também fornece subsídios para a evolução da ontologia,
quando forem identificadas nos documentos novas entidades que se refiram a termos
(conceitos ou instâncias) que não tenham sido previamente descritos na ontologia.
4. Ferramentas para Anotação Semântica

Este trabalho, além de estabelecer a arquitetura geral do sistema de recuperação de
informação dirigida por semântica, apresentada na Seção 3, visa também obter subsídios
científicos e tecnológicos para a implementação do módulo de extração e gerenciamento de
anotações. Acreditamos que a pesquisa de técnicas e ferramentas para anotação semântica
abre perspectivas para a implementação dos demais módulos da arquitetura, servindo de
base para concretização do sistema completo.
Existem diversas ferramentas para a geração de anotações semânticas. Tais
ferramentas podem ser classificadas em três tipos:
 Semi-Automáticas - Associam entidades nomeadas do texto a termos da ontologia
utilizando-se do julgamento humano. Esta associação geralmente é efetuada através
de interfaces do tipo “arrastar e soltar” (drag-and-drop).
 Automáticas - Aplicam técnicas de processamento de linguagem natural (PLN),
aprendizado de máquina, extração de informação, entre outras, para associar
automaticamente as entidades nomeadas do texto a termos da ontologia.
 Híbridas – Combinam técnicas de anotação semântica semi-automática e
automática em uma só ferramenta, ou seja, utilizam tanto o julgamento humano
quanto técnicas de PLN.
[Davies,Studer e Warren 2006] descrevem e comparam diversas ferramentas de
anotação. A maioria das ferramentas analisadas usa em seu método de anotação o processo
de extração de informação em sua forma convencional (information extraction - IE) ou
extração de informação baseada em ontologias (ontology-based information extraction -
OBIE). IE e OBIE empregam algoritmos para identificar automaticamente as entidades
nomeadas nos textos, sendo que OBIE utiliza conhecimento expresso na ontologia para
efetuar a identificação das entidades e pode ligar mais fácil e diretamente as entidades
nomeadas encontradas nos documentos aos termos da ontologia. Em sistemas que
empregam técnicas de IE ou OBIE, usualmente o usuário precisa anotar manualmente um
conjunto de treinamento, para que o algoritmo aprenda a gerar regras de extração que
possibilitarão mais tarde encontrar entidades nomeadas no texto automaticamente.
No método interativo, por outro lado, o próprio usuário seleciona as entidades do
texto a serem utilizadas na anotação semântica. Isso dispensa a ferramenta de anotação da
tarefa de identificação automática das entidades nomeadas.
As ferramentas de anotação podem utilizar ontologias padrão (e.g., IEEE Standard
Upper Ontology) ou ontologias de domínios específicos (e.g., Ontologies of Professional
Judicial Knowledge (OPJK) [Benjamins, Casanovas, Breuker e Gangami 2005]), e algumas
até mais de uma ontologia. Seguem as descrições de algumas dessas ferramentas.
OntoMat [Handschuh e Staab 2002]: É uma ferramenta interativa e amigável para o
usuário fazer anotações em páginas Web. Utiliza a linguagem OWL para representar
a ontologia. O OntoMat incorpora um navegador web e um editor para visualizar a
geração da anotação, que é feita no estilo arrastar e soltar. O usuário associa um
termo da ontologia carregada dentro da ferramenta com uma palavra selecionada no
navegador pelo usuário. Uma versão comercial dessa ferramenta está disponível
com o nome de OntoAnnotate.
Semantic Word [Tallis 2003]: É uma ferramenta baseada no Word XP, que permite
ao autor de um documento anexar um bloco de texto contendo a anotação semântica
produzida manualmente a um fragmento do texto original.
Annotea [Kahan, Koivunen, Prud'Hommeaux e Swick 2001]: É um projeto de
código aberto do W3C, que permite a criação de anotações com o uso de metadados.
No Annotea, as anotações são recursos web de primeira classe, que podem ser
armazenadas em um ou mais servidores de anotação. O servidor de anotações
armazena as anotações em uma base de dados em RDF e toda a comunicação entre
o cliente e o servidor utiliza o protocolo HTTP.
Smore [Kalyanpur, Parsia, Hendler e Goldbeck 2004]: Permite o usuário fazer
marcações em documentos HTML usando ontologias em OWL. É similar ao
OntoMat. Possui um editor de ontologia, que permite aproveitar fragmentos de
ontologias existentes, mesclando com a nova a ser criada.
AeroDAML [Kogut e Holmes 2001]: É uma ferramenta de anotação que aplica
técnicas de extração de informação para gerar automaticamente anotações de
páginas Web em DAML+OIL4.
KIM [Popov, Kiryakov, Kirilov, Manov, Ognyanoff e Goranov 2003]: É uma
plataforma baseada em ontologia para geração automática de anotações. Faz uso do
GATE5 um ambiente de suporte a PLN. KIM possui um servidor onde é possível
utilizar várias ontologias. Pode ser instalado e configurado para atender um domínio
específico. Possui um plug-in para o Internet Explorer que permite carregar a
ontologia do servidor e efetuar anotação da página web carregada no navegador. As
entidades identificadas na página são marcadas e uma nova janela do navegador
mostra a correspondência semântica com os termos da ontologia.
4
http://www.daml.org/2000/12/daml+oil-index
5
http://www.gate.ac.uk/
MnM [Motta, Vargas-Vera, Domingue, Lanzoni, Stutt e Ciravegna 2002]: É uma
ferramenta para anotar páginas web com metadados descritos em RDF/DAML+OIL.
MnM pode manipular várias ontologias simultaneamente. Usa o Amilcare, um
sistema de extração de informação integrado a diferentes ferramentas para anotação
semântica. Na MnM o usuário deve anotar manualmente um conjunto de
documentos de treinamento com termos da ontologia. A ferramenta usa esse
conjunto de treinamento para aprender as regras de extração das anotações.
Gerador de anotação semântica de autoria [Glonvezynski 2005]: Faz anotações
semânticas em documentos do OpenOffice, para identificação da autoria do
documento. O usuário deve selecionar manualmente o documento a ser anotado,
selecionar a ontologia e gerar a anotação em um processo semi-automático.
A Tabela 1 faz uma síntese das características dessas ferramentas que consideramos
mais relevantes para efeito de seleção de candidatas para suprir as funcionalidades do
módulo de extração e gerenciamento de anotações semânticas, da arquitetura para a
recuperação de informação de documentos, apresentada na Seção 3. Nota-se que a maioria
dessas ferramentas trabalha com documentos no formato HTML, sendo que muitas delas
funcionam associadas a navegadores web. RDF e OWL têm se firmado como padrão para
representar as ontologias e as anotações semânticas. Embora anotações não intrusivas sejam
mais desejáveis, até para permitir anotações alternativas, muitas ferramentas utilizam
anotações intrusivas. Somente KIM, AeroDAML e MnM implementam anotação
automática. Desses, somente a primeira e a última efetuam extração de informação
(entidades nomeadas do texto) baseada em ontologia. Suporte a evolução da ontologia (ao
identificar entidades nomeadas ainda não descritas) e anotação de trechos de documentos
(não apenas documentos inteiros) são características altamente desejáveis para a
funcionalidade de geração de anotações da arquitetura proposta nesse trabalho. A utilização
de treinamento, por outro lado, parece indispensável para assegurar a qualidade das
anotações em processos de anotação automáticos e híbridos.
Método de
Formato Formato da Suporta Usa Anotação
Nome da Tipo de Método de Extração de
dos Ontologia / Evolução da Treina- de Trechos
Ferramenta Anotação Anotação Entidades do
Documentos Anotação Ontologia mento de Texto
Texto
OntoMat Semi-
HTML OWL Intrusivo Interativa Sim Não Sim
Annotizer automática
Semantic DAML Não- Semi- IE
Word (.doc) Sim Sim Sim
Word +OIL Intrusivo automática (AeroText)
Não- Semi-
Annotea HTML RDF Interativo Não Não Não
Intrusivo automática
HTML,
texto, Semi-
Smore OWL Intrusivo OBIE Sim Sim Sim
email, automática
imagens
RDF/ Não- OBIE
KIM HTML Automática Sim Sim Sim
OWL Intrusivo (GATE)
RDF/
HTML, Não- IE
AeroDAML DAML Automática Não Sim Sim
texto Intrusivo (AeroText)
+OIL
HTML, OBIE
MnM OWL Intrusivo Híbrida Sim Sim Sim
texto (Amilcare)
Anotação de Writer Semi-
OWL Intrusivo Interativo Não Não Não
Autoria (.sxw) automática
Tabela 1 – Comparação de ferramentas de anotação semântica
5. Trabalhos Relacionados
A recuperação de informação na área jurídica é assunto de interesse dos pesquisadores. A
proposta de [Bueno 1999] descreve um modelo de recuperação em bases de informação
jurídica usando Raciocínio Baseado em Casos (RBC), que parte do princípio da analogia,
assumindo que problemas semelhantes têm soluções semelhantes. O conhecimento do
domínio jurídico é representado por um vocabulário controlado, que torna possível a
recuperação automática da informação, mediante a identificação de expressões jurídicas
desse vocabulário nos textos. O sistema permite consultas em linguagem natural e inclusão
de novos casos na base de conhecimento. A recuperação é feita através do matching parcial,
usando uma medida de similaridade.
Outra iniciativa é o IuriService [Davies,Studer e Warren 2006], uma aplicação
baseada na web que recupera respostas para questões do domínio jurídico. O sistema
funciona como uma plataforma de busca estendida em repositórios de FAQ (Frequently
Asked Questions). Permite ao usuário efetuar consultas em linguagem natural, retornando
as questões conhecidas mais semelhantes à consulta em linguagem natural. O sistema usa
técnicas de PLN e ontologias para recuperar as repostas. O domínio da aplicação é
modelado em uma ontologia denominada OPJK (Ontologies of Professional Legal
Knowledge) integrada a uma ontologia independente de domínio chamada PROTON.
6. Conclusões
Este trabalho é o embrião de um sistema de recuperação de informação de documentos
baseada em semântica, para uso em jurisprudência e outras aplicações. Suas principais
contribuições são: (i) descrição do problema de recuperação de informação de documentos
legais para apoio a jurisprudência; (ii) definição da arquitetura do sistema de recuperação
de informação baseado em semântica e (iii) estudo comparativo de ferramentas de anotação
descritas na literatura, com o intuito de conseguir subsídios para o desenvolvimento do
módulo de extração e gerenciamento de anotações semânticas previsto na arquitetura.
A arquitetura proposta envolve vários problemas a serem ainda endereçados. Dentre
as atividades futuras que pretende-se iniciar no âmbito deste subprojeto encontram-se:
1. montar (um esboço de) uma ontologia jurídica a ser utilizada na anotação e
recuperação de documentos;
2. selecionar, desenvolver e/ou adequar técnicas e ferramentas para gerar
automaticamente anotações semânticas para documentos, baseadas na ontologia
utilizada, fornecendo subsídios para a evolução dessa ontologia quando possível;
3. criar um repositório de anotações semânticas não-intrusivas, prevendo a
possibilidade de várias anotações para um dado documento.
4. definir critérios e realizar experimentos para aferir a qualidade das anotações
geradas, na recuperação de informação com alto índice de precisão e revocação.
Diversos outros trabalhos estão sendo desenvolvidos no âmbito do grupo de banco
de dados da Universidade Federal de Santa Catarina com vistas à implementação completa
da arquitetura aqui proposta. Os documentos jurídicos para realizar os experimentos
necessários à validação dos resultados para a aplicação jurídica serão fornecidos pelo
Tribunal de Justiça do Estado de Santa Catarina. Os trabalhos práticos não tiveram início. O
cronograma de trabalho do mestrado que originou este artigo está sendo elaborado de
acordo com o tempo restante para a conclusão da dissertação, iniciada em março de 2006 e
com término previsto para março de 2008.
7. Referências Bibliográficas
Benjamins V. R., Casanovas P., Breuker J., Gangami A. (2005) Law and the Semantic Web,
an Introduction. In Law and the Semantic Web. Em: Springer Verlag: Berlin.
Bueno, T. C. D. (1999) Uso da Teoria Jurídica para Recuperação de Jurisprudência
Criminal em Sistemas Baseado em Casos. Dissertação de Mestrado, Universidade
Federal de Santa Catarina.
Davies, J., Studer, R., Warren, Paul. (2006) Semantic Web technologies : trends and
research in ontology-based systems. (ed) Wiley : London, England.
Glonvezynski, R. A. (2005) Modelo de anotação de documentos para a codificação do
conteúdo semântico no processo de autoria. Dissertação de Mestrado, Universidade
Federal de Santa Catarina.
Gruber, T. R. (1993) A translation approach to portable ontology specification. Em:
Knowledge Acquisition, v. 5, p. 199-220.
Handschuh, S., Staab, S. (2002) Authoring and Annotation of Web Pages in CREAM.
Proceedings of the 11th International World Wide Web Conference - WWW2002, May
7-11, Honolulu, Hawaii, USA.
Kahan J., Koivunen M., Prud'Hommeaux E., Swick R. (2001) Annotea: An Open RDF
Infrastructure for Shared Web Annotations, in Proceedings of the WWW10 International
Conference, Hong Kong, May.
Kalyanpur, A., Parsia, B., Hendler, J., Goldbeck, J. (2004) SMORE-semantic markup,
ontology, and RDF editor. Proceedings of 3rd International Semantic Web Conference -
(ISWC-2004), Japan.
Kiryakov, A., Popov, B., Ognyanoff, D. (2003) Semantic Annotation, Indexing, and
Retrieval. 2nd International Semantic Web Conference (ISWC2003), Florida, USA. pp
484 a 499, Outubro, 2003.
Kogut, P., Holmes, W. (2001) AeroDAML: Applying Information Extraction to Generate
DAML Annotations from Web Pages. First International Conference on Knowledge
Capture (K-CAP 2001), Workshop on Knowledge Markup and Semantic Annotation,
Victoria, B.C
Lee, T. B., Hendler, J., Lassila, O. (2001) The Semantic Web. Em: Scientific American,
Maio.
Motta, E., Vargas-Vera, M., Domingue, J., Lanzoni, M., Stutt, A., Ciravegna, F. (2002)
MnM: Ontology driven semi-automatic and automatic support for semantic markup. In
13th International Conference on Knowledge Engineering and Knowledge Management
(EKAW02), Siguenza, Spain, pp 379–391.
Noy, N. F., McGuinness, D. L. (2000) Ontology development 101: a guide to creating your
first ontology. Stanford University, CA.
Popov, B., Kiryakov, A., Kirilov, A., Manov, D., Ognyanoff, D., Goranov, M. (2003) KIM –
Semantic Annotation Platform. Lecture Notes in Computer Science - Springer Berlin /
Heidelberg, Volume 2870, pp 834-849.
Tallis, M. (2003) Semantic Word Processing for Content Authors. In: Workshop Notes of
the Knowledge Markup and Semantic Annotation Workshop (SEMANNOT 2003),
Second International Conference on Knowledge Capture (K-CAP 2003), October 26,
Sanibel, Florida, USA.

Uma Arquitetura para Recuperação de Informação Baseada em Semântica e Sua Aplicação No Apoio A Jurisprudência

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Uma Arquitetura para Recuperação de Informação Baseada em Semântica e Sua Aplicação No Apoio A Jurisprudência

Enviado por

Direitos autorais:

Formatos disponíveis

Uma Arquitetura para Recuperação de Informação Baseada em

Semântica e sua Aplicação no Apoio a Jurisprudência

Abstract Information recovery based on mechanisms such as keyword search

Resumo. Recuperação de informação baseada em mecanismos como buscas

Uma ontologia é uma especificação explícita e formal de uma conceitualização

2.2 Anotação Semântica

A especificação de anotações para documentos, isto é, definir marcações para descrever o

Gerenciame navegação, Recuperação e

Figura 1 – Arquitetura Proposta

4. Ferramentas para Anotação Semântica

Você também pode gostar