Você está na página 1de 111

UMA PROPOSTA PARA EXPANSO SEMNTICA DE CONSULTAS BASEADA EM ONTOLOGIA DE DOMNIO ESPECFICO

C.E.S.A.R Centro de Estudos e Sistemas Avanados do Recife

Dissertao de Mestrado

UMA PROPOSTA PARA EXPANSO SEMNTICA DE CONSULTAS BASEADA EM ONTOLOGIA DE DOMNIO ESPECFICO

tila Andrade Bittencourt Paula


Simone Santos Orientadora Vinicius Garcia Co-Orientador

Mestrado Profissional em Engenharia de Software

Maro, 2010
2

Agradecimentos
A minha orientadora, professora Simone Santos, e meu co-orientador, Vinicius Garcia, pela disponibilidade e contribuies de opinio e deciso.

Aos colegas do C.E.S.A.R. pelo compartilhamento de conhecimento e pela contribuio durante a preparao e desenvolvimento deste estudo.

Aos meus pais, Eronides Frana e Semadar Bittencourt, pelo exemplo de vida, sempre me apoiando e ensinando a lutar pela minha carreira acadmica e profissional.

Aos meus amigos e familiares que sempre torceram pelo meu sucesso.

A minha namorada Rafaella e sua av (dona Teresinha) por ter pacincia e me incentivar nos momentos difceis.

Sumrio

1. 1.1 DESCRIO DO PROBLEMA ...........................................................................................................13 1.2 PRINCIPAIS ENGENHOS DE BUSCA ................................................................................................15 1.3 VISO GERAL DA SOLUO PROPOSTA ........................................................................................16 1.4 OBJETIVOS DO TRABALHO ............................................................................................................16 1.4.1 Objetivo Geral .........................................................................................................................16 1.4.2 Objetivos Especficos ...............................................................................................................16 1.5 DELIMITAES DA PESQUISA ........................................................................................................17 1.6 ESTRUTURA DA DISSERTAO......................................................................................................18 2. 2.1 FUNDAMENTAO TERICA .........................................................................................................20 2.2 CONCEITOS BSICOS EM RI ..........................................................................................................22 2.2.1 Indexao ................................................................................................................................22 2.2.2 Recuperao e Consulta ..........................................................................................................23 2.2.3 Avaliao do desempenho de pesquisa ....................................................................................25 2.3 RECUPERAO DA INFORMAO X RECUPERAO DE DADOS .....................................................29 2.4 CONSIDERAES FINAIS ...............................................................................................................30 3. 3.1 DEFINIO ....................................................................................................................................31 3.1.1 Ontologias e Tesauros .............................................................................................................33 3.1.2 Classificao (Tipos) ...............................................................................................................34 3.2 CARACTERSTICAS E ESTRUTURA .................................................................................................36 3.3 APLICAO EM RI ........................................................................................................................39 3.4 ANOTAO SEMNTICA ...............................................................................................................41 3.5 CONSIDERAES FINAIS ...............................................................................................................42 4. 4.1 PROCESSO DE CONSULTA..............................................................................................................43 4.2 EXPANSO DE CONSULTA .............................................................................................................45 4.3 TRABALHOS RELACIONADOS ........................................................................................................48 4.3.1 FoQuE .....................................................................................................................................48 4.3.2 PICSEL ....................................................................................................................................49 4.3.3 Experimento de Voorhees ........................................................................................................50 4.3.4 Ontologies Manager Framework (OMF) ................................................................................50 4.4 CONSIDERAES FINAIS ...............................................................................................................51 5. 5.1 CONTEXTUALIZAO DA PROPOSTA .............................................................................................54 5.2 ESPECIFICAO DO PROCESSO PROPOSTO ....................................................................................54 5.3 ETAPA DE INFERNCIA E BUSCA NA ONTOLOGIA ..........................................................................59 5.4 PROTTIPO QUESO ......................................................................................................................65 5.4.1 Funcionamento ........................................................................................................................65 5.4.2 Tecnologias utilizadas .............................................................................................................68 5.4.3 Modelo Funcional do Prottipo ..............................................................................................70 5.5 CONSIDERAES FINAIS ...............................................................................................................72 6. EXPERIMENTO: UM ESTUDO DE CASO ...................................................................................73 PROPOSTA E PROTTIPO: PROCESSO DE EXPANSO UTILIZANDO ONTOLOGIA...53 EXPANSO SEMNTICA DE CONSULTAS UTILIZANDO ONTOLOGIA ...........................43 ONTOLOGIA .....................................................................................................................................31 RECUPERAO DE INFORMAO............................................................................................20

INTRODUO...................................................................................................................................11

6.1 DEFINIO DO ESTUDO ................................................................................................................73 6.2 FRAMEWORK DE AVALIAO .......................................................................................................75 6.3 PREPARAO PARA O EXPERIMENTO ............................................................................................78 6.4 ANLISE E INTERPRETAO DOS RESULTADOS ............................................................................80 6.4.1 Hiptese utilizando preciso geral ..........................................................................................81 6.4.2 Hiptese utilizando medida

REFERNCIAS BIBLIOGRFICAS.......................................................................................................97 APNDICES ..............................................................................................................................................102 APNDICE A - EXEMPLO DE CONCEITOS E RELACIONAMENTOS DA ONTOLOGIA UTILIZADA. ...................103 APNDICE B - EXEMPLO DE CONSULTAS APLICADAS E SUAS EXPANSES ................................................108

Lista de Figuras
Figura 2.1 Processo de Recuperao (Google) ................................................. 23 Figura 2.2 Frmulas dos indicadores de revocao e preciso........................ 24 Figura 2.3 Processo de avaliao de um SRI (CARDOSO, 1996) ...................... 25 Figura 2.4 Mtrica medida-F............................................................................. 26
.......................................

Figura 3.1 Representao grfica de uma ontologia Figura 4.1 Funcionamento padro de um SRI.................................................. 42 Figura 4.2 Classificao para expanso de consultas (EFTHIMIADIS, 1996) ... 46 Figura 5.1 Hierarquia de conceitos em uma ontologia.................................... 55
.................................................

36

Figura 5.2 Processo de expanso de consulta


..................

56 Figura 5.3 Trecho da ontologia (relacionamento de hierarquia)


...................... 60

59 Figura 5.4 Trecho da ontologia (relacionamento de restrio) Figura 5.5 Trecho da ontologia (instncias) .................................................... 61
............................................. 64

Figura 5.6 Exemplo de estrutura de uma classe Figura 5.7 Prottipo: Tela Principal................................................................. 65 Figura 5.8 Modelo Funcional do QuESO........................................................... 68 Figura 6.1 Preciso geral por tipo de consulta................................................ 80 Figura 6.2 Medida de preciso e revocao por tipo de consulta................... 82 Figura 6.3 Medida-F nas consultas simples e expandidas................................ 84 Figura A.1 Representao grfica ontologia utilizada................................... 101 Figura A.2 Trecho da ontologia utilizada....................................................... 102

Lista de Tabelas
Tabela 3.1 Classificao ontolgica - adaptado de Almeida e Bax (2003)..... 34 Tabela 6.1 Perfil dos Participantes................................................................. 78 Tabela 6.2 Preciso Geral: Exemplo de uma consulta e sua expanso......... 80 Tabela 6.3 Preciso Geral: Descrio Estatstica........................................... 81 Tabela 6.4 Preciso e Revocao para as duas abordagens........................... 82 Tabela 6.5 Medida-F: Descrio Estatstica.................................................... 85 Tabela B.1 Consultas simples e medidas obtidas no experimento................ 104 Tabela B.2 Consultas expandidas e medidas obtidas no experimento......... 107

Glossrio
GQM IA NI OWL RI SADT SMART SQL SRI TREC URI W3C WEB World Wide Web World Wide Web Consortium Uniform Resource Identifier Text REtrieval Conference Sistema de Recuperao de Informao Structured Query Language System for the Mechanical Analysis and Retrieval of Text Structured Analysis and Design Technique Recuperao de Informao Web Ontology Language Necessidade de Informao Inteligncia Artificial Goal Question Metric

RESUMO
A rea de Recuperao de Informao trata essencialmente de indexao, busca e classificao de documentos, normalmente textuais, com o objetivo de satisfazer necessidades de informao de seus usurios, expressas atravs de consultas. No entanto, encontrar a informao relevante no uma tarefa trivial. Isso porque a consulta, em nosso contexto, formulada utilizando um conjunto de palavras-chave. Tendo esse cenrio, esta proposta pretende auxiliar o usurio na formulao de suas consultas atravs da aplicao de tcnicas de expanso semntica de termos, utilizando ontologias como contedo estruturado de um domnio especfico. Para validao da proposta, foi realizado um estudo de caso voltado para a rea da cincia da computao. Sendo assim, foi utilizada uma coleo de referncia como base, composta por artigos publicados em conferncias da rea, alm de uma ontologia de domnio pblico, onde foi avaliado o mecanismo de expanso de consulta acoplado a um sistema de Recuperao de Informao. Os resultados indicam que a combinao do contedo de uma consulta e a informao proveniente da ontologia de domnio possibilita ganhos no desempenho geral de um sistema de recuperao de informao.

Palavras-chave: expanso de consultas, recuperao de informao, ontologia, seleo de termos.

ABSTRACT
The information retrieval is an area based essentially on indexing, searching and sorting documents, usually textual. Ones the main goal of this area is to find useful information in a large number of documents. However, this is not a trivial task. The query in this context is formulated using a set of keywords. In this scenario, this study aims to help users create queries by the application of techniques of semantic expansion of terms using ontologies from a specific domain as structured content. Own proposal was validated through a case study focused on the area of computer science. A reference collection which consists of papers published in conferences and a public domain ontology were used as a benchmark for this analyze. The query expansion engine was added to a system of information retrieval to evaluate its performance. As a result, the combination of the content of a query with the information from domain ontology provided an improvement on the system performance.

Keywords: query expansion, information retrieval, ontology, term selection.

10

1. Introduo
Hoje, recuperar informaes armazenadas uma necessidade para pessoas de todas as reas e com os mais variados interesses, como acessar o histrico do seu correio eletrnico ou buscar contedo relacionado sua atividade profissional. Com o advento da WEB 2.0, os sites colaborativos e as redes sociais promovem a interatividade e assim tanto facilitam o acesso quanto publicao de contedo cada vez mais heterogneo. Alm disso, vemos hoje um crescente nmero de bibliotecas digitais sendo disponibilizadas. Por isso, a quantidade de informao disponvel para os internautas tem aumentado a cada dia.

Esse crescimento, de certa forma no controlado, gerou um enorme problema quando se procura recuperar informaes contidas na rede. Alm do mais, apesar de vrios servios da WEB 2.0 possuir mecanismos de classificao da informao atravs da utilizao de tags, normalmente as bases de informaes no realizam a categorizao das informaes no momento de armazen-las. Com este cenrio, percebemos que se tornou humanamente impossvel recuperar manualmente a informao desejada.

Um fator importante que aumenta a complexidade da atividade de recuperar informaes o fato dos usurios no conhecerem a forma como as informaes so estruturadas e representadas nos repositrios de busca em que esto acessando (PRINCE and ROCHE, 2009). No entanto, mesmo quando o utilizador do sistema possui conhecimento sobre um determinado domnio, as informaes armazenadas podem no corresponder forma como as informaes esto representadas. Logo, uma grande quantidade de informao desestruturada e sem classificao motivou o surgimento de ferramentas e

11

recursos desenvolvidos e estudados pela rea denominada de Recuperao de Informao (RI).

Normalmente o usurio formula uma primeira consulta e verifica se o resultado atende sua necessidade. Na maioria das vezes preciso analisar uma grande quantidade de documentos retornados como resultado de sua consulta. Em outro cenrio, o usurio restringe tanto sua consulta que no consegue obter a informao que precisa. Por isso, formulao de consultas com poucos termos e a escolha errnea dos mesmos so dificuldades freqentemente encontradas na utilizao de ferramentas de busca (YATES and NETO, 1999).

Como normalmente no possvel formular consultas objetivas em sua primeira tentativa, o usurio precisa refaz-las at encontrar o contedo de seu interesse. Essa reformulao de termos pode ser frustrante pela quantidade de tentativas necessrias para obter a informao desejada (ALLAN et al., 2005; LUCRDIO et al., 2004). Nesse contexto, a expanso de consultas se prope a manipular os termos da consulta inicial para torn-la mais eficaz, seja diminuindo a quantidade de informaes irrelevantes, seja influenciando no processo de consulta para que resultados relevantes no sejam desprezados (TOMONARI et al., 2005).

Para realizao do nosso estudo levantou-se como questo central como um usurio pode se beneficiar com a expanso de consultas aplicadas a uma base especfica de domnio?. No intuito de tentarmos solucionar o problema que limita a traduo da necessidade do usurio em um conjunto de termos isolados, a nossa proposta utilizar ontologias como mecanismo para relacionar semanticamente conceitos de um mesmo domnio para adicionar contexto e sugerir termos durante o processo de formulao de consulta. Alguns sistemas de expanso de consultas discutidos na academia tm utilizado ontologia como fonte de informao semntica (BARROS et al., 1998; BIDAULT et al., 2000; NECIB and FREYTAG, 2004; YAGUINUMA et al., 2007; BARTH and 12

TIMOSZCZUNK, 2008). Neste mbito, a ontologia tem sido utilizada para lidar com polissmicos (termo com vrios sentidos dependendo do contexto). Contudo, este trabalho se restringe ao uso de ontologias de domnio especfico para sugesto de termos durante a formulao de uma consulta. problemas de conflitos semnticos, como por exemplo, termos

1.1

Descrio do Problema

A rea de RI tem progredido consideravelmente nos ltimos anos (BEPPLER, 2008). Porm, alguns problemas persistem e refletem diretamente na experincia de uso dos sistemas de recuperao de informao (SRIs). No mbito do nosso estudo, os usurios dos sistemas de busca utilizam linguagem natural para se expressar, dando espao para ambigidade no entendimento da necessidade. Alm disso, pesquisas indicam que normalmente consultas realizadas pelos usurios contm em mdia apenas dois termos (YATES and NETO, 1999). Isso ocorre porque, normalmente, o prprio usurio no tem uma viso completa do problema a ser resolvido, no conseguindo definir claramente sua necessidade de informao (SILVEIRA, 2003). No entanto, a falta de clareza e objetividade de uma consulta construda dessa forma contribui para aumentar a quantidade de documentos no relevantes retornados por consulta.

As bases que sero analisadas para este estudo so acessadas atravs de consultas baseadas em palavras-chave. Entretanto, essa abordagem apresenta diversos problemas de ambigidade na definio da relevncia dos documentos recuperados a partir de uma consulta realizada (HSIEH-YEE, 1997; YATES and NETO, 1999; ZOBEL and MOFFAT, 2006). Como normalmente as consultas so analisadas apenas sintaticamente1, os engenhos de busca no permitem a recuperao de documentos que contm termos semanticamente relacionados.
1

A sinttica investiga como algo escrito assim como as funes bsicas de uma linguagem como: sujeito e predicado; enquanto a semntica refere-se ao estudo do significado, buscando todos os sentidos de um termo.

13

O autor Soergel (1989) classifica alguns desses problemas por atividade de busca. Para ele, um sistema de recuperao desempenha trs atividades bsicas: a) determinar qual a necessidade de informao; b) buscar informaes; e c) utilizar a informao recuperada.

O problema inicial, segundo ele, auxiliar o usurio a analisar o problema, determinar as necessidades de informao (NI) e formular uma consulta contendo apenas palavras-chave. Esse problema ocorre porque existe uma distncia entre a necessidade do usurio e o entendimento computacional de uma consulta, conhecido como gap semntico ou ainda Semantic Conceptual Gap (YE and FISCHER, 2002; LUCRDIO et al., 2004; GARCIA et al. apud HENNINGER, 2006). Logo, quando uma consulta referente a um contexto formulada utilizando uma linguagem poderosa como a linguagem natural, esta no propriamente traduzida em uma representao formal (DURO, 2008). A grande questo que a semntica de uma consulta est diretamente ligada ao contexto que ela est sendo aplicada.

Normalmente, a composio de termos para formar uma expresso de busca no consegue representar de forma clara a informao desejada. Isso acontece porque o usurio precisa primeiramente realizar uma atividade no trivial: traduzir sua necessidade para um conjunto de termos ou palavras-chave (FRAKES and YATES, 1992; YATES and NETO, 1999; GAMMA, 2005). Essa consulta comumente denominada de query. Portanto, o objetivo principal para um SRI recuperar qualquer tipo de informao que seja til ou relevante para o usurio, por meio de uma query fornecida.

Levando esses problemas em considerao, este trabalho pretende mitig-los oferecendo o mnimo de contexto e auxiliando o usurio durante a formulao 14

de uma consulta atravs da recomendao de termos baseado em informaes providas por uma ontologia de domnio.

1.2

Principais Engenhos de Busca

Alguns estudos comparam, com os mais diversos parmetros e variveis, o desempenho geral dos principais mecanismos de busca comercialmente disponibilizados na Internet (RIECKEN, 2008). Por trs de uma infinidade de algoritmos que em geral possuem o mesmo objetivo principal, recuperar apenas documentos relevantes, existe um interesse comercial que pode desviar ou distorcer qualquer avaliao realizada.

Normalmente difcil avaliar e comparar esses engenhos de busca (como Google2, Yahoo!3, Bing4) por eles atuarem em um ambiente no controlado, diferentemente das bases especficas de domnio ou bibliotecas digitais. Por isso, segundo Griffiths e Brophy (2005) no adequado aplicar o modelo tradicional de avaliao, mensurando medidas de revocao e preciso, para analisar o desempenho desses SRIs. Para um melhor entendimento, estas medidas sero detalhadas na Seo 2.2.3. Outra caracterstica relevante do ambiente em que estes motores de busca atuam que a web essencialmente dinmica, ou seja, tem o seu contedo freqentemente atualizado.

Entretanto, importante destacar que o cenrio em que esses SRIs atuam bastante diferente do pretendido para este estudo, normalmente em um domnio irrestrito. Com isso, as estratgias de RI aqui utilizadas e avaliadas no tm inteno de serem aplicadas no ambiente descrito anteriormente, apesar de possivelmente serem teis para melhorar seus resultados.

2 3

Google: www.google.com Yahoo!: www.yahoo.com 4 Bing: www.bing.com

15

1.3

Viso Geral da Soluo Proposta

A soluo proposta consiste em mdulo de expanso de consulta que pode ser acoplado a um SRI com o intuito de auxiliar o usurio a satisfazer sua necessidade de informao com mais eficcia. Embora o processo de busca envolva um ciclo completo de tratamento das informaes contidas no texto como definio lgica dos documentos (ndice), formulao da consulta, execuo da pesquisa e, finalmente, ordenao por relevncia dos documentos recuperados, a soluo proposta pretende avaliar apenas a fase de formulao de consulta. No entanto, os benefcios obtidos com o enriquecimento dessa fase podem ser refletidos no processo de busca como um todo.

1.4

Objetivos do Trabalho

Nesta seo ser abordado o objetivo geral e especfico utilizados como direcionamento para o trabalho.

1.4.1 Este trabalho tem como principal objetivo investigar a utilizao de ontologias de domnio especfico quando aplicadas para fornecer subsdio aos mecanismos de expanso de consultas baseadas em palavra-chave.

Objetivo Geral

1.4.2 Para atingir o objetivo geral, alguns objetivos especficos so requeridos: a) Atravs da investigao do estado da arte em RI, utilizar conceitos discutidos na academia para verificar como os recursos providos por uma ontologia de domnio podem orientar pesquisas e localizar informaes relevantes com mais eficcia; b) Caracterizar o problema para formulao de consultas utilizando apenas palavras-chave atravs de trabalhos relacionados e propostas que

Objetivos Especficos

16

abordam a utilizao de tcnicas de expanso de consultas para mitiglo; c) Construir um prottipo que viabilize a interao direta com o conhecimento especificado em uma ontologia para sugerir termos que podem ser selecionados para ajudar na objetividade da pesquisa. Atravs desse prottipo ser possvel desenvolver um estudo de caso capaz de validar a efetividade da proposta; d) Avaliar o desempenho da abordagem proposta atravs da definio e realizao de um experimento baseado em estudo de caso. Dados estatsticos e percentuais devem ser coletados para fundamentar e discutir os resultados do experimento de forma conclusiva.

1.5 Para este trabalho ser considerado fora do escopo da investigao:

Delimitaes da pesquisa

a) Indexao e recuperao. Para este estudo foi utilizado um engenho de busca de cdigo aberto baseado no Lucene5. Por isso, est fora do escopo desta pesquisa investigar qualquer parmetro de eficincia ou eficcia referente ao mecanismo de indexao e recuperao realizado pelo framework; b) Impacto em outras reas do processo de RI. Nossa proposta est preocupada com a fase de formulao da consulta no processo de busca. Assim, estamos interessados em como esta fase pode ser melhorada atravs da soluo proposta. Logo, est fora do mbito da nossa anlise verificar o seu impacto ou melhoria em outras fases do processo; e c) Criao de ontologia. Fazemos uso de uma ontologia de domnio como um dos principais componentes da proposta. Entretanto, cabe ressaltar que este trabalho no est focado em mtodos ou tcnicas para a construo de ontologias. Algumas discusses envolvendo este assunto podem ser encontradas no trabalho de Lpez et al. (1999).
5

Lucene: framework Java para indexao e pesquisa de documentos. http://lucene.apache.org/

17

1.6

Estrutura da Dissertao

Alm desta introduo, este documento est organizado em mais seis captulos:

a) O Captulo 2, Recuperao de Informao, descreve em linhas gerais alguns conceitos bsicos relacionados a essa rea, assim como a estrutura geral e as principais atividades necessrias para compor um SRI. Alm disso, nesse captulo sero descritos alguns mecanismos para avaliar o desempenho de recuperao; b) No Captulo 3 so apresentados os principais conceitos relacionados a ontologias, classificao e as suas possveis aplicaes na rea de RI; c) No Captulo 4 descrevemos alguns problemas encontrados em solues de RI convencionais e como os mesmos podem ser mitigados utilizando expanso de consultas. Foram abordadas as caractersticas e o funcionamento da expanso semntica de consultas baseada em ontologias, sendo apresentados alguns trabalhos relevantes existentes na literatura; d) No Captulo 5 especificamos o modelo de expanso de consulta proposto enfatizando o comportamento do mecanismo de inferncia aplicado a ontologia de domnio. Na seqncia documentamos o prottipo QuESO, onde foram descritos seus mdulos e o modelo funcional; e) O Captulo 6 apresenta o estudo de caso detalhando como ele foi concebido e executado. Alm disso, atravs da anlise dos resultados obtidos com o experimento foi possvel avaliar os resultados alcanados com a aplicao da proposta; e f) Por ltimo, no Captulo 6 descrevemos as contribuies obtidas com a utilizao da proposta, a relevncia do trabalho e sugestes para trabalhos futuros. incluindo conceitos bsicos, elementos estruturais,

18

19

2. Recuperao de Informao
Neste captulo fizemos uma pesquisa bibliogrfica e documental para contextualizar a soluo proposta dentro da rea de RI como um todo. Para isso, a Seo 2.1 investiga de forma analtica o estado da arte dessa rea de conhecimento. Na Seo 2.2 analisamos alguns dos conceitos bsicos e introduzimos alguns conceitos utilizados para avaliar sistemas de RI. A Seo 2.3 faz uma comparao distinguindo a rea de recuperao de informao e a recuperao de dados. E por ltimo, uma breve concluso do que foi discutido neste captulo.

2.1

Fundamentao Terica

Como em qualquer outro tipo de sistema, normalmente usurios de sistemas de busca preferem no perder muito tempo para localizar a informao de que necessitam (BEPPLER, 2008). Com isso, ao verificar a complexidade para manipular informaes, foram definidos alguns mecanismos para estruturar as informaes de forma que fosse possvel acess-las de forma suficientemente rpida e com qualidade. Esses mecanismos so estudados e discutidos por uma disciplina definida como recuperao de informao. Essa disciplina trata da representao, armazenamento, organizao e acesso as informaes (YATES and NETO, 1999).

Estimar ou definir a relevncia de cada documento em relao consulta de um usurio a tarefa base dos sistemas de RI. Essa estimativa feita associando-se uma importncia a cada documento da resposta, usualmente referido como o rank do documento (SILVEIRA, 2003). Este rank o que possibilita a ordenao dos documentos por similaridade com relao consulta. Diferentes algoritmos de ordenao so utilizados em sistemas de RI,

20

como os baseados em lgebra booleana, modelagem probabilstica e em representaes vetoriais (SILVEIRA, 2003). Maiores informaes sobre o funcionamento desses algoritmos podem ser encontradas em Yates e Neto (1999).

O mecanismo mais importante para auxiliar o processo de recuperao de informaes denominado de ndice. ndice definido como uma coleo de termos que indicam o local onde a informao desejada pode ser facilmente localizada (FRAKES and YATES, 1992). Porm, utilizar apenas a tcnica de busca por palavra-chave para acesso ao ndice, como acontece na maioria das solues de busca convencionais na web, normalmente compromete a eficincia da busca (CROFT, 1993). Isso ocorre pela dificuldade em organizar e co-relacionar semanticamente, e no apenas sintaticamente, os termos de forma a facilitar sua recuperao. Como as palavras em um ndice so tratadas de forma isolada, fcil perceber que o contexto em que uma determinada palavra se encontra no texto completamente perdido (YATES and NETO, 1999). Com o intuito de enfatizar a importncia e complexidade da utilizao de uma estrutura de ndice, na Seo 2.3 descrevemos a diferena chave entre sistemas para recuperao de informao e sistemas de recuperao de dados. Alm disso, a Seo 2.2.1 apresenta um processo genrico de indexao com o objetivo de exemplificar como essa estrutura criada.

As tcnicas utilizadas para recuperao da informao na web como um todo normalmente no so eficazes, pois realizam busca em informaes no estruturadas (NUNES and FILETO, 2005). A eficcia de um mecanismo de busca normalmente medida pela quantidade de documentos relevantes retornados nos primeiros resultados (YATES and NETO, 1999). Com o surgimento do conceito de web semntica, onde cada palavra utilizada na internet possui um significado associado a ela, possvel que o contedo seja processado, ou ainda, entendido pelos computadores. A importncia desse conceito est em possibilitar a recuperao da informao na web utilizando contedo 21

semanticamente relacionado (CANTELE and FEREIRA, 2008). Porm, preciso que se tenham fontes comuns de informaes, sendo um vocabulrio de dados organizado para cada domnio de aplicao. Por isso, surge a necessidade de compreender o conceito de ontologias. Na web semntica, o significado e o relacionamento das palavras de um determinado domnio so principalmente obtidos atravs do uso deste conceito.

2.2 Alguns dos conceitos utilizados para este estudo sero abordados nas sees a seguir. O entendimento destes conceitos ser til para a compreenso da proposta.

Conceitos Bsicos em RI

2.2.1 O ndice uma lista de termos que apontam para uma segunda lista de documentos correspondentes. Esse considerado o componente mais importante na arquitetura de um SRI (YATES and NETO, 1999). Diferentes estruturas de ndices podem ser criadas, mas a estrutura de ndice invertido (inverted file) a mais popular. Podemos dizer que um ndice invertido uma lista ordenada de palavras-chave, onde cada palavra tem uma lista de apontadores para os documentos que contm essa palavra em seu contedo (ZOBEL and MOFFAT, 2006). Para Yates e Neto (1999) essa lista de palavraschave representa uma viso lgica dos documentos que ser manipulado pelos engenhos de busca.

Indexao

Para que essa estrutura seja criada, o processo de indexao consiste na criao de estruturas de dados associadas aos termos contidos nos documentos, com o objetivo de acelerar seu processo de recuperao. Normalmente existe um pr-processamento aplicado aos termos que compem um ndice, onde so extrados os termos que iro compor os ndices de um determinado documento da coleo. Como um conjunto de termos indexados representar um

22

documento, uma preocupao est em no indexar palavras que no tragam representao semntica ao documento. Algumas operaes so executadas no pr-processamento, tais como eliminao de stopwords e stemming.

A primeira operao trata de filtrar as palavras que aparecem com muita freqncia ou so consideradas irrelevantes para identificao de documentos. Artigos, preposies e conjunes so candidatos naturais lista de stopwords, no sendo necessrio index-los. Como essa operao capaz de comprimir o tamanho do ndice em 40% ou mais, relevante incrementar esta lista e tratar alguns verbos, advrbios e adjetivos como stopwords (YATES and NETO, 1999). Assim como no processo de indexao, a eliminao de stopwords pode ser utilizada no processo de pesquisa.

A operao de stemming analisa as caractersticas gramaticais das palavras, como grau, gnero e nmero, a fim de encontrar sua forma primitiva. Para isso, os algoritmos de stemming removem os sufixos e prefixos das palavras. Alm disso, pode ser analisado o tempo verbal do termo e quanto a sua forma no gerndio (YATES and NETO, 1999). Dessa forma, variaes em uma palavra de mesmo valor semntico so reduzidas a um radical comum. Assim como a remoo de stopwords, a utilizao de stems (radical comum) reduz o tamanho do ndice e melhoram o seu desempenho. Isso porque as variaes de um mesmo conceito so reduzidas a uma nica entrada no ndice. A Seo 4.1 descreve, de forma genrica, um processo completo de busca.

2.2.2

Recuperao e Consulta

Utilizando a estrutura descrita na seo anterior, possvel recuperar informaes com bastante eficincia. O processo comum de recuperao inicia com a submisso de uma consulta. Em seguida, os termos que compe essa consulta sero comparados com a estrutura de ndice. De forma simplificada,

23

essa comparao apenas procura pelos documentos que utilizam os termos especificados na consulta. Na Figura 2.1 temos a representao grfica utilizada pelo Google6 para descrever seu processo de consulta.

Figura 2.1 Processo de Recuperao (Google Inc.). Sob o ponto de vista da busca, no primeiro passo executada a operao de similaridade (matching) entre os termos da consulta e a estrutura de ndice. No segundo momento, alm das atividades descritas na figura, realizada a operao de ordenao (scoring) dos documentos identificados como relevantes

Google Tecnologia: http://www.google.com/corporate/tech.html

24

no passo 1. Por ltimo, uma lista ordenada de documentos exibida para o usurio.

2.2.3 Para avaliao da qualidade de um SRI, as medidas mais utilizadas so a revocao (recall) e preciso (precision) (YATES and NETO, 1999). Estas medidas so baseadas na condio de relevncia para o usurio, de acordo com a necessidade de informao em questo. A revocao mede a proporo de documentos relevantes que foram recuperados avaliando a base como um todo. Por outro lado, a preciso calcula a proporo de documentos relevantes contidos no resultado da pesquisa.

Avaliao do desempenho de pesquisa

Para obter o valor de revocao de uma consulta preciso calcular a relao entre a quantidade de itens relevantes retornados e a quantidade total de itens relevantes contidos na coleo. J a o valor de preciso obtido atravs da relao entre a quantidade de itens relevantes recuperados e a quantidade total de itens recuperados. Logo, o ideal almejado por um SRI reduzir a quantidade de respostas irrelevantes, tendo assim uma alta preciso, e garantir que resultados relevantes no sejam desconsiderados, garantindo assim uma alta revocao. Na Figura 2.2 podemos visualizar a frmula dos dois indicadores citados, onde |RR| so os itens relevantes recuperados, |TR| o total de itens relevantes da coleo e |RE| o resultado da pesquisa retornado pelo SRI.

Figura 2.2 Frmulas dos indicadores de revocao e preciso.

A avaliao de um SRI pode ser observada utilizando um grfico com as mdias de preciso x revocao, como podemos verificar na Figura 2.3. Neste exemplo, o sistema de avaliao compara o resultado do SRI a um conjunto

25

ideal de resultados. Nesta comparao possvel calcular os indicadores de preciso e revocao e assim gerar um grfico relacionando as duas medidas.

Figura 2.3 Processo de avaliao de um SRI (CARDOSO, 1996).

Contudo, a deciso de quais medidas a serem utilizadas em uma avaliao depende da aplicao, havendo sempre discusses sobre a confiabilidade de tais medidas. Por exemplo, para Yates e Neto (1999) o grfico relacionando preciso e revocao deve ser aplicado na avaliao de algoritmos de ordenao (ranking). Algumas dessas medidas citadas nesta seo sero utilizadas para avaliao do experimento aplicado a esta proposta, como apresentado na Seo 6.2.

26

2.2.3.1 Revocao Relativa

Devido ao tamanho e dinamismo das bases disponveis para consulta invivel avaliar a qualidade de recuperao pela medida padro de revocao. Para obter a medida de revocao, como mencionado na seo anterior, em cada consulta todos os documentos da coleo teriam de ser inspecionados por um ser humano e marcado como relevantes ou irrelevantes. Como alternativa, pode ser utilizado a revocao relativa (Gonalves et al., 1998). Relativa porque so valores calculados com base no nmero de documentos relevantes de uma dada consulta, nmero esse gerado a partir de uma amostra de documentos da coleo. Para a obteno da revocao relativa necessrio apenas elaborar um conjunto de consultas sobre um determinado tema e considerar o resultado como sendo o todo. Todos os documentos relevantes recuperados por este conjunto de consultas considerado como "o conjunto de documentos relevantes existentes na coleo". Dessa forma, apenas necessrio consultar os documentos recuperados para o referido conjunto de consultas, em vez de toda a coleo.

Para a avaliao desta proposta, pretendemos utilizar a medida de revocao relativa para medir a abrangncia da proposta. 2.2.3.2 Medida-F

Para Barros et al. (1998) a mtrica mais conveniente para avaliar o desempenho global de um SRI a Medida-F ou mdia harmnica, dada por:

Figura 2.4 Mtrica medida-F.

Como podemos ver na Figura 2.4 esta mtrica utiliza tanto a medida de preciso quanto a de revocao. O objetivo desta mtrica se manter o mais

27

prximo possvel de (F = 1). Note que esta mtrica apenas se aproxima de (F = 1) quando ambos, preciso e revocao, se mantm alto. Para se obter uma boa medida-F preciso ter uma boa preciso assim como uma boa revocao (GARCIA et al., 2006). 2.2.3.3 TREC (Text REtrieval Conference)

Conferncia formada por um grupo de pesquisadores da rea de RI que prov vrias colees de dados homologadas por especialistas. O seu objetivo apoiar a investigao de novas tcnicas sugeridas pela comunidade de pesquisadores, fornecendo a infra-estrutura necessria para a avaliao em larga escala de metodologias aplicadas a RI. O intuito desta conferncia incentivar o desenvolvimento de pesquisas nessa rea.

A maioria das colees disponibilizadas pela TREC composta por trs partes: a) o conjunto de documentos ou base de informaes; b) exemplos de consultas a serem aplicadas base (chamado de tpicos na nomenclatura do TREC); e c) o conjunto de documentos relevantes para cada exemplo de consulta. Usualmente este conjunto de documentos so os 100 mais relevantes, de acordo com o julgamento de vrios participantes durante a definio da base.

Para o desenvolvimento deste trabalho optou-se pela construo de uma coleo de referncia em detrimento da utilizao de uma coleo disponibilizada pelo TREC. A deciso foi tomada porque essas bases possuem os resultados classificados e contabilizados com base em uma consulta especfica e j previamente construda. No entanto, o intuito desta proposta oferecer subsidio para que o usurio possa, com auxilio de conhecimento semntico, construir sua prpria consulta. Segundo Yates e Neto (1999), bases como as definidas pelo TREC, conhecida como bases de referncia, so criadas,

28

principalmente, para avaliar algoritmos de indexao e at mesmo algoritmos de rankeamento (ordenao do resultado da consulta). Contudo, para o experimento aplicado a este trabalho foi construdo manualmente uma base de documentos utilizando alguns critrios que sero discutidos na Seo 6.3.

2.3

Recuperao da Informao x Recuperao de dados

No contexto da RI, a recuperao de dados consiste principalmente em determinar quais documentos de uma coleo contm as palavras-chave que aparecem na consulta. Por outro lado, os sistemas de recuperao de informao devem retornar contedo que seja relevante para o usurio (YATES and NETO, 1999). Por isso, os SRI tm como tarefa bsica comparar consultas de usurios com um conjunto de documentos armazenados em uma coleo, sempre por ordem de relevncia ao pedido de busca.

Entretanto, a recuperao de informao busca interpretar a necessidade de um usurio que procura sobre um determinado assunto, enquanto a recuperao de dados est focada em satisfazer as restries de uma especificao. Apesar dessa distino, as duas abordagens tm como principal objetivo prover aos usurios acesso facilitado ao contedo de seu interesse.

A recuperao de informao mais fcil de ser entendida, pois trata da recuperao de um assunto ou de um documento relacionado a uma consulta fornecida, normalmente utilizando linguagem natural. Por outro lado, a recuperao de dados se prope a recuperar objetos que satisfaam claramente uma condio definida, tal como uma expresso regular ou uma expresso algbrica (YATES and NETO, 1999). Neste ltimo, um nico objeto errado encontrado em um conjunto de milhes de objetos retornados significa uma falha completa da busca. Um objeto errado significa algo que no satisfaa as condies de uma consulta. J em sistemas de recuperao de informao, pequenos erros so completamente aceitveis. A eficcia desse

29

tipo de abordagem pode ser dimensionada atravs da quantidade de documentos relevantes em relao quantidade total de documentos retornados. Isso quer dizer que embora pequenos erros durante o processo de recuperao sejam aceitveis, a preciso dos resultados algo fundamental.

Contudo, como este estudo est interessado em ajudar o usurio a traduzir seu interesse relacionados a RI. em um conjunto de palavras-chave, utilizaremos conceitos

2.4

Consideraes Finais

Neste captulo foi possvel evidenciar que a rea de RI se preocupa, principalmente, com a organizao da informao e mecanismos que facilitem o processo de recuperar a informao requerida. Alm da anlise terica da rea, utilizaremos os conceitos bsicos discutidos para o entendimento da proposta.

Como apoio a rea de RI, pretendemos utilizar uma ontologia de domnio como coleo independente de conhecimento para dar suporte ao enriquecimento das consultas aplicadas a um SRI. Para tal, esta proposta tem como base ontologias abordadas no prximo captulo.

30

3. Ontologia
Neste captulo discutiremos sobre o que vem a ser uma ontologia dentro do contexto utilizado nesse trabalho. Sero abordadas as principais vantagens de seu uso, suas possveis aplicaes, sua classificao e a importncia das anotaes semntica. Alm disso, realizaremos um breve comparativo com outra conhecida tecnologia que utiliza conceito semntico, os tesauros. Essas atividades so essenciais para contextualizar o problema e verificar o potencial do uso das ontologias de domnio na anlise semntica de termos.

3.1

Definio

Na filosofia, a palavra ontologia significa uma teoria sobre a natureza do ser. Ainda nesse contexto, a ontologia definida como uma considerao sistemtica da existncia e da essncia. O objetivo dessa tcnica organizar as informaes que so ligadas a um determinado domnio. Sendo assim, a ontologia tem sua estrutura baseada na descrio de conceitos e dos relacionamentos semnticos entre eles, gerando uma especificao formal e explcita de uma conceitualizao compartilhada (BORST, 1997). Entretanto, esse mesmo termo foi aproveitado pela rea de IA (Inteligncia Artificial) dando resultado a uma mistura de significados. De acordo com Gruber, no contexto da IA, tudo o que existe o que pode ser representado. O que a ontologia possui em comum entre o conceito filosfico e computacional a representao das entidades, idias, e eventos, juntamente com as suas propriedades e relaes, de acordo com um sistema de categorias (SOUZA, 2008). Uma definio clara e bastante difundida sobre o significado da ontologia no contexto da cincia da computao pertence ao prprio Gruber.

Uma ontologia uma especificao explcita e compartilhada de uma conceitualizao formal. uma descrio dos conceitos e dos

31

relacionamentos que podem existir para um agente ou para uma comunidade de agentes (BORST apud GRUBER, 1997).

Para entender essa definio, primeiramente preciso entender o significado de alguns termos aplicado a esse contexto. Conceitualizao representa a interpretao de uma parte do mundo, para que pessoas possam utiliz-la para pensar e se comunicar de forma uniforme (ALMEIDA and BAX, 2003). Ou ainda, trata-se de um modelo abstrato que especifica uma hierarquia de conceitos relevantes para algum domnio de conhecimento (SOUZA, 2008). Com relao ao compartilhamento, significa que o conhecimento deve existir atravs de um consenso e aceito por toda comunidade (PICKLER, 2007). Quanto formalidade, significa que a ontologia deve ser um padro passvel de processamento atravs de mquinas (ALMEIDA and BAX, 2003).

Outra definio bastante aceita entre os pesquisadores que as ontologias geram uma especificao formal e explcita de uma conceitualizao compartilhada (BERNERS-LEE and HENDLER, 2001). Esta definio enfatiza a existncia de um acordo comum no aceite da conceituao especificada. Logo, a informao contida nas ontologias tende a ser de alta credibilidade.

Guarino (1998) rev a definio de conceitualizao aplicado a ontologia como sendo um artefato construdo por termos utilizado para descrever certa realidade, somado a uma srie de fatos explcitos e aceitos que dizem respeito ao sentido pretendido para um determinado conjunto de termos (vocabulrio). Esses termos so co-relacionados e a ontologia ento define as regras que regulam a combinao entre os termos e suas relaes.

Entretanto, apesar de serem criadas por especialistas necessrio que uma ontologia seja homologada para que ela tenha capacidade de reutilizao. A falta de uma definio consensual do que de fato uma ontologia de domnio, tende a gerar expectativas irreais a respeito do que as ontologias podem

32

alcanar (SCHULZ and STENZHORN, 2009). As sees subseqentes iro detalhar as principais caractersticas de uma ontologia e como esta pode ser aplicada.

3.1.1 Para efetiva organizao do conhecimento foi identificada a necessidade da adoo de uma linguagem documentria que buscasse uma padronizao da linguagem natural. O intuito seria eliminar o principal problema da utilizao da linguagem natural em qualquer que seja sua aplicao, a polissemia (uma nica palavra com vrios significados). Com isso, os tesauros foram criados para formalizar a padronizao de termos de uma determinada rea de conhecimento, no permitindo ambigidades (PICKLER, 2007).

Ontologias e Tesauros

Um tesauro define um conjunto de termos e seus relacionamentos. Porm, a nica relao possvel de ser definida a de generalizao, ou seja, os conceitos partem do geral para o especfico (BREITMAN, 2005). Segundo Breitman (2005), os tesauros contam com alguns tipos de relacionamentos estruturais, como de hierarquia (termos genricos e especficos) e associao (termos relacionados), que auxiliam na organizao dos dados. Entretanto, esses relacionamentos so pr-definidos, ou seja, no podem ser estendidos ou modificados. Logo, os tesauros so bastante teis na criao de vocabulrios e dicionrios controlados, mas no so suficientes para modelar aspectos do mundo real (PICKLER, 2007).

Reforando a definio citada na seo anterior, o emprego do termo ontologia na rea de cincia da computao denomina uma estrutura de termos e as relaes entre eles em um determinado domnio. Com base nas definies descritas nessa seo para ontologias e tesauros, fica clara a confuso entre a definio desses dois termos, uma vez que estes, da mesma forma, podem ser considerados estruturas de termos e as relaes entre eles (PICKLER, 2007). Contudo, a afirmao de Breitman (2005) deixa clara a distino os dois conceitos.

33

Muitas vezes necessrio relacionar conceitos utilizando relacionamentos do tipo parte-de, membro-conjunto, causaefeito, entre muitos outros. Um tesauro no permite a seus usurios a criao destes e novos tipos de relacionamento, para tal necessrio utilizar uma ontologia (BREITMAN, 2005).

Sendo assim, podemos considerar que as ontologias so mais completas, complexas e flexveis por possibilitarem que novos relacionamentos sejam criados. No entanto, apesar de existirem pontos comuns entre ontologias e tesauros e ainda alguns autores classificarem os tesauros como um tipo simplificado de ontologia, tratam-se de ferramentas distintas e com propsitos distintos (PICKLER, 2007). Para Moreira (2003) o tesauro nasceu como um instrumento prtico para auxiliar na indexao e busca de documentos enquanto a ontologia surgiu da necessidade de descrever os objetos digitais e suas relaes.

3.1.2

Classificao (Tipos)

Um ponto importante na conceitualizao de uma ontologia so os seus tipos, que podem ser classificados quanto ao seu contedo, grau de formalismo, aplicao, estrutura ou funo. Como podemos verificar na Tabela 3.1, cada classificao foi definida por um autor na literatura (ALMEIDA and BAX, 2003). A que nos parece mais interessante, por utilizar uma caracterstica chave das ontologias, o sistema de classificao por contedo.

Para realizao deste estudo estamos interessados nas ontologias classificadas como sendo de domnio. Isso porque a abordagem definida para este estudo trata de sugerir termos relacionados semanticamente dentro de um mesmo domnio durante a formulao de uma consulta. Em destaque na Tabela 3.1, este tipo de classificao pode estar associado a sua funo, estrutura ou contedo. Entretanto, de forma resumida podemos sintetizar como sendo uma representao e especificao de um micro-mundo, independente da classificao utilizada.

34

Tabela 3.1 Classificao ontolgica - adaptado de Almeida e Bax (2003).


Abordagem
Domnio Quanto funo Mizoguchi, Vanwelkenhuysen & Ikeda (1995) Reutilizveis no domnio fornecem vocabulrios sobre conceitos, seus relacionamentos, sobre atividades e regras que os governam. Fornecem um vocabulrio sistematizado de termos, especificando tarefas que podem ou no estar no mesmo domnio. Incluem um vocabulrio relacionado a coisas, eventos, tempo, espao, casualidade, comportamento, funes e etc. Expressa livremente em linguagem natural. Expressa em linguagem natural de forma restrita e estruturada. Expressa em uma linguagem artificial definida formalmente. Os termos so definidos com semntica formal, teoremas e provas. Descrevem conceitos gerais relacionados a todos os elementos da ontologia (espao, tempo, matria, objeto, evento, ao etc.) os quais so independentes do problema ou domnio. Descrevem o vocabulrio relacionado a um domnio, como, por exemplo, medicina ou automveis. Descrevem uma tarefa ou atividade, como, por exemplo, diagnsticos ou compras, mediante insero de termos especializados na ontologia. Especificam conceitualizaes do conhecimento, tm uma estrutura interna semanticamente rica e so refinadas para uso no domnio do conhecimento que descrevem. Expressam conceitualizaes que so especficas para um determinado domnio do conhecimento. Similares s ontologias de domnio, mas os conceitos que as definem so considerados genricos e comuns a vrios campos.

Classificao

Descrio

Tarefa

Gerais

Quanto ao grau de formalismo Uschold & Gruninger (1996)

Altamente Informais Semi-informais Semiformais Rigorosamente Formais Alto Nvel

Quanto estrutura Haav & Lubi (2001)

Domnio Tarefa

Quanto ao Contedo Modelagem do Van-Heijist, Schreiber Conhecimento & Wielinga (2002) Domnio Genricas

Ainda uma subclassificao pode ser feita com relao a ontologias de domnio especfico ou de domnio geral. Segundo Gruber (1993), a classificao das ontologias pode ser simplificada em dois domnios de investigao: a) a engenharia ontolgica sendo definida por um trabalho emprico, onde so definidas as categorias e as relaes no domnio a ser representado; e b) o trabalho mais abstrato sobre a teoria ontolgica, que visa classificar todos os objetos existentes no mundo, bem como os aspectos de tempo, espao, causalidade, etc.

35

Como exemplo do primeiro tipo de ontologia temos o MeSH (Medical Subject Headings) e UMLS (Unified Medical Language System) que so ontologias ligadas rea biomdica. No caso das ontologias de domnio geral, podemos citar a WordNet7 e EuroWord-Net8.

3.2 As ontologias no apresentam sempre a mesma estrutura, mas existem caractersticas e componentes bsicos comuns presentes em grande parte delas. Na prtica a ontologia tem com estrutura principal um catlogo das definies do vocabulrio formal de um determinado domnio. Alm do vocabulrio aplicado a um domnio, uma ontologia tambm trabalha os relacionamentos relacionamentos entre instncias (ALMEIDA and BAX, 2003). Normalmente as relaes entre os termos so criadas por especialistas, e os usurios formulam consultas na ontologia usando os conceitos especificados. Uma descrio relevante sobre o que compe de fato uma ontologia foi proposta por GmezPrez (1999) que a dividiu em cinco componentes: a) Conceitos agrupados em uma hierarquia (taxonomia). Os conceitos podem ser abstratos (por ex.: lar), concretos (por ex.: casa) ou fictcios. Para exemplificar a caracterstica de hierarquia podemos dizer que o conceito casa uma subclasse do conceito lar; b) Alm do relacionamento de hierarquia (filho/pai/irmo), existe um conjunto de relacionamentos especficos entre os conceitos. O relacionamento faz-parte entre os conceitos garagem e casa um exemplo de relacionamento. Como exemplos de relacionamentos predefinidos podemos citar os inversos, transitivos e simtricos; entre esses conceitos, instncias desses conceitos e

Caractersticas e Estrutura

7 8

WordNet: http://wordnet.princeton.edu/ EuroWord-Net: http://www.illc.uva.nl/EuroWordNet/

36

c) Um conjunto de funes. Uma funo um caso especial de relacionamento em que um conjunto de elementos tem uma relao nica com outro elemento; d) Um conjunto de axiomas, ou seja, regras que so sempre verdade. Um exemplo de axioma afirmar que toda pessoa tem uma me; e) Um conjunto de instncias que so um conhecimento prvio existente na ontologia. Por exemplo, o elemento Fortaleza uma instncia do conceito Cidade, considerando o domnio referente a uma repblica. Na Figura 3.1 temos representao grfica de uma ontologia, mostrando como os conceitos podem se relacionar, assim como os recursos disponveis.

Figura 3.1 Representao grfica de uma ontologia. Neste exemplo temos os trs recursos bsicos de uma ontologia: conceitos, relacionamentos e instncias. Os elementos _um, tem_parte e subClasse, representados por uma seta, so relacionamentos predefinidos e genricos na ontologia que podem ser modificados ou at incrementados com a adio de

37

dirido_por relacionamentos produzido_por so relacionamentos especficos do domnio em questo, ou melhor, so relacionamentos com significado prprio dentro do domnio aplicado. Por fim, o elemento Ferrari, com cor diferenciada na figura, representa uma instncia do conceito Montadora, ou seja, considerado um termo previamente conhecido dentro do domnio de automveis. transitivos. J os relacionamentos e

Alguns autores discordam que as instncias fazem parte da ontologia, mas sim fazem parte da base de conhecimento (YAGUINUMA, 2007). Entretanto, fato que algumas instncias so inerentes ao prprio conhecimento prvio do domnio. Apesar de a ontologia possuir estes elementos tpicos, eles no so obrigatrios. Com isso, uma ontologia pode assumir vrias formas, entretanto, necessariamente, deve incluir um vocabulrio de termos (conceitos) e alguma especificao do significado de suas definies.

Alm dos elementos citados, outro recurso importante das ontologias so as restries. As restries so basicamente condies impostas s entidades. Qualquer individuo que satisfaa as condies predefinidas pode ser considerado uma instncia dessa entidade (GMEZ-PREZ, 1999). Por exemplo, para ser um carro necessrio que possua rodas, tenha um motorista e possua um motor. Logo, essas so as restries para que um conceito seja considerado um carro.

Segundo Gruber (1993) existem alguns critrios a serem observados para avaliar as ontologias: a) ser clara e objetiva na definio dos termos e descrio das classes; b) ser extensvel o bastante para suportar a incorporao de novos termos sem revisar conceitos j definidos; e c) permitir seu compartilhamento e reuso.

38

Existem vrias propostas na literatura sobre como construir uma ontologia de forma a atender esses e outros critrios desejveis. Lpez et al. (1999) realizou um estudo comparativo das principais metodologias j publicadas para tentar destacar os pontos fortes e de melhoria para cada uma. Como j mencionado na delimitao do escopo deste trabalho, apenas a utilizao (e no a criao) de ontologias relevante para nossa proposta.

3.3

Aplicao em RI

Muitas bases no-estruturadas esto sendo desenvolvidas para armazenar informaes. Porm, no se tem um acesso eficiente a essas informaes (PRINCE and ROCHE, 2009). Uma das estratgias inclui o uso de recursos lingsticos para melhorar o acesso as informaes. Segundo Almeida e Bax (2003) alguns desses tipos de estruturas utilizados na organizao dessas informaes so: a) glossrios e dicionrios, estruturas que se organizam a partir da utilizao de termos; b) taxonomias, estruturas que se organizam com a classificao e a criao de categorias e; c) ontologias e tesauros, estruturas que se organizam a partir de conceitos e de seus relacionamentos. Em ltima instncia, o que se busca com a utilizao dessas estruturas so melhorias nos processos de recuperao da informao. Uma abordagem que tem recebido ateno a utilizao de ontologia para organizao do contedo das bases de informao (ALMEIDA and BAX, 2003). Para Barth e Timoszczunk (2008), o ponto crtico na utilizao de ontologia estruturar adequadamente os termos do domnio tal como empregados nas fontes de informao utilizadas.

Exemplificando como a ontologia pode ser aplicada podemos descrever um caso prtico. Por exemplo, para um engenheiro mecnico, uma ferramenta pode ser

39

classificada em grupos denominados como cortantes, ajuste em parafusos, hidrulica, entre outros. O agrupamento ocorreu porque as ferramentas pertencentes ao mesmo grupo possuem manuseio semelhante, por exemplo. Alm disso, cada um desses grupos pode ser subcategorizado dependendo do material a que se deve ser aplicado, como madeira ou metal. Contudo, para uma rea diferente desta, uma ferramenta provavelmente no ter esses grupos, nem muito menos haver essas subcategorias para classificao de uma ferramenta. O entendimento e conceituao do termo ferramenta podem variar de acordo com o domnio ao qual aplicado.

A justificativa para a utilizao de ontologia est em aplicar a mesma estrutura de informao entre softwares e pessoas, compartilhando de forma uniforme o conhecimento do domnio. Com relao a RI, na formao de uma ontologia os sinnimos contribuem para uma maior abrangncia na cobertura do domnio. Por outro lado, a hierarquia gerada pela decomposio de um domnio pode ser utilizada para fazer uso de conceitos mais especficos ou mais genricos, dependendo da necessidade. Neste contexto, o uso de ontologia em sistemas de busca vem para melhorar os resultados obtidos atravs da formulao de consultas que utilizam linguagem natural, ou seja, no possuem um vocabulrio controlado. Portanto, a aplicao deste tipo de estrutura em sistemas de busca torna realidade a recuperao de informao semanticamente relacionadas. Ao fazer uso de termos adicionais do prprio domnio para expandir uma consulta, a ontologia vem para aumentar a probabilidade de recuperao de documentos que seriam ignorados pela consulta original ou ainda reforar o seu ndice de relevncia. Contudo, este trabalho tem o objetivo de usufruir de duas caractersticas providas por uma ontologia: o conhecimento estruturado e independente.

40

3.4

Anotao Semntica

A principal utilidade de uma anotao semntica fornecer uma ligao entre uma informao armazenada em um documento e uma estrutura semntica associada a ele. Uma anotao semntica identifica, formalmente, conceitos e relaes presentes nos recursos com a finalidade de facilitar a descoberta, localizao e utilizao deles por mquinas (NUNES and FILETO, 2005). Para a aplicao neste trabalho, utilizaremos os conceitos de anotao semntica especificamente aplicada a ontologias.

Uma anotao semntica deve ser bem definida, no ambgua e fcil de ser compreendida pelos especialistas de domnio. Apenas assim uma anotao pode ser til no processo de recuperao de informao (NUNES and FILETO, 2005). Usualmente, a referncia aos termos contidos em uma ontologia realizada atravs de uma anotao semntica. Como boa prtica do processo de anotao, os especialistas normalmente seguem uma hierarquia ontolgica para facilitar o seu entendimento. Uma entidade, termo contido no texto analisado, possui relao direta com um ou mais conceitos da ontologia. A identificao das entidades de um texto o primeiro passo do processo de anotao.

Logo depois preciso ligar as entidades identificadas no documento com as suas respectivas descries semnticas contidas na ontologia. A ligao de uma entidade com sua descrio no repositrio semntico pode ser feita de forma rpida e precisa atravs de uma URI9 (Uniform Resource Identifier). Depois disso, o resultado do processo de anotao associado a uma ontologia e gravado em um repositrio atravs de uma representao que pode ser intrusiva ou no. Como o nome j diz, a anotao intrusiva insere as informaes de relacionamento com o repositrio semntico no prprio documento. Por outro lado, a no-intrusiva utiliza ponteiros externos para

URI: Padro definido pela W3C para identificar recursos. http://www.w3.org/TR/uri-clarification/

41

referenciar os termos do repositrio e as entidades identificadas no texto (NUNES and FILETO, 2005).

3.5 Neste captulo foram discutidos os principais conceitos, elementos estruturais e classificaes referentes ontologia. As ontologias possibilitam adicionar semntica aos documentos de uma coleo de forma que as ferramentas de inferncia possam raciocinar sobre os mesmos. Alm disso, falamos sobre as anotaes semnticas que so mapeamentos diretos entre os termos contidos em uma coleo e os conceitos definidos em uma ontologia.

Consideraes Finais

Conforme abordado na Seo 3.3, atravs do uso de ontologia aplicado a RI podemos utilizar sua estrutura de sinnimos para obter uma maior abrangncia na cobertura do domnio como tambm fazer uso de sua hierarquia para obter conceitos mais especficos ou mais genricos, definindo o nvel de preciso ideal para quem realiza a consulta.

Os mecanismos e recursos necessrios para aplicar a expanso semntica de consultas em um SRI sero apresentados no prximo captulo.

42

4. Expanso semntica de consultas utilizando ontologia

Na primeira seo deste captulo ser apresentado um processo de consulta genrico para que seja possvel identificar como, e em que parte do processo, os mecanismos de expanso de consulta podem ajudar a trazer melhores resultados. Alm disso, ser descrito o funcionamento de um processo de expanso convencional assim como a classificao definida pela academia para tais mecanismos de expanso, como poderemos verificar na Seo 4.2.

Na Seo 4.3 sero discutidos alguns trabalhos relacionados com o objetivo de identificar semelhanas e divergncias com as solues propostas pela academia. Por ltimo, no Captulo 4.4, faremos as consideraes finais enfatizando a expectativa quanto aos benefcios obtidos com a utilizao de ontologia no processo de expanso de consultas.

4.1

Processo de Consulta

Segundo Croft (1993), existem trs processos bsicos em um sistema de recuperao de informao: a) representao do contedo dos documentos (processo de indexao, como especificado na Seo 2.2.1); b) representao (processamento da consulta, foco do nosso trabalho); e c) comparao entre as duas representaes (tarefa executada pelos engenhos de busca). Atravs da Figura 4.1 podemos visualizar cada um dos trs processos bsicos representados graficamente pelos retngulos com bordas arredondadas. Os retngulos normais representam os recursos necessrios para que este processo funcione. Por ltimo, o retngulo em vermelho representa a atividade foco do nosso trabalho. Ela est associada a etapa de processamento e reformulao de das necessidades de informao do usurio

43

consulta com o objetivo de realizar operaes que transformem a necessidade do usurio em uma consulta bem formada, utilizando apenas um conjunto de palavras-chave.

Figura 4.1 Funcionamento padro de um SRI.

Em uma ferramenta de RI convencional, para cada consulta enviada, o sistema devolve uma lista de documentos ordenados de acordo com a sua pertinncia em relao consulta. Os documentos que contm os termos da consulta so retornados independentemente do contexto em que so utilizados. O usurio ento analisa esta lista de documentos, retira os documentos relevantes e descarta os no relevantes. Este cenrio se trata de uma recuperao de informao perfeita, onde o usurio em sua primeira tentativa consegue localizar a informao desejada.

A princpio, parece ser trivial armazenar e recuperar a informao desejada atravs anteriormente. Entretanto, na prtica esta soluo obviamente invivel, uma vez que nenhum usurio consegue em tempo hbil ler e identificar, dentre uma de uma consulta fornecida, assim como a soluo descrita

44

coleo de milhares de documentos, quais os documentos de seu interesse (YATES and NETO, 1999).

Para explicar de forma simples a estrutura principal de um sistema de busca na WEB, podemos separ-la em duas partes: (a) um robot conhecido como crawler que captura o contedo das pginas a serem indexadas; e (b) uma pgina WEB para realizao de consultas aos documentos indexados (BEPPLER, 2002). A primeira parte alimenta a estrutura de ndice e a segunda apenas prov uma interface simples para entrada de termos ou palavras-chave. Embora esta seja a estrutura utilizada pela maioria dos mecanismos de busca, ainda existem problemas como volume de documentos e resultados no customizados (BEPPLER, 2008). Com relao ao ltimo, isto causado pela falta de interatividade que sistemas de busca oferecem, onde uma mesma consulta feita por pessoas diferentes tem o mesmo resultado como retorno.

4.2

Expanso de Consulta

A expanso de consulta definida como uma fase do processo de RI onde a consulta inicial do usurio reforada pela adio de termos de pesquisa para melhorar o rendimento da recuperao. A expanso de consulta centrada no fato que a formulao inicial da consulta nem sempre reflete a necessidade de informao exata do usurio. Como mencionado no Captulo 1, o processo de selecionar reformulaes da consulta inicial, tornando-se uma atividade trabalhosa e demorada. Alm de tentar melhorar o contexto da consulta, a utilizao de expanso de consulta tende minimizar o problema de diferenas no uso das palavras contidas na consulta e os termos utilizados pelos autores na escrita dos documentos (ANDREOU, 2005). documentos relevantes pode exigir vrias interaes e

Uma forma clssica de expanso de consulta se baseia na co-ocorrncia estatstica de palavras-chave em documentos do domnio considerado, adicionando consulta termos que frequentemente ocorrem em conjunto com

45

os termos da consulta original (BEPPLER, 2002). Esta abordagem aumenta a revocao, por recuperar documentos relevantes que no seriam retornados pela consulta original, mas prejudicam a preciso, pois no consideram a semntica dos termos durante a verificao das ocorrncias.

Em RI, como citado na Seo 2.2.3, revocao e preciso so freqentemente objetivos contraditrios (YATES and NETO, 1999). Isso porque, a flexibilidade de uma consulta, com o objetivo de obter um resultado com mais informao relevante, prejudica a preciso por retornar tambm informao irrelevante. Com isso, ontologia aplicada expanso de consulta vem para balancear essas duas medidas e lidar com os problemas das tcnicas de co-ocorrncias de palavras chave. Segundo Neto et al. (2000), a aplicao de ontologias nesse sentido tornou-se uma rea de interesse crescente.

Diversos mtodos para expanso de consultas tm sido propostos. Estes mtodos so divididos por Yates e Neto (1999) em trs categorias: a) os que utilizam a interao com o usurio (user feedback, userassisted); b) os que possuem informaes recuperadas a partir dos documentos inicialmente recuperados (local approach); e c) os que possuem informaes recuperadas de todos os documentos armazenados (global approach). Outro tipo de classificao pode ser visualizado na Figura 4.2. De acordo com a figura, o primeiro nvel de classificao especifica a metodologia usada, assim como a classificao anterior.

No segundo nvel, a classificao feita de acordo com a fonte de informao utilizada para prover subsidio ao processo de expanso de consultas. As informaes baseadas nos resultados da consulta fazem uso dos documentos recuperados como tambm da anlise de consultas anteriores realizadas por outros usurios. Segundo o autor Efthimiadis (1996), os tipos de expanso de 46

consultas em destaque na Figura 4.2 so os mais comumente utilizados pelos mecanismos de busca.

Figura 4.2 Classificao para expanso de consultas (EFTHIMIADIS, 1996).

Vrias abordagens fazem uso de diferentes fontes de termos de pesquisa e ainda uma variedade de tcnicas de expanso (EFTHIMIADIS, 1996). A utilizao de conhecimento estruturado manipula informaes contidas em bases especficas como tesauros e ontologias. No caso de ontologia, utilizada para a validao do nosso estudo, classificamos ainda como sendo uma coleo independente, ou seja, se trata de uma especificao formal que independe de instncias de bases de dados. No caso da aplicao de ontologias para realizar o processamento de consultas, os termos so alterados, adicionados ou removidos semanticamente associados aos termos especificados na consulta original. Para obter esses conceitos, so aplicados mecanismos de raciocnio automtico (inferncia) sobre ontologias. Portanto, interessante que um sistema de expanso de consultas seja capaz de efetuar diversos tipos de expanso semntica, com o intuito de obter resultados aproximados que sejam tanto relevantes como tambm abrangentes (BEPPLER, 2002). utilizando conceitos e relacionamentos que estejam

47

Os experimentos aqui relatados so baseados na abordagem de expanso de consulta com assistncia ao usurio (user-assisted). Assim, esta investigao situa-se na categoria "interativa". Nesse tipo de expanso, os usurios so responsveis pela seleo dos termos sugeridos pelo SRI. No entanto, os termos so sugeridos e no impostos ou expandidos automaticamente (SPINK and SARACEVIC, 1993).

4.3

Trabalhos Relacionados

Nesta seo iremos descrever alguns trabalhos que so diretamente relacionados expanso semntica de consultas baseadas em ontologias. Trataremos sobre alguns trabalhos e conceitos discutidos na academia como tambm algumas ferramentas existentes no mercado.

4.3.1

FoQuE

Realiza expanso de consultas com base na anlise de conceitos e relacionamentos difusos. Atravs da ontologia difusa possvel representar a intensidade dos relacionamentos e axiomas por meio de graus difusos. A autora Yaguinuma (2007) defende tambm que a utilizao de ontologias tradicionais (crisp) no considera informaes imprecisas como a intensidade ao qual um conceito est relacionado com outro ou o grau de pertinncia de uma instncia da ontologia para uma determinada classe. Para isso, a autora utiliza lgica difusa, a fim de aumentar a expressividade da representao do domnio.

Com relao s caractersticas comuns a esta proposta, o sistema FoQuE implementa as regras semnticas utilizadas para capturar informaes relevantes ao processamento das consultas (NECIB and FREYTAG, 2004). Por outro lado, o sistema FoQuE utiliza SQL como linguagem para as consultas a serem expandidas, quando este trabalho est focado na expanso de consultas baseadas em palavras-chave e utilizando a linguagem natural. Alm disso,

48

apesar dos ganhos obtidos com a utilizao de ontologias difusas, em relao ao controle do nvel de intensidade dos conceitos e relacionamentos, nem todos os mecanismos de inferncia suportam conceitos de lgica difusa, pois aumentam a complexidade do mecanismo de raciocnio. Por ltimo, o FoQuE expande a consulta manipulando termos automaticamente sem a interveno do usurio.

4.3.2

PICSEL

Assim como o sistema FoQuE descrito na seo anterior, o sistema PICSEL um sistema de integrao de dados que se baseia em ontologias para modificar consultas. Para este trabalho os autores identificaram conflitos semnticos e os caracterizam como sendo os causadores de insatisfao dos resultados de uma consulta (BIDAULT et al., 2000). Ento, construram um conceito denominado de reparo. Este conceito consiste na gerao de em uma consulta sem conflitos e semanticamente prxima a consulta original. Para isso, os termos da consulta, que so mapeados com os conceitos da ontologia, so generalizados com base na hierarquia de generalizao/especializao da ontologia.

Embora o sistema PICSEL considere somente a generalizao de conceitos para reparar consultas, as ontologias possibilitam que outros tipos de expanses sejam realizadas. Exatamente nesse ponto esta proposta pretende se diferenciar por utilizar outros tipos de relacionamentos da ontologia para prover contedo semntico ao processo de expanso de consulta. Alm disso, o PICSEL focado na aplicao de ontologia em outra rea da RI atravs de mecanismos de integrao de dados.

Alm das caractersticas exploras pelo PICSEL, existem alguns trabalhos que se propem a solucionar expanso de consulta de forma mais abrangente, no se limitando a anlise da taxonomia de conceitos e sinnimos. Mas sim

49

considerando tambm outros tipos de relacionamentos semnticos e casos de ambigidade em consultas (NECIB and FREYTAG, 2004).

4.3.3

Experimento de Voorhees

O experimento utilizou o WordNet como apoio semntico s expanses de consultas e a base TREC como coleo de testes. Foram utilizadas as relaes lxicas de sinonmia, hiperonmia, hiponmia e relacionado_a presentes na ontologia para expanso. O experimento foi realizado sobre o sistema de recuperao de informao SMART, que baseado no modelo vetorial clssico (YATES and NETO, 1999). De forma a selecionar os termos corretos para a expanso, os conjuntos de sinnimos foram escolhidos manualmente e sendo levado em considerao todo o contexto da consulta. Ou seja, um mecanismo semi-automtico de expanso de consultas (VOORHEES, 1994).

De acordo com a classificao de ontologia descrita na Seo 3.1.2, o WordNet uma ontologia de domnio geral. Nossa proposta pretende utilizar ontologias de domnio especfico para tentar extrair informaes pertencentes ao domnio, como descrito na Regra de Caracterstica descrita na Seo 5.2. Alm disso, esse experimento realiza expanso automtica das consultas, enquanto nossa abordagem prope que o prprio utilizador da ferramenta selecione os termos sugeridos pelo mecanismo de expanso.

4.3.4

Ontologies Manager Framework (OMF)

O OMF um sistema flexvel que possibilita a expanso de consultas atravs da navegao dos conceitos na ontologia. Segundo Barros et al. (1998) o sistema flexvel pois possibilita a seleo de diversos mecanismos de busca, seleo de qualquer ontologia pblica e ainda criar ontologias privadas, na prpria ferramenta, que podem ser integradas com as ontologias pblicas.

50

No mecanismo de expanso, apresentada aos usurios uma hierarquia de alto nvel dos conceitos definidos na ontologia para orientar pesquisas e permitir a construo de consultas com a adio de contexto (BARROS et al., 1998). Com relao a nossa proposta, a principal diferena identificada a tcnica utilizada Diferentemente da nossa proposta que sugere termos baseado na consulta inicial fornecida ao sistema, o OMF permite que o usurio navegue nos conceitos da ontologia para ento expandir a consulta utilizando os conceitos selecionados durante a navegao. para manipulao da ontologia, a navegao (browsing).

4.4

Consideraes Finais

O objetivo principal deste captulo foi investigar o real potencial de uso ou ainda quais os possveis ganhos a serem obtidos com a utilizao de uma ontologia no processo de expanso de consultas. Alm disso, baseado na proposta deste trabalho algumas comparaes foram realizadas para analisar os resultados obtidos em trabalhos que utilizam abordagem, de certa forma, similar a nossa.

Como descrito na Seo 4.2 deste captulo, a aplicao de ontologias para expanso de consulta podem ser classificados, alm de outras classificaes, em dois grupos bsicos: a) baseado em resultados da pesquisa. O usurio classifica quais documentos, dentre os documentos retornados, so relevantes em sua concepo e realimenta o processo de busca ou b) baseado em alguma forma estruturada de conhecimento, como o caso das ontologias. O primeiro grupo depende plenamente do processo de pesquisa e utiliza o conceito de retorno de relevncia (relevance feedback) como recurso para identificar os termos a serem adicionados a consulta seguinte. Por outro lado, o segundo grupo independe do processo de pesquisa e adiciona termos baseado

51

unicamente na estrutura do conhecimento. No entanto, nossa proposta pretende utilizar ontologia como meta-conhecimento de um domnio especfico e utilizar este recurso para expandir semanticamente termos de uma consulta, independente do processo de pesquisa.

Os trabalhos discutidos neste captulo foram analisados e confrontados com a proposta deste estudo sob o ponto de vista da abordagem utilizada para expandir semanticamente as consultas. O ponto em comum entre os trabalhos que todos utilizaram ontologia para auxiliar o mecanismo de expanso. No entanto, os mtodos de avaliao utilizados nos trabalhos no foram investigados durante essa anlise. Para isso, o Captulo 6 apresenta o framework de avaliao definido nesta proposta, referenciando os resultados alcanados por alguns trabalhos publicados.

No prximo captulo descrevemos o processo de busca que pretende adicionar contexto s consultas fornecidas a um SRI independente do seu mecanismo de pesquisa.

52

5. Proposta e Prottipo: Processo de expanso utilizando ontologia


Neste captulo apresentamos o modelo proposto com o objetivo de melhorar os resultados gerados para uma consulta utilizando os recursos providos por uma ontologia de domnio. Como j discutido no captulo anterior, a ontologia ser utilizada para expandir semanticamente os termos de uma consulta inicial com o objetivo de adicionar conceito a essa consulta. A ontologia utilizada, neste trabalho, como fonte estruturada de informao. Uma justificativa para a utilizao dos seus conceitos e relacionamentos que estes recursos permitem a formulao de consulta com termos que o prprio usurio julga til para resolver sua necessidade de informao. Atravs da ontologia, sugerimos novos termos relacionados consulta original, isto , inferimos o que o usurio poderia estar querendo dizer baseado no contexto provido pela ontologia de domnio.

Detalhando o contedo deste captulo, a Seo 5.1 contextualiza a soluo proposta dentro da rea de RI em uma viso macro, reforando a discusso realizada na Seo 4.2. A Seo 5.2 documenta o processo de expanso detalhando as entradas, sadas e o que influencia cada etapa da proposta. Enfatizando o funcionamento do ncleo da proposta, a Seo 5.3 detalha o funcionamento do mecanismo de inferncia aplicado a ontologia.

Adicionalmente, um prottipo foi desenvolvido com o objetivo de instanciar e validar o processo proposto, o QuESO (Query Expansion Search using Ontology). Os detalhes de seu funcionamento, as tecnologias utilizadas e a arquitetura em alto nvel sero apresentados na Seo 5.4. Por ltimo, na Seo 5.5 descrevemos as consideraes finais obtidas aps a definio do processo.

53

5.1

Contextualizao da proposta

Durante um processo de recuperao de informao convencional, no existe uma resposta exata para uma consulta, sendo necessrio obter aproximaes que satisfaam a necessidade do usurio (YAGUINUMA, 2007). Ento, a expanso de consulta objetiva modificar a consulta original com o objetivo de torn-la mais abrangente e eficaz. A literatura abrange duas das principais abordagens existentes, a probabilstica e a utilizao de relacionamentos semnticos (YATES and NETO, 1999; ANDREU, 2005). Como j mencionado na Seo 4.2, a abordagem probabilstica normalmente efetua clculos a partir da co-ocorrncia em documentos da coleo e selecionam os termos que mais se relacionam aos termos da consulta (BEPPLER, 2002; ANDREU, 2005). A segunda abordagem utiliza relacionamentos semnticos extrados de uma fonte de conhecimento estruturado para selecionar ou sugerir os novos termos.

Seguindo a segunda abordagem como fonte de conhecimento e para lidar com problemas relacionados a divergncia semntica dos termos, utilizaremos uma ontologia de domnio como fonte de informao semntica.

5.2

Especificao do Processo Proposto

Considerando uma consulta qualquer e utilizando seus termos como entrada, um processo de inferncia na ontologia de domnio deve ser realizado a fim de identificar relacionamento referente a cada um dos termos. Alm disso, termos com pouco valor de discriminao10 para o contexto sero removidos da consulta. Este o procedimento de eliminao de stopwords, mencionado na Seo 2.2.1. Caso nenhuma referncia dos termos da consulta inicial seja encontrada sinnimos, anotaes semnticas ou qualquer tipo de

10

Termos com pouco valor de discriminao so aqueles presentes em quase todos os documentos. So fortes candidatos os artigos, preposies e at mesmo termos muito comuns para um determinado domnio.

54

na ontologia, o processo de anlise e expanso semntica da consulta ser finalizado e o mecanismo de consulta segue sem qualquer interveno.

Para manipulao dos dados semnticos de uma ontologia de domnio, propomos aplicar algumas das regras semnticas definidas por Necib e Freytag (2004) em seu framework: a) Regra de Vocabulrio: deriva informaes da ontologia utilizando informaes dos relacionamentos de sinnimos e especializao de conceitos. Exemplo: carro sinnimo de automvel e veculo. (Alm disso, possui relacionamentos de especializao com os conceitos utilitrio e passeio); b) Regra de Caracterstica: explorar relacionamentos especficos do domnio para obter caractersticas adicionais dos objetos contidos na base. Atravs de um mecanismo de raciocnio que infere novas informaes de um objeto, obter mais informaes a serem aplicadas no processamento de consultas. Exemplo: Em uma ontologia que descreve carros, uma regra de domnio pode estabelecer que caminhonetes classificadas como esporte, so caminhonetes com mais de 300hp. Assim, caso o usurio deseje buscar as instncias de caminhonetes esporte, a consulta deve ser expandida para recuperar instncias de carros que so classificados como caminhonetes e esto associadas ao atributo maior que 300hp. As restries contidas na ontologia, relacionamentos especficos da ontologia; c) Regra de Sensibilidade: utilizada para identificar consultas ambguas. Como exemplo de consulta ambgua, podemos formular uma consulta contendo um termo que possui homnimos homgrafos (termos com significado diferentes e com a mesma grafia). O objetivo da regra identificar qual o contexto, dentro do domnio, que a palavra deve ser aplicada. especificado na Seo 3.2, determinam esses

55

No caso em que um termo seja classificado como ambguo, utilizando a regra de sensibilidade, a exibio dos resultados dever conter quais os contextos, dentro do domnio, que o termo pode ser aplicado. Na Figura 5.1, podemos visualizar como o termo monitor pode ter vrios relacionamentos e significados dependendo do contexto. Para exibio dos contextos podemos apresentar uma lista de termos diretamente relacionados hierarquia definida pela ontologia. Assim, o usurio pode decidir em qual contexto o termo mais adequado para a consulta.

Figura 5.1 Hierarquia de conceitos em uma ontologia.

O intuito controlar o nvel de abstrao da consulta, focalizando ou generalizando, para reduzir a quantidade de tentativas na obteno da informao desejada. Com isso, o sistema juntamente com o usurio ser capaz de manipular os termos para compor a nova consulta. Embora sejam fornecidos recursos para tentar definir o contexto de uma consulta, a forma como as

56

informaes esto armazenadas na estrutura de ndice, assim como os mecanismos de ranking a serem utilizados, no so levados em considerao. Logo, documentamos apenas o processo de expanso propriamente dito.

Para documentao do processo utilizamos prticas do SADT (Structured Analysis and Design Technique), uma metodologia de desenvolvimento de software utilizada para descrever e ajudar a entender o funcionamento de sistemas computacionais (KITCHENHAM and CHARTERS, 2007). Na Figura 5.2, podemos verificar a representao grfica do processo proposto utilizando o SADT.

Figura 5.2 Processo de expanso de consulta.

57

Esta representao permite que sejam visualizadas as entradas, sadas e os processos intrnsecos que influenciam cada parte do processo de reformulao de consulta. O processo pode ser separado em quatro mdulos: a) Busca, etapa de pr-processamento que recebe a consulta do usurio e realiza operaes textuais como eliminao de stopwords e stemming, a fim de obter uma representao mais aproximada e clara da necessidade da consulta. Alm disso, este mdulo decompe a consulta em partes para que o mdulo de inferncia seja capaz de identificar quais conceitos podem ter relao com a consulta; b) Inferncia, atravs de regras e mapeamentos realiza o raciocnio sobre os relacionamentos e conceitos contidos na ontologia para obter termos semanticamente relacionados aos termos originais da consulta. Antes de retornar a estrutura de conceitos identificados como relevantes para consulta, o processo de inferncia ordena os conceitos utilizando dois critrios, como podemos verificar na Seo 5.3; c) Exibio dos Resultados, nesta etapa ocorre a construo da rvore de conceitos retornados pelo processo de inferncia. Esta rvore contm o conceito localizado como raiz, os tipos de relacionamentos como ns intermedirios e os termos identificados como n folha. A estrutura e contedo da rvore podero ser melhor visualizados na Seo 5.4, onde so detalhados os componentes do prottipo; e d) Conceitos, etapa que permite a navegao na rvore de conceitos e a seleo dos termos adequados para o contexto da consulta. Os termos selecionados so utilizados na expanso da consulta.

Este o processo criado para sugerir termos e possibilitar que eles sejam selecionados e adicionados a consulta. Reforando a definio do processo, a Seo 5.3 descreve em detalhes o mdulo de inferncia assim como o mecanismo de ordenao aplicado s classes definidas como relevantes durante a execuo desse mdulo. Com o objetivo de investigar a efetividade da 58

proposta, instanciamos este processo atravs de um prottipo que pretende prover contexto a consultas aplicadas em um ambiente mais prximo possvel do cenrio real. A estrutura do prottipo assim como o seu comportamento est descrito na Seo 5.4.

Utilizando um mecanismo de expanso que substitui ou adiciona novos termos de forma automtica, sem interveno do usurio, pode gerar um efeito conhecido como query-drift para a nova consulta gerada. Query-drift nada mais do que gerar uma nova consulta que seja distante do interesse inicial do usurio. Um meio comum de gerar esse tipo de efeito expandir automaticamente a consulta inicial com termos relacionados a um dos termos especfico da consulta e no a consulta como um todo. Para evitar esse tipo de engano, em nossa abordagem todas as palavras adicionadas consulta so efetivamente escolhidas pelo usurio.

5.3

Etapa de Inferncia e Busca na Ontologia

Por definio, temos por inferncia a derivao de novos dados, fatos ou conhecimentos, a partir de um segundo conjunto de dados (BEPPLER Apud PEARL, 2008). No mbito da ontologia, um processo de inferncia representa derivar relaes implcitas, verificar quais conceitos so especializaes, generalizaes ou sinnimos de outros e ainda identificar instncias e as possveis relaes entre elas (BEPPLER, 2008).

Para documentao de uma ontologia, dentre as diversas linguagens baseadas no formalismo de descrio, a OWL (Web Ontology Language) uma das mais difundidas por ser uma codificao ontolgica recomendada pelo consrcio W3C. Para Beppler (2008), quanto maior a expressividade oferecida pela linguagem, ou seja, quanto mais recursos a ontologia oferece, mais complexa e poderosa uma mquina de inferncia deve ser. Em nosso trabalho, optamos por utilizar uma ontologia escrita com a verso mais simples de codificao OWL, a

59

OWL Lite. Apesar de ser menos complexa, atende as nossas necessidades por representar os relacionamentos necessrios para o processo de expanso. Mais detalhes sobre a ontologia utilizada ser descrita na prxima seo que detalha os elementos utilizados no prottipo.

A etapa de inferncia do nosso processo de expanso responsvel por buscar conceitos que so semanticamente relacionados aos termos da consulta fornecidos como entrada. Durante esta busca, ao identificar um conceito ou classe, que menciona em sua descrio um dos termos fornecido como entrada, esta classe analisada quanto aos seus relacionamentos de hierarquia e restrio, como tambm as suas instncias.

A anlise da hierarquia naturalmente recupera os conceitos que possuem relacionamento de _filho_de e _pai_de. Para esses dois relacionamentos no existe limite de quantidade, ou seja, possvel que um conceito tenha vrios obrigatoriamente pelo menos um relacionamento _filho_de, com exceo do n raiz da ontologia (LPEZ et al., 1999). Na Figura 5.3 apresentamos um trecho relacionamento codificado utilizando a linguagem OWL (utilizando a notao XML da linguagem). da ontologia utilizada para exemplificar como esse tipo de pais e filhos. Porm, todos os ns da ontologia possuem

60

Figura 5.3 Trecho da ontologia (relacionamento de hierarquia).

Neste exemplo, o processo de inferncia identificou o conceito Reuse como sendo relevante para a consulta. Como podemos ver na primeira parte da figura, este conceito possui relacionamento _filho_de ou subClassOf com Object-Oriented_Programming, os Management e Software_Design, ou seja, o conceito Reuse filho de todos esses conceitos. Por outro lado, na segunda parte da figura podemos ver o conceito Reuse sendo referenciado em outro ponto da ontologia. Nesse caso, o conceito Reuse pai do conceito Design_Patterns. conceitos Requirements_

61

Figura 5.4 Trecho da ontologia (relacionamento de restrio).

Na relacionamentos especficos definidos pela ontologia. Para exemplificar esse tipo de relacionamento podemos utilizar os conceitos Secondary_Storage e WSDL.

anlise

de

restries,

mecanismo

de

inferncia

procura

por

Como podemos ver na Figura 5.4, no primeiro exemplo a relao de restrio define que um dispositivo fsico de armazenamento tem como caracterstica usar um armazenamento secundrio (Characteristics_of_Physical_ Storage_Devices uses Secondary_Storage). Isso quer dizer que para ser

62

um dispositivo fsico de armazenamento preciso usar um mecanismo de armazenamento secundrio. No segundo exemplo, define que a tecnologia WebService tem como parte a linguagem WSDL (Web_Services hasPart WSDL). Segundo Beppler (2008) essa caracterstica permite a criao de novos relacionamentos entre os conceitos, alm dos definidos pela hierarquia, tambm conhecido como relacionamento indireto.

Alm dos relacionamentos, as ontologias tambm oferecem o recurso de determinar as instncias de um determinado conceito. Este um recurso interessante que permite descrever as particularidades de um determinado domnio atravs da associao de uma entidade a um conceito definido pela ontologia.

Figura 5.5 Trecho da ontologia (instncias).

No exemplo da Figura 5.5 temos as entidades ODBC e JDBC como instncias do conceito Database_Application_Interface e as entidades HTML, SGML e XML como instncias do conceito Markup_Languages. Hierarquia, restries e instncias so exemplos de recursos simples que os mecanismos de inferncia podem navegar e localizar conceitos relacionados contidos na ontologia.

Aps o processamento executado pela ontologia temos como resultado uma lista de classes identificadas como sendo relacionada semanticamente consulta. Como o processo de inferncia pode retornar um nmero razovel de classes, surgiu a necessidade de ordenar essas classes por relevncia. Isso ocorre quando a consulta contm um termo bastante genrico, mesmo dentro

63

do domnio. Por exemplo, o termo requirements sendo aplicado ao processo de inferncia retorna 45 classes relacionadas.

Para a ordenao utilizamos dois critrios, a identificao da classe na ontologia e a quantidade de termos recuperados aps a anlise dos seus relacionamentos e instncias. De acordo com a abordagem, a identificao da classe foi considerada como recurso principal durante a ordenao. Utilizando a consulta functional requirements como exemplo, temos dentre os Analyzing_Functional_Requirements resultados Analyzing_Non-functional_Requirements_External_Features. Vemos que a composio do identificador da primeira classe formada por trs termos, onde dois deles fazem parte da consulta original. Enquanto o identificador da segunda classe possui cinco termos que distorce bastante o objetivo principal da consulta. Sendo assim, a exibio das classes ser ordenada pelo maior nvel de semelhana entre o identificador da classe e os termos que compem a consulta. J o segundo critrio seria pela quantidade de termos obtidos a partir dos relacionamentos e instancias de cada classe. Ou seja, sero exibidas primeiramente as classes com maior quantidade de conexes com outros termos da ontologia, o que conseqentemente gera uma maior quantidade de termos sugeridos. Assim, utilizando estes dois critrios possvel exibir primeiramente as classes que possivelmente sero mais utilizadas pelos usurios, tanto por terem identificadores mais objetivos em relao consulta, quanto pela quantidade de termos sugeridos. as classes e

Logo, mesmo com uma grande quantidade de classes relacionadas, essa abordagem possivelmente mais relevantes sem que as demais classes tambm sejam analisadas. permite que sejam utilizadas primeiramente as classes

64

5.4

Prottipo QuESO

O processo de expanso discutido at agora neste captulo foi instanciado atravs do prottipo QuESO. Construmos uma ferramenta WEB utilizando a tecnologia JAVA para efetuar as seguintes atividades: (a) expandir os termos inicialmente aplicados a consulta utilizando contedo semntico; e (b) recuperar documentos utilizando uma consulta baseada em palavras-chave. Durante sua execuo, cada atividade desempenhada por um mdulo independente do prottipo. Por disso, podem ser executadas simultaneamente durante a realizao da busca.

Como j mencionado, o objetivo principal do prottipo auxiliar o usurio a obter o maior nmero de documentos relevantes possveis. Sendo assim, o QuESO foi concebido para que o estudo de caso, definido no Captulo 6, seja realizado em um ambiente de busca mais prximo de um cenrio real. O funcionamento de cada mdulo do QuESO, as tecnologias utilizadas e a arquitetura em alto nvel do prottipo sero detalhadas nas prximas sees.

5.4.1 O mdulo de expanso, foco deste trabalho, utiliza o framework Jena11 como mquina de inferncia para manipulao e localizao dos conceitos contidos na ontologia de domnio. Este framework nos possibilita certo nvel de abstrao com relao atividade de utilizao de URIs para localizar os recursos da ontologia assim como identificar relacionamentos e instncias. O funcionamento deste mdulo inicia com uma requisio do usurio para expandir a consulta utilizando os termos da consulta inicial. Antes de utilizar de fato a mquina de inferncia, o QuESO recebe a consulta a ser expandida e realiza o tratamento dessas informaes, eliminando stopwords e caracteres especiais por exemplo. Logo depois efetuado de fato o processamento da
11

Funcionamento

Jena: http://jena.sourceforge.net/

65

ontologia utilizando o Jena, assim como descrito na Seo 5.3. A sada desse processamento uma lista ordenada de classes. Como podemos ver na Figura 5.6, cada classe recuperada possui uma estrutura contendo uma lista de termos, classificados pela fonte de onde foram obtidos.

Figura 5.6 Exemplo de estrutura de uma classe. Essa estrutura aplicada a cada conceito recuperado pelo processo de inferncia sendo utilizada para que o usurio possa navegar e procurar os termos que julga adequado para o contexto de sua consulta. Considerando a hierarquia de conceitos exemplificada na seo anterior, o elemento PARENTS lista os termos extrados das classes com relacionamento _pai_de enquanto o elemento SUB_CLASSES lista os termos extrados das classes com relacionamento _filho_de. O elemento SENTENCE apenas decompe a descrio da prpria classe para que o usurio possa selecionar, caso necessrio, Database_Application_Interface temos em SENTENCE a lista de termos contendo database, application e interface. Considerando o exemplo de restries citado na seo anterior, o conceito web_service teria em seu elemento RESTRICTIONS o termo WSDL. Por ltimo, durante a anlise do conceito Markup_Languages o elemento INSTANCES teria em seu contedo os termos HTML, SGML e XML. partes de sua descrio. Por exemplo, para a classe

66

Na Figura 5.7 apresentamos a tela principal da ferramenta para tentar exemplificar o mecanismo de seleo de termos utilizados para expandir uma consulta. Como destacado com as letras na figura, os principais campos so: a) Barra de pesquisa: esta a parte da ferramenta em que os usurios podem inserir suas consultas. tambm nesse campo, onde os termos selecionados na rvore de conceitos so adicionados; b) rvore de conceitos: utilizando o prottipo possvel expandir a estrutura de rvore apresentada e selecionar os termos listados. Ao clicar em algum dos termos esse adicionado barra de pesquisa; c) Resultado da pesquisa: como mecanismo secundrio do prottipo, o mdulo de recuperao realiza a busca nos documentos contidos no ndice. O funcionamento deste mdulo inicia com uma requisio de consulta utilizando os termos contidos na barra de pesquisa. Para realizar o mecanismo de pesquisa propriamente dito utilizamos o framework Lucene/Solr12, nosso prottipo apenas apresenta os documentos recuperadas como mostra a figura.

Figura 5.7 Prottipo: Tela Principal.


12

Lucene/Solr: http://lucene.apache.org/solr/

67

Neste exemplo, o usurio est procurando por informaes relacionadas a requisitos no funcionais. Em sua consulta inicial, ele apenas forneceu o termo non-funcional. O usurio ento solicitou a expanso da consulta e obteve duas classes como resposta. Na primeira classe sugerida, utilizando os termos da prpria sentena, ele selecionou o termo requirements. Ainda na primeira classe, utilizando os termos providos pelas subclasses o usurio selecionou o termo safety. Ou seja, de acordo com a expanso o usurio, ele estava a procura de informaes relacionadas a requisitos no funcionais, no entanto, durante a navegao, selecionou o termo relacionado a segurana por provavelmente fazer parte de seu interesse.

Alm desses campos, durante a apresentao dos resultados informamos os dados comumente exibidos em um SRI como nmero de documentos retornados e os mecanismos de paginao. Os detalhes das tecnologias utilizadas para construo do prottipo sero apresentados na prxima seo.

5.4.2 Para a construo desse prottipo utilizamos trs tecnologias entre linguagens e frameworks, aplicando-as em cada uma das atividades discutidas na seo anterior.

Tecnologias utilizadas

A tecnologia JAVA foi utilizada como base para construo do background do prottipo. A escolha da linguagem deve-se ao uso de duas bibliotecas, uma aplicada ao processo de indexao e consulta (Solr/Lucene) e a outra ao processo de expanso (Jena framework).

O Lucene uma das mais famosas e mais usadas bibliotecas para indexao e consulta de textos, disponvel em cdigo aberto. Sob o domnio da Apache

68

Foundation13, a biblioteca contempla duas etapas principais do processo de busca: indexao e pesquisa. A indexao processa os dados originais gerando uma estrutura de dados inter-relacionada eficiente para a pesquisa baseada em palavras-chave. A pesquisa, por sua vez, consulta o ndice pelas palavras digitadas em uma consulta e organiza os resultados pela similaridade do texto com a consulta. Portanto, a biblioteca Lucene responsvel por indexar e recuperar documentos utilizando um algoritmo de ordenao baseado no modelo vetorial clssico, segundo a classificao de Yates e Neto (1999). Entretanto, o Lucene contm apenas o ncleo do "motor" de busca, no incluindo mecanismos de acesso atravs da WEB. Para isso, utilizamos o Solr como plataforma de pesquisa e utilizamos seus parsers nativos para indexar documentos do tipo PDF. Alm disso, utilizamos o Solr como um servidor independente de pesquisa. Atravs de uma simples requisio HTTP/GET ao servidor de pesquisa possvel ter como resposta um objeto do tipo XML ou JSON14. qualquer parser para diferentes formatos de documentos ou

Por ltimo, utilizamos a biblioteca Jena como mquina de inferncia para buscar termos relacionados a uma consulta fornecida. Jena um projeto originado do ncleo de pesquisa em Web Semntica da Hewlett-Packard15. Seu objetivo proporcionar um framework para dar suporte manipulao de ontologias documentadas utilizando, dentre outras linguagens, a linguagem OWL. Com isso, aplicamos essa biblioteca na ontologia de domnio e construmos o objeto contendo a lista de termos classificados pelo tipo de relacionamento que foram recuperados, assim como especificado na Seo 5.4.1.

13 14

Apache: http://www.apache.org/ JSON: http://www.json.org/ 15 HP Labs: http://www.hpl.hp.com/

69

A importncia ao descrever as tecnologias utilizadas para construo do QuESO est em delimitar as responsabilidades atribudas a cada mdulo a fim de atender as necessidades de um processo completo de recuperao de informao. O modelo funcional do prottipo, apresentado na prxima seo, servir para reforar a idia de independncia entre os mdulos.

5.4.3 O QuESO utiliza uma ontologia de domnio como artefato principal para a criao de mdulos e componentes que se comunicam entre si. Sendo composto por dois mdulos principais, as responsabilidades so divididas da seguinte forma: (a) indexar e recuperar documentos; e (b) expandir semanticamente os termos da consulta original baseado na ontologia de domnio. A Aplicao como um todo responsvel por interagir com esses dois mdulos e apresentar componentes interativos em uma pgina WEB. No entanto, os mdulos foram concebidos com base nas definies e necessidades discutidas pelo modelo proposto. A Figura 5.8 mostra uma estrutura em alto nvel do prottipo enfatizando a independncia entre os processos de consulta e expanso.

Modelo Funcional do Prottipo

70

Figura 5.8 Modelo Funcional do QuESO.

O processo de expanso comea com a solicitao do usurio em expandir os termos iniciais de sua consulta. O mdulo de anlise e expanso ento realiza o processo de inferncia utilizando a ontologia de domnio. Como reposta a esse processo temos uma estrutura, em rvore, contendo os conceitos e instncias inferidos como relevantes para o contexto da consulta. O usurio ento seleciona os termos que deseja expandindo sua consulta para atender a sua necessidade de informao. A partir desse ponto, possvel executar um processo convencional de recuperao onde o usurio aplica sua consulta expandida e o engenho de busca utilizado realiza a recuperao e ordenao dos resultados. O processo de consulta ento finaliza com a exibio da lista ordenada de documentos.

Assim, o prottipo foi projetado de forma no acoplada, para que tanto a base de dados, utilizada no mdulo de indexao e consulta, quanto ontologia de

71

domnio, utilizada no mdulo de expanso, pudessem ser facilmente substitudos e aplicados a novos estudos. No entanto, esta foi a infra-estrutura definida para atender os requisitos de um processo completo de RI que utiliza expanso semntica de consulta. Alm disso, foi necessria a construo de uma interface de interao e fornecimento de dados, mostrado na Figura 5.7, uma vez que o experimento realizado neste trabalho contou com a participao de usurios, como veremos na Seo 6.3.

5.5

Consideraes Finais

Como pudemos ver, neste captulo apresentamos uma proposta possibilitando que o usurio realize suas prprias classificaes controlando o contexto da consulta atravs da manipulao de termos sugerido durante o processo de consulta. O QuESO foi construdo para colocar em prtica o uso de uma ontologia de domnio aplicado a expanso de termos com o objetivo de auxiliar o usurio a formular a consulta mais adequada para sua necessidade de informao.

Alguns trabalhos tm sido difundidos na academia utilizando colees independentes de conhecimento estruturado, como ontologias e tesauros, aplicados a categorizao de informao (MOREIRA, 2003; PICKLER, 2007). Essa categorizao normalmente feita durante o processo de indexao, onde os documentos contidos em uma coleo so previamente classificados por categorias tambm previamente definidas. Diferentemente dessa abordagem, nossa proposta realiza a classificao do contedo no momento da realizao da consulta, utilizando conhecimento estruturado de um domnio para expandir semanticamente os termos da consulta

O prximo captulo apresenta um estudo de caso executado em um ambiente experimental para avaliar os resultados obtidos com a utilizao do mdulo de expanso em um processo de busca.

72

6. Experimento: Um Estudo de Caso


No captulo anterior abordamos uma proposta para expanso de consultas utilizando conhecimento. Neste captulo apresentamos o framework de avaliao definido para analisar a eficcia da proposta. Nossa validao baseada em um estudo de caso na rea da cincia da computao. Para realizar a validao do modelo proposto, um prottipo foi desenvolvido e um ambiente foi montado para execuo do experimento, como descrito na Seo 5.4 do captulo anterior. ontologia de domnio como estrutura independente de

Este captulo, essencialmente, busca validar a utilidade da expanso de consulta aplicada na RI. Na Seo 6.1 sero apresentadas as hipteses que pretendemos confirmar assim como a definio do estudo utilizado para avaliar a proposta. Na Seo 6.2 mostramos o framework de avaliao utilizado, detalhando os parmetros e mtricas a serem aplicados no estudo. Na Seo 6.3 mostrados como foi feita a preparao do ambiente de execuo do estudo, como tambm os recursos utilizados. Na Seo 6.4 apresentamos os resultados experimentais assim como uma anlise crtica desses resultados. A Seo 6.5 foi destinada a discusso de alguns pontos de melhorias identificados antes e durante a execuo do experimento. Por ltimo, na Seo 6.6 apresentamos as consideraes finais obtidas com a execuo e avaliao do experimento.

6.1

Definio do Estudo

O mtodo Goal Question Metric (GQM) (BASILI et al., 1986) foi utilizado para fornecer direcionamento ao estudo de caso. Segundo Basili, o GQM consiste na definio de um objetivo para o estudo, um conjunto de perguntas a serem respondidas e as mtricas relacionadas que devem ser coletadas para ajudar a responder as perguntas. Com essa estrutura tivemos recursos para embasar a pesquisa.

73

O objetivo do estudo foi analisar a efetividade de um mdulo para seleo de termos, semanticamente relacionados, durante a formulao de consultas em um ambiente de busca baseado em palavras-chave. O intuito foi compreender quais fatores podem impactar na recuperao de informao, considerada como relevante, durante um processo de expanso de consulta. Contudo, temos como questo central do experimento: utilizando uma mesma necessidade de informao, o prottipo retorna mais resultados relevantes com a utilizao do mdulo de expanso? Este o ponto de partida do nosso estudo.

Para atingir o objetivo pretendido, quatro mtricas j comentadas na Seo 2.2.3 foram consideradas: revocao, preciso, preciso geral e medida-F. Em resumo, estas medidas so utilizadas para avaliar a eficcia de um SRI. Atravs delas possvel mensurar a habilidade do sistema em recuperar documentos relevantes ao mesmo tempo em que evita os no relevantes (SILVEIRA, 2003).

De acordo com o estudo de caso, estabelecemos as hipteses nulas e alternativas. As hipteses nulas so aquelas que o pesquisador quer rejeitar, enquanto as hipteses alternativas so aquelas que se deseja confirmar (CAVALCANTI apud WOHLIN et al.,2008).

Definimos como hipteses nulas: - H0a: o uso do mdulo de expanso aumenta a preciso absoluta das pesquisas - H0b: o uso do mdulo de expanso prejudica o desempenho geral do sistema (medida-F) Para alternativas: - H1: o uso do mdulo de expanso prejudica a preciso absoluta das pesquisas rejeitar essas hipteses, ns esperamos as seguintes hipteses

74

- H2: o uso do mdulo de expanso aumenta o desempenho geral do sistema (medida-F) Se a hiptese nula H0a for rejeitada, os resultados indicaro que o uso do mecanismo de expanso abrange demasiadamente a consulta. Por outro lado, o que se espera que utilizando os termos sugeridos pelo mdulo de expanso, aumente o rank dos resultados de fato relevantes, trazendo-os para os mais bem classificados da consulta (top 20, por exemplo). Portanto, o principal resultado esperado vem da hiptese nula H0b. Caso seja rejeitada, os resultados indicam que o uso do mdulo de expanso produz um resultado melhor no geral.

6.2

Framework de Avaliao

O framework de avaliao foi definido baseado nos trabalhos de Garcia et al. (2006) e Barros et al. (1998). O procedimento de avaliao consiste nos seguintes passos:

a) Escrita das necessidades de informao (NI): Foi definido um grupo de participantes para escrever um conjunto de necessidades de informaes especficas do domnio. Cada necessidade ni do conjunto NI tem uma descrio utilizando linguagem natural com o contedo dos documentos que devem ser considerados relevantes para a ni. Essas necessidades foram cuidadosamente selecionadas para avaliar o comportamento da soluo para o tratamento de tpicos amplos e restritos; b) Definio prvia do conjunto de documentos relevantes para cada necessidade R(ni): Esta atividade deve ser executada por um grupo de pessoas com experincia no domnio em questo. Na Seo 6.3 detalhamos como a base de informaes como um todo foi montada, assim previamente conhecidos no repositrio; como a estratgia utilizada para inserir documentos

75

c) Escrita das consultas: para cada ni, o usurio deve escrever uma consulta c(ni) que ser submetida ao mecanismo de pesquisa. Vamos nos referir a essa consulta como consulta simples; d) Associao de contexto s consultas definidas no passo 2: Para cada consulta c(ni) o usurio deve expandi-la e selecionar os termos sugeridos pelo processo de inferncia para que seja adicionado algum tipo de contexto. Ns chamaremos esta nova consulta gerada de consulta expandida. Uma lista contendo todas as consultas aplicadas e suas expanses so apresentadas no Apndice B Exemplo de consultas aplicadas e suas expanses; e) Limitao de documentos avaliados: como o mecanismo de pesquisa realiza a ordenao dos documentos por relevncia exibindo os de L melhor documentos classificados. Assumindo tambm que os usurios, na maioria dos casos, no avanam mais do que a segunda pgina de documentos durante a anlise dos resultados (SILVERSTEIN et al., 1998), para nosso estudo definimos L=20. Alm disso, para um melhor embasamento desta abordagem, foi investigado que os trabalhos de Barros et al. (1998), Silva et al. (2003) e Andreou (2005) utilizaram esta mesma abordagem durante o processo de avaliao; e f) Efetuar duas execues: (a) aplicar o conjunto de consultas simples CS(ni); e (b) aplicar o conjunto de consultas expandidas CE(ni). Durante a execuo de cada consulta c(ni), seja simples ou expandida, nrr(c(ni)). recuperados, contabilizar a nmero de documentos recuperados na execuo da c(ni), que chamamos de ntr(c(ni)). No entanto, importante lembrar que sero analisados apenas os L primeiros resultados da consulta. que chamamos de Alm disso, contabilizar o nmero de documentos relevantes rank primeiro, analisaremos apenas os primeiros

76

Uma das mtricas utilizadas a revocao relativa. Para cada consulta c(ni), calcular a razo entre nrr(c(ni)) e a quantidade de documentos da coleo R(ni), que chamamos de nR(ni). Com isso, temos:

Em outras palavras, dado uma ni, temos o nmero de documentos relevantes recuperados para a consulta, pelo nmero de documentos previamente conhecidos como relevantes. A segunda mtrica a ser coletada a preciso. c(ni), Para ntr(c(ni)). Calculamos da seguinte forma: cada consulta calcular a razo entre e nrr(c(ni))

Utilizando o ntr(c(ni)) ou nmero total de documentos retornados aplicando o limite L, temos a preciso considerada como relativa ou preciso normalizada, onde a preciso calculada apenas sobre os L documentos de maior rank (BARROS et al., 1998; HIEMSTRA and MIHAJLOVIC, 2005). Dessa forma, essas medidas no dependem do nmero total de itens relevantes e sim do nmero de itens relevantes que so conhecidos. Segundo Hiemstra e Mihajlovic (2005), essa abordagem tambm utilizada em vrios trabalhos do TREC para reportar a preciso normalizada de uma consulta, sendo conhecida como precision cut-off.

Por outro lado, adotando o ntr(c(ni)) sem a normalizao, ou seja, considerando todos os documentos retornados, temos a preciso absoluta ou geral. Para este trabalho, foi decidido calcular as duas medidas de preciso. Ento, a preciso tradicional ser utilizada para avaliar se ocorre uma variao expressiva quando o processo de expanso de termos utilizado, de acordo com a hiptese H1, enquanto a normalizada ser combinada a revocao relativa para gerar uma nova mtrica, a medida-F. Durante esta avaliao

77

chamaremos a preciso normalizada simplesmente de preciso, enquanto a segunda chamaremos de preciso geral.

Por ltimo, a medida-F, tambm conhecida como mdia harmnica, utilizada para mensurar o desempenho geral de um mecanismo de busca. Dessa forma, o desempenho geral do mecanismo de busca proposto ser calculado para apoiar a hiptese H2. Na Seo 2.2.3.2 foi detalhado como essa mtrica pode ser obtida.

Concluindo, essas so as medidas utilizadas para mensurar a eficcia do mecanismo de busca utilizando consultas semanticamente expandidas como tambm as consultas sem adio de contexto.

6.3

Preparao para o experimento

Como C.E.S.A.R.16 para elaborao das consultas e utilizao dos termos sugeridos pelo processo de expanso. As instrues sobre a execuo do experimento foram detalhadas previamente para os participantes. Alm da definio das consultas, os integrantes mais experientes deste grupo tambm colaborou para a seleo dos documentos adotados como relevantes para cada NI definida. Na Tabela 6.1 contm o perfil de cada participante do experimento. As informaes contidas na tabela so um indicativo de que os usurios do prottipo possuem afinidades e interesses na rea de cincia da computao, ou seja, no se comportam como usurios convencionais. Logo, os termos sugeridos, referentes ao domnio de atuao, puderam ser julgados e utilizados de forma coerente pelos utilizadores do prottipo.

participantes

do

experimento,

selecionamos

colaboradores

do

16

C.E.S.A.R: Recife Center For Advanced Studies and Systems. Uma empresa com CMMi nvel 3 e aproximadamente 400 funcionrios. http://www.cesar.org.br

78

ID

Idade (anos) 24

Tabela 6.1 Perfil dos Participantes. Tempo desde Participaes a graduao em projetos Formao (anos) na rea 4 6 Graduado em Sistemas de Informao, Mestrando em Engenharia de software Graduado em Cincia da Computao e Especializao em Teste de Software Graduado em Cincia da Computao e Mestre em Engenharia da Computao Graduado em Sistemas de Informao, Mestrando em Engenharia de software Graduado em Matemtica e Nvel tcnico em Cincia da Computao Graduado em Cincia da Computao, Especialista em Engenharia de Software e Mestrando em Engenharia de Requisitos

27

32

10

15

30

31

10

20

26

Em relao a coleo de documentos a serem pesquisados, foi montada uma base de dados experimental contendo artigos publicados em diversas conferncias na rea de cincia da computao17. A base montada contm 889 documentos abrangendo informaes das mais variadas subreas dentro da cincia da computao como linguagens de programao, banco de dados, rede de computadores, redes neurais, entre outros.

Como relatado na seo anterior, uma tarefa bastante complexa obter uma medida precisa da revocao, uma vez que necessrio saber exatamente quantos componentes relevantes existe no repositrio para cada consulta. Para contornar este problema um conjunto de documentos inseridos no repositrio,

17

Conferncias: SBC 2005 (www.sbc.org.br/sbc2005), IJCNN07(www.ijcnn2007.org), SBBD-SBES 2008 (sbbdes.ic.unicamp.br).

79

chamado de documentos conhecidos, foi selecionado para cada NI definida. A seleo destes documentos foi feita em conjunto por parte do grupo de participantes do experimento e por alguns pesquisadores com domnio nas reas que o experimento abrange. Desta forma, para cada NI, foi possvel fornecer um nmero de componentes relevantes com alguma garantia, j que um grupo de pessoas da rea selecionou os documentos. Essa mesma estratgia foi utilizada no trabalho de Garcia et al. (2006).

Por ltimo, utilizamos uma ontologia de domnio para ser aplicada ao mecanismo de expanso. O Apndice A - Exemplo de Conceitos e Relacionamentos da ontologia utilizada apresenta um trecho dessa ontologia de domnio, alm de representar graficamente como os conceitos se relacionam. Essa ontologia foi construda utilizando a ferramenta Proteg18, uma plataforma open-source para construes de modelos de conhecimentos baseados em ontologias. Ela especifica termos utilizados na rea de cincia da computao, onde 2966 conceitos so codificados utilizando a linguagem OWL (COMPUTING-ONTOLOGY, 2009). Apesar de trabalhar com um domnio restrito, poderia ter sido escolhido qualquer outra ontologia, contanto que seja referente ao domnio especificado. Porm, importante lembrar que a qualidade dos termos propostos baseada na qualidade da ontologia como um todo. Apesar de no fazer parte do escopo de nosso trabalho, a qualidade de uma ontologia pode ser aferida utilizando as caractersticas ideais descritas na Seo 3.2.

6.4

Anlise e Interpretao dos Resultados

Esta avaliao est principalmente focada em medir o desempenho geral de um sistema de RI comparando a utilizao de consultas e consultas expandidas. De acordo com o framework de avaliao descrito na Seo 6.2, ns tivemos 6 usurios para escrever consultas relacionadas a 13 NIs, com um total de 156
18

Proteg; http://protege.stanford.edu

80

consultas. Assim, ns calculamos a relevncia para os 20 primeiros documentos retornados referente a cada consulta, simples e expandida, considerando as mtricas definidas no framework de avaliao (preciso, revocao e medidaF). Entretanto, alm dessa abordagem, calculamos tambm a preciso geral, ou seja, calculada atravs da relao do nmero de documentos relevantes pela quantidade total de documentos recuperados pelo processo de busca. Essas duas abordagens so utilizadas para apoiar as hipteses definidas na Seo 6.1.

Alm disso, importante destacar que esta avaliao est focada na qualidade dos resultados obtidos, medindo a efetividade da utilizao de um mdulo de expanso semntica de consulta. Parmetros como tempo de pesquisa, usabilidade ou quantidade de clicks, no fazem parte do foco desta avaliao. Por isso, nosso estudo esteve focado principalmente nos resultados das pesquisas em vez de avaliar o processo de pesquisa como um todo.

6.4.1 Com a adio de novos termos, naturalmente se aumenta a abrangncia da consulta. No entanto, a expanso de consulta pode vir a prejudicar a preciso ou objetividade da consulta, dependendo dos termos selecionados. Por exemplo, como podemos ver nos dados da Tabela 6.2, a consulta simples utilizando o termo wsdl obteve uma preciso geral de 84% em relao ao total de documentos retornados. Aps a expanso da consulta, adicionando apenas o termo services foi possvel aumentar de 11 para 13 o nmero de documentos relevantes retornados, ou seja, temos um aumento da abrangncia da consulta. Contudo, a nova consulta obteve uma preciso geral de 7% em relao ao total de documentos retornados.

Hiptese utilizando preciso geral

81

Tabela 6.2 Preciso Geral: Exemplo de uma consulta e sua expanso. Abordagem Consulta Relevantes Total Preciso Simples Wsdl 11 13 0,8462 Expandida wsdl services 13 166 0,0783

Assim, considerando que este o pior caso de degradao, temos uma queda na ordem de 91% na preciso geral da consulta expandida em relao consulta inicial. Ainda analisando o prejuzo na preciso utilizando consultas expandidas, na Figura 6.1 apresentamos a preciso geral para todas as NIs comparando o desempenho obtido por cada abordagem.

Figura 6.1 Preciso geral por tipo de consulta.

NI(agile, Observando data_security,web_service). Especificamente necessidades, ao utilizar a consulta simples temos nveis de preciso acima da mdia. Entretanto, para essas mesmas necessidades, a consulta expandida prejudicou consideravelmente a preciso geral das consultas. Por isso, consultas iniciais com boas taxas de preciso podem ser prejudicadas pela seleo de novos termos sugeridos durante o processo de expanso. para essas trs o grfico podemos destacar os assuntos

82

Calculando a mdia para as duas abordagens possvel concluir de fato que a expanso de consulta capaz de prejudicar a preciso geral do sistema. Levando em considerao a preciso geral para as duas abordagens, a Tabela 6.3 mostra algumas estatsticas sobre o resultado do experimento atravs da mdia de todas as consultas aplicadas, o desvio padro e a varincia. Para consultas simples temos uma mdia de 5% na preciso geral, com um desvio padro de 0,10. J as consultas expandidas obtiveram uma mdia de apenas 1% com desvio padro de 0,01. Com isso, mesmo considerando o melhor caso de desvio padro para as consultas expandidas, a hiptese nula H0a - o uso do mdulo de expanso aumenta a preciso absoluta das pesquisas deixa de ser rejeitada se existe a possibilidade da expanso de consulta aumentar a preciso absoluta do sistema. Tabela 6.3 Preciso Geral: Descrio Estatstica. Preciso Abordagem Mdia Desv. Pad. Varincia Simples 0,0596 0,1006 0,0101 Expandida 0,0104 0,0100 0,0001

No entanto, com os dados da Tabela 6.3 podemos concluir estatisticamente que a hiptese nula H0a rejeitada, favorecendo assim a hiptese alternativa H1 o uso do mdulo de expanso prejudica a preciso absoluta das pesquisas.

6.4.2

Hiptese utilizando medida-F

Utilizando informaes de preciso e revocao relativa, a Figura 6.2 mostra as medidas para todas as 13 NIs, distinguindo-as em consultas simples e expandidas.

Como podemos ver na descrio do eixo horizontal, cada barra do grfico representa a mdia obtida para o conjunto de consultas referentes a uma NI especfica. Por exemplo, para a NI(agile) foram aplicadas 12 consultas, 6 do tipo simples e 6 do tipo expandida. Logo, tomando o grfico de Preciso

83

como exemplo, a primeira barra do grfico representa a mdia de preciso (0,47) para as 6 consultas simples aplicadas para atender a NI(agile). J a segunda barra, representa a mdia de preciso (0,35) para as 6 consultas expandidas para a mesma NI. Evidentemente o grfico de revocao segue esse mesmo raciocnio.

Figura 6.2 Medida de preciso e revocao por tipo de consulta.

84

Na Tabela 6.4 podemos observar o resultado para a preciso e revocao relativa calculada para as duas abordagens. Assim, a tabela apresenta os valores mdios de preciso e revocao considerando todas as consultas.

Tabela 6.4 Preciso e Revocao para as duas abordagens. Abordagem Preciso Revocao Simples 0,2328 0,4395 Expandida 0,2514 0,5213

Observando as informaes da tabela, foi conseguido um ganho em torno de 9% na preciso das consultas. Isso quer dizer que, observando apenas os L primeiros resultados, identificamos uma proporo maior de documentos relevantes quando aplicadas as consultas expandidas. Com relao revocao, foi possvel obter um ganho de 19%, uma vez que os termos selecionados conseguiram fazer com que o mecanismo de busca retornasse um subconjunto maior dos documentos classificados como relevantes, considerando tambm os L primeiros resultados. Isso ocorre porque atravs da seleo de termos o usurio consegue expressar melhor suas necessidades. Logo, fornecendo uma consulta com termos mais especficos, o mecanismo de busca pode aumentar rank dos documentos relevantes melhorando assim tanto a revocao quanto a preciso.

Diferentemente dos resultados obtidos por Pizzato (2003) que enquanto conseguiram aumentar a revocao tiveram prejuzo na preciso dos resultados, nosso experimento obteve tanto uma melhoria na abrangncia quanto na preciso. J o trabalho de Barros et al. (1998), assim como o nosso, obteve melhores resultados nas duas medidas quando utilizadas as consultas expandidas. Contudo, uma vez que entendemos essas duas medidas como tendo objetivos contraditrios (YATES and NETO, 1999), uma melhoria conjunta pode ser considerada como um bom resultado.

85

importante destacar que essas duas medidas foram teis para o clculo da medida-F, utilizada para medir o desempenho geral de um SRI e apoiar a hiptese H2. A Figura 6.3 mostra a mdia de medida-F calculada para cada NI com o objetivo de observar e comparar o comportamento do mecanismo de busca quando consultas simples e expandidas so utilizadas.

Figura 6.3 Medida-F nas consultas simples e expandidas.

Com base na figura percebemos que em apenas dois pontos do grfico o desempenho geral do sistema foi inferior para consultas expandidas. Isso demonstra a uniformidade da melhoria provida pelo processo de expanso de consultas utilizando ontologias de domnio.

Durante a execuo do experimento, 10 consultas simples no retornaram qualquer resultado relevante, no podendo assim calcular as medidas de preciso e revocao. Dessas consultas, que podemos chamar de consultas nulas, 4 delas obtiveram pelo menos um resultado relevante aps a expanso de consulta. Sendo assim, podemos considerar que essas consultas nulas representam o pior caso da anlise aumentando consideravelmente a

86

variabilidade dos resultados. Mesmo assim, decidimos utilizar essas amostras contendo as consultas nulas para manter a consistncia do experimento.

Ainda referente superioridade da medida-F para as consultas expandidas, a Tabela 6.5 mostra algumas estatsticas sobre o resultado do experimento para todas as consultas aplicadas utilizando a mdia, o desvio padro e a varincia.

Tabela 6.5 Medida-F: Descrio Estatstica. Medida-F Abordagem Mdia Desv. Pad. Varincia Simples 0,2951 0,1624 0,0264 Expandida 0,3340 0,1833 0,0336 Expandida x 13,18% ----Simples

Essas medidas mostram uma melhoria consistente no desempenho qualitativo do sistema pelo uso de ontologias para expandir semanticamente as consultas. Embora as mtricas de revocao e preciso geralmente sejam conflitantes, como j citado nesta seo, a aplicao da tcnica proposta pde proporcionar um crescimento conjunto o que refletiu um aumento de 13,18% na mdia da medida-F. Com isso, considerando a hiptese nula H0b - o uso do mdulo de expanso prejudica o desempenho geral do sistema poderamos rejeit-la apenas utilizando os valores mdios, comparando diretamente as duas abordagens. No entanto, se consideramos o pior caso de desvio padro descrito na Tabela 6.5 para a abordagem expandida, a mdia para a medida-F pode mudar radicalmente sendo a abordagem simples superior abordagem expandida.

Assim, considerando o ganho mdio de 13,18% na medida-F com a utilizao do mecanismo de expanso semntica de consultas, nossa deciso favoreceria a hiptese alternativa H2 - o uso do mdulo de expanso aumenta o desempenho geral do sistema. Porm, estatisticamente falando a hiptese nula H0b no

87

pode ser rejeitada, uma vez que existe a possibilidade da abordagem simples superar a abordagem expandida no desempenho geral do nosso experimento.

Contudo, para fornecer uma confirmao mais slida a esta hiptese so necessrios mais experimentos ou at algumas modificaes e adaptaes neste mesmo experimento. A prxima seo descreve alguns pontos considerados como frgeis ou que poderiam ser melhorados para que as hipteses sejam mais bem fundamentadas.

6.5 Com base no experimento definido neste captulo alguns pontos de melhoria foram identificados como segue: a) Utilizar mais de uma ontologia de domnio durante o experimento para identificar a importncia da qualidade da ontologia para o processo de inferncia e conseqentemente para a qualidade dos termos sugeridos; b) A definio dos documentos conhecidos como relevantes deve ser feita por um especialista para cada rea de uma NI. Esta atividade foi considerada como um risco do nosso experimento e, caso ajustada, pode aumentar a credibilidade do experimento alm de garantir a consistncia das medidas coletadas; c) Nmero de documentos utilizados na base de informaes do experimento. Quanto maior o nmero de documentos em uma coleo, melhores e mais condizentes com a realidade sero as mtricas extradas do experimento; d) Computar tambm as consultas que no obtiveram termos sugeridos. Esta informao seria importante para avaliar a real utilidade do mecanismo de expanso, calculando o percentual de consultas que foram auxiliados de fato pelo mecanismo de expanso. Uma explicao para a constatao de quantas buscas foi modificada poderia ser o fato de que em um ambiente de pesquisa com auxlio

Pontos de melhoria

88

de ontologia, onde os usurios dispem de termos semanticamente relacionados a seus termos de pesquisa inicial, tendem a selecionar e adicionar, ou no, termos de suas consultas; e) Assim como o experimento de Shiri e Revie (2006), Andreou (2005) e Tomonari et al. 2005, contabilizar a quantidade de termos utilizados para expandir as consultas. Experimentos indicam que o melhor desempenho foi alcanado com adies entre 20 e 40 termos (CARDOSO apud HARMAN, 1996). Evidentemente que este nmero depende da coleo e da tcnica de expanso utilizada. Sendo assim, a inteno identificar se existe alguma relao entre a quantidade de termos selecionados e qualidade dos resultados obtidos; e f) Calcular as medidas de revocao e preciso separadamente para cada fonte de informao da ontologia em que o termo utilizado na expanso foi selecionado. Isso quer dizer que seria possvel distinguir qual tipo de relacionamento da ontologia foi mais relevante durante a seleo de termos dentre os relacionamentos de restrio, hierarquia ou instncia, por exemplo. Essa abordagem foi utilizada por Silveira (2003) como tambm no Shiri e Revie (2006).

Com relao aos pontos de melhoria para a soluo em si, identificamos que a utilizao de operadores booleanos na gerao das consultas expandidas poderia ajudar a controlar melhor os nveis de abrangncia e preciso das consultas. Os trabalhos de Shiri e Revie (2006), e Andreou (2005), utilizaram operadores lgicos na gerao de suas consultas.

Outro ponto de melhoria para a soluo seria permitir que usurio, alm de navegar nas classes inferidas, utilizasse a prpria ontologia para procurar o conceito de seu interesse. O trabalho de Barros et al. (1998) tornou possvel esta abordagem e obteve bons resultados.

89

Portanto, esses so os pontos de melhoria, tanto do experimento quanto da soluo, levantados para fornecer um direcionamento s investigaes aplicadas rea de RI e especificamente a expanso e reformulao semntica de consultas utilizando ontologia de domnio.

6.6

Consideraes Finais

Este captulo apresentou a definio, preparao, anlise e interpretao do experimento executado para avaliar a utilidade do mecanismo de expanso proposto. O experimento foi conduzido por 6 participantes que produziram um total de 156 consultas baseada em 13 necessidades de informao (NI). As estatsticas apresentadas mostraram que a utilizao do processo de expanso de consulta teve um desempenho melhor do que a busca baseada apenas em palavras-chave, as consultas simples. Entretanto, a abordagem utilizada para comparar o desempenho geral do sistema no obteve dados estatisticamente suficientes para rejeitar a nossa principal hiptese nula H0b e chegar de fato a uma concluso. Apesar disso, foi identificado que na maioria das consultas os termos selecionados foram teis para melhorar tanto a abrangncia quanto a preciso da busca.

Considerando a mdia para todas as consultas, as taxas de revocao e preciso foram muito prximas aos valores obtidos por outros autores que fizeram uso de ontologia no processo de expanso, 50% e 20% respectivamente (BARROS et al., 1998; SILVEIRA, 2003; ANDREOU, 2005). No entanto, apesar de facilitar a execuo e anlise do experimento como tambm ser vastamente utilizado na avaliao dos SRIs, um ponto de risco pode ser a utilizao da preciso normalizada (precision cut-off). Essa abordagem pode distorcer as medidas para o estudo, uma vez que, dada uma consulta, documentos mais relevantes do que os documentos conhecidos podem ser sempre retornados. Sendo assim, h possibilidade dos documentos conhecidos ficarem sempre em uma posio acima do limite L especificado e por sua vez no fazerem parte dos

90

documentos classificados como relevantes para a consulta. Neste cenrio, a medida de preciso pode no representar a realidade das respostas.

As principais dificuldades encontradas durante a execuo do experimento esto relacionadas a definio da coleo de dados utilizada. Considerando que o conceito de relevncia bastante abstrato, difcil construir uma base de informaes e classificar quais documentos so relevantes considerando apenas uma necessidade de informao como referncia. Alm disso, o nmero de participantes e conseqentemente o nmero de consultas aplicadas a coleo de referncia pode ser julgado como insuficiente para obteno de dados conclusivos. Logo, esses podem ser considerados como pontos negativos da avaliao.

Portanto, mais experimentos devem ser realizados aplicando os pontos de melhoria levantados anteriormente, como tambm os descritos na seo anterior. Com estes ajustes, acreditamos que novos experimentos possam obter concluses mais concretas quanto a eficcia da utilizao de um mdulo de expanso de consultas apoiado por uma ontologia de domnio.

No prximo captulo apresentamos as concluses alcanadas e as propostas de trabalhos futuro para essa dissertao.

91

7. Concluses
Este trabalho props e avaliou uma soluo para o problema de formulao de consultas utilizando apenas palavras-chave. Os SRIs convencionais tentam estabelecer diretamente um padro entre as palavras-chave da consulta e os termos contidos no ndice (coleo de documentos). Como j descrito, esse mecanismo acarreta um problema recorrente, uma vez que o usurio tem a tarefa de traduzir sua necessidade de informao em um conjunto de palavraschave para formar sua consulta. Sendo assim, a distncia entre a necessidade do usurio e o entendimento computacional de uma consulta conhecida na academia como gap semntico, tendo em vista que as consultas normalmente no representam o real interesse do usurio. Com isso, a principal conseqncia deste problema uma quantidade excessiva de tentativas na busca pela informao desejada. Em outras palavras, os usurios desse tipo de ferramenta so desencorajados a utiliz-las por no conseguir expressar sua necessidade de forma objetiva e eventualmente no obter o resultado esperado.

Nesse trabalho foi proposto um modelo que utiliza ontologias para orientar consultas aplicadas a uma coleo de documentos referente a um domnio restrito e controlado. Portanto, o objetivo foi melhorar a abrangncia e a preciso das consultas atravs da associao de contexto durante a atividade de busca. A idia foi utilizar o conhecimento codificado na ontologia para tentar especificar as consultas de forma a encontrar a maior quantidade de documentos relevantes possvel nos primeiros resultados. Alm do mais, por se tratar de um conhecimento compartilhado e difundido, a ontologia pode ser considerada uma fonte de informao confivel para qualquer procedimento na rea de RI, ou em qualquer rea. No entanto, o foco especfico do trabalho

92

tratou da seleo de novos termos de pesquisa para expandir consultas baseado em contedo estruturado provido por uma ontologia de domnio.

Para verificar a viabilidade da proposta foi desenvolvido um prottipo que fornece mecanismo de interao e seleo de termos para expanso de consultas, o QuESO. Embora seja possvel aplicar nossa proposta de expanso de consultas utilizando ontologias de domnio a diferentes reas, este trabalho verificou experimentalmente a qualidade e eficcia da proposta para uma rea especfica do conhecimento, a rea de cincia da computao. A ontologia utilizada conhecida como ontologia computacional (Computing Ontology) e os experimentos foram executados sobre uma coleo de documentos da rea, montada especificamente para este trabalho.

Respondendo a pergunta central da proposta - como um usurio pode se beneficiar com a expanso de consultas aplicadas a uma base especfica de domnio? - podemos concluir que a utilizao de ontologia pode melhorar os resultados das buscas utilizando texto livre e aplicados a uma coleo de documentos destinada a um domnio especfico. Foi possvel demonstrar a utilidade da ontologia ao proporcionar termos alternativos (sinnimos) e adicionais (hierarquia) na expanso de consultas. Porm, assim como o trabalho de Voorhees (1994), no foi possvel oferecer qualquer benefcio ao mecanismo de busca quando as consultas j so bastante especificadas, ou seja, possuem termos suficientes para atender a necessidade pretendida.

Os resultados avaliados neste trabalho indicam que a expanso semntica de consultas, atravs da seleo de termos sugeridos por um processo de inferncia, possibilita a recuperao de respostas relevantes para o usurio de forma melhorada. Considerando as consultas expandidas, obtivemos um resultado 13,18% melhor do que os obtidos com as consultas simples. Esse ganho foi identificado na medida-F, mtrica que mede o desempenho geral de um SRI. Embora esse valor seja considerado baixo, um valor prximo do 93

obtido na avaliao dos trabalhos de Barros et al. (1998), Silveira (2003) e Garcia et al. (2006). Alm disso, o valor mximo para medida-F pode ser interpretado como a tentativa de encontrar o melhor resultado tanto para a revocao quanto para a preciso, ou seja, retornar todos (e apenas) resultados relevantes (YATES and NETO, 1999). No entanto, como j mencionado na Seo 2.2.3, essas mtricas so conflitantes e difceis de serem melhoradas em conjunto. Sendo assim, benefcios obtidos em medidas que unem esses dois conceitos j podem ser consideradas como relevantes.

Ento, atravs da definio de um estudo de caso, este trabalho conseguiu utilizar hipteses e mtricas, vastamente utilizadas em avaliaes de sistemas de recuperao, para investigar os benefcios obtidos com a adio de contexto durante a formulao de consultas.

7.1

Objetivos alcanados

Como resultado do desenvolvimento deste trabalho, foi possvel atingir os seguintes objetivos: a) Estado da arte: considerando a rea de RI, foi realizado um trabalho de contextualizao da proposta destacando qual a etapa de atuao e os possveis benefcios obtidos com a utilizao de tcnicas de expanso de consulta dentro de um processo completo de busca. Posteriormente, foram discutidas vrias abordagens utilizadas na literatura para tcnicas de expanso propriamente dita confrontando com a proposta deste trabalho; b) Caracterizao do problema: atravs da explanao de dados difundidos na academia, foi discutido se a ausncia de contexto durante a formulao de uma consulta considerado um problema real. Alm disso, investigamos qual o impacto deste problema atravs da anlise de resultados obtidos por trabalhos relacionados e compreenso das solues utilizadas para este problema,

94

considerando especificamente como soluo as tcnicas de expanso semntica de consultas; c) Prottipo: construo de um prottipo que expande consultas baseadas em palavras-chave de forma no intrusiva, por independer da forma como as informaes so armazenadas no ndice. Esse prottipo utiliza ontologia como recurso e viabiliza interao direta com o conhecimento do domnio. Alm disso, oferece uma infraestrutura modular que possibilita a substituio da ontologia ou at mesmo da coleo de dados, sem impactar na atividade de expanso de consulta. Portanto, possvel tambm aplicar a infra-estrutura definida para a expanso de consultas em qualquer outro domnio; d) Experimento e estudo de caso: aps o desenvolvimento do prottipo, foi definido um estudo de caso para avaliar a eficcia do mecanismo de expanso de consulta proposto. Aps esta definio um experimento foi executado com o objetivo de identificar os pontos fortes e os pontos de melhoria da proposta. Os resultados desse experimento foram apresentados e discutidos atravs de dados estatsticos e verificao de hipteses, definidas pelo estudo de caso.

7.2

Trabalhos Futuros

Durante o desenvolvimento da proposta, diversos estudos que podem ser desenvolvidos foram identificados como continuidade a este trabalho: Assim como identificado em um dos pontos de melhoria da aplicao, utilizar operadores lgicos durante o mecanismo de expanso. Alm disso, definir um algoritmo para realizao de expanso automtica da consulta. Utilizando a infra-estrutura proposta, o usurio deve poder semanticamente a consulta inicial de forma automtica; optar por utilizar operadores lgicos e expandir

95

Um comparao entre a tcnica de expanso utilizada neste trabalho e a tcnica de expanso automtica de consulta; Anlise da complexidade da consulta antes de ativar o processo de expanso. Segundo Voorhees (1994), o uso de recursos lingsticos externos como tesauros e ontologias apresentam pouca contribuio para consultas completas ou bem construdas. Contudo, vrios autores investigam o comportamento de um processo de expanso de consulta baseado na complexidade da consulta inicial (SHIRI and REVIE, 2006). Segundo esses autores, os usurios interagem muito mais com o sistema quando as consultas so consideradas complexas, uma vez que o sistema ser mais til na sugesto de termos. Uma forma de mensurar a complexidade de uma consulta pode ser pela quantidade de termos da consulta inicial ou pela quantidade de operadores lgicos utilizados; Alm das medidas convencionais de preciso e revocao, utilizar parmetros como tempo de pesquisa e usabilidade durante a avaliao do mecanismo de expanso. A inteno avaliar no somente a qualidade dos resultados de pesquisa, mas a qualidade do processo de pesquisa como um todo. Com isso, deveramos avaliar tambm como o usurio utiliza e interage com o mecanismo de expanso e como isso afeta a seleo de termos durante a expanso. Os autores Robertson e Beaulieu (1997) enfatizaram a importncia de levar em considerao a interao do usurio, a percepo e satisfao do processo de pesquisa para avaliao de qualquer SRI. Eles sugerem que a avaliao de um SRI no apenas considere a questo de quo bom ou ruim um sistema, observando friamente os ndices de preciso e revocao, mas sim analise empiricamente a satisfao do usurio considerando sua experincia de uso em uma ferramenta de RI.

trabalho

secundrio

ao

descrito

anteriormente

seria

96

Referncias Bibliogrficas
Almeida, M. B. and Bax, M. P. Uma viso geral sobre ontologias: pesquisa sobre definies, tipos, aplicaes, mtodos de avaliao e de construo. Cincia da Informao, Braslia, v.32, n. 3, pp. 7-20, 2003. Allan, J.; B. Carterette.; Joshua, L. When will Information Retrieval be "Good Enough?". Proceedings of the 28th annual ACM SIGIR, 2005. Andreou, A. Ontologies and Query expansion. 2005. 81f. Dissertao (Mestrado em Cincias) Universidade de Edimburgo, Esccia. Barros, F. A.; Goncalves, P. F. and Santos, T. L. V. L. Providing Context to Web Searches: The Use of Ontologies to Enhance Search Engine's Accuracy. J. Braz. Comp. Soc. [online], vol.5 n.2, 1998. Barth, F. J. and Timoszczunk, A. P. Expanso Automtica de Consultas utilizando Ontologias, Fundao Atech Tecnologias Crticas, 2008. Basili, V.; Selby, R. and Hutchens, D. Experimentation in software engineering. IEEE Transactions on Software Engineering, pp. 733743, 1986. Beppler, F. D. Emprego de RBC para Recuperao Inteligente de Informaes. 2002. 112f. Dissertao (Mestrado em Engenharia de Produo) - Universidade Federal de Santa Catarina (UFSC), Santa Catarina. Beppler, F. D. Um Modelo para Recuperao e Busca de Informao Baseado em Ontologia e no Crculo Hermenutico. 2008. 135f. Dissertao (Doutorado em Engenharia e Gesto do Conhecimento) - Universidade Federal de Santa Catarina (UFSC), Santa Catarina. Berners-Lee, T. and Hendler, J. The semantic web. Scientific American, 2001. Bidault, A.; Froidevaux, C. and Safar, B. Repairing Queries in a Mediator Approach, Proc. 14th European Conf. Artificial Intelligence, pp. 406-410, 2000. Borst, W. Construction of Engineering Ontologies for Knowledge Sharing and Reuse, 1997. Disponvel em http://doc.utwente.nl/17864/1/t0000004.pdf. Acessado em: 05 de dezembro de 2008. Breitman, K. K. Web Semntica: a Internet do futuro. Rio de Janeiro: LTC, 2005.

97

Cantele, R. C. and Fereira, M. A. G. V. Web Semntica na Educao: de metadados a ontologias, 2008. Disponvel em: http://www.grow.ic.ufal.br/ events/accepted-full-and-short-papers-second-brazilian-wswed/websemantica-na-educacao-de-metadados-a-ontologias, acessado em dezembro de 2008. Acessado em: 30 de maro de 2009. Cardoso, O. N. P. Recuperao de Informao, Universidade Federal de Larvas, Larvas (MG), 1996. Cavalcanti, Y. C. A Bug Report Analysis and Search Tool. 2009. 124 f. Dissertao (Mestrado em Cincia da Computao) Universidade Federal de Pernambuco, Recife. Computing-Ontology. Disponvel em: <http://www.owl-ontologies.com/ ComputingOntology.owl>. Acesso em: 28 julho 2009. Croft, W. B. Knowledge-based and statistical approaches to text retrieval. IEEE Intelligent Systems and Their Applications, pp. 8-12, 1993. Efthimiadis, E. N. A user-centred evaluation of ranking algorithms for interactive query expansion. In R. Korfhage, E. Rasmussen, & P. Willett (Eds.), Proceedings of the 16th annual conference on Research and Development in Information Retrieval of the Association for Computing Machinery Special Interest Group on Information Retrieval (ACM/SIGIR), pp. 146159, 1993. Efthimiadis, E. N. Query expansion. In M.E. Williams (Ed.), Annual review of information science and technology, pp. 121187,1996. Chen, H.; Ng T. D.; Martinez, J. and Schatz, B. R. A concept space approach to addressing the vocabulary problem in scientific information retrieval: na experiment on the worm community system. MIS Department, University of Arizona, 1996. Duro, F. A. Applying a Semantic Layer in a Source Code Search Tool, MSc. Dissertation, Federal University of Pernambuco, Recife, Pernambuco, Brazil, February, 2008. Frakes, W. B. and Yates, R. B. Information Retrieval Data Structures & Algorithms, Prentice Hall, 1992. Gamma, E; Helm, R; Johnson, R and Vlissides, J. Design Patterns: Elements of Reusable Object-Oriented Software, Addison-Wesley, MA, USA, 2005. Garcia, V. C.; Lucrdio, D.; Duro, F. A.; Santos, E. C. R.; Almeida, E. S.; Fortes, R. P. M. and Meira, S. R. L. From Specification to the Experimentation: A Software Component Search Engine Architecture, In The 9th International

98

Symposium on Component-Based Software Engineering (CBSE), Lecture Notes in Computer Science, Springer-Verlag, Sweden, 2006. Gmez-Prez, A. Tutorial on Ontological Engineering. International Joing Conference on Artificial Inteligence. IJCAI1999, Estocolmo, Sucia, 1999. Gonalves, P. F.; Robin, J.; Santos,T. L. V. L.; Miranda, O. and Meira, S. L. Measuring the Effect of Centroid Size on Web Search Precision and Recall. In Proceedings 8th Annual Conference of the Internet Society (INET98). Geneva, Switzerland, July, 1998. Griffiths, J. R. and Brophy, P. Student Searching Behavior and the Web: Use of Academic Resources and Google. Library Trends, v. 53 n. 4, pp.539-54, 2005. Gruber, T. R. Towards principles for the design of ontologies used for knowledge sharing, In Guarino and Poli, R., Eds. International Workshop on Formal Ontology. N. Padova, Italy, 1993. http://wwwksl.stanford.edu/people/gruber/publications.html Guarino, N. Formal Ontology and Information Systems. In: Proceedings of FOIS'98, N. Guarino (ed.), IOS Press, 1998. Harman, D. Relevance Feedback Revisited, Proceedings of the 15th ACM Conference on Research and Development in Information Retrieval (SIGIR), 1992. Henninger, S. Using Iterative Refinement to Find Reusable Software. IEEE Software, 11(5), pp 4859, 1994. Hiemstra, D. and Mihajlovic, V. The simplest evaluation measures for XML information retrieval that could possibly work. In: Proceedings of the INEX 2005 Workshop on Element Retrieval Methodology, Glasgow, UK, 2005. Hsieh-Yee, I. Effects of search experience and subject knowledge on the search tactics of novice and experienced searchers. Journal of the American Society for Information Science, pp 161174, 1993. Kitchenham, B. A. and Charters, S. Guidelines for performing Systematic Literature Reviews in Software Engineering, Version 2.3, Keele University, EBSE Technical Report, EBSE-2007-01, 2007. Lpez, M. F.; G.-P. Asuncin, et al. Building a Chemical Ontology Using Methontology and the Ontology Design Environment. Intelligent Systems and their Applications IEEE, v.14, n.1, p.37-46. 1999.

99

Lucrdio, D.; Almeida, E, S. and Prado, A, F. A Survey on Software Components Search and Retrieval, In the 30th IEEE EUROMICRO Conference, ComponentBased Software Engineering Track, 2004, Rennes - France. IEEE Press,2004. MOREIRA, A. Tesauros e Ontologias: estudo de definies presentes na literatura das reas das Cincias da Computao e da Informao, utilizandose o Mtodo Analtico-Sinttico. 2003. 150 f. Dissertao (Mestrado em Cincia da Computao) - Escola de Cincia da Informao da UFMG, Belo Horizonte. Necib, C. B. and Freytag, J. C. Using Ontologies for Database Query Reformulation. In: East European Conference on Advances in Databases and Informations Systems (ADBIS), 2004. Neto, B. R.; Silva, I. and Muntz, R. Soft Computing in Information Retrieval Techniques and Applications, chapter Bayesian Network Models for IR, pp 259291. Springer Verlag, 2000. Nunes, A. M. and Fileto, R. Uma Arquitetura para Recuperao de Informao Baseada em Semntica e sua Aplicao no Apoio a Jurisprudncia, UFSC, 2005. Pearl, J. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference: Morgan Kaufmann, 1988. Pickler, M. E. V. Web Semntica: ontologias como ferramentas de representao do conhecimento referencia. Perspectivas em Cincia da Informao, v. 12, n. 1, pp. 65-83, 2007. Pizzato, L. A. S. Estrutura Multitesauro para Recuperao de Informaes. 2003. 112f. Dissertao (Mestrado em Cincia da Computao) - Pontifcia Universidade Catlica do Rio Grande do Sul, Porto Alegre. Prince, V. and Roche, M. Information Retrieval in Biomedicine. Medical Information Science Reference, 1 edition, 2009. Riecken, R. F. Estudo comparativo entre diferentes modelos de organizao de acervos de dados eletrnicos. Perspectivas em Cincia da Informao v. 13, n. 2, 2008. Robertson, S. E. and Beaulieu, M. Research and evaluation in information retrieval. Journal of Documentation, 53(1), 5157, 1997. Schulz, S. and Stenzhorn, H. Vantagens e limitaes das ontologias formais na rea biomdica. RECIIS R. Eletr. de Com. Inf. Inov. Sade. Rio de Janeiro, v.3 n.1, pp.33-48, 2009.

100

Shiri, A. and Revie, C. Query expansion behavior within a thesaurus-enhanced search environment: A user-centered evaluation, Journal of the American Society for Information Science and Technology, v.57 n.4, pp.462-478, 2006. Silva, M. J.; Martins, B. and Costa, M. Avaliao de Sistemas de Recuperao de Informao da Web em Portugus: Proposta Inicial Comunidade. Universidade de Lisboa, Portugal, Avalon'03, 2003. Silveira, M. L. Recuperao Vertical de Informao Um Estudo de Caso na rea Jurdica. 2003. 114f. Dissertao (Doutorado em Cincia da Computao) Universidade Federal de Minas Gerais, Minas Gerais. Silverstein, C.; Henzinger, M.; Marais, H. and Moricz, M. Analysis of a very large altavista query log. Technical Report 1998-014, Digital SRC, 1998. Soergel, D. Important problems in information retrieval. University of Maryland, College of Library and Information Services, 1989. Souza, A. Ontologias filosofia versus cincias cognitivas, s.d. Disponvel em: http://co-labor.blogspot.com/2007/10/ontologias-filosofia-versus-incias.html. Acessado em: 21 de dezembro de 2008. SPINK, A.; SARACEVIC, T. Dynamics of search term selection during mediated online searching. In: ASIS ANNUAL MEETING, 56th, v. 30, p. 63-72, 1993. Tomonari, M.; Teruhito, K.; Atsuhiro, T. and Jun, A. Improving Web Search by Query Expansion with a Small Number of Terms. Proceedings of NTCIR-5 Workshop Meeting, Tokyo, Japan, 2005. Voorhees, E. M. Query expansion using lexical-semantic relations. In: Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval, 1994. Yaguinuma, C. A. ; Biajiz, M. and Santos, M. T. P. Sistema FOQuE para Expanso Semntica de Consultas Baseada em Ontologias Difusas. In: XXII Simpsio Brasileiro de Banco de Dados, v.1, pp. 208-222, 2007. Yates, R. B. and Neto, B. R. Modern Information Retrieval: ACM Press, AddisonWesley, 513p, 1999. Ye, Y. and Fischer, G. Supporting Reuse By Delivering Task-Relevant and Personalized Information, ICSE 2002 24th International Conference on Software Engineering, pp. 513-523, 2002. Wohlin, C.; Runeson, P.; Martin Hst, M. C. O.; Regnell, B. and Wessln, A. Experimentation in Software Engineering: An Introduction. The Kluwer

101

Internation Series in Software Engineering. Kluwer Academic Publishers, Norwell, Massachusets, USA, 2000. Zobel, J. and Moffat, A. Inverted Files for Text Search Engines, ACM Computing Surveys, 2006.

Apndices

102

Apndice A - Exemplo de Conceitos e Relacionamentos da ontologia utilizada. Para melhor compreender a estrutura da ontologia utilizada, nesta seo mostraremos trechos da ontologia que representa uma parte da hierarquia de classes e os recursos para o conceito Collision Resolution Techniques (tcnicas de resoluo de coliso). De acordo com a Figura A.1, as elipses so os conceitos, as setas so os relacionamentos e os quadrados so as instncias. O relacionamento destacado na cor vermelha representa uma restrio entre os conceitos Hashing e Hashed apresenta um trecho da ontologia especificado utilizando a linguagem OWL, a Computing Ontology. File Organization. J a Figura A.2

Figura A.1 Representao grfica ontologia utilizada

103

<owl:Class rdf:ID="Collision_Resolution_Techniques"> <rdfs:subClassOf rdf:resource="#Hashing"/> </owl:Class> <owl:Class rdf:about="#Hashing"> <rdfs:subClassOf> <owl:Restriction> <owl:someValuesFrom> <owl:Class rdf:ID="Hashed_File_Organization"/> </owl:someValuesFrom> <owl:onProperty> <owl:TransitiveProperty rdf:ID="UsedBy"/> </owl:onProperty> </owl:Restriction> </rdfs:subClassOf> <rdfs:subClassOf> <owl:Classrdf:about="#Important_Instruction..."/> </rdfs:subClassOf> </owl:Class> <owl:Class rdf:about="#Hashed_File_Organization"> <rdfs:subClassOf> <owl:Restriction> <owl:onProperty> <owl:TransitiveProperty rdf:about="#Uses"/> </owl:onProperty> <owl:someValuesFrom rdf:resource="#Hashing"/> </owl:Restriction> </rdfs:subClassOf> <rdfs:subClassOf rdf:resource="#File_Organization"/> </owl:Class> <owl:Class rdf:about="#Important_Instruction..."> <rdfs:subClassOf> <owl:Class rdf:ID="Algorithms"/> </rdfs:subClassOf> </owl:Class> <!-- Instances --> <Collision_Resolution_Techniques rdf:ID="Clustering"/> <Collision_Resolution_Techniques rdf:ID="Probing"/> <Collision_Resolution_Techniques rdf:ID="Chaining"/> Figura A.2 Trecho da ontologia utilizada

104

Apndice B - Exemplo de consultas aplicadas e suas expanses As tabelas seguintes demonstram as consultas iniciais e as consultas na forma expandida, com o resultado de preciso, preciso geral, abrangncia e medidaF, quando aplicadas a coleo utilizada no experimento. As consultas esto agrupadas por necessidade de informao.

Tabela B.1 Consultas simples e medidas obtidas no experimento.


NI: agile Agile method agile scrum extreme programming agile methods tests agile 0,7778 0,7778 0,6667 0,6667 0,7778 0,7778 Consulta Revocao Preciso Geral 0,0094 0,5000 1,0000 0,0124 0,0094 0,0113 Preciso 0,3500 0,5000 1,0000 0,3000 0,3500 0,3500 0,4828 0,6087 0,8000 0,4138 0,4828 0,4828 Medida-F

NI: data_base Data base trigger data transaction data base database convertion concurrency transaction 0,0000 0,0000 0,5385 0,0000 0,4615 0,6154

Consulta

Revocao

Preciso Geral 0,0000 0,0000 0,0090 0,0000 0,0151 0,0203

Preciso 0,0000 0,0000 0,3500 0,0000 0,3000 0,4000 0,0000 0,0000 0,4242 0,0000 0,3636 0,4848

Medida-F

NI: data_security security data cryptography public key security biometrics cryptography methods digital signature 1,0000 0,3333 0,3333 0,7778 0,3333 0,2222

Consulta

Revocao

Preciso Geral 0,0121 0,3750 0,0082 0,0551 0,0040 0,0079

Preciso 0,4500 0,3750 0,1500 0,3500 0,1500 0,1000 0,6207 0,3529 0,2069 0,4828 0,2069 0,1379

Medida-F

NI: fuzzy Fuzzy set theory fuzzy logic 0,7143 1,0000 1,0000

Consulta

Revocao

Preciso Geral 0,0338 0,0086 0,0225

Preciso 0,2500 0,3500 0,3500 0,3704 0,5185 0,5185

Medida-F

105

fuzzy algorithm mathematic fuzzy description

0,4286 0,2857 0,5714

0,0045 0,0065 0,0093

0,1500 0,1000 0,2000

0,2222 0,1481 0,2963

NI: image_process process image face recognition imaging neighbor linear algebra segmentation algorithms 0,5455 0,0000 0,5455 0,0909 0,0909 0,0909

Consulta

Revocao

Preciso Geral 0,0076 0,0000 0,0186 0,0063 0,0020 0,0015

Preciso 0,3000 0,0000 0,3000 0,0500 0,0500 0,0500 0,3871 0,0000 0,3871 0,0645 0,0645 0,0645

Medida-F

NI: language_programming

Consulta

Revocao

Preciso Geral 0,0188 0,0000 0,0204 0,0000 0,0000 0,0059

Preciso

Medida-F

Program language methods programming development ide big o scope variable

0,8182 0,0000 0,7273 0,0000 0,0000 0,2727

0,4500 0,0000 0,4000 0,0000 0,0000 0,1500

0,5806 0,0000 0,5161 0,0000 0,0000 0,1935

NI: network_hardware Computers networks tcp Network ethernet topology peer to peer bridge configuration 0,2727 0,3636 0,0909 0,7273 0,1818 0,2727

Consulta

Revocao

Preciso Geral 0,0036 0,1429 0,0014 0,0457 0,0556 0,0112

Preciso 0,1500 0,2000 0,0500 0,4000 0,1000 0,1500 0,1935 0,2581 0,0645 0,5161 0,1290 0,1935

Medida-F

NI: neural_network neural network artificial neural agents neural learning environment 0,2500 0,1250 0,1250 0,0000 0,2500

Consulta

Revocao

Preciso Geral 0,0027 0,0026 0,0016 0,0000 0,0026

Preciso 0,1000 0,0500 0,0500 0,0000 0,1000 0,1429 0,0714 0,0714 0,0000 0,1429

Medida-F

NI: object_oriented Object oriented 0,3333

Consulta

Revocao

Preciso Geral 0,0052

Preciso 0,1500 0,2069

Medida-F

106

abstract inheritance java object instance multiple inheritance

0,2222 0,5556 0,2222 0,2222 0,5556

0,0025 0,1000 0,0213 0,0032 0,0108

0,1000 0,2500 0,1000 0,1000 0,2500

0,1379 0,3448 0,1379 0,1379 0,3448

NI: project_managment

Consulta

Revocao

Preciso Geral 0,0121 0,0083 0,0000 0,0068 0,0112 0,0120

Preciso

Medida-F

project manager business tracking human resources project goals risk management

1,0000 0,1667 0,0000 0,5000 1,0000 0,6667

0,3000 0,0500 0,0000 0,1500 0,3000 0,2000

0,4615 0,0769 0,0000 0,2308 0,4615 0,3077

NI: quality_software Quality software Code coverage commitment quality assurance configuration management quality software audit 0,9091 0,0909 0,0909 0,6364 0,2727 0,8182

Consulta

Revocao

Preciso Geral 0,0227 0,0027 0,0145 0,0228 0,0075 0,0200

Preciso 0,5000 0,0500 0,0500 0,3500 0,1500 0,4500 0,6452 0,0645 0,0645 0,4516 0,1935 0,5806

Medida-F

NI: systems_distributed systems distributed clusters distributed message driven beans storage remote procedure call 0,6250 0,0000 0,6250 0,1250 0,5000 0,3750

Consulta

Revocao

Preciso Geral 0,0062 0,0000 0,0095 0,0042 0,0323 0,0043

Preciso 0,2500 0,0000 0,2500 0,0500 0,2000 0,1500 0,3571 0,0000 0,3571 0,0714 0,2857 0,2143

Medida-F

NI: web_service web service wsdl service soap web service classification 0,7857 0,7857 0,8571 1,0000 0,8571

Consulta

Revocao

Preciso Geral 0,0476 0,8462 0,0745 0,8235 0,0234

Preciso 0,5500 0,8462 0,6000 0,8235 0,6000 0,6471 0,8148 0,7059 0,9032 0,7059

Medida-F

107

interface generation

0,4286

0,0088

0,3000

0,3529

Tabela B.2 Consultas expandidas e medidas obtidas no experimento.

NI: agile Agile method scrum extreme programming development agile scrum extreme programming scrum development extreme programming development agile methods extreme programming file management tests agile reliability artifacts strategy

Consulta

Revocao

Preciso Geral 0,0084 0,0144 0,0111 0,0095 0,0085 0,0099

Preciso

Medida-F

0,7778 0,7778 0,7778 0,7778 0,7778 0,7778

0,3500 0,3500 0,3500 0,3500 0,3500 0,3500

0,4828 0,4828 0,4828 0,4828 0,4828 0,4828

NI: data_base

Consulta

Revocao

Preciso Geral

Preciso

Medida-F

Data base stored procedures sql triggers persistent semistructured information query trigger database database failure recovery concurrency control integrity data base query performance database convertion backup recovery relational concurrency transaction management

0,6154 0,3077 0,5385 0,1538 0,4615 0,6154

0,0092 0,0122 0,0094 0,0023 0,0078 0,0150

0,4000 0,2000 0,3500 0,1000 0,3000 0,4000

0,4848 0,2424 0,4242 0,1212 0,3636 0,4848

NI: data_security

Consulta

Revocao

Preciso Geral 0,0119 0,0105 0,0077 0,0423 0,0062 0,0070

Preciso

Medida-F

security data attacks protection malware cryptography algorithms encryption public key signatures security biometrics authentication penetration cryptography methods access file management digital signature cryptosystems key

1,0000 0,7778 0,3333 0,6667 0,5556 0,3333

0,4500 0,3500 0,1500 0,3000 0,2500 0,1500

0,6207 0,4828 0,2069 0,4138 0,3448 0,2069

NI: fuzzy Fuzzy possibility theory uncertainty 1,0000

Consulta

Revocao

Preciso Geral 0,0092

Preciso 0,3500 0,5185

Medida-F

108

set theory set theory structures discrete possibility fuzzy logic uncertainty fuzzy algorithm theory uncertainty mathematic logics uncertainty deduction complexity fuzzy description representation theory

0,8571 1,0000 1,0000 1,0000 0,8571

0,0070 0,0194 0,0094 0,0099 0,0084

0,3000 0,3500 0,3500 0,3500 0,3000

0,4444 0,5185 0,5185 0,5185 0,4444

NI: image_process process image computer vision face recognition object imaging preservation neighbor algorithm learning linear algebra operations manipulation segmentation algorithms region-based layer parsing 0,2727 0,0909 0,1818 0,0000 0,2727 0,0000

Consulta

Revocao

Preciso Geral 0,0035 0,0015 0,0051 0,0000 0,0040 0,0000

Preciso 0,1500 0,0500 0,1000 0,0000 0,1500 0,0000 0,1935 0,0645 0,1290 0,0000 0,1935 0,0000

Medida-F

NI: language_programmi ng

Consulta

Revocao

Preciso Geral 0,0137 0,0012 0,0076 0,0000 0,0000 0,0071

Preciso

Medida-F

Program language markup procedural methods abstracting programming algorithms problem-solving procedural development ide software tools big o complexity analysis scope variable control declarations

0,8182 0,0909 0,5455 0,0000 0,0000 0,4545

0,4500 0,0500 0,3000 0,0000 0,0000 0,2500

0,5806 0,0645 0,3871 0,0000 0,0000 0,3226

NI: network_hardware Computers networks topologies architecture physical tcp network Network topologies hardware switches routers ethernet topology protocol examples peer to peer architectural styles bridge configuration network

Consulta

Revocao

Preciso Geral

Preciso

Medida-F

0,4545 0,3636 0,7273 0,6364 0,1818 0,2727

0,0059 0,0055 0,0104 0,0097 0,0046 0,0039

0,2500 0,2000 0,4000 0,3500 0,1000 0,1500

0,3226 0,2581 0,5161 0,4516 0,1290 0,1935

NI: neural_network neural network machine learning artificial intelligence 0,2500 0,1250

Consulta

Revocao

Preciso Geral 0,0025 0,0018

Preciso 0,1000 0,0500 0,1429 0,0714

Medida-F

109

neural net architectures agents robotic multi-agent state-of-the-art neural learning environment supervised

0,3750 0,0000 0,0000

0,0039 0,0000 0,0000

0,1500 0,0000 0,0000

0,2143 0,0000 0,0000

NI: object_oriented Object oriented encapsulation polymorphism inheritance abstract methods inheritance object-oriented java languages examples object instance programming classifications multiple inheritance polymorphism

Consulta

Revocao

Preciso Geral 0,0101 0,0012 0,0490 0,0014 0,0026 0,0086

Preciso

Medida-F

0,6667 0,1111 0,5556 0,1111 0,2222 0,4444

0,3000 0,0500 0,2500 0,0500 0,1000 0,2000

0,4138 0,0690 0,3448 0,0690 0,1379 0,2759

NI: project_managment

Consulta project manager estimation scheduling planning software business information management philosophy tracking milestones scheduling human resources management training staffing project goals metrics reporting analysis milestones effort risk risk management contingency planning analysis

Revocao

Preciso Geral

Preciso

Medida-F

1,0000 0,3333 1,0000 0,8333 1,0000

0,0081 0,0026 0,0256 0,0066 0,0074

0,3000 0,1000 0,3000 0,2500 0,3000

0,4615 0,1538 0,4615 0,3846 0,4615

0,6667

0,0054

0,2000

0,3077

NI: quality_software Quality software attributes organizational standards Code coverage coverage-based commitment theory quality assurance concepts culture process configuration management version control evolution quality software audit overview process

Consulta

Revocao

Preciso Geral 0,0133 0,0054 0,0021 0,0074 0,0068 0,0098

Preciso

Medida-F

0,8182 0,1818 0,0909 0,5455 0,4545 0,7273

0,4500 0,1000 0,0500 0,3000 0,2500 0,4000

0,5806 0,1290 0,0645 0,3871 0,3226 0,5161

NI: systems_distributed

Consulta

Revocao

Preciso Geral

Preciso

Medida-F

110

systems distributed storage replication fragmentation clusters clusters grid distributed design organization detection message driven beans communications management

0,7500 0,1250 0,2500 0,1250

0,0073 0,0032 0,0025 0,0021

0,3000 0,0500 0,1000 0,0500

0,4286 0,0714 0,1429 0,0714

storage replication vertical fragmentation allocation distributed databases remote procedure call middleware

0,6250 0,3750

0,0071 0,0043

0,2500 0,1500

0,3571 0,2143

NI: web_service web service wsdl soap wsdl services service uddi wsdl soap application soap web services web service classification soap retrieval performance interface generation web services 1,0000 0,9286 1,0000 1,0000 0,8571 0,8571

Consulta

Revocao

Preciso Geral 0,0591 0,0783 0,0192 0,0591 0,0152 0,0167

Preciso 0,7000 0,6500 0,7000 0,7000 0,6000 0,6000 0,8235 0,7647 0,8235 0,8235 0,7059 0,7059

Medida-F

111