Você está na página 1de 11

Para

UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO PR-REITORIA REITORIA DE PESQUISA E PS-GRADUAO PS GRADUAO COORDENADORIA DE PROGRAMAS ESPECIAIS

RELATRIO FINAL DE ATIVIDADES DO BOLSISTA


TTULO DO PROJETO: Anlise e Aplicao de Critrios de Qualidade em um PDMS

Aluna: Elizangela de Lima Lucena. Lucena Curso: Bacharelado em Sistemas de Informao. Programa: PIBIC/PIC. Orientador: Profa Dra. Maria da Conceio Moraes Batista. Departamento/rea: Departamento de informtica DEINFO.

Recife PE Julho 2013

RESUMO

Este trabalho de iniciao cientfica est inserido no projeto Anlise e Aplicao de Critrios de Qualidade em um PDMS que tem como objetivo geral inserir Qualidade da Informao (QI) nas reformulaes de consultas aplicadas em um PDMS, buscando minimizar alguns problemas existentes neste ambiente e trazer alternativas para trabalhos atuais em relao a reformulaes e enriquecimento de consultas. Um objetivo especfico do trabalho o estudo e implementao do clculo da perda ou enriquecimento semntico no processo de reformulao de consultas em um Peer Data Management Systems (PDMS). Esse tipo de sistema caracteriza-se por possuir uma infraestrutura descentralizada e dinmica. Na primeira etapa foram realizadas atividades como o estudo de sistemas distribudos, sistemas PDMS, qualidade da Informao e Integrao de dados. Em seguida houve um estudo mais aprofundado sobre que critrios seriam utilizados para quantificar a degradao e o enriquecimento das consultas em um PDMS. Por fim foram realizados estudos sobre comunicao e roteamento de consultas em um PDMS existente, o SPEED.

Pgina 2 de 11

Sumrio
1. 2. 3. 4. INTRODUO .................................................................................................................... 4 TECNOLOGIAS.................................................................................................................. 5 MATERIAIS ......................................................................................................................... 7 OBJETIVOS ........................................................................................................................ 7 4..1 4..2 5. 6. 7. 8. 9. 10. GERAL ......................................................................................................................... 7 ESPECFICOS ............................................................................................................ 7

METODOLOGIA................................................................................................................. 8 RESULTADOS ................................................................................................................... 9 CONCLUSES................................................................................................................... 9 REFERNCIAS BIBLIOGRFICAS ............................................................................. 10 ATIVIDADES RELEVANTES DESENVOLVIDAS PELO BOLSISTA .................... 11 OBSERVAES DO PROFESSOR ORIENTADOR............................................. 11

Pgina 3 de 11

1. INTRODUO Atualmente temas como distribuio, diversidade e compartilhamento de dados tm sido discutidos com frequncia. A procura por sistemas que utilizem tecnologias que promovam o acesso fcil a dados distribudos, heterogneos, com um nvel de abstrao sobre o gerenciamento e consulta destas informaes vem se tornando um fator de grande importncia. Os PDMS so um exemplo desse tipo de sistema. Prov o acesso a fontes distribudas realizando operaes de manipulao de dados oferecendo transparncia em operaes de consultas e gerenciamento. Os Peer Data Management Systems (PDMS) foram introduzidos como uma extenso natural dos bancos de dados distribudos em um ambiente de sistemas P2P. (Halevy et al. 2006). Em um PDMS, os pontos no sistema funcionam como fontes de dados que podero ser usadas para troca de dados, obteno de respostas a consultas e compartilhamento de informaes. Cada ponto compartilha uma vizinhana semntica estabelecida por meio de mapeamentos semnticos entre os pontos (associaes entre pontos que possuem similaridade semntica) (Zhao 2006). PDMS so a evoluo de sistemas de integrao de dados (Souza, 2009). Em sntese, a principal tarefa de um sistema de integrao de dados fornecer uma interface uniforme para responder consultas que requerem extrao e combinao de dados originrios de mltiplas fontes distintas, heterogneas, muitas vezes distribudas e autnomas. O sistema disponibiliza atravs de um esquema uma viso integrada sobre os dados distribudos em mltiplas fontes de dados (Batista, 2003). Em ambientes distribudos as ontologias podem ser usadas como esquemas e assim, dar significado aos dados facilitando seu gerenciamento. Uma ontologia um modelo de dados que representa um conjunto de conceitos dentro de um domnio e os relacionamentos entre estes. Uma ontologia oferece uma conceituao (isto , uma meta-informao) que descreve a semntica dos dados facilitando o reuso e o compartilhamento de conhecimento (Fensel 2001).

Pgina 4 de 11

Para corrigir problemas com heterogeneidade, fato que ocorre em integrao de dados e quando vrias ontologias so utilizadas simultaneamente, utilizam-se processos de associao ou correspondncias entre os elementos das ontologias. O matching um exemplo de processo responsvel por alinhar os relacionamentos entre elementos de diferentes ontologias (Souza 2009). Pode-se definir como qualidade da Informao (QI) um conjunto de critrios que indicam o grau de qualidade geral de uma informao em um sistema (Batista, 2008). Em um PDMS, a QI das respostas das consultas depende no somente da qualidade dos dados de uma fonte de dados em particular (ponto), mas tambm da qualidade dos mapeamentos entre os pontos vizinhos (Yatskevich et al. 2006). Pontos podem armazenar dados de baixa qualidade, esses dados podem estar desatualizados, errados, incompletos ou ter procedncia duvidosa (Heese et al. 2005). Para obter melhores resultados no roteamento de consultas, a alguns PDMS organizam seus pontos de acordo com a similaridade semntica entre eles, formando agrupamentos semnticos (Freire, 2012). 2. TECNOLOGIAS Speed - (Semantic Peer Data Management System) um PDMS que adota uma abordagem semntica baseada em ontologias e informaes contextuais com o propsito de prover solues para problemas crticos de gerenciamento de dados (Souza, 2009; Pires, 2009). Quando um usurio submete uma consulta SPARQL em um determinado ponto, elementos contextuais so analisados atravs da ontologia de contexto denominada CODI (Contextual Ontology for Data Integration). Reformulao de consultas do Speed - Definido o conjunto de correspondncias, possvel executar dois tipos de reformulao da consulta: a reformulao exata, que considera apenas as correspondncias de equivalncia (isEquivalentTo) entre conceitos extrados das consultas; e a reformulao enriquecida, que o resultado de todas os outros tipos de correspondncias entre os conceitos (isSubConceptOf, isSuperConceptOf,
Pgina 5 de 11

isPartOf, isWholeOf, isCloseTo, isDisjointWith). O resultado da consulta obtido por meio da anlise de sua semntica (operadores utilizados: and, or) e por meio do modo de reformulao da consulta (estabelecido pelo usurio). Essa reformulao vai levar em conta as variveis de enriquecimento da consulta (Q): Aproximao - indica a incluso de conceitos que so prximos dos conceitos em Q; Especializao - indica a incluso de conceitos que so sub-conceitos de alguns conceitos de Q; Generalizao - indica a incluso de conceitos que so super-conceitos de alguns conceitos de Q; Composio - indica a incluso de conceitos que so parte-de ou todode alguns conceitos de Q. Roteamento semntico do Speed- possui quatro parmetros principais: a consulta (Q), o ponto de origem da consulta, o ponto de destino da consulta e o valor de TTL para interrupo do roteamento. Para cada chamada do algoritmo, ao final, o resultado (R) da execuo da consulta naquele ponto enviado para o peer de origem da consulta e integrado aos resultados de cada vizinho semntico que j havia recebido a consulta e enviado seu resultado. A figura 1 representa esse processo de roteamento e as respostas das consultas realizadas.

Pgina 6 de 11

Na figura, cada retngulo representa um peer conectado ao PDMS. As ligaes mostram que peers se conectam atravs das correspondncias semnticas entre seus esquemas. A consulta submetida em um peer de origem (na figura, o P2178) e pode ser propagada no sistema atravs de reformulaes entre os esquemas de peers vizinhos percorrendo um caminho. No exemplo da figura, Q pode ser reformulada ao longo de dois caminhos P2178-P2478-P2278-P2678 e P2178-P2478-P2378-P2578. A perda semntica pode ocorrer ao longo do caminho, quando os conceitos da consulta original no possuem equivalentes nos peers seguintes. E o enriquecimento ocorre quando o usurio requisita uma consulta enriquecida. Neste caso, o mecanismo de reformulao de consultas considera no apenas conceitos equivalentes mas tambm subconceitos, superconceitos, partes-de, todo-de, prximos e disjuntos (isSubConceptOf, isSuperConceptOf, isPartOf, isWholeOf, isCloseTo, isDisjointWith). 3. MATERIAIS Para trabalhar no Speed foi necessrio realizar a instalao e configurao da linguagem de programao Java. Para fornecer as ferramentas de apoio necessrias no processo de desenvolvimento utilizamos o Eclipse. O controle de verso foi realizado atravs do software o Apache Subversion tambm conhecido como SVN. 4. OBJETIVOS GERAL

4..1

Este trabalho tem como objetivo geral estabelecer novos critrios que ajudem na Qualidade da Informao (QI) nas consultas aplicadas em um PDMS, demonstrando de forma quantitativa o enriquecimento ou a perda semntica de conceitos nas consultas SPARQL atravs do processo de reformulaes. 4..2 ESPECFICOS

Pgina 7 de 11

1. Propiciar aluna uma formao interdisciplinar, despertandolhe o interesse pelo estudo de processamento, reformulao, enriquecimento e perda semntica de consultas. 2. Contribuir para a formao cientfica da aluna com o estudo de problemas de Qualidade da Informao, j que esta uma rea com inmeras aplicaes prticas. 3. Estimular na aluna, o desenvolvimento do pensamento abstrato, na tentativa de adequar os critrios de qualidade investigados ao problema do processamento de consultas SPARQL em PDMS. 4. Divulgar nos meios de divulgao cientfica os resultados obtidos. 5. METODOLOGIA Para que os objetivos fossem satisfatrios foi realizado um estudo inicial sobre processamento de consultas SPARQL em PDMS e critrios de QI. E logo aps, foi feito estudos sobre perda semntica e enriquecimento de consultas levando em considerao critrios de relacionamento, cujo objetivo foi identificar critrios para quantificar os resultados das consultas semanticamente. Etapa 1: Identificao e formalizao Durante esta etapa foram realizadas atividades envolvendo o estudo conceitual de um PDMS esclarecendo seu funcionamento e todo o processo de execuo de consultas. Tambm foram realizadas diversas atividades prticas para conhecer melhor o projeto Speed, facilitando assim o entendimento da lgica existente em seu algoritmo. Etapa 2: Identificao dos critrios quantitativos, desenvolvimento dos algoritmos e implementao de prottipos Nesta etapa foram definidos, atravs da atribuio de pesos, os critrios para quantificar os resultados das consultas. O clculo, levando em

Pgina 8 de 11

considerao esses pesos pde estabelecer o enriquecimento ou perda semntica dessas consultas. Implementada as classes, foi o momento de realizar testes iniciais em um ambiente limitado a dois peers. Os resultados dessas consultas foram analisados, e os ajustes necessrios foram efetuados. Etapa 3: Validar os resultados obtidos no sistema Speed O objetivo desta etapa consiste em validar os resultados obtidos nas etapas anteriores atravs da utilizao de exemplos prticos e reais. Acoplamos o prottipo desenvolvido na atividade anterior em um PDMS existente, o sistema Speed. Para isso foi necessrio um amplo estudo sobre sua estrutura de roteamento e de comunicao. Etapa 4: Publicao dos resultados Esta etapa est sendo realizada em paralelo com as outras e compreende a publicao dos resultados obtidos ao longo do desenvolvimento deste projeto. Alm do relatrio tcnico final, artigos sero submetidos para publicao em conferncias de iniciao cientfica. 6. RESULTADOS O resultado destes estudos possibilitou a aluna que incorporasse aos seus conhecimentos, temas como: gerenciamento de dados, sistemas distribudos, PDMS, qualidade da informao, perda semntica, enriquecimento de consultas, ontologias, roteamento semntico de consultas SPARQL em PDMS entre outros. 7. CONCLUSES Na primeira etapa do projeto foram realizados estudos que favoreceram a melhor compreenso contextual do projeto. Em seguida foram estabelecidos os critrios que possibilitariam a mensurao da perda ou do enriquecimento semntico de conceitos em consultas SPARQL a um PDMS. Aps a elaborao das classes necessrias para efetuar esse processo, em um ambiente de teste, essas classes foram executadas e os resultados foram analisados. A partir da as correes e os ajustes necessrios foram feitos.
Pgina 9 de 11

Com o propsito de realizar a mensurao de consultas dentro do Speed, identificamos de que forma estabelecida a comunicao entre os peers de dados e o funcionamento do roteamento de consultas. O trabalho futuro consiste em adequar a estrutura de roteamento existente no Speed para atender o requisito de mensurao da perda e do enriquecimento semntico em consultas envolvendo vrios peers de dados. Sero realizadas alteraes nesse roteamento adequando-o para essa nova necessidade. 8. REFERNCIAS BIBLIOGRFICAS Batista, M. C. M. Schema Quality Analysis in a Data Integration System. Tese de Doutorado, Centro de Informtica UFPE, 2008. Batista, M. C. M. Otimizao de Acesso em um Sistema de Integrao de Dados atravs do uso de Caching e Materializao de Dados, Dissertao de Mestrado, Centro de Informtica UFPE, 2003. Fensel D. (2001). Ontologies: A Silver Bullet for Knowledge Management and Electronic Commerce. ISBN: 3540416021. Ed. Springer. Freire, C.A. Roteamento Semntico de Consultas em Sistemas Gerenciadores de dados P2P, Proposta de Tese, Centro de Informtica UFPE, 2012. Halevy A., Rajarama A., Ordille J. (2006). Data Integration: The Teenage Years. Proceedings of the 32nd International Conference on Very large data bases, p. 9-16. Seoul, Korea. Heese R., Herschel S., Naumann F., Roth A. (2005). Self-extending Peer Data Management. In Proceedings of The German Conference on Datenbanksysteme in Business, Technologie und Web, v. 65 of LNI. GI. Pires, C.E. Ontology-based Clustering in a Peer Data Management System. Tese de Doutorado, Centro de Informtica - UFPE, 2009. Souza D. Using Semantics to Enhance Query Reformulation in Dynamic Distributed Environments. Tese de Doutorado, Centro de Informtica - UFPE, 2009. Yatskevich M., Giunchiglia F., McNeill F., Shvaiko P. (2006). OpenKnowledge Deliverable 3.3: Amethodology for ontology matching quality evaluation. Available at http://www.cisa.informatics.ed.ac.uk/OK/Deliverables/D3.3. ltimo acesso em Maro de 2013.

Pgina 10 de 11

Zhao J. (2006). Schema Mediation and Query Processing in Peer Data Management Systems. Master Thesis, The University Of British Columbia. 9. ATIVIDADES RELEVANTES DESENVOLVIDAS PELO BOLSISTA Estudo de conceitos de PDMS (estado da arte). Estudo de conceitos de Qualidade da Informao. Anlise do Speed (parte terica). Estudo sobre reformulaes de consultas em PDMS. Estudo sobre enriquecimento e degradao de consultas. Estudo sobre roteamento e comunicao entre peers de dados. Implementao no sistema Speed da classe IQQueryAnalysis, na linguagem Java, cujo principal mtodo queryDegradationMeasure responsvel em realizar os clculos para degradao ou enriquecimento da consulta inicial. Esses clculos utilizam as variveis fornecidas pela classe ReformulationManager que teve sua estrutura inicial alterada agregando essa nova atribuio.

10. OBSERVAES DO PROFESSOR ORIENTADOR Apesar de ter fugido um pouco ao plano de trabalho, por questes de redirecionamento do prprio projeto de pesquisa, considero o trabalho da aluna, extremamente relevante e satisfatrio para o projeto de pesquisa no qual este PIBIC est inserido. As anlises executadas e a ferramenta implementada so valiosos artefatos para o projeto. Recife, 08 de Julho de 2013.

Elizangela de Lima Lucena

Profa. Dra. Maria da Conceio Moraes Batista


Pgina 11 de 11

Você também pode gostar