Você está na página 1de 150

PONTIFCIA UNIVERSIDADE CATLICA DO RIO GRANDE DO SUL FACULDADE DE INFORMTICA PROGRAMA DE PS-GRADUAO EM CINCIA DA COMPUTAO

Mecanismos de Apoio a Interpretao e Recuperao de Padres do Uso da Web Baseados em Ontologia de Domnio

MARINGELA VANZIN

Dissertao apresentada como requisito parcial obteno do grau de Mestre, pelo Programa de Ps Graduao Sul. Orientadora: Prof. Dr. Karin Becker em Cincia da Computao da Pontifcia Universidade Catlica do Rio Grande do

Porto Alegre 2004

ii

AGRADECIMENTOS
minha orientadora, professora Karin Becker, por toda a sua dedicao, ensinamentos e conselhos. Saiba que os constantes desafios lanados me fizeram crescer muito como pessoa. Alcides Vanzin, Merce Bergamin Vanzin, Emerson Vanzin, Renata Gheno e Andressa Vanzin. O carinho e compreenso de todos vocs que sempre me apoiaram, mesmo longe. A professora e amiga Mara Abel por todos os conselhos e pensamentos positivos. A mente mesmo poderosa. Ao professor Marcelo Blois pelo intenso apoio, compreenso e pacincia nos momentos em que tudo parecia desabar. Obrigada tambm pelas crticas que contriburam para o meu crescimento. Ao grupo MIGAS (Taisa Carla Novello, Elceni Gelain, Laura Mastella). Cada uma de vocs foi fundamental para esta conquista. Aprendemos juntas que o atrito que nos faz andar, que as dificuldades nos fazem crescer. E como crescemos nestes ltimos anos. Aos colegas Giliane Redolfi e Cristiano Bertolini por terem compartilhado muitos momentos agradveis e tambm estressantes durantes o perodo do mestrado. Momentos estes que ficaro registrados na memria e no corao. Ao Andr da Fonte Lopes, bolsista do projeto financiado pela FAPERGS, pelo comprometimento, dedicao e excelente trabalho realizado no desenvolvimento do prottipo definido com parte deste trabalho. Ao Convnio Dell-PUCRS por viabilizarem a bolsa de estudos durante os quase dois anos de mestrado. Ao Programa de Ps-Graduao em Cincia da Computao e a todos os professores dos quais pude conviver durante estes dois anos. Ao departamento de Educao a Distncia (PUCRS Virtual), por fornecer os dados e assim, permitir o desenvolvimento deste trabalho.

iii

No auge da dificuldade, voc est a um passo de sua meta. Cada vez que fracassar, lembre-se que est mais perto da concretizao de seu sonho.
Do livro A verdade da Vida, vol 20 Masaharu Taniguchi

iv

RESUMO
O processo de Minerao do Uso da Web (MUW) permite extrair padres de navegao a partir de arquivos de log armazenados nos servidores Web. O processo de MUW tem demonstrado utilidade para os domnios mais diversificados, porm existem problemas que comprometem a sua efetividade. O processo de MUW composto pelas fases de Preparao de Dados, Minerao de Dados e Anlise de Padres. Esta pesquisa enfoca a fase de Anlise de Padres, que tem por objetivo identificar padres relevantes para o domnio da aplicao dentre os retornados da fase de Minerao de Dados. Problemas encontrados nesta fase referem-se dificuldade de interpretao e recuperao de padres. Muitas vezes, os padres so incompreensveis para o analista devido falta de semntica na representao destes, formados geralmente por URLs que nem sempre expressam intuitivamente os eventos de domnio disponveis no site. A dificuldade encontrada quanto recuperao de padres deve-se grande quantidade de padres resultantes de algoritmos tradicionais de Minerao de Dados, na maioria das vezes desinteressantes e redundantes. Perante estes problemas identificados, este trabalho prope mecanismos de apoio interpretao e recuperao de padres do uso da Web, atravs da explorao do conhecimento representado por Ontologia de Domnio. Os padres considerados neste trabalho so padres seqenciais de navegao. Os mecanismos de interpretao propostos permitem: representar os padres seqenciais atravs de padres conceituais, que expressem os eventos de domnio envolvidos; e permitir a anlise exploratria e interativa destes padres aprofundando a compreenso e explorando padres relacionados. Os mecanismos de recuperao visam: a gerao de agrupamentos de padres restringindo o escopo da busca; definir filtros de acordo com o interesse do analista, utilizando a Ontologia de Domnio como apoio; e finalmente recuperar padres similares ao interesse especificado nos filtros. Para avaliao da abordagem proposta, foi desenvolvido um ambiente de apoio fase de Anlise de Padres que incorpora os mecanismos de interpretao e recuperao de padres. Este ambiente foi utilizado num estudo de caso que aplica o processo de MUW ao domnio da Educao a Distncia.

Palavras-Chaves: Anlise de padres, Interpretao e recuperao de padres do uso da Web, Minerao do Uso da Web.

ABSTRACT

Web Usage Mining (WUM) aims to extract navigation usage patterns from Web server log files. While WUM techniques were proven to be useful, many problems need to be solved for their effective application. The WUM process is composed by three generic phases: preprocessing, mining and pattern analysis. This research focuses on the pattern analysis phase, which aims at identifying, from the patterns yielded by the mining phase, the relevant ones for the application domain. Problems found in this phase are related to pattern interpretation and retrieval. Usually, patterns are incomprehensible for the analyst because there is semantic gap between URLs and the events performed by users in a site. Pattern retrieval is critical because mining algorithms yield a huge number of patterns and most of them are useless and redundant. This research proposes ontology-based mechanisms targeted at the interpretation and retrieval of sequential navigation patterns. The interpretation approach allows: a) the representation of patterns in a more intuitive form; b) interactive pattern rummaging for improving the comprehension of the meaning of a pattern, as well as discovering related patterns. The retrieval approach allows: a) the definition of filters based on conceptual, structural and statistical constraints established over the concepts of the ontology; b) the search for patterns that either match the user-specified filter or are similar to it in some degree; and c) the clustering of related patterns to set focus on the interpretation activity. The ontology-based mechanisms constitute a supporting environment for the pattern analysis phase, for which a prototype was developed. The use of these mechanisms is illustrated and analyzed in a case study in the Distance Education domain.

Key-words: Web Usage Pattern Analysis, Web Usage Pattern interpretation and retrieval, Web Usage Mining;

vi

LISTA DE FIGURAS
Figura 1: Atividades desenvolvidas na conduo da pesquisa ................................................... 4 Figura 2: As trs reas da Minerao de Dados da Web ............................................................ 6 Figura 3: Fases da Minerao do Uso da Web. .......................................................................... 8 Figura 4: Amostra de dados do log de acesso no formato CLF ................................................. 9 Figura 5: Viso de Pgina Web e Log ...................................................................................... 10 Figura 6: Padro Seqencial ..................................................................................................... 12 Figura 7: Descoberta de Padres Seqenciais .......................................................................... 13 Figura 8: Descoberta de Padres Seqenciais com uso de Taxonomia.................................... 16 Figura 9: Interpretao de um padro seqencial pelo especialista.......................................... 18 Figura 10: Filtros e as fases do processo de KDD.................................................................... 22 Figura 11: Taxonomia das disciplinas de um curso de Cincia da Computao ..................... 26 Figura 12: Padres de navegao retornados pela ferramenta WUM ...................................... 27 Figura 13: Dimenses da hierarquia Conceitual do site SchulWeb .......................................... 31 Figura 14: Relao entre Web Semntica e Minerao da Web ............................................... 34 Figura 15: Log Semntico ........................................................................................................ 35 Figura 16: Visualizao do Padro de navegao pela ferramenta WUM ............................... 37 Figura 17: Representao grfica de regras associativas.......................................................... 38 Figura 18: Regras associativas na arena ................................................................................... 38 Figura 19: Nveis de representao dos eventos de domnio.................................................... 42 Figura 20: Estrutura da Ontologia de Domnio ........................................................................ 44 Figura 21: Mapeamento entre Nvel Fsico e Nvel Conceitual ............................................... 45 Figura 22: Entradas para a fase de Anlise de Padres ............................................................ 47 Figura 23: Exemplo do padro seqencial fsico...................................................................... 50

vii

Figura 24: Padro Seqencial Conceitual................................................................................. 51 Figura 25: Detalhamento de hierarquias................................................................................... 53 Figura 26: Detalhamento de relacionamentos .......................................................................... 54 Figura 27: Padro Conceitual Base e Padres Conceituais Abstratos...................................... 55 Figura 28: Padres Seqenciais Fsicos ................................................................................... 58 Figura 29: Operao de drill-down ........................................................................................... 59 Figura 30: Exemplo de Padres Maximais............................................................................... 66 Figura 31: Agrupamentos de acordo com o critrio maximal .................................................. 67 Figura 32: Estrutura de um filtro de interesse .......................................................................... 68 Figura 33: Filtro de Interesse composto por uma restrio conceitual..................................... 70 Figura 34: Filtro de Interesse composto por uma restrio conceitual e uma estrutural .......... 71 Figura 35: Filtro de Interesse composto por uma restrio conceitual e duas estruturais ........ 72 Figura 36: Filtro de Interesse composto por uma restrio conceitual, duas estruturais e uma estatstica .................................................................................................................................. 72 Figura 37: Similaridade entre dois conceitos definida pela funo Sim(l1 , l2) ....................... 75 Figura 38: Medida de similaridade pontual Restrio estrutural de incio e fim .................. 76 Figura 39: Valor de Similaridade de uma seqncia do padro conceitual base ..................... 77 Figura 40: Medida de similaridade pontual Restrio estrutural de ordem........................... 78 Figura 41: Filtro de Interesse e Filtro Generalizado................................................................. 80 Figura 42: Diagrama de Casos de Uso do Prottipo ................................................................ 86 Figura 43: Ambiente de Apoio e suas entradas e sada ............................................................ 87 Figura 44: Arquitetura do Prottipo e suas entradas ................................................................ 88 Figura 45: Esquema da base de dados ...................................................................................... 89 Figura 46: Exemplo de dados extrados de um log pr-processado ......................................... 89

viii

Figura 47: Interface do Mdulo de Definies......................................................................... 91 Figura 48: Exemplo de um conjunto de padres seqenciais................................................... 92 Figura 49: rea de Importao dos Padres............................................................................. 93 Figura 50: rea de definio do Critrio de Agrupamento ...................................................... 94 Figura 51: rea de Definio da Dimenso de Interesse ......................................................... 94 Figura 52: Interface do Mdulo de Agrupamento e Interpretao de Padres......................... 95 Figura 53: reas de Agrupamento de Padres e Padres Contidos ......................................... 96 Figura 54: reas de Agrupamentos de Padres e Anlise Exploratria................................... 97 Figura 55: Explorando um padro conceitual base .................................................................. 98 Figura 56: Operao roll-up ..................................................................................................... 99 Figura 57: Operao drill-down ............................................................................................... 99 Figura 58: Interface do Mdulo de Recuperao atravs de Filtros....................................... 100 Figura 59: rea de Representao da Ontologia de Domnio. ............................................... 101 Figura 60: rea de Definio de Filtro................................................................................... 102 Figura 61: rea de Padres Filtrados ..................................................................................... 103 Figura 62: Ambiente de ensino construdo pelos recursos do WebCT .................................. 105 Figura 63: Amostra do Log do WebCT .................................................................................. 106 Figura 64: Topologia do Curso_ABC .................................................................................... 107 Figura 65: Amostra de um arquivo texto obtido pela ferramenta Intelligent Miner .............. 111 Figura 66: Inspecionando rea de Agrupamentos de Padres e Padres Contidos ................ 112 Figura 67: rea de Anlise Exploratria................................................................................ 112 Figura 68: Padro conceitual na dimenso de interesse em contedo.................................... 113 Figura 69: Padro conceitual na dimenso de interesse em servio....................................... 113 Figura 70: Realizando operaes de detalhamento de relaes hierrquicas......................... 114

ix

Figura 71: Explorando o significado das relaes de propriedade......................................... 114 Figura 72: Exemplo de padro abstrato.................................................................................. 115 Figura 73: Padres conceituais detalhe .................................................................................. 115 Figura 74: Definio do filtro de interesse - I ........................................................................ 116 Figura 75: Definio do filtro de interesse - II ....................................................................... 117 Figura 76: Aplicao do mtodo de busca aproximada.......................................................... 118

LISTA DE TABELAS
Tabela 1. Comparao das abordagens..................................................................................... 40 Tabela 2. Mapeamento das URLs para os conceitos da ontologia ........................................... 49 Tabela 3. Exemplo de padres seqenciais conceituais ........................................................... 50 Tabela 4. Dados preparados resultantes da fase de Preparao de Dados................................ 57 Tabela 5. Mapeamento ............................................................................................................. 57 Tabela 6. Comparao da abordagem proposta X abordagens semnticas pesquisadas. ......... 62 Tabela 7. Medidas de similaridade entre conceitos.................................................................. 75 Tabela 8. Medidas de similaridade nas seqncias .................................................................. 78 Tabela 9. Comparao da abordagem proposta X abordagens de filtragem pesquisadas ........ 83 Tabela 10. Funcionalidades para definies............................................................................. 84 Tabela 11. Funcionalidades para recuperao e interpretao de padres ............................... 85 Tabela 11. Mapeamento das URLs para conceitos da Ontologia............................................. 90 Tabela 12. Comparao do Processo de MUW anterior com o atual..................................... 119

xi

LISTA DE ABREVIATURAS

CLF EAD ELF GVSM HTML HTTP KDD MUW OWL OLAM OLAP PUCRS RDFS URL WebCT WUM

Common Log Format Educao a Distncia Extend Log File Format Generalized Vector Space Model HyperText Markup Language Hypertext Transfer Protocol Knowledge Discovery in Database Minerao do Uso da Web Web Ontology Language On-line Analytical Mining On-line Analytical Processing Pontifcia Universidade Catlica do Rio Grande do Sul Resource Description Framework Schema Uniform Resource Locate Web Course Tool Web Utilization Miner

xii

SUMRIO

RESUMO..................................................................................................................................iv ABSTRACT .............................................................................................................................. v LISTA DE FIGURAS..............................................................................................................vi LISTA DE TABELAS ..............................................................................................................x LISTA DE TABELAS ..............................................................................................................x LISTA DE ABREVIATURAS................................................................................................xi LISTA DE ABREVIATURAS................................................................................................xi SUMRIO...............................................................................................................................xii 1 INTRODUO.................................................................................................................... 1 1.1 Contexto Geral............................................................................................................ 1 1.2 Objetivo do Trabalho.................................................................................................. 2 1.3 Mtodo de Pesquisa .................................................................................................... 3 1.4 Estrutura do Trabalho ................................................................................................. 5 2 MINERAO DE DADOS DA WEB................................................................................ 6 2.1 Minerao do Uso da Web .......................................................................................... 7 2.2 Processo de Minerao do Uso da Web ...................................................................... 8 2.2.1 Preparao dos Dados......................................................................................... 9 2.2.2 Minerao de Dados ......................................................................................... 11 2.2.2.1 Algoritmo AprioriAll.................................................................................... 12 2.2.3 Anlise de Padres ........................................................................................... 16 2.3 Consideraes........................................................................................................... 19 3 TRABALHOS RELACIONADOS................................................................................... 21 3.1 Abordagens de Filtragem.......................................................................................... 21 3.1.1 Filtros Estatsticos ............................................................................................ 22 3.1.1.1 Consideraes............................................................................................... 24 3.1.2 Filtros Estruturais ............................................................................................. 25 3.1.2.1 Consideraes............................................................................................... 29 3.2 Abordagens Semnticas............................................................................................ 29 3.2.1 Taxonomia ........................................................................................................ 30 3.2.1.1 Consideraes............................................................................................... 32 3.2.2 Ontologia de domnio ....................................................................................... 33 3.2.2.1 Consideraes............................................................................................... 36 3.3 Abordagem de Representao .................................................................................. 36 3.4 Consideraes........................................................................................................... 39

xiii

4 REPRESENTAO DA ONTOLOGIA DE DOMNIO PARA A INTERPRETAO E RECUPERAO DE PADRES SEQENCIAIS .................... 41 4.1 Ontologia de Domnio .............................................................................................. 42 4.1.1 Nvel Conceitual ............................................................................................... 43 4.1.2 Nvel Fsico e Mapeamento.............................................................................. 45 4.2 O Processo de MUW ................................................................................................ 46 4.2.1 Criao da Ontologia de Domnio e Mapeamento ........................................... 46 4.2.2 Preparao de Dados ........................................................................................ 47 4.2.3 Minerao de Dados ......................................................................................... 47 4.2.4 Anlise de Padres ........................................................................................... 47 5 MECANISMOS DE INTERPRETAO DE PADRES DO USO DA WEB ........... 48 5.1 Representao de Padro Seqencial Conceitual ..................................................... 48 5.2 Anlise Exploratria ................................................................................................. 52 5.2.1 Detalhamento de Relacionamentos .................................................................. 52 5.2.2 Roll-up .............................................................................................................. 54 5.2.2.1 Suporte de um Padro Conceitual Abstrato.................................................. 56 5.2.3 Drill-down ........................................................................................................ 59 5.3 Consideraes........................................................................................................... 60 6 MECANISMOS DE RECUPERAO DE PADRES DO USO DA WEB ............... 64 6.1 Agrupamento de Padres.......................................................................................... 65 6.1.1 Critrio Maximal .............................................................................................. 66 6.2 Filtros de Interesse baseados na Ontologia de Domnio........................................... 67 6.2.1 Mecanismo de Busca Equivalente.................................................................... 73 6.2.2 Mecanismo de Busca Aproximada ................................................................... 74 6.2.2.1 Medidas de Similaridade .............................................................................. 74 6.2.2.2 Similaridade de um padro conceitual base em relao ao filtro ................. 75 6.3 Combinao de Filtros e Medidas de Similaridade .................................................. 79 6.4 Consideraes........................................................................................................... 81 7 AMBIENTE DE APOIO INTERPRETAO E RECUPERAO DE PADRES DO USO DA WEB .................................................................................................................. 84 7.1 Arquitetura do Prottipo........................................................................................... 87 7.1.1 Base de Dados .................................................................................................. 89 7.1.1.1 Log pr-processado ...................................................................................... 89 7.1.1.2 Ontologia de Domnio .................................................................................. 89 7.1.1.3 Mapeamento ................................................................................................. 90 7.1.2 Mdulo de Definies ...................................................................................... 90 7.1.2.1 rea de Importao dos Padres .................................................................. 91 7.1.2.2 rea de definio do Critrio de Agrupamento............................................ 94 7.1.2.3 rea de Definio da Dimenso de Interesse............................................... 94 7.1.3 Mdulo de Agrupamento e Interpretao de Padres ...................................... 94 7.1.3.1 rea de Agrupamentos de Padres............................................................... 95 7.1.3.2 rea de Padres Contidos ............................................................................ 96 7.1.3.3 rea de Anlise Exploratria ....................................................................... 96 7.1.3.4 rea de Padres Detalhe............................................................................. 100

xiv

7.1.4 Mdulo de Recuperao atravs de Filtros..................................................... 100 7.1.4.1 rea da Ontologia de Domnio................................................................... 101 7.1.4.2 rea de Definio de Filtros....................................................................... 102 7.1.4.3 rea de Padres Filtrados........................................................................... 103 8 ESTUDO DE CASO EM UM AMBIENTE DE ENSINO A DISTNCIA ................ 104 8.1 Ambiente de Ensino da EAD da PUCRS ............................................................... 105 8.2 Log do WebCT ....................................................................................................... 106 8.3 Processo de MUW na EAD .................................................................................... 107 8.3.1 Abordagem de Machado [MAC03]................................................................ 108 8.4 Estudo de Caso ....................................................................................................... 109 8.4.1 Preparao de Dados ...................................................................................... 109 8.4.2 Ontologia de Domnio e Mapeamento ........................................................... 110 8.4.3 Descoberta de Padres de Uso da Web na EAD............................................. 110 8.5 Anlise de Padres: Cenrio de Uso ...................................................................... 111 8.5.1 Definies iniciais .......................................................................................... 111 8.5.2 Inspecionando Agrupamentos e Interpretando Padres ................................. 111 8.5.3 Definindo filtros e Recuperando Padres....................................................... 116 8.6 Consideraes......................................................................................................... 118 8.7 Depoimento do Analista ......................................................................................... 121 9 CONCLUSES E TRABALHOS FUTUROS .............................................................. 123 REFERNCIAS ................................................................................................................... 126 ANEXO I ............................................................................................................................... 131 ANEXO II.............................................................................................................................. 134

1 INTRODUO
1.1 Contexto Geral O fluxo incessante de acessos s pginas da Internet via Web reflete os contedos mais diversos, bem como costumes e necessidades pessoais ainda mais distintos, resultando em padres de utilizao extremamente ricos e diversificados. Compreender estes padres de navegao que impulsionam os usurios durante a navegao em um site tem motivado grande quantidade de pesquisadores em reas to diversas como redes de computadores, banco de dados, inteligncia artificial, entre outras. A Minerao do Uso da Web (MUW) a rea que se dedica extrao de padres que revelam o comportamento de navegao dos usurios na Web. Estes padres so obtidos, principalmente, a partir da anlise de logs de acessos mantidos em servidores Web. Os logs registram URLs referente s pginas Web e arquivos acessados pelos usurios durante a visita a um site. O processo de MUW composto por trs etapas distintas: Preparao de Dados, Minerao de Dados e Anlise de Padres [COO99]. Esta pesquisa enfoca a fase de Anlise de Padres, a qual aborda a identificao de padres relevantes ao domnio da aplicao dentre os obtidos atravs da aplicao de tcnicas de Minerao de Dados. Padres relevantes podem, por exemplo, auxiliar as organizaes a planejar estratgias de marketing de venda de produtos, a conhecer o tempo de vida dos seus clientes, efetivar campanhas promocionais, etc [COO97]. Estes padres tambm fornecem subsdios aos projetistas na tomada de decises referentes estrutura ou topologia utilizada na estruturao do site. Sem o conhecimento descoberto a partir da MUW, o projeto de um site dependeria apenas das suposies dos projetistas em relao s expectativas e modelos comportamentais dos usurios. Ainda, os padres de navegao podem ser utilizados com o intuito de propor melhoras no contedo disponibilizado em um site. Assim, a MUW torna-se til quando padres que agregam valor ao domnio da aplicao so identificados (i.e. conhecimento), o que no constitui uma atividade trivial. Ela depende da interpretao dos padres e da recuperao dos relevantes ao domnio. Entende-se por interpretao de padres as atividades executadas para o entendimento das

informaes expressas por um padro. J recuperao de padres refere-se s atividades realizadas para encontrar padres em meio a um conjunto destes. Analistas enfrentam dificuldade na interpretao dos padres descobertos na MUW. Estes so usualmente representados por colees de URLs que nem sempre expressam de forma evidente e intuitiva os servios e contedos que impulsionam a navegao dos usurios pelas pginas Web. Desta forma, a interpretao dos padres de navegao pode ser prejudicada uma vez que no h interesse em padres formados por URLs e sim em padres que expressem o contedo e servio envolvidos neles. Neste contexto, pesquisas vm sendo realizadas (e.g. [OBE03, DAI02, BER00]) visando associar a MUW com representaes do conhecimento do domnio que especificam a semntica das requisies s pginas feitas pelos usurios. O objetivo principal destas abordagens obter resultados com maior semntica e facilitar o processo de inspeo e anlise dos padres interessantes. Alm da falta de representao semntica dos padres, outro problema na anlise refere-se dificuldade de recuperao dos padres relevantes devido existncia de um grande nmero destes, resultantes das tcnicas de Minerao de Dados. Em meio a tantos padres, muitos so irrelevantes por representarem um conhecimento de senso comum e ainda diversos so redundantes. Para amenizar este problema, abordagens propem diferentes mtodos para reduo do nmero de padres de acordo com o interesse especificado, sendo de responsabilidade do analista definir o que relevante ao domnio da aplicao atravs de medidas de interesse objetivas (e.g [AGR93, AGR94a] ), crenas do domnio (e.g [SIL96, COO03, POH03]) e filtros (e.g [KLE94, SPI98]). Perante os problemas identificados na fase de Anlise de Padres, este trabalho tem como objetivo propor mecanismos que facilitem as atividades de interpretao e recuperao de padres ao escopo das aplicaes de MUW atravs da explorao do conhecimento representado por Ontologia de Domnio. Resultados preliminares desta pesquisa foram relatados em [BEC03, VAN04, VAN04a]. 1.2 Objetivo do Trabalho O objetivo principal deste trabalho propor mecanismos que facilitem a interpretao e recuperao de padres seqenciais de navegao atravs da utilizao de Ontologia de Domnio disponibilizada previamente. Estes mecanismos referem-se a duas dificuldades

principais encontradas na fase de Anlise de Padres: a grande quantidade de padres resultantes da aplicao de algoritmos para a busca de padres seqenciais e a falta de semntica neles representada. Os objetivos especficos so: propor mecanismos que facilitem a interpretao de padres atravs da representao de padres seqenciais de URLs em padres conceituais; propor mecanismos que facilitem a interpretao dos padres conceituais atravs da anlise exploratria da semntica destes padres conceituais; propor mecanismos que auxiliem a recuperao de padres conceituais atravs da definio de filtros com o uso de Ontologia de Domnio; definir um ambiente de apoio fase de Anlise de Padres que incorpore estes mecanismos, permitindo uma avaliao sobre a utilidade dos mesmos. 1.3 Mtodo de Pesquisa A Figura 1 representa as principais atividades desenvolvidas na conduo deste trabalho. Inicialmente foram estudadas as principais fontes sobre o processo de MUW, fornecendo um entendimento geral. Posteriormente, o estudo restringiu-se fase de Anlise de Padres, onde o problema motivador para esta pesquisa foi identificado. Ele refere-se dificuldade de interpretao e recuperao padres relevantes ao domnio. Identificado o problema, foi possvel definir o objetivo principal deste trabalho e direcionar a pesquisa as abordagens relacionadas ao problema. Primeiramente o estudo enfocou os trabalhos que propem suporte recuperao de padres relevantes ao domnio da aplicao atravs da especificao de medidas e filtros. Com este estudo verificou-se que a atividade de identificar padres interessantes relaciona-se reduo do nmero destes, o que nem sempre eficiente pois padres relevantes podem ser desconsiderados. Outro ponto verificado que estas abordagens no forneciam suporte a interpretao de padres, sendo de responsabilidade do analista, utilizar seu conhecimento sobre o domnio para interpretar e avaliar os padres. Desta forma, a continuidade da pesquisa focou-se em abordagens que propunham a integrao do conhecimento do domnio ao processo de MUW tornando a

atividade de Anlise dos Padres menos dependente do conhecimento do domnio detido pelos analistas. Estas abordagens forneceram subsdios para a definio dos mecanismos de apoio a interpretao e recuperao de padres do uso da Web. Posteriormente definio dos mecanismos de suporte fase de Anlise de Padres, o passo seguinte consistiu no desenvolvimento de um ambiente de apoio atravs de um prottipo que implementa estes mecanismos. Visando avali-lo, este ambiente foi utilizado num estudo de caso no domnio da Educao a Distncia (EAD) que possibilitou a uma comparao do processo de MUW aplicado no domnio da EAD utilizando o ambiente de apoio fase de Anlise de Padres, com outro processo de MUW no mesmo domnio, porm sem apoio a esta fase.

Estudar Base Terica

Identificar Problema Definir Objetivos Estudar Trabalhos Relacionados Definir Mecanismos de Interpretao e Recuperao de Pades do Uso da W eb

Desenvolver Prottipo Estudo de Caso

Figura 1: Atividades desenvolvidas na conduo da pesquisa

1.4 Estrutura do Trabalho Este trabalho est dividido em 9 captulos. O Captulo 2 apresenta as fases que compem o processo de MUW, focando-se na fase de Anlise de Padres, cujos principais problemas so relatados. O Captulo 3 discorre sobre as principais abordagens que visam auxiliar a interpretao e recuperao de padres. O Captulo 4 apresenta os principais objetivos da abordagem proposta, assim como os requisitos para a representao da Ontologia de Domnio para a interpretao e recuperao de padres seqenciais. Tambm so apresentadas algumas particularidades quanto s fases do processo de MUW. O Captulo 5 e 6 descrevem os mecanismos propostos para auxiliar a fase de Anlise de Padres. O Captulo 5 descreve os mecanismos de interpretao de padres que se referem aos padres seqenciais conceituais e a anlise exploratria destes. J o Captulo 6 apresenta os mecanismos voltados recuperao de padres. Estes possibilitam a gerao de agrupamentos de padres focando o escopo da busca; definio de filtros de interesse, utilizando a Ontologia de Domnio como apoio; e finalmente a definio de mecanismos de busca por padres, envolvendo ou no medidas de similaridade. O Captulo 7 descreve o ambiente de apoio proposto para avaliar os mecanismos de interpretao e recuperao de padres durante a fase de Anlise de Padres. O Captulo 8 apresenta um estudo de caso realizado no contexto da Educao a Distncia para avaliar os mecanismos propostos. Este ltimo captulo tambm apresenta um comparativo entre dois processos de MUW no ambiente de EAD, sendo um com apoio fase de Anlise de Padres. O Captulo 9 discorre sobre as concluses, limitaes e trabalhos futuros. Posteriormente, encontram-se as referncias bibliogrficas pesquisadas e os demais anexos.

2 MINERAO DE DADOS DA WEB


Este captulo apresenta as reas distintas da Minerao de Dados da Web, destacando a Minerao do Uso da Web (MUW). As fases que compem o processo de MUW so detalhadas, focando-se na fase de Anlise de Padres, cujos principais problemas so relatados.

A Minerao de Dados (Data Mining) considerada parte de um grande processo de descoberta de conhecimento em banco de dados (KDD Knowledge Discovery in Database). KDD corresponde explorao e anlise, por meio automtico ou semi-automtico, de grande quantidade de dados, com o propsito de descobrir regras e padres significativos [BER97]. A partir dos esforos da Minerao de Dados associados com a Web, surgiu uma nova rea de aplicao denominada de Minerao da Web (Web Mining), a qual visa utilizar tcnicas de Minerao de Dados para descoberta e anlise de informaes teis da Web. As tcnicas da Minerao de Dados da Web visam descobrir conhecimento novo e relevante dos dados da Web, onde a partir das informaes descobertas seja possvel demonstrar caractersticas, comportamentos, tendncias e padres de navegao do usurio da Web [COO99, SRI00]. A Minerao da Web se divide em trs categorias de acordo com a parte da Web a ser minerada: Minerao de Contedo (Web Content Mining), Minerao de Estrutura (Web Structure Mining) e Minerao do Uso (Web Usage Mining) [KOS00, SRI00]. A distino entre estas categorias est representada na Figura 2, extrada de Berendt et al. [BER02a].

Minerao de Contedo da Web

Minerao de Estrutura da Web

Minerao do Uso da Web

Figura 2: As trs reas da Minerao de Dados da Web

A Minerao do Contedo trata da descoberta de informaes teis referente ao contedo, dados, documentos e servios da Web. Cabe salientar que o contedo da Web no se restringe a texto ou hipertexto, tambm abrangendo uma ampla variao de tipos de dados, tais como udio, vdeo, dados simblicos, metadados e vnculos de hipertexto. J Minerao da Estrutura da Web foca-se nas informaes que existem de forma implcita entre os documentos, procurando descobrir um modelo sobre a estrutura de links da Web. O modelo baseado na topologia de hyperlinks, podendo ser utilizado para categorizar conjuntos de pginas Web e ser til na gerao de informaes similares e relacionadas entre diferentes sites Web. Assim, este tipo de minerao busca encontrar a estrutura de hyperlinks interna prpria Web. A Minerao do Uso da Web (MUW) centra-se na descoberta de padres de uso da Web. A MUW descrita em detalhe na seo seguinte por ser o foco principal desta pesquisa, mas cabe ressaltar que ela relaciona-se diretamente com as demais reas da Minerao de Dados da Web, afinal o comportamento de navegao dependente da estrutura do site Web e do contedo disponibilizado nele [COO03]. 2.1 Minerao do Uso da Web A MUW centra-se na aplicao de tcnicas que possam detectar padres de comportamento dos usurios enquanto eles interagem com sites disponveis na Web [KOS00, SRI00]. A descoberta de padres de navegao pelas pginas Web proporciona um entendimento mais aprofundado do comportamento dos usurios bem como da estrutura e do contedo das pginas Web envolvidos na interao dos usurios com o site Web [MOB96, SRI00]. Freqentemente as organizaes desenvolvem seus sites da forma que seus projetistas consideram mais apropriada para os usurios. A coleta e posterior anlise dos dados referentes aos acessos podem esclarecer a natureza do trfego no site, auxiliando na compreenso do comportamento dos usurios, e permitindo assim verificar se o site est eficientemente projetado e organizado. Segundo Cooley et al. [COO99], a minerao do uso da Web proporciona um equilbrio entre a viso do projetista de como o site deveria ser usado em contraste com a maneira como os usurios navegam atravs dele.

A anlise dos dados obtidos atravs da aplicao de tcnicas de minerao do uso da Web tem demonstrando ser eficiente nos mais variados domnios, abrangendo desde o comrcio eletrnico (e.g. [SRI00, KOS00, COO99]) at a Educao a distncia (e.g. [MAC03, ZAI01]). Por exemplo, analisando os padres descobertos na rea do comrcio eletrnico possvel auxiliar as organizaes a planejar estratgias de marketing de venda de produtos, a conhecer o tempo de vida dos seus clientes, efetivar campanhas promocionais, entender a motivao dos usurios durante a navegao, construir sites adaptativos, etc. J no contexto da Educao a Distncia, a MUW pode ser utilizada para sugerir melhorias quanto ao contedo e estrutura de um curso, assim como avaliar a efetividade do projeto de um site de acordo com os diferentes processos de aprendizagem. 2.2 Processo de Minerao do Uso da Web O processo de MUW composto por trs etapas distintas, cada uma com suas prprias caractersticas, mtodos, entradas e sadas [COO99]. So elas: Preparao de dados: inclui seleo e limpeza de dados, identificao de usurios, sesses e transaes, complemento do caminho de acesso s pginas Web entre outras atividades; Minerao de Dados: aplicao de algoritmos de Minerao de Dados gerando regras, padres e estatsticas; Anlise de Padres: descoberta de regras e padres interessantes.

A Figura 3, adaptada de [COO97], ilustra cada uma das fases, assim como os principais elementos que compem o processo de MUW. Cabe salientar que o processo de MUW altamente iterativo e interativo, podendo envolver contnuos retornos a uma ou mais fases.
PROCESSO DE MUW PREPARAO DE DADOS MINERAO DE DADOS ANLISE DE PADRES

Figura 3: Fases da Minerao do Uso da Web.

2.2.1

Preparao dos Dados Tcnicas de minerao de uso da Web so aplicadas principalmente sobre conjunto de

sesses ou transaes de usurios, informaes estas contidas principalmente em arquivos de log armazenados nos servidores Web. Uma sesso de usurio composta por todas as pginas acessadas por um determinado usurio durante uma visita ao site. Uma transao um agrupamento semanticamente significativo de pginas contidas em uma sesso. Outras fontes de dados compreendem os formulrios de registro de visitantes, os dados oriundos de scripts e as informaes da autenticao de usurios [COO97]. As informaes contidas no arquivo de log so adicionadas automaticamente quando o usurio realiza uma requisio ao servidor Web. Por exemplo, ao visitar uma pgina Web, as informaes sobre o acesso so adicionadas no arquivo de log. Arquivos de log geralmente seguem um formato padronizado, chamado CLF (Common Log Format), ou uma variao deste formato, chamada ELF (Extend Log File Format) [W3C03]. O arquivo no formato CLF registra todo o histrico das pginas e arquivos acessados pelos usurios. Cada registro deste histrico contm as seguintes informaes: endereo IP que gerou a requisio; data e horrio da requisio; mtodo da requisio (Get ou Post); resultado da requisio (sucesso, falha, erro e etc); tamanho dos dados em nmero de bytes; URL da pgina acessada; e identificao do usurio. A Figura 4 ilustra uma amostra dos dados extrados de um log armazenado em um servidor Web.

Arquivo de Log

Figura 4: Amostra de dados do log de acesso no formato CLF No protocolo HTTP (HyperText Transfer Protocol) [W3C03], um acesso a uma simples pgina Web provoca o registro de vrias entradas de log no servidor considerando os diversos arquivos necessrios visualizao da pgina, sendo estes imagens e estilos, scripts e outros arquivos carregados juntamente com a pgina. Em geral, somente as entradas de log associadas aos acessos s pginas HTML (HyperText Markup Language) sero de interesse para o processo de MUW, pois os demais arquivos, especialmente imagens, no so

10

explicitamente solicitados pelo usurio. Neste contexto insere-se o conceito de viso de pgina que definida como sendo todos os arquivos que contribuem para compor uma pgina tal como visualizada pelo usurio, como resultado de um nico click do usurio. A Figura 5 representa uma viso de pgina que gerou quatro entradas no log armazenado no servidor Web, sendo a primeira relevante para a MUW por referenciar a pgina Web.
200.248.5.164 - aluno [10/jan/20002:00:15:51 - 0200] "GET/SCRIPT/Curso_ABC_02_Jan/scripts/student/Home_page.html" 200 500 200.248.5.164 - aluno [10/jan/20002:00:15:52 - 0200] "GET/SCRIPT/Curso_ABC_02_Jan/scripts/student/city.jpg" 200 7938 200.248.5.164 - aluno [10/jan/20002:00:15:52 - 0200] "GET/SCRIPT/Curso_ABC_02_Jan/scripts/student/sky.jpg" 200 3568 200.248.5.164 - aluno [10/jan/20002:00:15:52 - 0200] "GET/SCRIPT/Curso_ABC_02_Jan/scripts/student/video.mpg" 200 9938

Log Web

Figura 5: Viso de Pgina Web e Log Os dados contidos em um log de servidor Web no representam com total confiabilidade os acessos dos usurios. Isso no se deve apenas ao fato da presena de grande nmero de itens irrelevantes, mas tambm pela freqente ausncia de identificao dos usurios, a inexistncia de registros referentes a visitas a inmeras pginas e a dificuldade de identificar com preciso o incio e o fim de uma sesso de usurio. O uso do cache e servidores proxy esto entre os fatores que contribuem para esta falta de confiabilidade [COO99]. Perante estas inconsistncias, as fontes de dados necessitam passar pela fase de preparao de dados, incluindo o desenvolvimento de um modelo de dados para os logs de acesso; a filtragem e a limpeza dos dados brutos; a identificao de usurios, sesses e transaes; o complemento do caminho de acesso s pginas Web. Outro aspecto relevante observado nas informaes armazenadas nos logs a falta de representatividade semntica das URLs em relao aos servios e contedos oferecidos pelas pginas Web. Por exemplo, a URL /SCRIPT/Curso_ABC/scripts/student/ serve_bulletin?COMPOSE+Main no expressa claramente qual o evento ocorrido no site, e como este relaciona-se com os contedos e servios oferecidos. Este conhecimento geralmente pertence aos projetistas do site ou aos especialistas do domnio. Para superar o problema, tipicamente a fase de Preparao de Dados inclui o enriquecimento semntico dos

11

dados, em particular sobre as pginas acessadas, de acordo com o conhecimento extrado do domnio (e.g. OBE03, DAI02, BER02a). Oberle et al. [OBE03] chama estes logs de logs semnticos. O objetivo principal facilitar a interpretao dos resultados do processo de MUW. Cabe citar que o esforo despendido nesta fase pode chegar at 80% do esforo total no processo sendo os resultados das fases subseqentes altamente dependentes da maneira como os dados so preparados. No tocante ao enriquecimento dos dados, os principais objetivos so obter padres mais representativos, a facilitar a interpretao dos resultados da fase de Minerao de Dados. 2.2.2 Minerao de Dados A fase de Minerao de Dados, tambm conhecida como Descoberta de Padres, compreende a aplicao de tcnicas de minerao sobre os dados pr-processados resultantes da fase anterior [SRI00]. Diversas so as tcnicas de Minerao de Dados disponveis. Dentre elas cabe citar regras associativas, agrupamentos, classificao e padres seqenciais. A tcnica que enfoca a descoberta de padres seqenciais foi a selecionada para esta pesquisa por revelar padres de acesso s pginas Web obedecendo a uma determinada seqncia temporal. Um padro seqencial formado por um conjunto de itens que obedecem a uma seqncia temporal. Tipicamente, padres seqenciais so associados a uma medida de suporte que corresponde ao percentual de seqncias que contm um determinado padro [AGR94a, SRI95]. No domnio da Web, os itens que compem um padro seqencial geralmente so representados por URLs que correspondem a acessos s pginas Web, e o suporte dado pelo percentual de sesses de usurios que contm um determinado caminho de navegao. A Figura 6 representa um padro seqencial extrado de um site de uma livraria online. Este padro composto por 4 URLs, e est associado a um suporte de 80%, isto , 80% das sesses de navegao existentes no log indicam que usurios acessaram a pgina principal, requisitaram informaes referentes ao item 12 e posteriormente ao item 45, e finalmente confirmam a compra destes produtos. O acesso a estas URLs aconteceu nesta ordem, mas no so necessariamente consecutivos. Cabe ressaltar que devido pobreza de

12

representao semntica das URLs, a interpretao do padro seqencial neste caso, depende do auxlio de um especialista de domnio ou projetista do site.
www.shop.com/paginaPrincipal www.shop.com/show.html?item=45 www.shop.com/show.html-?item=12 www.shop.com/finish Suporte: 80%

Figura 6: Padro Seqencial Nas propostas de Agrawal e Srikant [AGR94a, SRI95] e Mannilla et al. [MAN95], a gerao de padres seqenciais feita sobre um banco de transaes, visando encontrar padres seqenciais que ocorrem com uma certa freqncia. Spiliopoulou et al. [SPI98] propem um algoritmo para gerao de padres seqenciais voltado s especificidades da Web. O algoritmo selecionado para esta pesquisa foi o AprioriAll proposto em [AGR94a] por ser um algoritmo tradicional de Minerao de Dados, j aplicado em diversos domnios. Uma implementao deste algoritmo se encontra disponvel na ferramenta Intelligent Miner [IBM04]. O algoritmo descrito com detalhes na prxima subseo. 2.2.2.1 Algoritmo AprioriAll O algoritmo AprioriAll proposto por Agrawal e Srikant [AGR94a] recebe como entrada as chamadas seqncias de dados, formadas por um ou mais itens. Para o processo de MUW, estes itens representam URLs acessadas pelos usurios cujas seqncias constituem sesses de navegao. Tambm, necessrio que o usurio especifique um valor mnimo para o suporte (minsup), lembrando que suporte considerado como o percentual de seqncias de dados que contm um determinado padro. Desta forma, os padres seqenciais resultantes possuem um suporte maior ou igual ao valor do minsup especificado. A Figura 7 representa os resultados obtidos pela gerao de padres seqenciais de acordo com o algoritmo AprioriAll. Considera-se como entrada um conjunto de 6 seqncias de dados, as quais representam acessos s pginas Web de um determinado site. Neste exemplo, uma seqncia de dados composta pelo conjunto ordenado de acessos s pginas Web realizadas por um usurio, isto , uma sesso de navegao de um usurio (ou uma

13

transao contida nesta). Por exemplo, a seqncia de dados do usurio 6 composta por 5 URLs, acessadas nesta ordem: URL1 - URL2 - URL3 - URL4 - URL5. Os itens destas 6 seqncias de dados referem-se a 6 URLs distintas, oferecidas pelo site. O valor para minsup especificado foi 15% (i.e., contido em pelo menos uma sesso), assim muitos padres foram retornados.

Descoberta de Padres [AGR94a] Seqncias de dados Minsup = 15% Padres Seqenciais

Sesso 1 2 3 4 5 6

Seqncia de pginas acessadas URL1, URL2, URL3, URL4, URL5, URL6 URL1, URL3, URL4, URL5, URL6 URL1, URL2, URL4, URL5, URL6 URL1, URL2, URL3, URL5, URL6 URL1, URL2, URL3, URL4, URL6 URL1, URL2, URL3, URL4, URL5

57 padres Seqenciais: (16,6%) URL2 URL3 URL4 URL5 URL6 (50,0%) URL2 URL3 URL4 (50,0%) URL2 URL4 URL5 (50,0%) URL2 URL5 URL6 (50,0%) URL3 URL4 URL5 (50,0%) URL3 URL5 URL6 (66,6%) URL2 URL3 (66,6%) URL2 URL4 (66,6%) URL2 URL5 (66,6%) URL2 URL6 (66,6%) URL3 URL4 (66,6%) URL3 URL5 (66,6%) URL4 URL5 (66,6%) URL4 URL6 (66,6%) URL5 URL6 (66,6%) URL3 URL6

...

Figura 7: Descoberta de Padres Seqenciais O algoritmo AprioriAll baseado na propriedade Apriori, desenvolvida originalmente para algoritmos de associao [AGR93]. Na tcnica de associao, a propriedade Apriori utilizada para encontrar conjuntos de itens freqentes, isto , que possuam suporte acima do mnimo estabelecido pelo usurio. No AproriAll, esta propriedade utilizada para encontrar conjunto de itens freqentes, bem como seqncias freqentes. Originalmente, o AprioriAll foi proposto para encontrar seqncias em transaes de itens comprados por clientes, principalmente do domnio de supermercados, comrcio eletrnico, etc.

14

O algoritmo AprioriAll constitudo por 5 fases: Fase de Ordenao: Os dados de entrada so ordenados por um atributo agrupador (e.g. cliente, sesso) e pelo momento de ocorrncia das transaes (e.g. ordem de acesso as URLs); Fase dos Itens Freqentes: Todos os itens ou conjunto de itens que possuam suporte maior ou igual ao valor do minsup devem ser identificados, ou seja, para que um item seja freqente, o percentual de transaes nas quais ele est contido deve ser maior que o minsup. Fase de Transformao: Visando otimizar o tempo de resposta do algoritmo, todos os itens freqentes das seqncias de dados so mapeados para nmeros inteiros. Fase da Seqncia: Todas as seqncias candidatas so geradas atravs da combinao exaustiva dos itens freqentes, obedecendo ao critrio temporal e o valor de minsup. Alguns algoritmos derivados do AprioriAll (e.g. AprioriSome e DynamicSome) apresentam variaes quanto fase de seqncia. Fase Maximal: Nesta fase, so encontradas as seqncias maximais que esto contidas no conjunto total de seqncias geradas, de forma a reduzir o nmero de padres seqenciais. Uma seqncia maximal quando ela no est contida em nenhuma outra seqncia, ou seja, ela no uma subseqncia de nenhuma outra seqncia. Embora a proposta do AprioriAll original inclua esta fase, muitas vezes o usurio pode estar interessado no suporte especfico das subseqncias do padro maximal. Provavelmente, por esta razo, as implementaes conhecidas destes algoritmos, inclusive a da prpria ferramenta Intelligent Miner que disponibiliza o AprioriAll, no implementam esta fase. Aplicando o algoritmo AprioriAll sobre os dados de entrada descritos na Figura 7, foram obtidos 57 padres seqenciais, o que representa um nmero elevado, considerando o conjunto de dados de entrada. Vale lembrar que o processo de MUW quando aplicado a domnios reais considera milhares de seqncias de dados como entrada. A Figura 7 apresenta alguns padres gerados com o seu respectivo suporte especificado entre parnteses. Por exemplo, o ltimo padro (URL3 - URL6) indica que 66,6% das seqncias de dados de entrada suportam o acesso URL3 seguido (imediatamente

15

ou no) pela URL6. Analisando as seqncias de dados observa-se que este padro verificado no caminho de navegao das sesses 1, 2, 4 e 5. Como os padres seqenciais so resultantes da combinao entre os itens freqentes, muitos deles expressam informaes redundantes. Nota-se, por exemplo, que o acesso URL2 seguido pelo acesso URL4 uma seqncia contida em 4 dos padres apresentados. Por outro lado, se apenas os padres maximais fossem considerados, o analista estaria impossibilitado de analisar informaes mais detalhadas. Por exemplo, se a fase maximal fosse aplicada ao exemplo da Figura 7, apenas o padro URL2 - URL3 - URL4 - URL5 URL6 seria retornado por ser maximal. Se por um lado isto reduziria o nmero de regras, impediria a verificao do suporte especfico das vrias subseqncias. Algumas extenses sobre o algoritmo AprioriAll so propostas no trabalho de Srikant e Agrawal [SRI95], destacando-se a extenso visando a gerao de padres generalizados. Estes padres generalizados so obtidos com o uso de taxonomias que definem uma hierarquia entre conceitos e permitem buscar padres com maior suporte. Considera-se o exemplo representado pela Figura 8, e o conjunto de dados de entrada descritos na Figura 7. Se uma taxonomia definisse que URL2 e URL4 so especializaes do conceito Produto, e se esta taxonomia fosse tambm utilizada como uma entrada ao algoritmo de gerao de padres seqenciais, outros padres constituiriam o conjunto de padres e seriam acrescentados lista de padres j mostrados na Figura 7. Como representado pela Figura 8, os padres generalizados (representados em negrito) resultantes de acordo com os conceitos definidos pela taxonomia passam a fazer parte do conjunto final de padres e tambm apresentam um valor de suporte representativo em relao aos outros padres descobertos. Por exemplo, o padro Produto - URL5 representa todas as seqncias de dados que determinam o acesso a URL2 ou URL4 com posterior acesso URL5. Assim, o valor do suporte maior quando considerada uma generalizao dos itens (URL2 ou URL4) ao invs destes separadamente. Porm, o nmero de padres retornados aumenta ainda mais, considerando os diferentes nveis de abstrao definidos na taxonomia.

16

Alguns padres Seqenciais: Dados Processados [Figura 7] Descoberta de Padres Generalizados [SRI95] Padres Seqenciais ... (66,6%)URL2 URL5 (66,6%)URL2 URL6 (66,6%)URL4 URL5 (66,6%)URL4 URL6 (100%) Produto URL5 (100%) Produto URL6

Produto

URL2

URL4

Taxonomia

Figura 8: Descoberta de Padres Seqenciais com uso de Taxonomia Ainda, no possvel analisar um padro generalizado e verificar os padres existentes em nvel detalhado sem consultar a taxonomia definida e filtrar os padres de acordo com o interesse. Considerando o exemplo citado anteriormente, se o analista tivesse interesse em verificar os padres que suportam o padro generalizado Produto - URL6 (ou seja, os padres URL2 - URL6 e URL4 - URL6), deveria realizar a inspeo manual ou utilizar um filtro para selecionar os padres de acordo com os conceitos da taxonomia que so especializao do conceito Produto. 2.2.3 Anlise de Padres A anlise de padres, foco principal desta pesquisa, a ltima fase da MUW. Ela consiste na identificao de padres relevantes para o domnio da aplicao dentre os retornados pela fase de Minerao de Dados. Descobrir padres interessantes no uma tarefa fcil uma vez que a definio do que interessante muito subjetiva, ou seja, o que interessante para um usurio pode no ser para outros. De acordo com Fayyad et al. [FAY96], um padro considerado interessante quando ele novo, til, vlido e simples. Padres descobertos so vlidos se estes expressam um conhecimento verdadeiro. Eles so considerados novos (pelo menos para o sistema) quando eles contrariam os padres esperados pelo usurio. Quanto utilidade, estes padres devem suportar um conhecimento que possa ser til ao domnio. J a simplicidade refere-se possibilidade de compreenso dos padres pelos usurios.

17

O sucesso da fase de Anlise de Padres dependente das atividades realizadas nas fases anteriores. Freqentemente nesta fase, o analista se depara com um conjunto elevado de padres a serem considerados, muitos deles irrelevantes ao domnio. Este o resultado de aplicao de tcnicas tradicionais de Minerao de Dados, como regras associativas [AGR93] e padres seqenciais [AGR94a, SRI95], as quais propem a combinao exaustiva entre os itens que possuem maior freqncia. Outro aspecto a ser considerado, que muitos padres expressam informaes redundantes devido s combinaes exaustivas de itens (e.g. propriedade Apriori). Desta forma, a atividade de identificao dos padres interessantes ao domnio acaba se tornando uma atividade exaustiva para o analista devido grande quantidade de padres a serem analisados e da freqente redundncia entre eles. Outro problema relacionado fase de Anlise de Padres, a dificuldade de interpretao dos padres seqenciais gerados. No contexto da MUW, isto se deve ao fato de eles usualmente serem representados por colees de URLs que nem sempre expressam claramente as intenes dos usurios durante a navegao de um site Web. Considerando o padro seqencial apresentado na Figura 6, s o analista com conhecimento do domnio interpreta que 80% das sesses do log indicam que usurios acessaram a pgina de busca por produtos disponveis no site, adicionaram, na cesta de compras, o livro Hamlet (item = 12) seguido do livro Romeu e Julieta (item = 45) e posteriormente confirmam a compra destes produtos. A Figura 9 representa a interpretao deste padro seqencial. Neste exemplo, a interpretao do padro torna evidente se o analista possui conhecimento de que o produto de cdigo 12 corresponde ao livro chamado Hamlet, e o item 45 corresponde ao livro Romeu e Julieta. Alm do mais, para o especialista tem que estar claro que estas URLs esto vinculadas aos eventos subjacentes a uma compra realizada pelo usurio, tais como consultar produtos, incluir produtos na cesta de compras e confirmar compra. Nota-se por este exemplo que muitas vezes no h uma correspondncia entre as URLs e eventos no domnio de aplicaes, comprometendo assim, a interpretao dos padres de navegao. Em outras palavras, no h interesse em padres formados por URLs, mas sim

18

em padres que expressem os eventos de domnio que estimulam a navegao. Stumme et al. [STU02] e Berendt et al. [BER02a] definem eventos de domnio pelos contedos e servios oferecidos pela aplicao. De acordo com a Figura 9, um evento de servio oferecidos nas pginas seria adicionar produtos na cesta de compras e eventos de contedo poderiam ser Hamlet e Romeu e Julieta.
Adicionar produtos na cesta de compras

Romeu e Julieta Consulta Produtos Hamlet Confirma Compra

www.shop.com/paginaPrincipal

,www.shop.com/show.html-?item=12

www.shop.com/show.html?item=45

www.shop.com/finish

Suporte: 80%

Figura 9: Interpretao de um padro seqencial pelo especialista Diversas so as abordagens propostas para amenizar os diferentes problemas apresentados, as quais podem ser classificadas em abordagens de filtragem, semnticas e de representao. As abordagens de filtragem tm por objetivo a reduo do nmero de padres com base na definio de filtros, que por sua vez se diferenciam em estatsticos e estruturais. Filtros estatsticos (e.g. [SIL96, AGR93, AGR94a, COO03, POH03]) so utilizados para reduzir o nmero de padres retornados pelos algoritmos de minerao com base em medidas objetivas e subjetivas. Filtros estruturais (e.g. [KLE94, SPI98]) determinam as caractersticas estruturais que os padres devem possuir de acordo com o interesse do analista, limitando assim o conjunto de padres. J abordagens semnticas (e.g. [BER00, BER02c, SRI95, SRI97, KLE94, BER02a, STU02, BER, DAI02, OBE03]) preocupam-se com a representao do conhecimento expresso pelos padres, ou seja, propem-se a associar padres com os eventos do domnio da aplicao, facilitando assim a atividade de interpretao. Abordagens de representao (e.g. [KLE94, SPI98, BLA03] ) exploram tcnicas de representao grfica para facilitar a visualizao de padres. Estas abordagens so apresentadas em detalhes no prximo captulo.

19

2.3 Consideraes Este captulo apresentou as diferentes reas da Minerao da Web, focando-se na Minerao do Uso da Web. O processo iterativo e interativo de MUW prope fases que guiam a descoberta de conhecimento a partir de dados extrados da Web. So elas: Preparao de Dados, Minerao de Dados e Anlise de Padres. Perante a grande diversidade de fontes de dados e da inconsistncia destes, a fase de Preparao de Dados constitui a execuo de atividades como filtragem e a limpeza dos dados brutos; identificao de usurios, sesses e transaes; complemento do caminho de acesso s pginas Web. Esta fase tambm pode incluir o enriquecimento semntico dos dados contidos nos logs de acordo com o conhecimento extrado do domnio. O objetivo principal obter padres mais representativos e facilitar a interpretao dos resultados da fase de Minerao de Dados. Porm, existem limitaes apresentadas pelo enriquecimento semntico do log realizado na fase de Preparao de Dados. Se o enriquecimento semntico no for o adequado para se atingir os objetivos, necessrio retornar fase de Preparao de Dados, revisar como este enriquecimento semntico foi definido e executar a fase de Minerao de Dados novamente. Mesmo que o enriquecimento semntico tenha sido o adequado interpretao de padres, existe a limitao devido ao fato de os dados contidos no log serem estticos, ou seja, o analista somente pode explorar a dimenso de interesse representada no log semntico. A necessidade da utilizao de outras dimenses de interesse implica a re-execuo da fase de Preparao e Minerao de Dados. A fase de Minerao de Dados compreende a aplicao de tcnicas de minerao sobre os dados pr-processados resultantes da fase de Preparao de dados. A tcnica que enfoca a descoberta de padres seqenciais foi a selecionada para esta pesquisa por revelar padres de acesso s pginas Web obedecendo a uma determinada seqncia temporal. O algoritmo utilizado para a descoberta de padres seqenciais o AprioriAll por ser uma tcnica tradicional aplicada no contexto de descoberta de conhecimento. Porm, outros algoritmos de gerao de padres seqenciais e regras associativas poderiam considerados para a proposta deste trabalho.

20

A fase de Anlise de Padres, foco desta pesquisa compreende a identificao de padres relevantes ao domnio. Porm, uma fase trabalhosa para o analista devido ao elevado nmero de padres que geralmente resultam da aplicao de tcnicas de Minerao de Dados durante a fase de Minerao de Dados, em particular regras associativas e padres seqenciais. Outro problema enfrentado no contexto da MUW a dificuldade de compreenso dos padres, geralmente formados por URLs, uma vez que as URLs nem sempre expressam claramente os servios e contedos que impulsionam os usurios durante a navegao no site Web.

21

3 TRABALHOS RELACIONADOS
Este captulo descreve as principais abordagens propostas a auxiliar a interpretao e recuperao de padres relevantes. Para finalizar, descrito um comparativo entre as abordagens.

A fase de Anlise de Padres compreende a identificao de padres relevantes ao domnio, porm descobrir padres interessantes no uma tarefa trivial uma vez que a prpria definio de interessante subjetiva, ou seja, o que interessante para um usurio pode no ser para outros. Como descrito no Captulo 2, a fase de Anlise de Padres torna-se extremamente extenuante quando o analista se depara com um grande volume de padres, muitos deles irrelevantes e redundantes, e de difcil interpretao. Neste contexto, pesquisas vm sendo realizadas visando facilitar a recuperao e interpretao de padres. Neste trabalho, entendese por interpretao de padres as atividades executadas para o entendimento das informaes expressadas por um padro. J recuperao de padres refere-se s atividades realizadas para encontrar padres com determinadas caractersticas em meio a um conjunto destes. Para facilitar o entendimento dos diferentes trabalhos relacionados, proposta uma classificao que diferencia as abordagens de acordo com o objetivo principal: de reduzir o escopo da pesquisa por padres relevantes; de facilitar o entendimento dos eventos de domnio suportado por eles; e finalmente de representao grfica dos padres descobertos. Com base nestes objetivos, os trabalhos relacionados foram classificados por esta pesquisa como abordagens de filtragem; abordagens semnticas e abordagens de representao grfica. Estas abordagens so detalhadas no restante deste captulo. 3.1 Abordagens de Filtragem Abordagens de filtragem referem-se definio de filtros que recuperam padres potencialmente relevantes de acordo com as caractersticas especificadas. Filtros podem ser utilizados aps a fase de Minerao de Dados (Figura 10-a), restringindo o volume de padres na etapa de Anlise de Padres. Neste caso, os padres resultantes da fase de Minerao de Dados so filtrados, selecionando apenas os padres potencialmente relevantes ao domnio de

22

acordo com o interesse do analista definido atravs dos filtros. Outra alternativa, mostrada pela Figura 10-b, aplicar filtros acoplados a tcnicas de Minerao de Dados, buscando gerar apenas regras potencialmente importantes para o domnio, antecipando assim a aplicao de alguns critrios de validao que seriam utilizados na fase de Anlise de Padres.
Fase de Minerao de Dados Fase de Anlise de Padres

(a) Logs

Tcnicas de Minerao de Dados

Filtros de Padres

Padres Interessantes

(b) Logs

Tcnicas de Minerao de Dados + Filtros de Padres

Padres Interessantes

Figura 10: Filtros e as fases do processo de KDD Os filtros de padres so diferenciados em filtros estatsticos e filtros estruturais, detalhados nas sees subseqentes. 3.1.1 Filtros Estatsticos Filtros estatsticos tm como objetivo a recuperao de padres atravs do uso de medidas estatsticas. Silberschatz et al. [SIL96] diferenciam entre medida de interesse objetiva e medida de interesse subjetiva. A medida objetiva depende somente da estrutura das regras e dos dados usados no processo de minerao. Um exemplo deste tipo de medida o suporte utilizado para a gerao de padres seqnciais e regras de associao (e.g. [AGR93, AGR94a]) durante a fase de Minerao de Dados. Neste caso, o objetivo definir um valor mnimo de tal forma que o algoritmo de minerao gere apenas os padres que possuam um valor acima do especificado pela medida objetiva. Filtros estatsticos demonstram eficcia na reduo do nmero de padres retornados, mas a efetividade em se encontrar padres relevantes pode estar comprometida [KLE94, HIP02]. Por exemplo, ao definir um valor alto para a medida do suporte, apenas os padres com suporte superior ao definido sero recuperados. Existe um risco nesta operao pois

23

muitos padres com suporte inferior e potencialmente interessante sero desconsiderados. Outro fato a considerar que nem sempre padres que possuem suporte alto so interessantes por representar um conhecimento prvio e comum. Por exemplo o padro seqencial homepage - login-page deve possuir um suporte alto, mas expressa um conhecimento trivial refletindo que usurios que acessam a pgina principal do site posteriormente realizam a autenticao do usurio. Alm da dificuldade na definio de um valor adequado para as medidas objetivas, existe outro problema quando estas so associadas fase de Minerao de Dados. Elas implicam a re-execuo desta fase tantas vezes quantas for necessrio, parametrizando os algoritmos com diferentes valores, at que padres relevantes sejam identificados (e.g. [AGR93, AGR94a]). Em funo disto, Hipp et al. [HIP02] propem, no contexto das regras associativas, a utilizao de valores irrisrios para o suporte mnimo (minsup) visando gerar todas as regras possveis durante a fase de Minerao de Dados. Um mecanismo de filtragem permite ento selecionar aqueles padres dentre os limiares interessantes. Filtros estatsticos quando aplicados na fase de Anlise de Padres, so utilizados apenas para restringir o foco de busca pelos padres relevantes considerando o conjunto total de padres resultantes da aplicao das tcnicas de minerao (e.g. [HIP02]). Como visto, medidas objetivas no so suficientes para determinar se um padro interessante. Para isso proposta a medida de interesse subjetiva, que depende no somente da estrutura das regras e dos dados usados no processo de minerao, mas tambm de um conhecimento prvio especificado pelo usurio que determina se uma regra interessante ou no. Silberschatz et al. [SIL96] discutem como estas medidas podem ser utilizadas na descoberta de padres relevantes. A proposta descobrir padres inesperados com base num conjunto de crenas (beliefs) previamente especificadas. Um padro inesperado quando ele discorda dos padres definidos como crena. Porm, para definir se um padro inesperado, necessrio primeiramente especificar as crenas. Os autores distinguem dois tipos de crenas: as invariantes (hard beliefs) e as variantes (soft beliefs). Ambos possuem uma medida de confiana associada que determina o grau de sua veracidade em relao ao domnio, valor este especificado a partir de clculos de probabilidade. A diferena que as crenas invariantes, uma vez definidas, no tm sua medida de confiana alterada, diferentemente das crenas

24

variantes onde a medida de confiana atualizada sempre que uma nova evidncia extrada do domnio da aplicao contradisser o padro representado pela crena variante. Assim, uma vez definido o que interessante atravs das crenas, possvel identificar se os padres descobertos so interessantes, ou seja, inesperados neste contexto. Cooley [COO03] prope a utilizao de filtros objetivos e subjetivos baseado nas medidas apresentadas anteriormente para auxiliar a fase de Anlise de Padres. Cooley et al. [COO99a] tambm propem uma forma alternativa de derivar crenas a partir do contedo e estrutura do site. Pohle [POH03] utiliza as medidas subjetivas para determinar quanto um padro seqencial semelhante aos armazenados numa base de conhecimento. Como complemento s medidas defendidas pela abordagem de Silberschatz et al. [SIL96], ele prope o uso de conjuntos fuzzy para classificar o grau de semelhana do padro seqencial descoberto com as crenas, ao invs da definio de um limiar fixo para as medidas subjetivas. Segundo Phole, a vantagem da utilizao dos conjuntos fuzzy que eles se assemelham linguagem utilizada pelos analistas, como por exemplo os conjuntos definidos por baixo e alto, e garantem uma melhor classificao dos nveis de interesse em relao aos limiares pr-definidos. Por exemplo, no intuitiva a razo pela qual um padro que possui uma medida subjetiva de 20% menos significativo que um padro que possua 19,99%. A utilizao de conjuntos fuzzy trata estas incertezas. No geral, as medidas subjetivas so teis para determinar o quanto um padro inesperado para o domnio. Porm a desvantagem que a efetividade destas medidas est diretamente relacionada com a habilidade de expressar o conhecimento do domnio na forma de crenas, suas probabilidades de ocorrncia e nos mtodos de comparao entre os padres descobertos e as crenas armazenadas em bases de conhecimento. 3.1.1.1 Consideraes Filtros estatsticos objetivam reduzir o nmero de padres baseando-se em medidas objetivas e subjetivas. Estes filtros so aplicados tanto na fase de Minerao de Dados quanto na Anlise de Padres. Na fase de Minerao de Dados, a medida estatstica utilizada para guiar a descoberta de padres. A desvantagem que, alm do risco de limitar os padres descobertos,

25

esta fase deve ser re-executada com novos valores para as medidas consideradas sempre que os padres no atenderem aos objetivos propostos. Este problema j no ocorre quando filtros estatsticos so utilizados na fase de Anlise, reduzindo apenas o escopo da busca pelos padres. Medidas objetivas nem sempre so suficientes para determinar se um padro relevante ou no para o domnio da aplicao, afinal um padro com suporte alto no necessariamente relevante, assim como um padro com o suporte baixo no necessariamente irrelevante. O julgamento quanto a um padro ser relevante ou no depende muito das informaes expressas por ele. Neste contexto, medidas subjetivas podem ser aplicadas baseadas no conhecimento prvio especificado na forma de crenas. Elas so teis para determinar o quanto um padro inesperado para o domnio. Porm, sua efetividade est diretamente relacionada com a habilidade de expressar o conhecimento do domnio na forma de crenas, suas probabilidades de ocorrncia e nos mtodos de comparao entre os padres descobertos e as crenas previamente armazenadas em bases de conhecimento. 3.1.2 Filtros Estruturais Filtros estruturais tm como objetivo a recuperao de padres que esto de acordo com as restries estruturais definidas. Estas restries podem definir o contedo do padro, assim como a disposio dos itens que o formam. Um exemplo da aplicao de filtros estruturais na fase de Anlise de Padres o trabalho de Klemettinen et al. [KLE94] que propem a utilizao de filtros (restritivos e inclusivos) visando recuperar regras associativas que obedecem a restries definidas pelo analista em filtros. Taxonomias, que definem uma hierarquia de conceitos, podem ser utilizadas para simplificar a especificao dos filtros. Os autores apresentam um cenrio de uso dos filtros considerando regras associativas descobertas no domnio de um curso de Cincia da Computao. A taxonomia classifica as disciplinas do curso em trs classes: Bsica, Intermediria e Avanada, como representado na Figura 11. Todas as classes so, por sua vez, especializaes da classe Qualquer disciplina.

26

Qualquer disciplina

Bsica

Intermediria

Avanada

Sistemas de Informao

Fundamentos Programao

de

Programao em C

Projeto e Anlise de Algoritmos

Redes Neurais

Figura 11: Taxonomia das disciplinas de um curso de Cincia da Computao

Um exemplo de filtro poderia ser:


Intermediria, Qualquer disciplina* Projeto e Anlise de Algoritmos

visando selecionar todas as regras que possuem disciplinas relacionadas com a classe Intermediria como primeiro item, e os itens seguintes correspondem a qualquer disciplina. Ainda, de acordo com este filtro, o conseqente das regras associativas obrigatoriamente deve ser a disciplina Projeto e Anlise de Algoritmos. Dois exemplos de regras associativas recuperadas de acordo com este filtro definido, seriam:
Programao em C Projeto e Anlise de Algoritmos Programao em C, Redes Neurais Projeto e Anlise de Algoritmos

Um exemplo da aplicao de filtros estruturais na fase de Minerao de Dados o trabalho de Spiliopoulou et al. [SPI98], que prope a especificao de filtros que alimentam um algoritmo de gerao de padres seqenciais. Esta proposta incorporada no ambiente WUM (Web Utilization Miner), um sistema que descobre padres seqenciais de navegao satisfazendo os critrios de filtragem definidos pelo usurio atravs da linguagem de MINT. Estes critrios referem-se estrutura, contedo e estatsticas dos padres a serem descobertos. A seguir apresenta-se um exemplo de filtro definido pela linguagem MINT onde o analista declara interesse pelos caminhos de navegao que iniciam na primeira ocorrncia da pgina A.html ou C.html e que convergem para pgina B.html com no mnimo 5% dos acessos pgina inicial.

27

SELECT t FROM NODE AS x y, TEMPLATE x * y as t WHERE ((x.URL = A.html) or (x.URL = C.html)) AND y.URL = B.html (b.support / a.support) >= 0.05

A Figura 12 ilustra alguns padres de navegao que poderiam ser retornados, dois neste caso. O ambiente WUM ainda prope uma representao grfica para facilitar a visualizao destes padres retornados. Na representao grfica, cada nodo representa uma pgina Web acessada. O primeiro nmero entre colchetes representa a ocorrncia da pgina, e o segundo, o nmero de acessos.
Padres Seqenciais

12-

A A

B X B Padres Seqenciais Representados Graficamente

[A;1;4]

[B;1;2]

[X;1;2]

[B;1;1]

Figura 12: Padres de navegao retornados pela ferramenta WUM Nota-se que os padres representados na Figura 12 respeitam as restries definidas pelo filtro, ou seja, todos iniciam pela pgina A, finalizam na pgina B e com no mnimo 5% dos acessos pgina inicial do caminho de navegao. Compreende-se que das quatro sesses que iniciaram o caminho de navegao pela pgina A, trs concluram com a pgina B, sendo que uma destas sesses passa pelo acesso pgina X antes de chegar a B. Como descrito, filtros estruturais visam reduzir o escopo na busca por padres relevantes. Estes podem ser aplicadas tanto na fase de Descoberta quanto de Anlise de Padres. Porm, a integrao de filtros fase de Minerao de Dados (e.g. [SPI98]) implica a re-execuo desta fase at que padres relevantes sejam identificados. Diferentemente, se associados fase de Anlise de Padres, os filtros so utilizados apenas para restringir o foco

28

de busca pelos padres relevantes considerando o conjunto total de padres resultantes da aplicao das tcnicas de minerao. A desvantagem destas abordagens que o analista deve possuir: a) domnio sobre a sintaxe da linguagem de especificao dos filtros; b) clareza quanto s caractersticas dos padres que deseja recuperar e c) conhecimento do domnio para especificar estas caractersticas utilizando a sintaxe de uma linguagem de filtragem. Numa proposta semelhante s apresentadas, Shah et al. [SAH99], no contexto de regras associativas, visam restringir o escopo na busca por regras relevantes atravs da formao e eliminao de grupos ou famlias de regras. A eliminao de um grupo de regras determinada pela classificao de regras realizadas pelo usurio. Fazem parte de uma mesma famlia de regras, todas as regras que possuem associao entre uma determinada hiptese e um conseqente especfico. Quando o usurio interage com as regras, ele deve classificar as regras de acordo com a sua veracidade e relevncia. Especificar quando uma regra verdadeira importante para a construo da base de conhecimento. J a sua relevncia implica a excluso (regra no relevante) ou permanncia (regra relevante) das regras que pertencem mesma famlia. Por exemplo, muitas regras de senso comum podem ser excludas por serem irrelevantes, como a regra se grvida ento mulher (grvida mulher). Assim, todas as regras que pertencem mesma famlia da regra classificada, sero automaticamente excludas. Estas duas dimenses definem quatro possibilidades de classificao: regra verdadeira e no interessante (RVNI), regra falsa e no interessante (RFNI), regra falsa e interessante (RFI) e regra verdadeira e interessante (RVI). Os autores admitem a dificuldade em classificar regras nestes dois ltimos conjuntos. Os benefcios desta abordagem referem-se reduo do tempo consumido pela identificao exaustiva do que no interessante para o usurio; ao baixo nvel de interao com o usurio, o qual classifica algumas regras representativas; ao processo de classificao simples e a eliminao de uma grande quantidade de regras durante uma nica interao. Porm isto no garante que todas as retras que restem sejam realmente interessantes ao domnio.

29

3.1.2.1

Consideraes Filtros estruturais objetivam reduzir o nmero de padres com base em variadas

caracteristicas dos padres, tais como estrutura, contedo e mesmo estatstica. Da mesma forma que os filtros estatsticos, eles so aplicados tanto na fase de Minerao de Dados quanto na Anlise de Padres. A desvantagem de aplicar filtros estruturais na fase de Minerao de Dados, alm do risco de limitar o nmero de padres descobertos, est na re-execuo desta fase com diferentes propriedades at que padres que satisfaam os objetivos sejam recuperados. Este problema j no ocorre quando filtros estruturais so utilizados na fase de Anlise, reduzindo apenas o escopo da busca pelos padres. Filtros estruturais so teis pois permitem a definio das propriedades que os padres devem possuir de acordo com o interesse do analista. A desvantagem que o analista deve possuir: a) domnio sobre a sintaxe da linguagem de especificao dos filtros; b) clareza quanto s caractersticas dos padres que deseja recuperar e c) conhecimento do domnio para especificar as caractersticas utilizando a sintaxe de uma linguagem de filtragem. Visando amenizar estas desvantagens, alguns autores propem apenas a classificao de regras com o objetivo de desconsiderar a famlia de regras daquelas que so irrelevantes e falsas para o domnio. A vantagem que com poucas interaes uma grande quantidade de regras da mesma famlia pode ser excluda e o analista no precisa se preocupar em definir filtros utilizando uma sintaxe. A desvantagem que nem sempre trivial classificar uma regra de acordo com sua veracidade e relevncia e ao final do processo no existe garantia de que as regras que restaram so todas relevantes ao domnio. 3.2 Abordagens Semnticas Para melhor entender os resultados da minerao, o analista deve ter conhecimento sobre a semntica dos acessos s pginas em termos de eventos e contedo disponveis no domnio. Neste contexto, surgem as abordagens semnticas visando fornecer suporte a interpretao de padres atravs da representao do conhecimento do domnio.

30

As abordagens semnticas foram distinguidas quanto representao do conhecimento do domnio utilizada na integrao com o processo de MUW, a saber, taxonomias e ontologias de domnio. 3.2.1 Taxonomia Taxonomias correspondem a uma forma primitiva de representao de conhecimento, as quais definem uma hierarquia conceitual formada por classes e sub-classes de objetos, relacionadas atravs de relacionamentos de generalizao/especializao (-um). Os trabalhos pesquisados associam o uso de taxonomias a todas as fases do processo de MUW: Preparao de Dados (e.g. [BER00]), Minerao de Dados (e.g. [SRI95, SRI97]) e Anlise de Padres (e.g. [KLE94]). Relativamente aplicao de taxonomias na fase de Preparao de Dados, Berendt et al. [BER00] propem a classificao de URLs em hierarquias conceituais que refletem as estratgias de navegao atravs das mltiplas dimenses do espao de caractersticas das pginas Web. Esta classificao feita baseando-se nos diferentes servios oferecidos pelas pginas resultantes de consultas geradas dinamicamente num determinado site Web. Cabe ao especialista especificar os conceitos que descrevem a aplicao nas diferentes dimenses do espao de caractersticas. A Figura 13, adaptada de Berendt et al. [BER00], exemplifica esta abordagem atravs de uma hierarquia definida para um site de consulta de escolas. Nela, so observadas as diferentes dimenses considerando os tipos de estratgias de pesquisas disponveis aos usurios deste site. Para anlise de padres, Berendt et al. utilizam o ambiente WUM [SPI98] integrado com as hierarquias conceituais definidas, permitindo assim analisar o perfil de navegao dos usurios atravs das diferentes dimenses de interesse. Trabalhos subseqentes (e.g. [POH02, SPI02]) exploram metodologias para a definio de hierarquias conceituais para posterior utilizao da ferramenta WUM. Em um outro trabalho relacionado, Berendt [BER02c] prope um mdulo que estende as funcionalidades propostas pela ferramenta WUM, visando a atualizao das hierarquias conceituais definidas a partir da descoberta de padres que determinam estratgias de navegao diferentes daquelas especificadas na hierarquia. O uso de taxonomias na fase de Minerao de Dados exemplificado pelos trabalhos de Srikant e Agrawal [SRI95, SRI97], os quais propem a extenso de algoritmos de gerao

31

de padres seqenciais e regras associativas respectivamente. Estes algoritmos estendidos visam a gerao de padres generalizados, os quais conseqentemente apresentam maior representatividade, relacionando-se diretamente com a medida de suporte. Como as taxonomias so integradas aos algoritmos de minerao, a necessidade de preparao dos dados reduzida. Um exemplo desta abordagem foi representado pela Figura 8 no Captulo 2. Como j mencionado, as limitaes desta abordagem incluem o aumento do nmero de padres retornados devido gerao dos padres incluindo os conceitos generalizados definidos pela taxonomia e dificuldade de relacionar os padres detalhados aos respectivos padres generalizados.
URL

Site de uma Escola Estratgia de Pesquisa

Lista de Escolas

Consulta

com

Consulta

com

Consulta com trs parmetros

um parmetro

dois parmetros

Parmetro de Pesquisa

Estado

Tipo de Escola

Propriedade Textual

Figura 13: Dimenses da hierarquia Conceitual do site SchulWeb OLAP (On-line Analytical Processing) [HAN97] outro exemplo de aplicao de taxonomias fase de Minerao de Dados. Em um modelo de dados OLAP possvel visualizar os dados de uma maneira analtica e multidimensional, realizando operaes de sumarizao, comparao, taxas multidimensionais e variaes percentuais. Em um modelo de dados OLAP, a informao conceitualmente organizada em cubos que armazenam valores quantitativos (fatos) organizados em dimenses que formam a estrutura de um cubo. Uma dimenso pode ser qualquer viso do negcio de interesse para

32

anlise dos dados, como por exemplo produto, departamento ou tempo. Dentro de cada dimenso de um modelo OLAP, os dados podem ser organizados em uma taxonomia que define diferentes nveis de detalhe (hierarquias, como so comumente denominadas). Por exemplo, dentro da dimenso tempo, pode existir uma taxonomia representando os nveis ano, ms, e dia. Da mesma forma, a dimenso local poder ter os nveis pas, regio, estado e cidade. Assim, um usurio visualizando dados em um modelo OLAP poder sumarizar (rollup) ou detalhar (drill-down) a informao explorando diferentes nveis hierrquicos das dimenses. OLAP um dos recursos analticos que podem estar associados a um data warehouse (DW), como exemplificado no ambiente DBMiner [HAN96]. Neste os dados so representados atravs de um DW multidimensional, onde cada dimenso representa uma taxonomia, os quais so analisados atravs de OLAP (gerao e visualizao de sumrios) ou OLAM (On-line Analytical Mining). Taxonomias tambm podem ser utilizadas para facilitar a fase de Anlise de Padres, como abordado por Klemettinen et al. [KLE94], como j descrito na Seo 3.1.2. Os autores utilizam taxonomias para flexibilizar a definio de filtros na fase de Anlise de Padres, selecionando padres de acordo com as classes especificadas na taxonomia. 3.2.1.1 Consideraes Taxonomias limitam-se a uma hierarquia de conceitos conectados por relaes de generalizao/especializao. Para muitas aplicaes este tipo de relao suficiente para obteno de resultados eficazes. Vrios trabalhos aplicam taxonomias s mais distintas fases do processo de MUW. A utilizao de taxonomias na fase de Preparao de Dados tem como objetivo o enriquecimento semntico do log para facilitar a interpretao dos padres na fase de Anlise de Padres. No entanto, somente na fase de anlise ser possvel avaliar se o enriquecimento semntico foi adequado. Caso contrrio, necessrio retornar fase de Preparao de Dados e rever o enriquecimento semntico do log. Quando taxonomias so utilizadas na fase de Minerao de Dados, permitem a descoberta de padres generalizados e mais representativos ao domnio, ou seja, com suporte mais elevado [SRI95, SRI97]. Porm, a desvantagem deve-se ao aumento do nmero de

33

padres retornados, considerando os diferentes nveis de abstrao definidos pela taxonomia, e redundncia semntica entre eles, a qual dificulta ainda mais a atividade de anlise. Outra desvantagem que no existe conexo entre os padres generalizados e os padres que os detalham. Para este tipo de interpretao, o analista tem que utilizar outros recursos para recuperar os padres detalhados. Em OLAP, possvel explorar um padro considerando as diferentes dimenses definidas pelos cubos, facilitando a interpretao e evitando o retorno fase de Preparao de Dados. Finalmente, taxonomias so aplicadas fase de Anlise de Padres para facilitar a definio de filtros utilizados na recuperao de padres. Limitaes desta abordagem referem-se ao domnio de uma sintaxe para a definio do filtro. 3.2.2 Ontologia de domnio O uso de taxonomias demonstra ser eficiente para alguns propsitos, porm limita a representao do conhecimento do domnio a relaes do tipo -um. Com o desenvolvimento da Web Semntica [LEE01], h um grande incentivo para a formalizao e explorao do conhecimento embutido nas pginas Web atravs de ontologias, definidas como uma especificao formal e explcita de uma conceitualizao compartilhada [GRU93]. Formal pois processada por computador. Explicita pois composta por um conjunto de conceitos, propriedades, relaes, funes, axiomas e restries. Conceitualizao pois um modelo abstrato e simples dos objetos da realidade. Finalmente compartilhada, pois as informaes que ela representa so definidas e aceitas por um grupo de especialistas. Segundo Berners-Lee et al. [LEE01], a Web Semntica uma extenso da Web atual, que se preocupa em disponibilizar informaes tambm para as mquinas (Machineunderstandable Information). A Web Semntica prope rede global a construo de uma estrutura que permita a evoluo de uma rede de documentos para uma rede de dados na qual toda informao tenha um significado bem definido, podendo ser interpretada e processada por humanos ou computadores (agentes computacionais). Neste contexto, novas perspectivas de pesquisas (e.g. [BER02a, STU02]) buscam explorar quais os possveis benefcios resultantes da combinao da rea de Minerao de Dados e da Web Semntica, constituindo assim, uma nova rea de pesquisa denominada Minerao da Web Semntica (Semantic Web Mining). Os objetivos desta frente de pesquisa

34

so complementares: investigar como a definio de ontologias pode auxiliar na gerao de resultados mais interessantes no processo de minerao da Web, e por outro lado, como a Minerao da Web pode auxiliar na criao e refinamento da semntica para Web. A Figura 14, extrada de um trabalho de Berendt et al. [BER02a], ilustra a relao entre estas reas.
Resultados da Minerao da Web mais interessantes com o uso de ontologias (semntica).

Minerao da Web

Web Semntica

Criao e refinamento de ontologias para Web Minerao da Web Semntica

Figura 14: Relao entre Web Semntica e Minerao da Web Stumme et al. [STU02] e Berendt et al. [BER02a] discutem a possibilidade de agregar semntica aos registros de log Web, atualmente pobres em informao. Eles classificam os eventos do domnio da aplicao em eventos atmicos e complexos. Eventos atmicos distinguem-se entre servio ou contedo de acordo com os propsitos das pginas Web. Evento atmico de contedo refere-se ao assunto (e.g. restaurantes, hotis) descrito por uma pgina Web. Evento atmico de servio refere-se ao servio disponibilizado em uma pgina Web (e.g. comprar, pesquisar, comunicar). J um evento complexo constitudo de um conjunto de eventos atmicos representando um caminho de navegao que pode, por exemplo, corresponder a uma estratgia de resoluo de problema conscientemente exercida pelo usurio (e.g. refinamento de termos num processo de busca), uma seqncia de atividades padronizadas relativas ao tipo de site (e.g. operaes padres em site de comrcio eletrnico) ou a descrio de comportamentos identificados pelos especialistas na anlise dos padres descobertos. Partindo para uma abordagem prtica, Dai et al. [DAI02] propem um conjunto de atividades para a fase de Preparao de Dados. O objetivo principal caracterizar perfis de usurios a partir de um conjunto de objetos semnticos provenientes da Ontologia de Domnio que descreve o contedo da aplicao. Neste contexto, os autores classificam a representao de objetos do domnio em dois nveis:

35

Nvel fsico, representado pelas URLs que correspondem s pginas Web. Nvel lgico, representado por uma Ontologia de Domnio que descreve o contedo disponibilizado pelo site Web.

Nesta abordagem, os autores consideram as URLs como um conjunto de objetos que referenciam entidades (conceitos e atributos) definidas na Ontologia de Domnio. Assim, cada sesso de usurio representada como um conjunto de objetos, isto , instncias de conceitos e atributos da ontologia, constituindo assim, uma base de conhecimento. Posteriormente, estas sesses, definidas por estes objetos so agrupadas de acordo com caractersticas similares aplicando a tcnica de agrupamento (clustering) [HAN96]. Desta forma, cada grupo gerado formado por diversas sesses similares. O uso de ontologias permite a gerao de agrupamentos que refletem a semntica das requisies s pginas, ou seja, o contedo de interesse dos usurios que navegam no site. Desta forma a interpretao dos agrupamentos facilitada, uma vez que URLs so representadas por um conjunto de instncias de conceitos e atributos da ontologia. A abordagem de Oberle et al. [OBE03] baseada nas abordagens de Berendt et al. [BER00] e Dai et al. [DAI02] e explora o conhecimento estruturado e representado por uma ontologia. Esta ontologia refere-se camada Ontology Vocabulary da Web Semntica, expressa em RDFS (Resource Description Framework Schema) [BRI02]. As URLs presentes nos logs so mapeadas para um conjunto de entidades da Ontologia de Domnio e representadas por um vetor de caractersticas com pesos (e.g. pesos binrios podem determinar se uma caracterstica est ou no presente na pgina acessada). O assim chamado log semntico, contm para cada requisio de pgina, o horrio de acesso, a URL e o vetor de caractersticas extrado a partir da Ontologia de Domnio. A identificao do usurio tambm pode estar presente. A Figura 15 representa um registro extrado do log semntico, onde Pessoa e Publicao representam conceitos da ontologia que descrevem o contedo do site.
Usurio Horrio URL Vetor de caractersticas Pessoa 4711 12:45 1 Publicao 1

Figura 15: Log Semntico

36

Visando analisar os contedos de interesse dos usurios que acessaram o site Web, os autores aplicaram a tcnica de agrupamento sobre o log semntico. O resultado foi um conjunto de grupos que definem os conceitos de interesse. Cada grupo representa componentes similares referentes a conceitos e relaes da ontologia, e no necessariamente das pginas acessadas. Desta forma, o conhecimento extrado a partir destes grupos de interesse pode ser utilizado para melhorar a estrutura navegacional do site. 3.2.2.1 Consideraes Trabalhos no contexto da MUW buscam explorar ontologias de domnio para o enriquecimento semntico dos dados armazenados no log (log semntico), e conseqentemente obter resultados mais compreensveis pelos analistas. Porm, ainda so poucos os trabalhos desenvolvidos integrando ontologias ao processo de MUW e os que existem, focam-se na fase de Preparao de Dados. A desvantagem do enriquecimento semntico do log na fase de Preparao de Dados acontece devido falta de flexibilidade no suporte fase de Anlise de Padres, ou seja, se o enriquecimento semntico no foi adequado para suportar a interpretao de padres, necessrio retornar fase de Preparao de Dados, revisar a semntica representada e minerar novamente o log para obter novos padres. 3.3 Abordagem de Representao Abordagens de representao enfocam a visualizao grfica de padres visando auxiliar tanto na interpretao quanto na recuperao de padres. Um exemplo da aplicao da abordagem de representao para a interpretao de padres o trabalho de Spiliopoulou et al. [SPI98], o qual prope a visualizao dos padres na forma de uma rvore, complementando o propsito principal que recuperar padres atravs da definio de filtros estruturais pela linguagem MINT. A rvore composta por um conjunto de nodos. O incio da rvore caracterizado por um nodo fictcio, que representa a chegada de todo visitante ao site. Os demais nodos na rvore correspondem ocorrncia de uma pgina nos percursos feitos pelos usurios, com o respectivo nmero de acessos. A Figura 16 adaptada de Spiliopoulou et al. [SPI98], ilustra um exemplo dessa rvore representando que dos 34 usurios que visitaram o site, 21 iniciaram

37

pela pgina a e 13 tomaram a pgina b como ponto de partida. Dos que iniciaram pela pgina a, 11 dirigiram-se diretamente pgina b, e 10 usurios atingiram esta pgina aps acesso pgina d. Nota-se neste exemplo, que os padres so interpretados mais facilmente atravs da representao grfica.

(Pgina:a;Ocorrncia: 1), Suporte: 21


(b,1),11 (a,1),21 (d,1),10 (b,1),10 (e,1),11 (f,1),3

(^,1), 34 (d,1),6 (b,2),6

(c,1),2

(e,1),4 (b,1), 13 (c,1),7 (e,1),7

Figura 16: Visualizao do Padro de navegao pela ferramenta WUM Considerando representao grfica com o propsito de facilitar a recuperao de padres, pode-se citar o trabalho de Klemettinen et al. [KLE94], o qual prope a representao grfica de todas regras associativas na forma de um grafo. Cada atributo composto por um nodo no grafo e a relao representada pelos arcos (Figura 17). A espessura dos arcos diretamente proporcional ao suporte e confiana da regra correspondente, assim o analista pode identificar aquelas regras com maior relevncia estatstica. A desvantagem desta proposta que, dependendo do volume de regras representado, o grafo pode se tornar denso e difcil de ser compreendido. Recursos semelhantes esto presentes em muitas ferramentas de descoberta de conhecimento, tais como DBMiner [HAN96] e Clementine [ISL98].

38

Figura 17: Representao grfica de regras associativas Com o mesmo propsito de facilitar a recuperao de padres, abordagens alternativas de visualizao propem a representao grfica considerando caractersticas especficas. Blanchard et al. [BLA03], por exemplo, propem a representao grfica de regras associativas disponibilizadas em uma arena, onde cada uma constituda por uma esfera e um cone. A altura do cone proporcional confiana da regra e o dimetro da esfera representa o suporte. A posio das regras na arena determina o quanto elas so novas para o domnio da aplicao. A Figura 18 demonstra como as regras associativas so visualizadas e disponibilizadas na arena.

Regras Inesperadas Regras pouco inesperadas

Suporte

Confiana

Figura 18: Regras associativas na arena

39

3.4 Consideraes Como apresentado nas sees anteriores, diversas so as abordagens propostas para dar apoio fase de Anlise de Padres, cada qual com suas contribuies e limitaes. Desta forma, se torna conveniente a combinao das diferentes abordagens apresentadas, como j propem alguns dos trabalhos analisados (e.g. [BER02c, BER00, KLE94]). A Tabela 1 apresenta um comparativo entre as principais caractersticas destas abordagens, visando destacar suas limitaes, as quais serviram como motivao para a definio dos objetivos propostos para este trabalho. Como descrito, existe uma carncia muito grande em trabalhos que explorem uma Ontologia de Domnio para o processo de MUW. Os que existem focam-se (e.g. [DAI02, OBE03]) apenas na fase de Preparao de Dados, oferecendo ainda limitaes quanto criao do log semntico e interpretao dos padres, j discutidas na Seo 3.2.2. Em propostas mais simples, o uso de taxonomia tambm apresenta algumas limitaes quanto interpretao de padres, principalmente devido falta de flexibilidade na interpretao e relacionamento dos padres generalizados e padres especficos correspondentes. Quanto recuperao de padres, abordagens de filtragem atravs de filtros estatsticos limitam o interesse do analista em medidas estatsticas. Como complemento, filtros estruturais oferecem outros critrios, como contedo e estrutura. Porm, estes requerem domnio de uma sintaxe para a especificao dos filtros e tambm profundo conhecimento do domnio requerido para expressar o que relevante. Com base nas deficincias apresentadas pelas abordagens pesquisadas, o presente trabalho prope um conjunto de mecanismos que visa assistir os analistas durante a fase de Anlise de Padres no processo de MUW, suportando as atividades de interpretao e recuperao dos padres seqenciais de navegao atravs do uso de Ontologia de Domnio previamente disponvel. Cabe ressaltar que a fase de Anlise de Padres foi a escolhida para este trabalho para permitir um enriquecimento dinmico dos logs, medida que a interpretao suscita diferentes tipos de interesse.

40

Tabela 1. Comparao das abordagens

Abordagens
Filtragem Filtros estatsticos Filtros Estruturais Objetivo Contribuio
Recuperar padres Reduzir o nmero de padres e restringir o foco de pesquisa em determinado conjunto de padres Minerao de Dados Anlise de Padres - Medidas objetivas no necessariamente determinam um padro interessante; - Medidas Subjetivas: Dificuldade em expressar o conhecimento do domnio e limitaes dos algoritmos de comparao. - Domnio de uma linguagem para especificao dos filtros; - Necessidade de objetivos claros para a definio dos filtros; - Necessidade de profundo conhecimento do domnio; - Re-execuo da fase de Minerao de Dados para cada novo objetivo.

Taxonomia

Semntica Ontologia

Representao
Recuperar e Interpretar Facilitar a recuperao e interpretao de padres relevantes atravs da representao grfica Anlise de Padres - Complementar s demais abordagens.

Interpretar padres Facilitar a interpretao de Padres

Fase do Processo Desvantagens

Preparao de dados Minerao de Dados Anlise de Padres - Limitao utilizao de relaes do tipo -um; - Gerao de muitos padres quando associado fase de Minerao de Dados e falta de suporte a interpretao dos padres resultantes e seus relacionamentos; - Na fase de Anlise de Padres, est vinculada a abordagens estruturais.

Preparao de dados - Poucos trabalhos; - Representam o contedo dos sites Web; - Trabalhos limitam-se a apresentar perspectivas da explorao da Web Semntica. - Enriquecimento semntico na Preparao limita a anlise de padres por impossibilitar a explorao de diferentes dimenses de interesse.

41

4 REPRESENTAO DA ONTOLOGIA DE DOMNIO PARA A INTERPRETAO E RECUPERAO DE PADRES SEQENCIAIS


Este captulo apresenta os principais objetivos da abordagem proposta assim como os requisitos para a representao da Ontologia de Domnio para a interpretao e recuperao de padres seqenciais. Tambm so apresentadas algumas particularidades quanto s fases do processo de MUW.

O objetivo principal deste trabalho propor mecanismos que facilitem a interpretao e recuperao de padres seqenciais de navegao atravs da utilizao de Ontologia de Domnio disponibilizada previamente. Estes mecanismos referem-se a duas dificuldades principais encontradas na fase de Anlise de Padres: a grande quantidade de padres resultantes da aplicao de algoritmos para a busca de padres seqenciais e a falta de semntica neles representada. Os objetivos especficos so: propor mecanismos que facilitem a interpretao de padres atravs da representao de padres seqenciais de URLs em padres conceituais; propor mecanismos que facilitem a interpretao dos padres conceituais atravs da anlise exploratria da semntica destes padres conceituais; propor mecanismos que auxiliem a recuperao de padres conceituais atravs da definio de filtros com o uso de Ontologia de Domnio; definir um ambiente de apoio fase de Anlise de Padres que incorpore estes mecanismos, permitindo uma avaliao sobre a utilidade dos mesmos. As prximas sees deste captulo descrevem os requisitos para aplicao da abordagem proposta. Estes se referem ao conhecimento do domnio e s particularidades das etapas do processo de MUW.

42

4.1 Ontologia de Domnio Visando agregar semntica s URLs pobres em informao, prope-se a explorao de Ontologia de Domnio previamente definida, a qual especifica os eventos do domnio, suas propriedades e relacionamentos com outros eventos. Neste contexto, eventos de domnio so considerados segundo duas dimenses, a saber, servio e contedo. Este trabalho adota a classificao de Stumme et al. [STU02] e Berendt et al. [BER02a] para eventos, restrita a eventos atmicos. Assim, a ontologia especifica eventos atmicos de servio e de contedo. Como na abordagem de Oberle et al. [OBE03], no presente trabalho os eventos de domnio so representados em dois nveis: Nvel Conceitual e Nvel Fsico. O primeiro representado pela Ontologia de Domnio, e o segundo pelas URLs que compem o site Web. Existe uma conexo entre estes nveis, feita atravs do mapeamento das URLs para os conceitos da ontologia. A Figura 19, ilustra os eventos do domnio segundo estes dois nveis, para um site turstico no qual os usurios podem visualizar detalhes sobre a descrio de restaurantes e hotis, fazer reservas e assim por diante.
Nvel Conceitual
Evento Legenda Ontologia: Conceito agregao generalizao propriedade

Contedo Servio

Acomodao Visualizar

Restaurante

Vegetariano Localizar
Refere-se-a disponibiliza

Italiano

Hotel Infra-estrutura

Reservar

Academia

QuadraTenis

Legenda Mapeamento: Dimenso Predominante Dimenso Secundria

www.tour/scripts/list.html

www.tour/scripts/list.html?Blue-tree

Nvel Fsico

Figura 19: Nveis de representao dos eventos de domnio

43

4.1.1

Nvel Conceitual Neste trabalho, a Ontologia de Domnio representa e suporta o relacionamento entre os

conceitos do domnio, provendo assim a semntica da aplicao. Um conceito da ontologia representa um evento de domnio. O conceito que representa um evento de contedo chamado de conceito de contedo. O conceito que representa um evento de servio chamado de conceito de servio. Os conceitos de contedo e servio relacionam-se entre si considerando dois tipos de relaes: relao de hierarquia e relao de propriedade. A estrutura da ontologia est representada no diagrama de classes de UML apresentado na Figura 20. Uma relao de hierarquia define diferentes nveis de abstrao entre dois conceitos, ou seja, uma relao de hierarquia relaciona um conceito denominado ascendente a um conceito denominado descendente. O conceito ascendente aquele que est representado num nvel de abstrao superior ao conceito descendente. Da mesma forma, um conceito descendente representa um nvel de abstrao mais detalhado que o conceito ascendente. Um conceito descendente relaciona-se com um conceito ascendente atravs de apenas uma relao de hierarquia. J um conceito ascendente pode relacionar-se com diversos conceitos descendentes. Dois tipos de relaes hierrquicas so considerados: generalizao (relaes do tipo -um): corresponde abstrao de conceitos que compartilham similaridades. Por exemplo, cachorro um mamfero. Neste exemplo, o conceito ascendente mamfero uma generalizao, e o conceito descendente cachorro uma especializao. agregao (relaes do tipo parte-de): representa associao de componentes para compor uma classe. Por exemplo, porta parte de carro. Neste exemplo, o conceito ascendente carro uma agregao, e o conceito descendente porta o componente. Os relacionamentos de propriedade definem um conceito dito sujeito, atravs de uma propriedade que possui um nome, para a qual um outro conceito representa o objeto. Um relacionamento de tipo propriedade no simtrico. A tripla formada pelo sujeito,

44

propriedade e objeto chamada de sentena em RDFS [BRI02]. Por exemplo, Hotel atende cliente. Neste exemplo, Hotel representa o conceito sujeito, atende corresponde ao nome da propriedade e cliente ao objeto.
Conceito de Servio Conceito de Contedo

Hierarquia 0..* 0..1 Tipo

ascendente

Conceito nome

sujeito

* *

descendente

objeto

Propriedade nome

Relao

Figura 20: Estrutura da Ontologia de Domnio As restries que definem a estrutura da Ontologia de Domnio so necessrias para simplificar os mecanismos de interpretao e recuperao propostos neste trabalho. Estas restries podem ser estendidas em trabalhos subseqentes. A ontologia descrita em Nvel Conceitual da Figura 19 ilustra os diferentes tipos de conceitos e seus relacionamentos. A ontologia representada graficamente sem seguir uma conveno especfica, e pode ser encontrada no Anexo I deste volume, descrita utilizando a linguagem OWL (Ontology Web Language). Neste exemplo, os conceitos Reservar, Localizar, Visualizar so descendentes do conceito Servio. Reservar tem como conceito ascendente Servio, e Servio ascendente de Reservar, Localizar e Visualizar. Da mesma forma, Acomodao e Restaurante so descententes do conceito Contedo. O servio Localizar sujeito propriedade do nome refere-se-a, cujo objeto o contedo Hotel. A Ontologia de Domnio pode ser representada utilizando qualquer linguagem que permita a definio de conceitos e a relao entre eles. Estas linguagens vo desde a simplicidade proposta por RDFS [BRI02] at as que oferecem maior representao semntica como a OWL [SMI04].

45

4.1.2

Nvel Fsico e Mapeamento URLs representam os conceitos atmicos de contedo e servio em Nvel Fsico. As

URLs disponveis em Nvel Fsico so mapeadas para conceitos da ontologia (Nvel Conceitual) de acordo com o evento de domnio que estas URLs representam (Figura 21). Uma URL pode ser mapeada para um conceito de servio, um conceito de contedo ou ambos. Neste ltimo caso definida a dimenso predominante, a qual representa o principal evento de domnio simbolizado pela URL. A outra dimenso, se existente, passa a ser denominada dimenso secundria. Um nico conceito da ontologia pode ser mapeado para diferentes URLs, sendo que nem todas as URLs necessitam ser mapeadas.
Conceito de Servio 0..1 0..* URL
Dimensao Predom inante

Conceito de Contedo 0..1 0..*

Figura 21: Mapeamento entre Nvel Fsico e Nvel Conceitual O Nvel Fsico e o seu mapeamento para o Nvel Conceitual tambm esto exemplificados na Figura 19. O Nvel Fsico constitudo pelas URLs que compem o site turstico. O Nvel Fsico relaciona-se com o Conceitual atravs do mapeamento das URLs para conceitos da Ontologia de Domnio. Estes conceitos utilizados no mapeamento indicam o nvel de abstrao mais detalhado da URL em Nvel Conceitual. Na Figura 19, a URL www.tour/scripts/list.html mapeada para o conceito de servio Localizar. Isso significa que ela disponibiliza o recurso de localizar informaes. A URL www.tour/scripts/list.html?Blue-tree mapeada para o conceito de contedo Hotel, significando que disponibiliza informaes sobre um hotel em especfico. Esta mesma URL mapeada para um conceito de servio, embora simples, que o de visualizar informaes (conceito Visualizar). Como uma nica pgina est sendo mapeada para dois conceitos de tipos diferentes, necessrio definir a dimenso predominante. No caso da pgina www.tour/scripts/list.html?Blue-tree, a dimenso predominante seria a dimenso de contedo uma vez que o objetivo principal disponibilizar contedo aos usurios.

46

A utilizao de ontologia visa enriquecer as informaes representadas pelas URLs. A partir da URL www.tour/scripts/list.html, utilizada como exemplo e mapeada para um conceito de servio na Ontologia de Domnio, possvel inferir que esta URL diz respeito a localizar informaes referentes a hotis e que estes por sua vez disponibilizam infraestrutura, como por exemplo quadra de tnis e academia. Nota-se que a ontologia utilizada neste exemplo no se limita a uma hierarquia de conceitos (somente relaes do tipo -um) como apresentada em muitos trabalhos (e.g. [SRI95, BER00]), mas sim, declara diversas relaes entre os objetos que enriquecem a semntica do domnio representada. Conseqentemente, os logs mapeados para estas ontologias tambm podero fazer uso das vantagens que ela pode proporcionar para a atividade de interpretao de padres. 4.2 O Processo de MUW No processo de MUW, a abordagem proposta enfoca a fase de Anlise de Padres. Desta forma, algumas premissas so consideradas para a execuo do processo de MUW. 4.2.1 Criao da Ontologia de Domnio e Mapeamento Ontologias podem ser criadas manualmente (ad-hoc) ou utilizando mecanismos semiautomticos. Nesta ltima abordagem, tcnicas de aprendizado de mquina e extrao de informaes vm sendo utilizadas para melhorar o processo de construo de ontologias (e.g. [SUR02]). Com o advento da Web Semntica, diferentes grupos de pesquisa vm incentivando a formalizao do conhecimento representado em sites por ontologias de domnio. Este trabalho no se preocupa com o processo de aquisio e validao de ontologias. Parte-se do pressuposto que ontologias j estejam disponveis para compartilhamento de conhecimento do domnio da aplicao e as URLs estejam devidamente mapeadas. A estrutura da ontologia e os mapeamentos devem respeitar as restries estabelecidas.

47

4.2.2

Preparao de Dados Na fase de Preparao de dados, atividades tpicas so executadas sobre os dados

coletados do log do servidor Web, como limpeza de dados, identificao do usurio e sesses, atividades estas descritas na Seo 2.2.1. Devido existncia da Ontologia de Domnio e do mapeamento das URLs para os conceitos desta, no se assume qualquer atividade relativa ao enriquecimento semntico dos logs no tocante a URLs a partir da Ontologia de Domnio. 4.2.3 Minerao de Dados Nesta fase considerada a tcnica de descoberta de padres seqenciais definida pelo algoritmo AprioriAll [AGR94a], descrito na Seo 2.2.2.1. Assim, tem-se como resultado desta fase um conjunto de padres seqenciais formados por URLs, com o respectivo suporte. 4.2.4 Anlise de Padres Os mecanismos propostos para este trabalho so aplicados nesta fase. Desta forma, algumas entradas se fazem necessrias. Devem ser considerados os dados pr-processados resultantes da fase de Preparao de Dados, a lista de padres seqenciais formados por URLs resultante da fase de Minerao de Dados, a Ontologia de Domnio, assim como o mapeamento das URLs para os conceitos da ontologia. A Figura 22 representa as entradas para a fase de Anlise de Padres. Mais detalhes sobre estas nos prximos captulos.
PROCESSO DE MUW DESCOBERTA DE PADRES Algoritmo AprioriAll
Lista de padres seqnciais formados por URLs

PREPARAO DE DADOS Atividades de Preparao de dados

ANLISE DE PADRES

Log Web

Dados prprocessados

Mecanismos de Interpretao e Recuperao de Padres

URLs

Mapeamento URLs Ontologia de Domnio

CONHECIMENTO DO DOMNIO

Figura 22: Entradas para a fase de Anlise de Padres

48

5 MECANISMOS DE INTERPRETAO DE PADRES DO USO DA WEB


Este captulo descreve os mecanismos propostos para apoiar a atividade de interpretao de padres, atravs da representao dos padres seqenciais conceituais e da anlise exploratria destes.

O processo de MUW eficaz quando padres relevantes ao domnio da aplicao so identificados. Porm, anteriormente ao julgamento referente importncia de um padro para um domnio, fundamental entender o conhecimento expresso por ele. Visando facilitar a atividade de interpretao de padres, esta abordagem prope alguns mecanismos que fazem uso da Ontologia de Domnio e do mapeamento previamente definidos. Estes mecanismos referem-se a: representao de padres seqenciais de URLs na forma de padres seqenciais conceituais de acordo com uma dimenso de interesse; e a anlise exploratria dos padres conceituais, que permite um aprofundamento da compreenso do significado destes. Estes mecanismos foram definidos visando complementar as deficincias apresentadas pelos trabalhos relatados no Captulo 3. Os mecanismos propostos para interpretao de padres so detalhados no restante deste captulo. 5.1 Representao de Padro Seqencial Conceitual Uma das caractersticas dos padres interessantes a sua simplicidade de modo a possibilitar a compreenso do conhecimento pelos analistas. Sem o enriquecimento semntico provido na fase de Anlise de Padres, os resultados da fase de Minerao de Dados so padres seqenciais compostos por URLs ordenadas, denominados neste trabalho de padres seqenciais fsicos. Explorando a Ontologia de Domnio disponvel e o mapeamento das URLs para os conceitos da ontologia, este trabalho prope representar os padres seqenciais fsicos na forma de padres seqenciais conceituais visando facilitar o entendimento do conhecimento expresso por um padro seqencial.

49

Um padro seqencial conceitual um padro formado por uma seqncia ordenada de conceitos definidos pela Ontologia de Domnio. A denominao de padro conceitual foi inspirada na abordagem de Oberle et al. [OBE03], o qual refere-se a um agrupamento de conceitos da ontologia que representa os contedos do site acessados pelos usurios como Conceptual User Tracking (Captulo 3, Seo 3.2.2). Um padro conceitual uma representao conceitual de um padro seqencial fsico de acordo com uma dimenso de interesse especificada pelo analista. A dimenso de interesse pode ser de servio, contedo ou servio e contedo. Esta dimenso definida de acordo com o interesse do analista nos eventos de domnio envolvidos no padro seqencial fsico. Desta forma, possvel interpretar um mesmo padro seqencial fsico considerando 3 dimenses de interesse. A dimenso de servio permite visualizar um padro seqencial fsico como um conjunto de conceitos de servio, que constituem o padro seqencial conceitual. A dimenso de contedo representa um padro seqencial fsico como um padro seqencial conceitual formado por conjunto de conceitos de contedo. J a dimenso de servio e contedo representa um padro seqencial fsico como um padro seqencial conceitual definido por um conjunto de conceitos de servio ou contedo, representados de acordo com a dimenso predominante da URL. Para exemplificar a utilidade destas dimenses, considera-se o site de busca por hotis e restaurantes descrito anteriormente, para o qual a Ontologia de Domnio da Figura 19 foi desenvolvida. As URLs foram mapeadas para os conceitos da ontologia, como descrito pela Tabela 2. Tabela 2. Mapeamento das URLs para os conceitos da ontologia
URL www.tour/scripts/list.html www.tour/scripts/list.html?Blue-tree www.tour/scripts/commited www.tour/scripts/list.html?NewLife
Legenda: DP Dimenso Predominante;

Conceito de Servio Localizar (DP) Visualizar Reservar (DP) Visualizar

Conceito de Contedo Hotel Hotel (DP) Hotel Restaurante (DP)

50

www.tour/scripts/serve_find.html www.tour/scripts/commited

www.tour/scripts/list.html?Blue-tree

www.tour/scripts/list.html?NewLife.

Figura 23: Exemplo do padro seqencial fsico A Tabela 3 apresenta os trs padres seqenciais conceituais, correspondentes ao padro seqencial fsico da Figura 23, de acordo com as diferentes dimenses de interesse previamente definidas pelo usurio. Tabela 3. Exemplo de padres seqenciais conceituais
Dimenso de Interesse Servio e Contedo Servio Contedo Padro Seqencial Conceitual Localizar Hotel Reservar Vegetariano Localizar Visualizar Reservar Visualizar Hotel Hotel Hotel Vegetariano

Nota-se que interpretar o conhecimento representado por um padro seqencial conceitual mais fcil de interpretar do que por um padro seqencial fsico. Por exemplo, o padro conceitual associado dimenso de servio e contedo da Tabela 3 claramente expressa que um grupo de usurios localizou informaes, acessou uma pgina sobre um hotel especfico, requisitou uma reserva e posteriormente acessou uma pgina sobre o contedo vegetariano. A interpretao do mesmo padro seqencial fsico atravs de um padro seqencial conceitual de acordo com a dimenso de servio similar representada anteriormente. A nica diferena que as pginas de contedo passam a ser interpretadas pelo servio que oferecem. Neste caso, a segunda e a ltima URLs so interpretadas usando o servio de visualizar informaes. J considerando a dimenso de contedo, o mesmo padro seqencial facilmente interpretado, expressando que os usurios do site esto interessados em hotis e vegetarianos. Cabe salientar que neste exemplo, todas as URLs foram mapeadas para as dimenses de servio e contedo. Caso uma URL no tenha sido mapeada para a dimenso de interesse, o analista informado que o servio ou contedo est indisponvel. O diagrama de classes UML da Figura 24 ilustra as classes envolvidas e os relacionamentos entre estas.

51

Conceito 2..* nome Conceito de Servio 0..1 0..* URL


Dimensao Predominante

Conceito de Contedo 0..1 0..*

Ordem

Ordem

2..*

Padro Sequencial Fsico

* Padro Sequencial Conceitual Dimenso de Interesse

0..3

Padro Conceitual Base

Padro Conceitual Abstrato

Figura 24: Padro Seqencial Conceitual Um padro seqencial conceitual dito padro conceitual base quando ele representado pelos conceitos que foram utilizados no mapeamento entre os nveis Fsico e Conceitual do respectivo padro seqencial fsico. Desta forma, os padres seqenciais conceituais representados na Tabela 3 so padres conceituais base. Um padro conceitual base corresponde assim a no mximo um padro seqencial fsico. J um padro conceitual abstrato corresponde a vrios. Um padro conceitual abstrato derivado originalmente de um padro seqencial base. A diferena que ele formado por pelo menos um conceito ascendente obtido a partir de um conceito do padro conceitual base. Um padro conceitual abstrato criado a partir da operao de roll-up que compe a anlise exploratria, descrita na prxima seo. Um padro seqencial conceitual pode ser representado grfica ou textualmente.

52

5.2 Anlise Exploratria Este trabalho tambm prope um conjunto de mecanismos que constituem a anlise exploratria, permitindo ao analista investigar as relaes dos conceitos que formam um padro seqencial conceitual com os demais definidos pela Ontologia de Domnio. A anlise exploratria composta pelas operaes de: detalhamento de relacionamentos; roll-up; drill-down.

Estes mecanismos so requisitados pelo analista e suportam a interao com os padres seqenciais conceituais. Estas operaes so aplicveis sobre a representao grfica do padro conceitual base. As operaes de roll-up e drill-down foram definidas em analogia s operaes de mesmo nome propostas pela tecnologia OLAP. Estes mecanismos so abordados em detalhes nas prximas sees. 5.2.1 Detalhamento de Relacionamentos A operao de detalhamento de relacionamentos explora a semntica das relaes e dos conceitos que esto associados aos conceitos que compem um padro seqencial conceitual (base ou abstrato). Neste trabalho, esta operao distingue-se de acordo com o tipo de relao utilizada para conectar dois conceitos, podendo ser operao de detalhamento de hierarquia e de propriedade. A operao definida como detalhamento de hierarquia permite investigar os conceitos ascendentes aos conceitos que compem um padro seqencial conceitual, isto , que esto conectados atravs de uma relao de hierarquia. Portanto, ela pode ser executada sobre um conceito de um padro seqencial conceitual sempre que existir um conceito ascendente. A representao grfica do padro seqencial conceitual indica quando a operao de detalhamento de hierarquia est habilitada. A Figura 25 ilustra graficamente um padro conceitual base formado por quatro conceitos definidos conforme mapeamento da Tabela 2 e seu detalhamento de hierarquia com

53

base na Ontologia de Domnio definida pela Figura 19. Neste exemplo, a possibilidade de utilizao desta operao de detalhamento de hierarquia representada por uma seta apontando para cima em cada conceito que compem o padro conceitual base. Assim, percebe-se que a operao de detalhamento de hierarquias pode ser executada sobre todos os conceitos do padro conceitual base. Requisitando esta operao sobre o conceito Localizar, descobre-se que este um tipo de servio oferecido pelo site turstico. Solicitando a mesma operao sobre o conceito Hotel, verifica-se que hotel um tipo de acomodao. Finalmente, realizando esta operao sobre o conceito Acomodao possvel interpretar que acomodao faz parte do contedo disponibilizado pelo site.
Legenda: Conceito Ascendente Conceito do padro conceitual base Relao de Hierarquia

Contedo
faz-parte

Relao de Propriedade Operao Habilitada

Servio
-um

Acomodao
-um

Localizar

Hotel

Reservar

Vegetariano
Suporte: 33.33%

Figura 25: Detalhamento de hierarquias Outra operao complementar ao detalhamento de hierarquias, o detalhamento de propriedade entre os conceitos que compe o padro seqencial conceitual e os existentes na Ontologia de Domnio. O conceito que possui uma relao de propriedade deve apresentar um smbolo que indique a existncia da relao, significando que esta operao est habilitada. Ao requisitar a operao de detalhamento da relao de propriedade sobre um conceito, o significado desta mostrado atravs de uma sentena. Por exemplo, na ontologia representada pela Figura 19 existe uma relao de propriedade entre os conceitos Localizar e Hotel, chamada refere-se-a. Desta forma, qualquer

54

padro seqencial conceitual que apresentar o conceito Localizar poder utilizar o significado desta propriedade para auxiliar na interpretao do padro. Como representado na Figura 26, os conceitos Localizar e Hotel esto relacionados com outros conceitos atravs de relaes de propriedade sinalizadas por uma cruz. Explorando-as, possvel interpretar que o evento de localizar informaes no site refere-se a informaes sobre hotis, que por sua vez disponibilizam infra-estrutura.

Localizar

Hotel

Reservar

Vegetariano
Suporte: 33.33%

Localizar refere-se a Hotel

Hotel disponibiliza Infra-estrutura

Figura 26: Detalhamento de relacionamentos 5.2.2 Roll-up A operao de roll-up refere-se sumarizao de padres seqenciais conceituais atravs da substituio de um conceito que compe o padro por seu conceito ascendente. Quando aplicada a um conceito que compe um padro conceitual base, a operao de roll-up tem como resultado um padro conceitual abstrato. Quando aplicada a um conceito que compe um padro conceitual abstrato, a operao de roll-up gera outro padro conceitual mais genrico. Portanto, um padro conceitual abstrato uma abstrao de um ou mais padres conceituais base, e por conseguinte, de um ou mais padres seqenciais fsicos. A Figura 27 representa trs padres seqenciais conceituais visualizados de acordo com a dimenso de interesse servio e contedo. Dois destes padres so padres conceituais abstratos resultantes de sucessivas operaes de roll-up. Observa-se um padro conceitual base, a partir do qual foi obtido o padro conceitual abstrato 1, aplicando-se a operao de roll-up sobre o conceito Hotel que compe o padro conceitual base. Como resultado, foi gerado um padro conceitual base onde o conceito hotel foi substitudo pelo seu ascendente acomodao, de acordo com a ontologia da Figura 19. Da mesma forma, o padro conceitual abstrato 2 foi obtido atravs de uma operao de roll-up sobre o conceito Acomodao do padro conceitual abstrato 1, que o substituiu pelo conceito ascendente Contedo.

55

PADRO CONCEITUAL BASE


Localizar Hotel
Roll-up

Reservar

Vegetariano
Suporte: 33.33%

PADRO CONCEITUAL ABSTRATO 1


Localizar Acomodao Reservar Vegetariano
Suporte: 66.66% Roll-up

PADRO CONCEITUAL ABSTRATO 2


Localizar Contedo Reservar Vegetariano
Suporte: 66.66%

Figura 27: Padro Conceitual Base e Padres Conceituais Abstratos Um padro conceitual abstrato sumariza todos os padres conceituais base que estiverem de acordo com as restries expressas pelo padro. Por exemplo, de acordo com a Ontologia de Domnio representada na Figura 19, o padro conceitual abstrato 1 da Figura 27 suporta todos os padres seqenciais conceituais que possuem a estrutura Localizar - (Hotel ou Pensionato) - Reservar - Restaurante. O suporte dos padres seqenciais conceituais varia conforme o nmero de sesses que esto de acordo com as restries definidas pelo padro seqencial conceitual. Nota-se que o suporte do padro conceitual abstrato 1 (66,66%) maior do que o padro conceitual base que originou o padro conceitual abstrato (33,33%). Isto significa que existem outros padres conceituais base suportados por ele alm daquele originalmente utilizado para ger-lo (Localizar - Hotel - Reservar Vegetariano). Sempre que um padro conceitual abstrato criado, o valor do suporte para aquele padro deve ser calculado. Para um padro conceitual base isso no preciso pois o valor do suporte o mesmo do padro seqencial fsico ao qual ele est associado. A seo seguinte descreve como este clculo realizado.

56

5.2.2.1

Suporte de um Padro Conceitual Abstrato A criao de um padro conceitual abstrato requer clculo do suporte. O suporte de

um padro conceitual abstrato corresponde ao percentual de sesses de usurios que suportam aquele padro conceitual abstrato. Para que uma sesso suporte um padro conceitual abstrato necessrio que a seqncia de URLs da sesso esteja mapeada para a seqncia de conceitos do padro conceitual abstrato, considerando a dimenso de interesse. Lembrando que a seqncia de conceitos, imediatos ou no, considera os conceitos descendentes. O clculo do suporte realizado por uma funo que recebe como parmetro de entrada: um padro conceitual abstrato; o log pr-processado resultante da fase de Preparao de Dados; a Ontologia de Domnio; mapeamento que define a associao das URLs para os conceitos da ontologia e a dimenso de interesse. O padro conceitual abstrato, a Ontologia de Domnio, a dimenso de interesse e o mapeamento so utilizados para definir quais sesses suportam o padro conceitual abstrato. J o log pr-processado utilizado na contagem das sesses de usurios que esto de acordo com os possveis padres conceituais base candidatos. Desta forma, o log pr-processado fundamental para o clculo do suporte do padro conceitual abstrato, uma vez que este no corresponde soma do valor do suporte dos padres seqenciais fsicos que so sumarizados por ele. A funo que determina o clculo do suporte composta pelos seguintes passos: 1. identificar os possveis padres conceituais base candidatos que so sumarizados pelo padro conceitual abstrato. a. Para cada conceito do padro conceitual abstrato, identificar quais so os conceitos descendentes na ontologia. Para cada conceito descendente, por sua vez, so verificados seus descendentes, e assim recursivamente. Do conjunto de descendentes assim extrado, eliminam-se todos os que no possuem um mapeamento para URL na dimenso de interesse, uma vez que estes conceitos no poderiam compor os padres conceituais base sumarizados pelo padro conceitual abstrato.

57

b. identificar a seqncia na qual os conceitos devem aparecer nos possveis padres conceituais base candidatos. Esta seqncia tem que estar de acordo com a ordem dos conceitos no padro conceitual abstrato, ou seja, uma determinada posio ocupada por um conceito ascendente no padro abstrato pode ser ocupada por qualquer conceito descendente deste no padro conceitual base. 2. encontrar os padres fsicos candidatos que referenciam os padres conceituais base candidatos. Para identificar os padres seqenciais fsicos candidatos necessrio verificar para quais URLs os conceitos dos padres conceituais base candidatos esto mapeados de acordo com a dimenso de interesse. 3. identificar quais as sesses de usurios que contm a seqncia definida pelos padres seqenciais fsicos candidatos. 4. somar as sesses resultantes do passo 3 e dividir o valor obtido da soma pelo total de sesses presentes no log pr-processado. Este valor corresponde ao valor do suporte do padro conceitual abstrato. Para ilustrar o clculo do suporte, considera-se o padro conceitual abstrato 1 representado na Figura 27, obtido a partir do padro conceitual base tambm representado na Figura 27, a Ontologia de Domnio ilustrada na Figura 19, o log pr-processado da Tabela 4 e o mapeamento para os conceitos da ontologia na Tabela 5. Tabela 4. Dados preparados resultantes da fase de Preparao de Dados.
Sesso 1 2 3 4 5 6 Seqncia de acesso as URLs URL1; URL2; URL3, URL4; URL5; URL6 URL1; URL3; URL4; URL5; URL6 URL1; URL2; URL4; URL5; URL6 URL1; URL2; URL3; URL5; URL6 URL1; URL2; URL4; URL5; URL6 URL2; URL5; URL3; URL4; URL6

Tabela 5. Mapeamento
URL URL1 URL2 URL3 URL4 URL5 URL6 Conceito de Servio Localizar (DP) Visualizar Visualizar Reservar (DP) Visualizar Conceito de Contedo Turismo Hotel Hotel (DP) Pensionato (DP) Hotel Vegetariano (DP)

Legenda: DP Dimenso Predominante;

58

Primeiramente, o passo 1-a executado retornando o conjunto de conceitos descendentes includos no padro conceitual abstrato. Este conjunto composto pelos conceitos Localizar, Hotel, Pensionato, Reservar e Vegetariano. Em seguida, o passo 1-b define a seqncia na qual estes conceitos devem aparecer nos possveis padres conceituais base, sendo esta: Localizar, (Hotel ou Pensionato), Reservar e Vegetariano. Nota-se que a segunda posio deve ser ocupada por um dos conceitos (Hotel ou Pensionato) descendentes do conceito Acomodao. De acordo com o passo 2, os padres seqenciais fsicos candidatos so identificados. So eles URL2 - URL3 - URL5 - URL6 e URL2 URL4 - URL5 - URL6, considerando a dimenso de interesse em servio e contedo. Posteriormente, as seqncias de URLs das sesses do log preparado so comparadas com os padres seqenciais fsicos (passo 3). Somente as sesses 1, 3, 4 e 5 so utilizadas para o clculo do suporte (passo 4) por serem compostas por uma seqncia de URLs definida pelos padres seqenciais fsicos candidatos. O valor final do suporte calculado pela diviso do nmero de sesses resultantes do passo 3 pelo nmero total de sesses, ou seja, 4/6 corresponde a um suporte de 66,66%. O padro conceitual abstrato sumariza dois padres seqenciais fsicos. Eles esto representados pela Figura 28. O primeiro padro seqencial fsico suportado pelas sesses 1 e 4. J o segundo, pelas sesses 1, 3 e 5. importante ressaltar que o suporte de um padro conceitual abstrato no a soma dos padres seqenciais fsicos sumarizados, pois, como neste caso, uma mesma sesso do log pr-processado pode estar suportando diferentes padres seqenciais fsicos. Devido a este fato, fundamental que o log pr-processado seja utilizado no clculo do suporte dos padres conceituais abstratos.
URL2 URL2 URL3 URL4 URL5 URL5 URL6 URL6 Suporte: 33.33% Suporte: 50%

Figura 28: Padres Seqenciais Fsicos Uma alternativa para o clculo do suporte implica a gerao de todos os padres generalizados possveis utilizando a Ontologia de Domnio durante a fase de Minerao de Dados (e.g. [SRI95, SRI97]). Desta forma, o valor do suporte de um padro abstrato estaria

59

previamente calculado, bastando apenas consult-lo de acordo com o padro conceitual abstrato criado. A vantagem estaria no ganho com o tempo de processamento para o clculo do suporte. A desvantagem que muitos padres generalizados seriam descobertos e mantidos desnecessariamente, assim como um aumento no tempo de processamento consumido pela fase de Minerao de Dados. 5.2.3 Drill-down A operao de drill-down utilizada para encontrar os padres conceituais base sumarizados por um padro conceitual abstrato, isto , padres conceituais base que esto de acordo com as restries definidas pelo padro conceitual abstrato. Estes padres so denominados padres conceituais detalhe. Ao contrrio das demais operaes propostas para a anlise exploratria, a operao de drill-down somente pode ser aplicada sobre os padres conceituais abstratos. A representao grfica do padro conceitual abstrato indica sobre quais conceitos podem ser aplicadas as operaes drill-down. Por exemplo, ao requisitar a operao de drill-down sobre o conceito Acomodao do padro conceitual abstrato 1 representado na Figura 27, todos os padres conceituais base que suportam aquele padro abstrato devem ser retornados, como representado pela Figura 29. Desta forma, possvel explorar os padres conceituais detalhe com seu respectivo suporte num nvel de abstrao mais detalhado que o representado pelo padro conceitual abstrato. Neste exemplo, sabe-se que existem grupos de usurios que esto interessados em hotis e outro grupo em pensionatos. Note que a operao de drill-down aplicado ao padro conceitual abstrato 2 da Figura 27 teria o mesmo resultado.

Localizar
Drill-down

Acomodao

Reservar

Vegetariano
Suporte: 66.66%

Padro Conceitual Detalhe Localizar - Hotel - Reservar Vegetariano Localizar - Pensionato - Reservar Vegetariano

Suporte 33.33% 50%

Figura 29: Operao de drill-down

60

Os padres conceituais base so encontrados a partir da lista de padres seqenciais fsicos retornados da fase de Minerao de Dados. Os dois primeiros passos so semelhantes aos utilizados para o clculo do valor do suporte, uma vez que definem as restries que devem ser respeitadas pelos padres seqenciais fsicos candidatos a partir de um padro conceitual abstrato. Os passos seguintes so: 1. identificar quais os padres seqenciais fsicos candidatos respeitam as restries, ou seja, suportam os padres conceituais base candidatos identificados no passo 1a e de acordo com a seqncia do passo 1-b. 2. transformar cada padro seqencial fsico candidato em um padro conceitual base atravs do mapeamento das URLs para os conceitos da ontologia e da dimenso de interesse. 3. mostrar o conjunto de padres conceituais detalhe e seu respectivo suporte. 5.3 Consideraes Os mecanismos propostos para facilitar a interpretao de padres foram definidos com base nas deficincias apresentadas pelas abordagens semnticas pesquisadas. Primeiramente, optou-se pelo uso de Ontologia de Domnio pelo fato de fornecer maior suporte representao semntica do que uma taxonomia, e devido motivao impulsionada pela Web Semntica na formalizao do conhecimento na forma de Ontologia de Domnio. Desta forma, possvel explorar as vantagens proporcionadas pelo conhecimento do domnio especificado para outros propsitos, integrando-o fase de Anlise de Padres no processo de MUW. As abordagens semnticas (e.g. [DAI02, OBE03]) pesquisadas utilizam Ontologia de Domnio na fase de Preparao de Dados, preocupando-se com o enriquecimento semntico dos logs (log semntico) para posterior descoberta e anlise. A diferena para a abordagem proposta est na fase em que o conhecimento do domnio explorado no processo de MUW, a saber, fase de Anlise de Padres. A vantagem que nesta fase existe uma flexibilidade na interpretao de padres considerando as diferentes dimenses de interesse. Esta flexibilidade no seria possvel a partir do log semntico por este ser esttico, representando uma nica dimenso de interesse e limitando a atividade de anlise. A anlise de outras dimenses de

61

interesse implica a re-execuo do processo de MUW, desde a Preparao de Dados Anlise de Padres, como discutido na Seo 3.2.2.1. Ontologias so teis quando aplicadas ao processo de MUW, mas as abordagens semnticas estudadas (e.g. [DAI02, OBE03]) exploram as ontologias apenas para formalizao do contedo dos sites, no considerando os servios oferecidos por estes. A abordagem proposta por este trabalho considera que a Ontologia de Domnio especifica tanto o contedo como os servios suportados pelo site Web. Afinal, os servios disponveis no site Web tambm so responsveis por motivar a navegao dos usurios pelas pginas Web. Um dos diferenciais da abordagem proposta para o processo tradicional de descoberta de padres seqenciais est nos mecanismos de interpretao, que facilitam o entendimento dos padres seqenciais na fase de anlise, que at ento eram compostos por um conjunto de URLs de difcil entendimento. Desta forma, a representao dos padres seqenciais fsicos em padres seqenciais conceituais ameniza o esforo do analista para interpretar o significado dos padres seqenciais. Ainda, o analista no necessita ter profundo conhecimento do domnio, uma vez que a ontologia representa parte deste conhecimento. Alm do mais, atravs das operaes de anlise exploratria possvel aprofundar a compreenso do conhecimento suportado pelos padres seqenciais conceituais de forma interativa, descobrindo conceitos e outros padres relacionados, principalmente no que diz respeito relao dos padres conceituais abstratos com os padres conceituais detalhe. Abordagens apresentadas por Srikant e Agrawal [SRI95, SRI97] propem a extenso de algoritmos de gerao de padres visando a gerao de padres generalizados. Porm limitam-se gerar todos os padres possveis de acordo com a taxonomia associada, onde nem todos os padres resultantes so de interesse dos usurios, dificultando a fase de anlise devido ao grande nmero de padres retornados; redundncia entre padres; e inexistncia de um relacionamento explcito entre padres especializados e generalizados. A Tabela 6 apresenta um comparativo da abordagem atual no que diz respeito aos mecanismos de interpretao de padres com as abordagens semnticas pesquisadas na literatura e detalhadas no Captulo 3, Seo 3.2.

62

Tabela 6. Comparao da abordagem proposta X abordagens semnticas pesquisadas. Taxonomia Objetivo Contribuio Abordagens Semnticas Ontologia - Abordagens pesquisadas
Interpretar padres - Definio do log semntico;

Ontologia - Abordagem de Vanzin


- representao dos padres seqenciais fsicos na forma de padres seqenciais conceituais; - visualiza dos padres seqenciais fsicos de acordo com diferentes dimenses de interesse; - anlise exploratria dos padres conceituais, atravs da operao de detalhamento de relacionamento, roll-up e drill-down.

- classificao dos servios oferecidos pelas pginas Web resultantes de consultas geradas dinamicamente; - gerao de padres generalizados na fase de Minerao de Dados; - definio de filtros atravs de conceitos da taxonomia;

Fase do Processo Preparao de Dados Minerao de Dados de MUW Desvantagens

Preparao de Dados - Poucos trabalhos; - Representam o contedo disponibilizado pelos sites Web; - Trabalhos limitam-se a apresentar perspectivas da explorao da Web Semntica. - Enriquecimento semntico na Preparao limita a anlise de padres.

Anlise de Padres - Limitao quanto s restries que definem a Ontologia de Domnio; e ao mapeamento das URLs para os conceitos da ontologia.

Anlise de Padres - Limitao utilizao de relaes do tipo -um; - Gerao de muitos padres quando associado fase de Minerao de Dados e falta de suporte a interpretao e relacionamento dos padres resultantes e seus relacionamentos; - Na fase de Anlise de Padres, est vinculada a abordagens estruturais.

63

As limitaes da abordagem proposta referem-se ao mapeamento das URLs para os conceitos da ontologia de domnio e s restries quanto definio da Ontologia de Domnio. As restries que definem a estrutura da Ontologia de Domnio so necessrias para simplificar os mecanismos de interpretao e recuperao propostos neste trabalho, porm estes podem ser estendidos em trabalhos subseqentes para abranger ontologias de domnio sem restries quanto estrutura. Embora a representao grfica seja utilizada para suportar a atividade de anlise exploratria, no foram feitas comparaes com abordagens de representao por no ser o foco desta pesquisa, uma vez que no temos o objetivo de propor tcnicas de representao e estas so vistas como abordagens complementares interpretao e recuperao de padres.

64

6 MECANISMOS DE RECUPERAO DE PADRES DO USO DA WEB


Este captulo apresenta os mecanismos voltados recuperao de padres. Estes possibilitam a gerao de agrupamentos de padres focando o escopo da busca; definio de filtros de interesse, utilizando a Ontologia de Domnio como apoio; e finalmente a definio de mecanismos de busca por padres, envolvendo ou no medidas de similaridade.

A atividade de recuperao de padres relevantes facilitada quando o analista tem clareza dos objetivos que deseja atingir, por exemplo na verificao de hipteses. Neste caso, abordagens de filtragem estruturais so teis por reduzirem o foco da busca por padres potencialmente relevantes. A aplicao do processo de MUW freqentemente inclui a descoberta exploratria por padres interessantes, ou seja, o analista no tem idia sobre o conhecimento que os padres podem revelar, passando a analis-los aleatoriamente. Muitas vezes deseja-se descobrir padres inesperados, por exemplo, que contradizem as crenas de domnio. Neste caso, as abordagens de filtragem estatsticas relacionadas s medidas subjetivas (e.g [SIL96, COO03]) podem auxiliar os analistas neste propsito. O que comumente acontece na fase de Anlise de Padres a inspeo ad hoc, caracterizando a busca exaustiva e demorada por padres interessantes em meio a tantos retornados pelas tcnicas de Minerao de Dados. Assim, o analista interpreta cada padro retornado sem seguir um critrio de ordenao, buscando identificar os que potencialmente agregariam valor ao domnio da aplicao. A abordagem proposta neste trabalho sugere alguns mecanismos para facilitar a atividade de recuperao de padres. So eles: gerar agrupamentos de padres conceituais base direcionando o foco da inspeo a conjunto de padres relacionados de acordo com critrios previamente definidos;

65

definir filtros de interesse com base na manipulao interativa dos conceitos da Ontologia de Domnio e na dimenso de interesse;

selecionar mecanismo de busca que recupere padres equivalentes ou aproximados ao interesse dos analistas especificados nos filtros de interesse.

As sees seguintes detalham os mecanismos propostos relacionados recuperao de padres. 6.1 Agrupamento de Padres Os padres seqenciais fsicos retornados da fase de Minerao de Dados geralmente so ordenados pela medida de suporte, no considerando sua estrutura e nem o contedo. O agrupamento de padres possibilita a gerao de grupos de padres, cada qual formado por um conjunto de padres conceituais base agrupados de acordo com um critrio previamente especificado. Este mecanismo adequado para situaes em que o analista no possui clareza quanto aos objetivos que pretende atingir com o processo de MUW, e nem idia do conhecimento que os padres possam revelar. Desta forma, os agrupamentos facilitam o processo de inspeo ad hoc restringindo o foco da busca por padres relevantes atravs dos grupos de padres conceituais base. Este mecanismo no reduz o nmero de padres, apenas reorganiza-os visando facilitar a busca por padres relevantes. Ao considerar alguns padres irrelevantes para o domnio, possivelmente os padres que pertencem ao mesmo grupo tambm sero irrelevantes por possurem caractersticas em comum. Assim, a atividade de inspeo otimizada uma vez que um grupo de padres desconsiderado. Da mesma forma, ao encontrar padres relevantes para o domnio, possvel explorar os que pertencem ao mesmo grupo, sendo potencialmente interessantes. Diferentes tcnicas podem ser utilizadas para gerao de agrupamentos baseadas em critrios como maximal [AGR94b], segmentao baseada em medida de distncia [HAN00], entre outros. O critrio maximal foi o escolhido para demonstrao desta funcionalidade.

66

6.1.1

Critrio Maximal O critrio maximal baseia-se nos padres seqenciais fsicos que so maximais. Um

padro maximal [SRI95] um padro seqencial fsico que no subseqncia de nenhum outro padro, como definido na Seo 2.2.2.1. No conjunto de padres seqenciais fsicos representado pela Figura 30, os padres em negrito (1 e 2) so padres maximais em relao aos demais padres. Nota-se que o padro maximal 1 contm todos os elementos do padro maximal 2, porm as seqncias de URLs que os compe difere.

1. 2. 3. 4. 5. 6.

URL1 URL1 URL3 URL4 URL4 URL1

URL3 URL4 URL3 URL3 URL5 URL3

- URL4 - URL5 - URL3 - URL5 - URL4 - URL4

Figura 30: Exemplo de Padres Maximais Um padro seqencial fsico denominado padro contido em um padro maximal quando este uma subseqncia do padro maximal. Por exemplo, o padro seqencial fsico 5 (URL4 - URL5) expressa que a URL4 deve ser seguida pela URL5. Este padro uma subseqncia do padro maximal 1, pois a URL4 e URL5 fazem parte do padro maximal, sendo que a URL4 seguida pela URL5. Assim, o padro seqencial fsico URL4 - URL5 um padro contido no padro maximal 1. Na gerao de agrupamentos de acordo com o critrio maximal, cada agrupamento composto por todos os padres contidos em um padro maximal, e o prprio padro maximal. O nmero de agrupamentos resultantes igual ao nmero de padres maximais identificados. Por exemplo, com base nos padres seqenciais representados na Figura 30, apenas dois agrupamentos so gerados pois existem somente dois padres maximais (Figura 31). Cabe ressaltar que um padro seqencial fsico pode estar contido em mais de um padro maximal. Por exemplo, o padro seqencial fsico 5 um padro contido em ambos os padres maximais representados na Figura 30.

67

Agrupamento 1 URL1 - URL3 - URL4 - URL5 URL3 - URL3 - URL4 URL4 - URL5 URL1 - URL3 - URL4 Agrupamento 2 URL1 - URL4 - URL3 - URL5 URL4 - URL3 URL4 - URL5

Padro Maximal 1. 2. URL1 - URL3 - URL4 - URL5 URL1 - URL4 - URL3 - URL5

Figura 31: Agrupamentos de acordo com o critrio maximal A funo responsvel pela gerao dos agrupamentos de acordo com o critrio maximal recebe como entrada um conjunto de padres seqenciais fsicos resultantes da fase de Minerao de Dados e retorna os agrupamentos. A funo constituda pelos seguintes passos: 1. identificar os padres seqenciais fsicos que so maximais. Este passo sugerido pela ltima fase do algoritmo Aprioriall [AGR94a] como descrito na Seo 2.2.2.1. Cada padro seqencial fsico do conjunto de entrada comparado com o restante dos padres seqenciais fsicos e verificado se este est contido em algum outro padro do conjunto. Se o padro estiver contido em pelo menos um padro seqencial fsico, este padro no um maximal. Caso contrrio, ele um padro maximal. 2. criar os agrupamentos. Para cada padro maximal identificado no passo anterior, so verificados quais padres seqenciais fsicos so subseqncias deste. Desta forma, padro maximal e os padres nele contidos formam um agrupamento. 6.2 Filtros de Interesse baseados na Ontologia de Domnio Filtros de interesse representam um conjunto de restries que especificam as caractersticas que devem existir nos possveis padres conceituais base recuperados. Assim, a definio destes filtros permite restringir o conjunto de padres na busca por aqueles que so relevantes. Um filtro de interesse definido de acordo com uma dimenso de interesse e formado por um conjunto de elementos que definem as restries. Cada elemento por sua vez

68

est ligado a um conceito da ontologia, bem como qualquer seqncia. A estrutura de um filtro de interesse ilustrada no diagrama de classes UML apresentada na Figura 32.
incio Filtro de Interesse
Dimenso de Interesse

fim

composio

Conceito de Servio

1..*

0..1 Elemento 0..1 * Conceito 1 0..1 0..1 sucessor antecessor

Conceito de Contedo

Figura 32: Estrutura de um filtro de interesse Um filtro de interesse pode definir at trs tipos de restries: conceitual, estrutural e estatstica. Restrio conceitual refere-se aos conceitos de contedo ou servio que compem o filtro. Esta restrio definida atravs da interao com a Ontologia de Domnio previamente disponvel e visualizada graficamente. Padres conceituais base que no violam a restrio conceitual devem ser formados por todos os conceitos especificados na restrio conceitual ou pelos seus conceitos descendentes. Restrio estrutural define relaes de ordem entre os elementos que compem o filtro de interesse. Trs tipos de restries estruturais so consideradas: Restrio de Incio: definida entre um elemento incio e um conceito da ontologia. O elemento incio associado a um conceito significa que os padres

69

conceituais base devem iniciar por aquele conceito ou um de seus descendentes (diretos ou por recurso). Restrio de Fim: definida entre um elemento fim e um conceito da ontologia. O elemento fim associado a um conceito significa que os padres conceituais base devem finalizar por aquele conceito ou um de seus descendentes (diretos ou por recurso). Restrio de Ordem: definida entre um elemento antecessor e um elemento sucessor, que definem uma subseqncia. A associao entre um elemento antecessor e um elemento sucessor define que os padres conceituais base devem respeitar a ordem (imediata ou no) entre os dois conceitos especificados ou seus descendentes (diretos ou por recurso). Uma restrio estrutural pode ser formada pela combinao das restries de incio, fim e de ordem. Restrio estatstica refere-se a um limiar mnimo estabelecido para uma determinada medida estatstica disponvel e este limiar deve ser respeitado pelos padres conceituais base recuperados. Para facilitar a compreenso, so apresentados alguns exemplos de filtros de interesse e o resultado retornado da aplicao de cada um deles. Para isso, considera-se novamente o domnio do site turstico apresentado nos captulos anteriores. Supe-se que o analista deseja inspecionar os caminhos de navegao dos usurios que esto interessados no servio de localizar informaes, e no contedo sobre hotis e restaurantes. A dimenso de interesse especificada pelo analista a de servio e contedo. Primeiramente, definida uma restrio conceitual uma vez que o analista tem interesse nos conceitos Localizar, Hotel e Restaurante. Para definir um filtro de interesse com esta restrio basta selecionar estes conceitos na Ontologia de Domnio representada graficamente e adicion-los no filtro de interesse. A Figura 33 ilustra graficamente a Ontologia de Domnio, um filtro de interesse formado apenas por uma restrio conceitual e o conjunto de padres conceituais base que poderiam ser retornados por este filtro. Nota-se que

70

todos os padres conceituais base possuem o conceito Localizar, Hotel, e os conceitos descendentes de Restaurante. Cabe ressaltar que a ordem com que os conceitos esto disponibilizados no filtro no corresponde ordem que eles devem assumir nos possveis padres conceituais base recuperados. A ordem entre os conceitos definida pelas restries estruturais, no utilizadas neste exemplo.

ONTOLOGIA DE DOMNIO
Evento

Contedo Servio

Visualizar

Acomodao

Restaurante

Pensionato Vegetariano Localizar


Refere-se-a disponibiliza

Italiano

Hotel Infra-estrutura

Reservar

Academia Conceitos Adicionados

QuadraTenis

FILTRO NTERESSE I Filtro DE de IInteresse


Localizar Restaurante Hotel

Filtro Aplicado

PADRES RETORNADOS
Localizar - Vegetariano Hotel (sup: 80%) Localizar Hotel - Italiano (sup: 40%) Localizar - Italiano - Reservar Hotel (sup: 70%) Localizar - Vegetariano - Reservar Hotel (sup: 80%) Localizar - Vegetariano - Reservar - Hotel - Pensionato Hotel (sup: 60%) Vegetariano - Localizar - Hotel - Pensionato Hotel (sup: 40%) Vegetariano Hotel - Localizar (sup: 80%) Hotel Localizar - Italiano (sup: 40%)

Figura 33: Filtro de Interesse composto por uma restrio conceitual

71

Posteriormente, suponha-se que o analista tenha interesse nos padres que possuam os conceitos Localizar, Hotel e Restaurante, mas que iniciem com o conceito Localizar. Para isso, uma restrio estrutural de incio inserida no filtro de interesse da Figura 33, ou seja, um elemento de incio associado ao conceito Localizar, como representado pela Figura 34. Desta forma, filtro de interesse passa a ser formado por uma restrio conceitual e uma estrutural. Aplicando o filtro, nota-se que os padres conceituais base retornados respeitam as restries definidas.
FILTRO NTERESSE II Filtro DE de IInteresse
Incio Localizar Restaurante Hotel

Filtro Aplicado

PADRES RETORNADOS
Localizar Localizar Localizar Localizar Localizar Vegetariano Hotel (sup: 80%) Hotel - Italiano (sup: 40%) Italiano - Reservar Hotel (sup: 70%) Vegetariano - Reservar Hotel (sup: 80%) Vegetariano - Reservar - Hotel - Pensionato Hotel (sup: 60%)

Figura 34: Filtro de Interesse composto por uma restrio conceitual e uma estrutural Ainda, imagina-se que o analista deseje recuperar apenas os padres conceituais base iniciados por Localizar, e nos quais o conceito Restaurante seja seguido pelo conceito Hotel. Desta forma, mais uma restrio estrutural adicionada ao filtro de interesse, correspondendo a uma restrio de ordem, que associa o conceito antecedente Restaurante ao conceito sucessor Hotel, como representado na Figura 35.

72

FILTRO NTERESSE III Filtro DE de IInteresse


Incio Localizar Restaurante Hotel

Filtro Aplicado

PADRES RETORNADOS
Localizar Localizar Localizar Localizar Vegetariano Hotel (sup: 80%) Italiano - Reservar Hotel (sup: 70%) Vegetariano - Reservar Hotel (sup: 80%) Vegetariano - Reservar - Hotel - Pensionato Hotel (sup: 60%)

Figura 35: Filtro de Interesse composto por uma restrio conceitual e duas estruturais Para complementar o filtro, o analista define o interesse por padres que possuam suporte mnimo de 80% atravs de uma restrio estatstica. A Figura 36 representa o filtro correspondente, composto por uma restrio conceitual, duas estruturais e uma estatstica. Exemplos de padres conceituais base retornados por ele tambm so ilustrados.
FILTRO NTERESSE IV Filtro DE de IInteresse
Incio Localizar Restaurante Hotel Suporte Mnimo: 80% Filtro Aplicado

PADRES RETORNADOS
Localizar - Vegetariano Hotel (sup: 80%) Localizar - Vegetariano - Reservar Hotel (sup: 80%)

Figura 36: Filtro de Interesse composto por uma restrio conceitual, duas estruturais e uma estatstica Nota-se nestes sucessivos exemplos, que o conjunto de padres recuperados diminui de acordo com as restries adicionadas ao filtro de interesse. A vantagem da utilizao de filtros de interesse restringir o foco da busca por padres de acordo com as restries definidas pelo analista. Este mecanismo torna-se extremamente til quando o analista tem clareza das caractersticas que os padres devem possuir para atingir os objetivos do processo de MUW. Outras vantagens propostas por esta

73

abordagem referem-se forma com que os filtros de interesse so definidos, atravs da interatividade com a Ontologia de Domnio representada graficamente e com os demais elementos que compem o filtro. A aplicao de um filtro de interesse recupera padres conceituais base de acordo com um mecanismo de busca. Neste trabalho, propem-se dois mecanismos de busca denominados equivalente e aproximado. O mecanismo de busca equivalente recupera padres que respeitam exatamente as restries especificadas pelo filtro. O mecanismo de busca aproximado estende o mecanismo de busca equivalente, recuperando tambm os padres que so similares ao filtro. Neste caso, para cada padro recuperado atribudo um valor de similaridade, que expressa o quo similar o padro do filtro de interesse definido. Estes mecanismos de busca so detalhados nas prximas sees. 6.2.1 Mecanismo de Busca Equivalente Este mecanismo representado por uma funo que recebe como parmetros de entrada: o filtro de interesse; a dimenso de interesse; a Ontologia de Domnio; o mapeamento; o valor de suporte mnimo (no obrigatrio); e o conjunto de padres seqenciais fsicos resultantes da fase de Minerao de Dados. O retorno desta funo um conjunto de padres conceituais base que respeitam as restries definidas pelo filtro de interesse. Os principais passos que constituem esta funo so: 1. recuperar os padres conceituais base de acordo com a dimenso de interesse. 2. identificar os conceitos descendentes que implicitamente fazem parte do filtro de interesse. Para cada conceito que compe o filtro, devem ser identificados quais so os conceitos descendentes na ontologia. Para cada conceito descendente, por sua vez, so verificados seus descendentes, e assim recursivamente. Do conjunto de descendentes extrado, eliminam-se todos os que no possuem um mapeamento para as URLs na dimenso de interesse especificada, uma vez que estes conceitos no poderiam compor os possveis padres conceituais base candidatos a serem retornados pelo filtro.

74

3. se existirem restries estatsticas especificadas pelo filtro, aplic-las sobre os padres conceituais base. Considerando os padres conceituais base candidatos, apenas os que possuem o valor a medida estatstica dentro do limiar estabelecido so considerados. 4. aplicar a restrio conceitual especificada no filtro de interesse. Dos padres conceituais base candidatos recuperados do passo anterior, apenas os que so formados por todos conceitos de servio e contedo especificados no filtro, ou seus descendentes, so considerados. 5. se existirem restries estruturais especificadas no filtro, aplic-las. Dos padres conceituais base candidatos resultantes do passo 4, apenas os que respeitam as restries estruturais definidas so considerados, a saber restries de incio, de fim e/ou de ordem. 6. retornar os padres conceituais base restantes. Os exemplos apresentados na seo anterior utilizaram este mecanismo de busca para recuperar os padres conceituais base. A dimenso de interesse considerada foi a de servio e contedo. 6.2.2 Mecanismo de Busca Aproximada O mecanismo de busca aproximada visa a recuperao de padres semelhantes ao filtro de interesse. Para isso prope-se a combinao de filtros e medidas de similaridade. As sees seguintes apresentam a medida de similaridade utilizada para exemplificar este mecanismo, e o algoritmo proposto para este mecanismo. 6.2.2.1 Medidas de Similaridade A noo de similaridade utilizada em muitos contextos para identificar objetos que possuem caractersticas semelhantes [GAN03]. Por exemplo, uma mquina de busca encontra documentos que so similares a uma consulta ou a outros documentos; algoritmos de segmentao agrupam seqncias de elementos que possuem caractersticas em comum [HAN00]. J filtros colaborativos analisam usurios que compartilham interesses em comum [GOL92].

75

A medida de similaridade utilizada neste trabalho para exemplificar este mecanismo baseada no modelo espao vetorial generalizado (GVSM Generalized Vector Space Model) proposto por Ganesan et al. [GAN03]. Neste modelo, a medida de similaridade entre dois conceitos definida pela distncia entre os conceitos numa hierarquia previamente definida, de acordo com a funo Sim(l1 , l2) cuja frmula representada na Figura 37. Os conceitos so representados por l1 e l2. A funo LCA (Lowest Common Ancestor) representa o antecedente comum mais prximo de ambos os conceitos. A funo depth() representa a distncia do conceito at o nodo raiz da hierarquia de conceitos. Sim(l1 , l2) = 2*depth (LCA(l1, l2)) depth (l1) + depth (l2)

Figura 37: Similaridade entre dois conceitos definida pela funo Sim(l1 , l2) A funo Sim(l1 , l2) retorna um valor entre 0 e 1. Quanto mais prximo do valor de 0, menor o grau de similaridade entre os objetos. O valor ser 1 quando os objetos forem iguais. A Tabela 7 ilustra as medidas de similaridade calculadas entre diferentes conceitos da ontologia representada na Figura 33, de acordo com o GVSM. Observa-se que o conceito Italiano possui o valor de similaridade maior que o conceito Hotel em relao ao conceito Vegetariano. Cabe ressaltar que a aplicao do clculo de similaridade considera somente as relaes hierrquicas entre os conceitos. Tabela 7. Medidas de similaridade entre conceitos
l1 Hotel Italiano l2 Vegetariano Vegetariano LCA(l1, l2) Contedo Restaurante Deph (LCA(l1, l2)) 1 2 Valor de Similaridade 0,33 0,66

6.2.2.2

Similaridade de um padro conceitual base em relao ao filtro Com base na medida de similaridade apresentada, a similaridade de um padro

conceitual base em relao ao filtro de interesse muitas vezes requer vrios clculos de similaridade realizados sobre conceitos especficos, denominado neste trabalho de clculo de

76

similaridade pontual. A mdia aritmtica dos valores de similaridade obtidos pelos clculos de similaridade pontual determina o grau de similaridade em relao ao filtro de interesse. Restries estruturais definidas no filtro de interesse so consideradas para selecionar os conceitos que sero utilizados no clculo de similaridade. Por exemplo, se uma restrio estrutural do filtro define que o padro conceitual base deve iniciar pelo conceito Hotel, o clculo de similaridade aplicado entre o conceito Hotel do filtro, com o primeiro conceito do padro conceitual base. Cabe ressaltar que para um nico filtro, o nmero de clculos de similaridade realizados por padro conceitual base dependente do nmero de restries estruturais definidas no filtro de interesse. A Figura 38 apresenta um exemplo que enfoca o clculo da similaridade de um padro conceitual em relao ao filtro de interesse. Para o clculo de similaridade, considera-se a Ontologia de Domnio representada pela Figura 19. De acordo com as restries estruturais do filtro, so realizados dois clculos de similaridade pontual: um aplicado sobre o primeiro conceito do padro conceitual base abstrato e o outro sobre o ltimo conceito do padro. Os valores obtidos por estes clculos esto representados na Figura 38. A mdia aritmtica destes valores 0,75, constituindo o valor de similaridade do padro em relao ao filtro de interesse.
Definio F ILTRO DE do INTERESSE Filtro
Incio Localizar Hotel Fim

Valor da Similaridade Pontual = 0,5

Valor da Similaridade Pontual = 1

Reservar

Italiano

Localizar

Hotel

PADRO CONCEITUAL BASE CANDIDATO

Figura 38: Medida de similaridade pontual Restrio estrutural de incio e fim Restries estruturais de ordem possuem algumas particularidades quanto aplicao do clculo de similaridade pontual uma vez que deve ser considerado o valor de similaridade

77

da seqncia. O clculo de similaridade de uma seqncia definido pela mdia aritmtica dos valores de similaridade pontual entre os conceitos da seqncia e os do filtro. A Figura 39 ilustra o clculo de similaridade de uma seqncia em relao ao filtro de interesse. Cabe ressaltar que uma seqncia de conceitos no filtro de interesse pode corresponder a mais de uma seqncia em um padro conceitual base, como ilustrado na Figura 40. Nesta situao, o clculo de similaridade aplicado para todas as seqncias possveis, porm somente a seqncia que possui maior valor de similaridade considerada para o clculo de similaridade de um padro.
F ILTRO DE INTERESSE Definio do
Localizar Hotel

Valor da Similaridade Pontual = 0,5

Valor da Similaridade Pontual = 0,66

Reservar

Acomodao

Valor de Similaridade da Seqncia = (0.61)

SEQUENCIA DO PADRO CONCEITUAL BASE

Figura 39: Valor de Similaridade de uma seqncia do padro conceitual base Nota-se na Figura 40 que a seqncia definida pelo filtro corresponde a duas seqncias (S1 e S2) no padro conceitual base candidato. Desta forma, o clculo de similaridade realizado para as duas seqncias. Os valores de similaridade obtidos esto na Tabela 8. Apenas o maior valor de similaridade considerado para o clculo de similaridade do padro conceitual base em relao ao filtro, ou seja, o valor de similaridade da seqncia S2. Como neste caso no h outras restries estruturais definidas pelo filtro, o valor de similaridade do padro igual ao valor de similaridade da seqncia S2 .

78

F ILTRO DE do INTERESSE Definio Filtro


Localizar Hotel Maior valor de similaridade para a seqncia

S1

S2

Similaridade Pontual

Reservar

Italiano

Acomodao

Localizar

PADRO CONCEITUAL BASE CANDIDATO

Figura 40: Medida de similaridade pontual Restrio estrutural de ordem

Tabela 8. Medidas de similaridade nas seqncias


Seq S1 S2 Primeiro Elemento Seqncia Reservar Reservar Primeiro Elemento Filtro Localizar Localizar VSP 0,5 0,5 Segundo Elemento Seqncia Italiano Acomodao Segundo Elemento Filtro Hotel Hotel VSP 0,33 0,66 VS Seqncia 0,42 0,61

Legenda: VSP Valor de Similaridade Pontual; VS Seqncia Valor de similaridade da seqncia;

A funo que determina o grau de similaridade entre um padro conceitual base e um filtro de interesse recebe como parmetro de entrada o filtro de interesse e padro conceitual base. Os passos principais desta funo so: Verificar sobre quais conceitos o clculo de similaridade deve ser aplicado. Para isso, necessrio verificar as restries existentes: o Restrio de Incio: O clculo de similaridade pontual aplicado entre o primeiro conceito do Padro e o primeiro conceito do filtro. o Restrio de Fim: O clculo de similaridade pontual aplicado entre o ltimo conceito do Padro e o ltimo conceito do filtro.

79

o Restrio de Ordem: O clculo de similaridade pontual aplicado nos conceitos da seqncia. Ou seja, no primeiro conceito da seqncia, com o primeiro conceito da restrio de ordem, e assim por diante. Aplicar o clculo de similaridade entre dois conceitos (Seo 6.2.2.1) Se existir restrio de ordem, calcular o valor de similaridade das seqncias possveis e selecionar a seqncia com maior valor de similaridade. Calcular o valor de similaridade do padro pela mdia aritmtica dos valores de similaridade pontual (restrio de incio e fim) e dos valores de similaridade de seqncia. 6.3 Combinao de Filtros e Medidas de Similaridade O mecanismo de busca aproximada uma extenso do mecanismo de busca equivalente. Para representar como este utilizado e definido, considera-se a medida de similaridade GVSM, descrita na Seo 6.2.2.1. Outras medidas de similaridade tambm poderiam ser aplicadas. A funo responsvel por este mecanismo recebe como parmetro de entrada: os parmetros necessrios para o mecanismo equivalente especificados anteiormente; a medida de similaridade selecionada; o valor de similaridade mnimo (no obrigatrio); o nvel de abrangncia. Este ltimo utilizado para a criao de um filtro generalizado definido a partir do filtro de interesse e do nvel de abrangncia. A busca aproximada baseada no conceito filtro generalizado, que uma extenso de um filtro de interesse, mas considera tambm descendentes dos conceitos ascendentes aos que formam o filtro de interesse, de acordo com um nvel de abrangncia especificado pelo usurio. O nvel de abrangncia define o quo distante um conceito ascendente pode estar, na hierarquia, dos conceitos que compem o filtro de interesse. A Figura 41 representa um filtro de interesse definido por um especialista, a ser aplicado utilizando o mtodo de busca aproximada. O nvel de abrangncia definido foi 1. O filtro generalizado obtido mantm todas as restries definidas pelo filtro de interesse, com exceo da restrio de contedo, onde os conceitos so considerados a partir dos seus

80

ascendentes de acordo com o nvel de abrangncia. Por exemplo, o conceito Hotel passa a ser interpretado pelo conceito ascendente Restaurante por este estar distante de 1 nvel na relao de hierarquia.
FILTRO Filtro DE de IInteresse NTERESSE IV
Incio Localizar Restaurante Hotel Suporte Mnimo: 80% Nvel de Abrangncia = 1

FILTRO GENERALIZADO
Incio Servio Contedo Acomodao Suporte Mnimo: 80%

Figura 41: Filtro de Interesse e Filtro Generalizado O retorno da funo responsvel pelo mecanismo de busca aproximada constituiu um conjunto de padres conceituais base, juntamente com o seu respectivo suporte e o valor de similaridade. Neste contexto, o valor de similaridade representa o quo similar um padro conceitual base do filtro de interesse definido pelo analista. Os principais passos que constituem esta funo so: 1. criar o filtro generalizado com base no filtro de interesse. So identificados os conceitos ascendentes que fazem parte do filtro generalizado. Para cada conceito de servio e contedo que compe o filtro de interesse, so identificados todos os conceitos ascendentes que esto de acordo com o nvel de abrangncia especificado pelo parmetro de entrada. Estes conceitos ascendentes passam a compor o filtro generalizado. O restante das restries especificadas pelo filtro de interesse se mantm no filtro generalizado. 2. encontrar os padres conceituais base candidatos que esto de acordo com o filtro generalizado. Executar todos os passos especificados pelo mecanismo de busca equivalente, considerando o filtro generalizado como entrada ao invs do filtro de interesse definido pelo analista.

81

3. calcular o valor de similaridade dos padres conceituais base retornados pelo passo 2 em relao ao filtro de interesse especificado pelo analista. Para cada padro conceitual base, calculado o valor de similaridade do padro em relao ao filtro de interesse. 4. se existir um valor mnimo de similaridade especificado pelo analista, apenas os padres conceituais base que possuem o valor de similaridade maior ou igual ao limiar estabelecido so considerados. 5. retornar os padres conceituais base, juntamente com o valor do suporte e de similaridade. 6.4 Consideraes Neste captulo foram apresentados os mecanismos de recuperao de padres. O mecanismo de recuperao de padres atravs da utilizao de agrupamentos facilita e otimiza o processo de inspeo ad hoc, restringindo o foco da busca por padres relevantes nos grupos de padres conceituais base. O mecanismo de recuperao atravs da utilizao de filtros de interesse apresenta diversas vantagens em relao aos trabalhos propostos no Captulo 3, desde a forma como eles so definidos at os mecanismos de busca. As vantagens referem-se: definio visual do filtro de interesse, minimizando a necessidade de aprendizado de uma sintaxe; definio do filtro baseada nos conceitos da ontologia. Desta forma, o analista no necessita ser um especialista no domnio ou no site, podendo utilizar o conhecimento do domnio para a formulao de hipteses, ou definio de reas de interesse de forma facilitada; riqueza dos filtros de interesse, por permitirem a definio das restries conceitual, estrutural e estatstica; definio de filtros considerando diferentes dimenses de interesse, com base na representao conceitual dos padres seqenciais fsicos. Desta forma,

82

possvel explorar dinamicamente diferentes dimenses sem retorno fase de Preparao de Dados; definio de filtros considerando diferentes nveis de abstrao. O analista pode utilizar conceitos em diferentes nveis de abstrao na definio de um filtro de interesse; ao poder dos mecanismos de busca, permitindo a recuperao de padres equivalentes ou aproximados ao interesse do analista. A Tabela 9 apresenta um comparativo entre os mecanismos de recuperao propostos por este trabalho e as abordagens de filtragem pesquisadas na literatura e detalhadas no Captulo 3, Seo 3.1.

83

Tabela 9. Comparao da abordagem proposta X abordagens de filtragem pesquisadas Abordagens de Filtragem Filtros Estruturais

Filtros Estatsticos Contribuio Objetivo


Recuperar Padres - Definio de filtros que envolvam restries estatsticas. - Mecanismo de busca recupera padres de acordo com o limiar estabelicido para as medidas objetivas e subjetivas;

Abordagem de Vanzin

Recuperar Padres interativamente - Definio de filtros que envolvam restries estruturais e de contedo. - Especificao de filtros atravs do uso de taxonomias e sintaxes; - Mecanismo de busca recupera padres equivalentes ao interesse do analista; Minerao de Dados Anlise de Padres - Domnio de uma linguagem para especificao dos filtros; - Necessidade de objetivos claros para a definio dos filtros; - Necessidade de profundo conhecimento do domnio; - No representam qualquer tipo de expresso regular; - Re-execuo da fase de Minerao de Dados para cada novo objetivo. - Gerao de agrupamentos de padres conceituais base de acordo com critrios previamente definidos; - Definio de filtros de interesse com base na manipulao interativa dos conceitos da Ontologia de Domnio; - Mecanismos de busca recuperam padres equivalentes ou aproximados ao interesse do analista; Anlise de Padres. - Filtros no representam qualquer tipo de expresso regular. - Limitao nas medidas de similaridade e critrios de agrupamento considerados.

Fase Minerao Desvantagens

Minerao de Dados Anlise de Padres - Medidas objetivas no necessariamente determinam um padro interessante; - Medidas Subjetivas: Dificuldade em expressar o conhecimento do domnio e limitaes dos algoritmos de comparao.

84

7 AMBIENTE DE APOIO INTERPRETAO E RECUPERAO DE PADRES DO USO DA WEB


Este captulo descreve o ambiente de apoio proposto para avaliar a utilidade dos mecanismos de interpretao e recuperao de padres durante a fase de Anlise de Padres.

A principal contribuio deste trabalho refere-se aos mecanismos de interpretao e recuperao de padres descritos nos captulos anteriores para apoio fase de Anlise de Padres. Neste captulo proposto um ambiente de apoio que disponibiliza estes mecanismos atravs das funcionalidades de um prottipo. O prottipo foi desenvolvido utilizando a linguagem de programao Java e o banco de dados Microsoft Access. As funcionalidades do prottipo esto representadas no diagrama de casos de uso UML da Figura 42. O ator principal corresponde ao analista que far uso do ambiente de apoio durante a anlise dos padres. A Tabela 10 e Tabela 11 descrevem brevemente as funcionalidades oferecidas pelo prottipo. Tabela 10. Funcionalidades para definies
Nome do Caso de Uso Importar Padres Seqenciais Descrio O analista importa os padres do arquivo de padres. Para isso o analista define os parmetros para a importao do arquivo de padres. So eles: arquivo de padres, parmetros de formatao. O analista define a dimenso de interesse na qual os padres importados sero analisados. O analista define o critrio pelo qual os padres sero agrupados. O analista prepara os padres seqenciais fsicos para a interpretao e recuperao. Isso inclui a gerao dos agrupamentos de acordo com o critrio especificado e a criao dos padres seqenciais conceituais de acordo com a dimenso de interesse.

Definir Dimenso de Interesse Definir Critrio de Agrupamento Preparar Padres para Interpretao e Recuperao

85

Tabela 11. Funcionalidades para recuperao e interpretao de padres


Nome do Caso de Uso Inspecionar Agrupamentos Visualizar Padro Conceitual Visualizar Padro Conceitual Textual Visualizar Padro Conceitual Grfico Selecionar Padro Conceitual Textual Configurar Anlise Exploratria Descrio O analista inspeciona os agrupamentos, verificando os padres que os compem. O analista visualiza um padro conceitual. O analista visualiza um padro seqencial na forma textual. O analista visualiza um padro seqencial em uma representao grfica. O analista seleciona um padro conceitual na forma textual para que ele possa ser visualizado graficamente para anlise exploratria. O analista configura alguns parmetros para realizar a anlise exploratria sobre um padro conceitual em especifico. So eles: a dimenso de interesse; e detalhamentos das relaes hierrquicas para todos os conceitos ou somente para o conceito selecionado. O analista visualiza detalhes sobre o relacionamento dos conceitos que compem um padro conceitual em relao a outros conceitos da Ontologia de Domnio. Este detalhamento refere-se s relaes hierrquicas e de propriedade. O analista executa a operao de roll-up gerando um padro conceitual abstrato. O analista requisita os padres detalhe sumarizados pelo padro conceitual abstrato. O analista visualiza e interage com a Ontologia de Domnio. O analista define filtros de interesse: - selecionando conceitos da ontologia e adicionando-os na rea de definio de filtros; - adicionando elementos de incio e fim; - conectando conceitos; e ainda definido um suporte mnimo. O analista define o mecanismo de busca que utilizado para recuperar os padres. O analista recupera os padres pelo mecanismo de busca equivalente. O analista recupera os padres pelo mecanismo de busca aproximada. Parmetros so informados: Medida de similaridade; Nvel de Abrangncia; Valor de similaridade mnimo. O analista verifica os padres conceituais base retornados de diferentes operaes. So eles: Padres Contidos; Padres Detalhe; Padres Filtrados. O analista verifica os padres contidos nos agrupamentos. O analista verifica os padres detalhe que sumarizam um padro abstrato O analista verifica os padres recuperados atravs dos filtros de interesse e mecanismos de busca definidos.

Verificar Detalhamento de Relacionamentos Executar Operao Roll-up Executar Operao Drill-down Interagir com a Ontologia de Domnio. Definir Filtro de Interesse

Aplicar Mecanismo de Busca Buscar por Equivalncia Buscar por Aproximao

Verificar Padres Conceituais Base Recuperados Verificar Padres Contidos Verificar Padres Detalhe Verificar Padres filtrados

86

Verificar Padres Detalhe Verificar Padres filtrados

<<include>> <<include>> Buscar por Aproximao

Buscar por Equivalncia Verificar Padres Contidos Definir Parmetros Busca Aproximao Verificar Padres Conceituais Base Recuperados Aplicar Mecanismo de Busca Definir Filtro de Interesse <<include>> Definir Critrio de Agrupamento Importar Padres Sequenciais <<include>>

<<include>> Definir Parmetros Importao

<<include>> Definir Dimenso de Interesse <<include>> Preparar Padres para Interpretao e Recuperao Analista

Interagir com a Ontologia de Domnio

Executar Operao Drill-down <<include>>

Inspecionar agrupamentos Visualizar Padro Conceitual Textual

Visualizar Padro Conceitual

Configurar Anlise Exploratria Verificar Detalhamento de Relacionamentos

Executar Operao Roll-up

Selecionar Padro Conceitual Textual

Visualizar Padro Conceitual Grfico

Figura 42: Diagrama de Casos de Uso do Prottipo

87

As funcionalidades descritas so disponibilizadas em diferentes reas no prottipo, e suportadas por diferentes elementos da arquitetura. 7.1 Arquitetura do Prottipo A Figura 43 contextualiza o prottipo no processo de MUW, caracterizando as entradas necessrias para sua utilizao e as sadas geradas. As entradas so: Log pr-processado resultante da fase de Preparao de Dados; Conjunto de padres seqenciais fsicos resultantes da aplicao do algoritmo AprioriAll durante a fase de Minerao de Dados; Ontologia de Domnio que descreve os principais eventos do domnio em termos de contedo e servios disponibilizados pelo site; Mapeamento das URLs para os conceitos de servio e contedo definidos pela Ontologia de Domnio.
PROCESSO DE MUW PREPARAO DE DADOS ANLISE DE PADRES

DESCOBERTA DE PADRES

LOG PRPROCESSADO

PROTTIPO PADRES SEQENCIAIS

MAPEAMENTO

ONTOLOGIA
DO DOMNIO

Figura 43: Ambiente de Apoio e suas entradas e sada A arquitetura do prottipo, ilustrada na Figura 44, representa como estas entradas e os demais elementos esto estruturados para atender as funcionalidades propostas. A arquitetura composta por uma base de dados e por conjuntos de mdulos. Estes elementos suportam as funcionalidades disponibilizadas em diferentes reas da interface do prottipo. A seguir, estas reas so descritas em detalhe, assim como a base de dados que compe a arquitetura.

88

ARQUITETURA DO PROTTIPO MDULO DE DEFINIES MDULO DE AGRUPAMENTO E INTERPRETAO DE PADRES


MDULO DE AGRUPAMENTOS DE PADRES MDULO DE PADRES CONTIDOS MDULO DE ANLISE EXPLORATRIA MDULO DE PADRES DETALHE MDULO DE PADRES FILTRADOS

MDULO DE RECUPERAO ATRAVS DE FILTROS


MDULO DA ONTOLOGIA ADE DOMNIO

MDULO DE IMPORTAO DOS PADRES

MDULO DE DEFINIO DA DIMENSO DE INTERESSE

MDULO DE DEFINIO DE FILTROS

MDULO DE DEFINIO DO CRITRIO DE AGRUPAMENTO

BASE DE DADOS

PADRES SEQENCIAIS

LOG PRPROCESSADO ENTRADAS

MAPEAMENTO

ONTOLOGIA
DO DOMNIO

Figura 44: Arquitetura do Prottipo e suas entradas

89

7.1.1

Base de Dados A base de dados armazena informaes do log pr-processado, da Ontologia de

Domnio e do mapeamento. O esquema da base de dados est representado na Figura 45.

Figura 45: Esquema da base de dados 7.1.1.1 Log pr-processado O log pr-processado resulta da fase de Preparao de Dados. Os dados prprocessados devem incluir pelo menos informaes sobre o identificador da sesso do usurio, time stamp de acesso pgina e finalmente a URL da pgina. Cada registro corresponde a um acesso, sendo que os registros devem ser ordenados considerando o identificador de sesso e time stamp. No ambiente proposto, os dados que compem o log preparado so armazenados na tabela Log da base de dados. A Figura 46 representa um exemplo de um conjunto de dados extrado de um log pr-processado.

Figura 46: Exemplo de dados extrados de um log pr-processado 7.1.1.2 Ontologia de Domnio Os conceitos e relaes que compem a Ontologia de Domnio so armazenados nas tabelas da base de dados: Conceitos, RelacaoPropriedade, RelacaoHierarquica. A tabela

90

Conceitos armazena todos os conceitos que compem a ontologia, atribuindo a eles um nome e um identificador. A tabela RelacaoPropriedade contm as informaes das relaes de propriedade existentes entre os conceitos da ontologia especificados na tabela Conceitos. J a tabela RelacaoHierarquica armazena as relaes de hierarquia entre os conceitos. Nesta ltima, o atributo Tipo identifica a relao entre o conceito descendente e ascendente, podendo ser de generalizao ou agregao. 7.1.1.3 Mapeamento O mapeamento das URLs para os conceitos da ontologia especificado na tabela Mapeamento (Figura 45). Nela, cada URL mapeada para conceitos de servio e/ou contedo. O atributo DP indica qual a dimenso predominante para a qual URL est sendo mapeada, em termos de servio e contedo. O atributo Conceito_Principal armazena o conceito de servio ou contedo associado a dimenso predominante (atributo DP) representado pela URL, e o Conceito_Secundrio, o conceito de servio ou contedo da dimenso secundria, se existir. A Tabela 12 ilustra o mapeamento de duas URLs para os conceitos da ontologia na tabela Mapeamento. A URL especificada na primeira linha mapeada para o conceito Calendrio, na dimenso de contedo, sendo esta dimenso predominante. Na dimenso de servio, a mesma URL mapeada para o conceito Visualizar. A URL representada na segunda linha, mapeada somente para o conceito Correio Eletrnico na dimenso de servio, que a predominante. Tabela 12. Mapeamento das URLs para conceitos da Ontologia
URL /SCRIPT/Cursos/scripts/student/serve_calendar? START+homepage+1010412547 /SCRIPT/CCD_16_02JAN/scripts/student/serve_mail?LIST+All Dimenso predominante Contedo Servio Conceito Principal Calendrio Correio Eletrnico Conceito Secundrio Visualizar

7.1.2

Mdulo de Definies O Mdulo de Definies suporta as funcionalidades de: Importar Padres Seqenciais,

Definir Dimenso de Interesse, Definir Critrio de Agrupamento, Preparar Padres para Interpretao e Recuperao. Estas funcionalidades so disponibilizadas no prottipo pela:

91

rea de Importao dos Padres (Figura 47-A), rea de Definio da Dimenso de Interesse (Figura 47-B) e rea de Definio do Critrio de Agrupamento (Figura 47-B). A Figura 47 permite visualizar como estas reas esto organizadas na interface do prottipo que implementa este mdulo.

B C

Figura 47: Interface do Mdulo de Definies Cada rea requisita um conjunto de parmetros. Depois de definidos estes parmetros e importados os padres seqenciais fsicos, os mdulos restantes so habilitados, permitindo a interpretao e recuperao dos padres. Para isso, basta clicar no boto Intepretar e Recuperar padres, localizado no canto inferior da interface do Mdulo de Definies. 7.1.2.1 rea de Importao dos Padres Esta rea permite selecionar o arquivo texto que contm as informaes sobre os padres seqenciais; visualizar o arquivo texto; especificar os delimitadores das informaes; e finalmente importar os padres seqenciais fsicos.

92

a) Arquivo de Padres Assume-se como entrada um arquivo texto contendo um conjunto de padres seqenciais fsicos, com o respectivo valor de suporte. Cada linha do arquivo texto define um padro seqencial fsico. Cada padro possui no mnimo um valor de suporte, e as URLs que compem cada padro devem estar separadas por um caracter qualquer. No existe uma posio determinada no arquivo texto para o armazenamento das informaes. Isso no impede que outros algoritmos sejam utilizados para gerar padres seqenciais, desde que, as restries quanto formatao deste arquivo sejam obedecidas. A Figura 48 representa um arquivo texto que contm alguns padres gerados pelo algoritmo AprioriAll, tal como implementado na ferramenta Intelligent Miner. Neste exemplo, as URLs que compem o padro seqencial foram substitudas por uma abreviao para facilitar a visualizao dos padres seqenciais fsicos. A segunda coluna especifica os valores de suporte e a ltima os padres seqenciais, onde as URLs so separadas pelos delimitadores [ e ]. Outras informaes existentes no arquivo texto referente ao padro seqencial so desconsideradas por serem irrelevantes para este trabalho.
Arquivo.txt ARQUIVO DE PADRES 1 1 1 1 1 5.4054 14.5946 6.4865 5.9459 7.5676 Suporte -2.78 -2.43 -1.98 -1.98 -1.29 0.66 0.86 0.77 0.75 0.85 [URL1] [URL1] [URL1] [URL1] [URL2] [URL2] [URL3] [URL3] [URL2] [URL2] [URL3] [URL3] [URL2] [URL2]

Padro Seqencial

Figura 48: Exemplo de um conjunto de padres seqenciais b) Seleo do Arquivo de Padres A Figura 49 representa a rea do prottipo responsvel pela importao dos padres seqenciais fsicos, organizada em duas subreas. Primeiramente, o prottipo permite selecionar um arquivo texto. Este deve conter as informaes mnimas referentes aos padres seqenciais fsicos, a saber, valor de suporte e URLs que o compem. Uma vez selecionado o arquivo pelo analista, esta subrea permite a visualizao do arquivo em uma pequena tela, sendo que a primeira linha representa uma rgua que determina as posies que os caracteres

93

assumem ao longo do arquivo texto, como visualizado na Figura 49-A. Esta rgua serve como auxlio na definio de outros parmetros requisitados. b) Formatao do Arquivo de Padres Aps a seleo do arquivo, a subrea inferior (Figura 49-B) permite especificar as informaes referentes formatao do arquivo texto. Os dois primeiros campos determinam a posio de incio e fim dos padres seqenciais contidos no arquivo texto. Os dois campos seguintes delimitam a posio de incio e fim que armazenam o valor de suporte especificado para cada padro seqencial fsico. J, os ltimos campos desta subrea especificam os caracteres utilizados para diferenciar as URLs que formam o padro seqencial. Depois de informados todos os parmetros, finalmente os padres seqenciais fsicos podem ser importados, acionando o boto Importar.

Figura 49: rea de Importao dos Padres Cabe ressaltar que atualmente o prottipo disponibiliza apenas a importao dos padres seqenciais fsicos, assumindo que os demais dados (e.g. Ontologia de Domnio, mapeamento e log pr-processado) so inseridos usando diretamente os recursos disponveis para tal no sistema de gerncia de banco de dados. Verses futuras do prottipo estendero as funcionalidades para a importao de todos dados.

94

7.1.2.2

rea de definio do Critrio de Agrupamento Esta rea permite definir o critrio segundo o qual os padres importados sero

agrupados. Nesta verso do prottipo, apenas o algoritmo maximal est disponvel. Porm, o prottipo prev a extenso para outros algoritmos de agrupamento. A Figura 50 representa esta rea no prottipo.

Figura 50: rea de definio do Critrio de Agrupamento

7.1.2.3

rea de Definio da Dimenso de Interesse A rea de Definio da Dimenso de Interesse permite selecionar a dimenso segundo

a qual os padres seqenciais fsicos importados sero interpretados e recuperados, ou seja, a ela utilizada na gerao dos padres conceituais base. A Figura 51 ilustra esta rea no prottipo.

Figura 51: rea de Definio da Dimenso de Interesse

7.1.3

Mdulo de Agrupamento e Interpretao de Padres O Mdulo de Agrupamento e Interpretao de Padres suporta as funcionalidades de:

Inspecionar Agrupamentos, Visualizar Padro Conceitual, Visualizar Padro Conceitual Textual, Visualizar Padro Conceitual Grfico, Selecionar Padro Conceitual Textual, Configurar Anlise Exploratria, Executar Operao Roll-up, Executar Operao Drill-down, Verificar Padres Contidos, Verificar Padres Detalhe. Estas funcionalidades so

95

disponibilizadas no prottipo pela: rea de Agrupamento de Padres (Figura 52-A), rea de Padres Contidos (Figura 52-B), rea de Anlise Exploratria (Figura 52-C), e rea de Padres Detalhe (Figura 52-D). A Figura 52 representa como estas reas esto organizadas na interface do prottipo que representa este mdulo. Cabe ressaltar que as reas dos Padres Contidos e dos Padres Detalhe so visualizadas a partir de uma requisio do analista.

Figura 52: Interface do Mdulo de Agrupamento e Interpretao de Padres 7.1.3.1 rea de Agrupamentos de Padres A rea de Agrupamento de Padres identifica grupos de padres conceituais base gerados pelo algoritmo de agrupamento selecionado na rea de Definio de Critrio de Agrupamento. Cada linha corresponde a um agrupamento e o padro que identifica o agrupamento representado textualmente. Considerando o critrio maximal, os grupos so identificados pelo padro maximal e seu respectivo suporte. Ao selecionar uma linha, o padro maximal representado graficamente na rea de Anlise Exploratria.

96

A partir desta rea, o prottipo permite visualizar os padres contidos nestes agrupamentos na rea de Padres Contidos. A Figura 53-A representa alguns grupos de padres gerados de acordo com o critrio maximal. 7.1.3.2 rea de Padres Contidos Esta rea apresenta os padres contidos no agrupamento selecionado na rea de Agrupamentos de Padres. Cada linha representa um padro conceitual base visualizado textualmente, com o seu respectivo valor de suporte. Qualquer padro desta rea pode ser selecionado e visualizado na rea de Anlise Exploratria. A Figura 53-B representa alguns padres que fazem parte do agrupamento selecionado.

Padro Maximal

Padres Contidos no agrupamento selecionado B

Figura 53: reas de Agrupamento de Padres e Padres Contidos 7.1.3.3 rea de Anlise Exploratria A rea de Anlise Exploratria permite: visualizar um padro conceitual textual selecionado de qualquer rea (Agrupamentos de Padres, Padres Contidos, Padres Detalhe, Padres Filtrados) atravs de uma representao grfica e interativa; executar a anlise exploratria sobre este padro, compreendendo as operaes de detalhamento de relacionamentos, roll-up e drill-down. Ainda, permite mudar a dimenso de interesse para interpretar este padro conceitual especfico.

97

A Figura 54-B representa a rea de Interpretao de Padres, onde visualiza-se um padro conceitual base selecionado na rea de Agrupamentos de Padres (Figura 54-A), com o respectivo valor de suporte abaixo. No canto superior esquerdo da rea de Anlise Exploratria existem algumas opes que podem ser alteradas pelo analista para anlise daquele padro selecionado em especfico. No presente exemplo, o padro conceitual base selecionado est sendo analisado segundo a dimenso de Servio e Contedo, uma vez que as duas opes esto selecionadas. Caso o analista queira analisar o mesmo padro considerando apenas a dimenso de Servio, basta desmarcar a opo de Contedo.

Figura 54: reas de Agrupamentos de Padres e Anlise Exploratria A outra opo de Detalhar relaes hierrquicas de todos os conceitos diz respeito operao de detalhamento de relacionamentos hierrquicos. Esta opo, quando habilitada, permite executar a operao de detalhamento de relaes hierrquicas sobre todos os conceitos ao mesmo tempo, atravs de uma nica interao. Na rea de Anlise Exploratria, os conceitos do padro conceitual so representados por retngulos com bordas arredondadas. Os conceitos que formam um padro conceitual base so representado por uma cor clara. J os conceitos ascendentes so representados por uma cor escura. A Figura 55 representa uma viso ampliada de um padro conceitual base sendo interpretado na rea de Anlise Exploratria.

98

a) Detalhamento de Relacionamentos Observa-se na Figura 55-A que alguns conceitos possuem uma seta no canto superior direito apontando para cima. Esta seta significa que a operao de detalhamento de relacionamento hierrquico est habilitada. Clicando sobre esta seta, o conceito ascendente ao selecionado ser representado logo acima, assim como a relao existente entre os dois.

Conceito Ascendente detalhamento de relacionamento hierrquico

A detalhamento de relacionamento Propriedade


Relaes de Propriedade

Figura 55: Explorando um padro conceitual base Os conceitos ascendentes possuem uma seta no canto inferior direito apontando para baixo. Ao clicar sobre esta seta, o conceito simplesmente desaparece. Os conceitos que possuem um quadrado no canto inferior direito, expressam a existncia de relacionamentos de propriedade com outros conceitos definidos pela Ontologia de Domnio. Para visualizar as informaes sobre estas propriedades basta clicar sobre o quadrado que uma caixa de texto ser visualizada, como representado pela Figura 55-B. b) Operao Roll-up A operao roll-up realizada quando o analista executar um duplo-click sobre um dos conceitos ascendentes obtidos pela operao de detalhamento de relaes hierrquicas (Figura 56-A). Assim, cria-se um padro conceitual abstrato (Figura 56-B), com o respectivo suporte. Figura 56 representa a criao de um padro conceitual abstrato a partir de uma operao de roll-up.

99

Duplo Click

Roll-up B

Figura 56: Operao roll-up c) Operao Drill-Down A operao drill-down, pode ser executada sobre qualquer um dos conceitos ascendentes de um padro conceitual abstrato que possui descendentes. No padro conceitual abstrato da Figura 56-A, a operao drill-down poderia ser executada somente sobre o ltimo conceito do padro. O que determina a operao drill-down estar habilitada um crculo posicionado no canto inferior direito. Ao clicar sobre este smbolo, uma janela criada, contendo os padres detalhe sumarizados pelo padro conceitual abstrato, como ilustrado pela Figura 60. Os padres detalhe so visualizados na rea de Padres Detalhe (Figura 60-B).
A

Drill-down

Figura 57: Operao drill-down

100

7.1.3.4

rea de Padres Detalhe A rea de Padres Detalhe representa um conjunto de padres conceituais base que

sumarizam um padro abstrato. Ela obtida a partir de uma interao do analista na rea de Anlise Exploratria (operao drill-down), como representado na Figura 60-A. Qualquer padro desta rea pode ser selecionado e visualizado na rea de Anlise Exploratria. 7.1.4 Mdulo de Recuperao atravs de Filtros O Mdulo de Recuperao atravs de Filtros suporta as funcionalidades de: Visualizar Padro Conceitual, Visualizar Padro Conceitual Textual, Verificar Detalhamento de Relacionamentos, Interagir com a Ontologia de Domnio, Definir Filtro de Interesse, Aplicar Mecanismo de Busca, Buscar por Equivalncia, Buscar por Aproximao, Verificar Padres Conceituais Base Recuperados, Verificar Padres filtrados. Estas funcionalidades so disponibilizadas no prottipo pela: rea da Ontologia de Domnio (Figura 58-A), rea de Definio de Filtros (Figura 58-B) e rea de Padres Filtrados (Figura 58-C). A Figura 58 representa como estas reas esto organizadas na interface deste mdulo.

Figura 58: Interface do Mdulo de Recuperao atravs de Filtros

101

7.1.4.1

rea da Ontologia de Domnio A rea da Ontologia de Domnio apresenta a ontologia graficamente. O analista tem a

possibilidade de inspecionar os conceitos definidos, assim como as relaes existentes entre eles. A Figura 59 ilustra uma Ontologia de Domnio representada graficamente. A regio inferior descreve as relaes do conceito selecionado com outros conceitos da ontologia. Alm de aprofundar o conhecimento sobre os principais conceitos que descrevem um domnio e suas relaes, a rea de Representao da Ontologia de Domnio utilizada para auxiliar na definio da restrio conceitual que compe um filtro. Desta forma, o analista interage e seleciona os conceitos da ontologia que expressam seu interesse pelos padres conceituais base. O boto Adicionar adiciona o conceito da ontologia selecionado na rea de Definio de Filtros.

Conceito

Relao

Figura 59: rea de Representao da Ontologia de Domnio.

102

7.1.4.2

rea de Definio de Filtros Esta rea permite definir filtros de interesse e escolher mecanismos de busca para

recuperar os padres de acordo com a dimenso de interesse especificada na rea de definies. Filtros so criados de forma interativa expressando restries conceituais, estruturais e estatsticas. As restries conceituais so facilitadas pela interao com a Ontologia de Domnio representada graficamente. Os conceitos da ontologia adicionados na rea de Definio de Filtros representam o interesse em determinados eventos de domnio. Restries estruturais so definidas atravs do uso de identificadores especiais. Estes identificadores so representados por um conjunto de botes localizados direita na rea de Definio de Filtros, como representado na Figura 60. Existe o identificador de incio, fim e de conexo entre conceitos. Como restries estatsticas, o prottipo considera apenas um valor mnimo para o suporte dos padres recuperados.

Conceito Identificador Incio Identificador Fim Mecanismo de Busca Aproximada Identificador Conexo

Recuperar Padres

Restrio Estatstica

Figura 60: rea de Definio de Filtro

103

Quanto aos mecanismos de busca, a opco padro por equivalncia. Se o usurio especificar a busca por padres similares, deve informar o restante dos parmetros de acordo como interesse. Atualmente, apenas o algoritmo GVSM est disponvel. Porm, outros algoritmos de similaridade podem ser includos. O boto Localizar recupera padres conceituais base de acordo com o mecanismo de busca. Demais botes (Novo e Excluir) fornecem funcionalidades adicionais . 7.1.4.3 rea de Padres Filtrados A rea de Padres Filtrados, visualizada na Figura 61, mostra os padres recuperados de acordo com as restries definidas pelo filtro, com o seu respectivo suporte. Se o mecanismo de busca for o aproximado, o padro ainda apresenta o valor para a medida de similaridade do padro em relao ao filtro definido. Ainda, se o analista selecionar um padro nesta rea, ele passa a ser visualizado graficamente na rea de Anlise Exploratria.

Figura 61: rea de Padres Filtrados

104

8 ESTUDO DE CASO EM UM AMBIENTE DE ENSINO A DISTNCIA


O presente captulo descreve um estudo de caso realizado no contexto da Educao a Distncia para avaliar os mecanismos de recuperao e interpretao de padres propostos para fase de Anlise de Padres.

O processo de MUW aplicado nas mais diversas reas. Uma delas a Educao a Distncia (EAD), na qual tem crescido a utilizao do ensino baseado na Web. A aplicao do processo de MUW nos dados relativos s interaes dos estudantes atravs destes ambientes permite detectar padres de utilizao dos mesmos, bem como padres de aprendizagem. Atravs deste conhecimento possvel refletir sobre a adequao da estrutura do site, em termos de servio e contedo, e ainda compreender como os usurios navegam pelo site de acordo com os diferentes modelos de aprendizagem para aquisio de competncias. O domnio da EAD foi o escolhido para a realizao do estudo de caso desta pesquisa devido facilidade na obteno do log juntamente com o departamento de EAD da Pontifcia Universidade Catlica do Rio Grande do Sul (PUCRS). Outro motivo pela escolha deste ambiente a possibilidade de uma comparao desta proposta com o trabalho de Machado [MAC03], que aplica a MUW sobre o mesmo log. Machado vivenciou srios problemas de interpretao e recuperao de padres na fase de Anlise de Padres, os quais serviram para a motivao desta pesquisa. Estes problemas so descritos com maiores detalhes na Seo 8.3.1. Nas sees seguintes, o ambiente de EAD da PUCRS, gerenciado pela ferramenta WebCT (Web Course Tool), descrito em maiores detalhes, assim como o estudo de caso realizado para este trabalho. O estudo de caso tem como objetivo avaliar como a abordagem proposta auxilia o analista na fase de Anlise de Padres. Para isso, descrito um cenrio de uso do prottipo, complementando com uma comparao do processo de MUW que utiliza os mecanismos propostos para auxiliar na fase de Anlise de Padres, com o trabalho de Machado [MAC03] que no utiliza nenhuma ambiente de apoio a esta fase.

105

8.1 Ambiente de Ensino da EAD da PUCRS Na proposta de EAD criada pela PUCRS, cada curso ou projeto apresenta uma construo prpria e comporta capacitao, assessoramento e monitoramento de professores, monitores, tutores e dos prprios alunos distantes, no sentido de facilitar o trnsito e a construo de ambientes orientados aprendizagem [MED01]. Tais ambientes so gerenciados pelo programa do WebCT em qualquer curso ou projeto que se instala na PUCVirtual. WebCT uma plataforma composta de um conjunto de ferramentas que facilita a criao e manuteno de cursos educacionais baseados em interfaces Web [WCT02]. O acesso ao WebCT realizado a partir de um servidor central, que registra no log do servidor Web todo e qualquer acesso s pginas que compem um ambiente de ensino [GOL96]. O WebCT suporta um ambiente de ensino e aprendizado integrado, contendo uma srie de ferramentas educacionais tais como sistema de conferncia, bate-papo, correio eletrnico, acompanhamento do aluno, suporte para projetos colaborativos, auto-avaliao, questionrios, distribuio e controle de notas, glossrio, controle de acesso, calendrio do curso, gerao automtica de ndices e pesquisa, entre outras. A Figura 63 ilustra um ambiente de ensino construdo pelos recursos disponveis pelo WebCT.

Figura 62: Ambiente de ensino construdo pelos recursos do WebCT O WebCT disponibiliza alguns recursos para monitorao do comportamento dos alunos referente navegao do site. Um deles a estatstica de dados de carter geral, tais

106

como o nmero de hits (acessos) por pgina, as pginas acessadas mais freqentemente, e o tempo mdio de acesso de cada pgina, etc. Outro recurso que pode ser utilizado para medir a adequao da estrutura e do contedo do curso, atravs de comentrios enviados pelos prprios alunos atravs de mensagens. Porm, estas formas de monitorao e acompanhamento fornecidas pelo WebCT no so suficientes para uma avaliao consistente do uso dos recursos pelos alunos. Assim, a carncia de informaes mais detalhadas para estimar e expressar a eficincia do uso dos recursos de ensino e a falta de mecanismos de acompanhamentos mais efetivos dos comportamentos dos usurios so alguns dos fatores que estimulam a aplicao do processo de MUW para ambientes de EAD. 8.2 Log do WebCT A ferramenta WebCT registra os acessos a todos os recursos ofereciso por um ambiente de ensino. O formato dos arquivos de log gerado do tipo CLF. Cada transao indica quais pginas Web ou scripts foram requisitados, quando e de onde partiu esta solicitao e, ainda podem trazer a identificao do usurio. A Figura 63 ilustra uma amostra de log gerado pelo WebCT. Nota-se que a maioria das pginas acessadas em um ambiente WebCT corresponde a chamadas de scripts.

Figura 63: Amostra do Log do WebCT

107

8.3 Processo de MUW na EAD O Grupo de Sistema de Informao da PUCRS vm desenvolvendo diversos trabalhos relacionados ao processo de MUW nos ambientes de ensino distncia ([e.g. MAC03, MAR04]), onde um curso da PUC-Virtual utilizado no estudo de caso. Estes trabalhos consideram como fonte de dados o log de um curso de extenso gerenciado pelo WebCT denominado neste trabalho como Curso_ABC. O Curso_ABC ocorreu de 08 e 18 de janeiro de 2002, e contou com a participao de 15 alunos. A topologia das pginas do Curso_ABC esto representadas na Figura 64. Observa-se as pginas de apresentao do curso (4 links) e as pginas relacionadas aos recursos utilizados para desempenho e cumprimento das atividades propostas pelo curso (5 links). As pginas marcadas em itlico, possuem ramificaes para outras pginas do site.
Curso Boas Vindas Descrio do Ambiente do Curso Ambiente do Curso Mapa do Curso Nosso Curso Plano do Curso Informaes do Curso Roteiro das Aulas Pgina do Aluno Alunos do Curso Relao Aluno-Professor Alunos outros cursos_1 Alunos outros cursos_2 Mapa do Curso Material de Aula Glossrio Biblioteca Virtual Bibliografia Descrio das Atividades Sala de entrega das Atividades Tutorial de entrega das atividades Videoconferncia

Ambiente de Aula

Espao de Comunicao

Correio Eletrnico Frum de Discusso Bate-Papo Tutorial de Correio Tutorial do Bate-Papo Bate-Papos anteriores

Espao de Monitoramento

Inaugural Redes Hipertexto

Meu Progresso Feedback

Memria do Curso

Caderno Virtual Bate-Papos

Inaugural Redes Hipertexto

Figura 64: Topologia do Curso_ABC

108

A seo seguinte descreve algumas particularidades relacionadas ao trabalho de Machado [MAC03], que serviu de motivao para a presente pesquisa, e principalmente como referencial de avaliao da abordagem proposta neste trabalho. 8.3.1 Abordagem de Machado [MAC03] O trabalho de Machado [MAC03] buscou estabelecer um modelo de processo para a MUW voltado EAD. Atravs da anlise do comportamento de navegao, deseja-se monitorar as atividades dos alunos durante o curso on-line, assim com avaliar a utilizao dos recursos oferecidos pelo site educacional. Para atingir os objetivos propostos, o processo de MUW foi executado diversas vezes visando demonstrar os diferentes tipos de padres que poderiam ser extrados. Para tal, aplicou-se as tcnicas de associao e padres seqenciais sobre o log preprocessado, ambas disponibilizadas na ferramenta Intelligent Miner [IBM04]. Como resultado obteve-se uma grande quantidade de padres de difcil interpretao e de pouca representatividade, o que despertou pouco interesse no analista, no caso uma pessoa vinculada PUC-Virtual, conhecedora do curso em questo. Visando aumentar a representatividade dos padres e tambm a semntica associada a eles, optou-se pela associao de taxonomias ao processo de MUW, como descrito nos trabalhos de Agrawal e Srikant [SRI95, SRI97]. O resultado da fase de Minerao de Dados foi um aumento no conjunto de padres formados por dezenas de milhares de padres. Considerando o excessivo volume, o analista selecionava alguns padres aleatoriamente que pareciam ser mais relevantes, os quais na maioria das vezes eram padres generalizados por apresentar maior representatividade. O analista ratificava ento o interesse nos padres relacionados a ttulo de exemplo, e neste momento geralmente demonstrava interesse nos mais especficos. Contudo, como a ferramenta no oferecia qualquer tipo de apoio, o relacionamento manual de regras relacionadas tornou-se uma tarefa de extrema complexidade. Desta forma, os recursos para a fase de Anlise de Padres eram muito limitados, comprometendo os resultados do processo de MUW.

109

8.4 Estudo de Caso O estudo de caso descrito neste trabalho tambm foi realizado no contexto da PUCVirtual considerando a mesma fonte de dados utilizada na abordagem de Machado [MAC03] e uma tcnica de Minerao de Dados utilizada, a saber a de padres seqenciais fsicos. A diferena entre as abordagens est na fase de Anlise de Padres, onde este estudo de caso oferece mecanismos de apoio atividade de anlise de padres propostos por esta pesquisa. 8.4.1 Preparao de Dados Primeiramente, os dados contidos nos arquivos de log passaram pela etapa de Preparao de Dados. Os dados utilizados para este estudo de caso foram selecionados abrangendo um perodo determinado para a execuo de uma atividade proposta para Curso_ABC, compreendendo 6 dias de curso. Utilizando a ferramenta de pr-processamento desenvolvida por Marquardt [MAR04], a este log foram aplicadas as seguintes operaes: Limpeza: Eliminao dos registros de acesso com extenses no significativas (e.g. .gif, .jpeg, .css); Filtragem: Foram eliminados todos os registros sem identificao de usurio que no se referem ao Curso_ABC; e pginas que no oferecem recursos aos estudantes, ou seja, pginas que servem somente como elo de conexo entre outras pginas; Identificao de Sesso: Os acessos formam organizados em sesses de atividades. Machado [MAC03] define uma sesso de atividade como o conjunto de recursos acessados por um estudante para a execuo de uma atividade especfica, proposta pelo curso. Transformao - Mapeamento de Acessos: A cada URL foi associada a um identificador numrico para facilitar a manipulao dos dados na fase de Minerao. O log preparado resultou em 3410 registros.

110

8.4.2

Ontologia de Domnio e Mapeamento A Ontologia de Domnio para o Curso_ABC foi criada manualmente para avaliao

dos mecanismos propostos por esta abordagem. Cabe ressaltar que o presente trabalho no tem por objetivo avaliar a ontologia definida e nem o mtodo utilizado para isto, mas sim explorar a utilizao desta como suporte fase de Anlise de Padres. Para a construo da Ontologia de Domnio foram identificadas as URLs distintas que compunham o log preparado. No total foram identificadas 87 URLs. Cada URL foi acessada e os eventos de domnio representados foram identificados. Estes eventos de domnio eram representados pelos conceitos de servio e contedo que passavam a fazer parte da Ontologia de Domnio. Assim, medida que as URLs eram acessadas, a Ontologia de Domnio sofria refinamentos e o mapeamento, que determina a quais conceitos da ontologia a URL estava associada, tambm era definido. Para finalizar, a ontologia sofreu o ltimo refinamento, onde alguns conceitos e relacionamentos foram criados de acordo com o conhecimento do domnio adquirido. No total a ontologia criada formada por 127 conceitos e 130 relaes. 8.4.3 Descoberta de Padres de Uso da Web na EAD A tcnica de Minerao de Dados selecionada para a descoberta de padres o algoritmo AprioriAll, descrito na Seo 2.2.2.1 e disponvel na ferramenta Intelligent Miner. O valor mnimo de suporte (minsup) informado para a gerao dos padres seqenciais fsicos foi 5%. No total foram descobertos 5530 padres. A Figura 65 ilustra uma pequena amostra do arquivo texto exportado pela ferramenta Intelligent Miner, o qual armazena as informaes sobre os padres seqenciais fsicos, incluindo o respectivo suporte. O cabealho do arquivo texto deve ser removido para a importao das informaes pelo prottipo na fase de Anlise de Padres.

111

Figura 65: Amostra de um arquivo texto obtido pela ferramenta Intelligent Miner 8.5 Anlise de Padres: Cenrio de Uso Esta seo descreve um cenrio de uso do prottipo que disponibiliza os mecanismos de interpretao e recuperao de padres utilizados pelo analista na fase de Anlise de Padres, considerando as atividades desenvolvidas anteriormente. 8.5.1 Definies iniciais Primeiramente, o analista interage com a rea de Importao dos Padres do prottipo (Mdulo de Definies), onde seleciona o arquivo texto contendo os padres seqenciais de URLs resultantes da fase de Minerao de Dados. Nesta mesma rea ele delimita as posies que determinam o padro seqencial fsico e seu valor de suporte. O analista ainda especifica os caracteres que identificam uma URL. Importados os dados, o analista seleciona o critrio que ser utilizado para agrupar os padres seqenciais fsicos, a saber critrio maximal (rea de Definio de Agrupamentos), e define a dimenso de interesse na qual os padres conceituais sero analisados (rea de Definio de Dimenso de Interesse). Neste exemplo, a dimenso escolhida foi contedo e servio. 8.5.2 Inspecionando Agrupamentos e Interpretando Padres Na rea de Agrupamentos de Padres, o analista visualiza os padres conceituais agrupados obedecendo ao critrio maximal e representados de acordo com a dimenso de interesse de servio e contedo. Neste estudo de caso foram gerados 40 agrupamentos para 5530 padres seqenciais fsicos.

112

Inicialmente, o analista explora estes agrupamentos visveis na rea de Agrupamentos de Padres. No exemplo ilustrado pela Figura 66-A, o analista seleciona um agrupamento que julga interessante onde o padro maximal expressa que 9,72% das sesses de usurios acessaram a ferramenta WebCT seguidos pelo Curso_ABC, requisitaram a lista de atividades e posteriormente seguiram para bate-papo. Nota-se que a interpretao do padro facilitada pela utilizao dos conceitos da ontologia. O analista ainda verifica os padres contidos no agrupamento na rea de Padres Contidos (Figura 66-B), mas decide aprofundar a interpretao no padro maximal.

Figura 66: Inspecionando rea de Agrupamentos de Padres e Padres Contidos Ao selecionar o padro maximal na rea de Agrupamentos de Padres, este automaticamente representado graficamente na rea de Anlise Exploratria de acordo com a dimenso de interesse servio e contedo, como representado pela Figura 67-B.

Figura 67: rea de Anlise Exploratria

113

Antes de aprofundar a interpretao do padro, o analista resolve verificar o padro considerando apenas a dimenso de contedo, buscando saber quais contedos estavam sendo manipulados pelos usurios. Para isso ele apenas desmarca a opo servio, localizada logo acima da representao grfica do padro conceitual base. A Figura 68 representa o padro conceitual visualizado nesta dimenso. Ele verifica que os contedos envolvidos no padro referem-se aos dados dos usurios e a lista de atividades. Existem tambm conceitos que no possuem contedo disponvel. Surgiu ento, uma curiosidade de verificar o padro em termos de servios acessados. Para isso o analista apenas desmarca a opo contedo e marca a opo servio. O padro visualizado (Figura 69) expressa que os usurios acessaram o WebCT, acessaram o Curso_ABC, visualizaram informaes e foram para o bate-papo. Ao final, o analista resolve voltar dimenso de interesse servio e contedo para realizar a anlise exploratria.

Figura 68: Padro conceitual na dimenso de interesse em contedo

Figura 69: Padro conceitual na dimenso de interesse em servio Para realizar a anlise exploratria do padro, o analista tem que interagir com ele. Primeiramente, ele realiza algumas operaes de detalhamento de relacionamentos hierrquicos habilitada para os 4 conceitos que compem o padro conceitual base (Figura 70). Ele solicita o detalhamento de informaes hierrquicas sobre o conceito ListaAtividades e descobre que esta faz parte da arquitetura pedaggica do Curso_ABC, atravs da existncia de uma relao de composio entre os conceitos Lista-Atividades e ArquiteturaPedaggica. Visando adquirir maiores informaes sobre o conceito Arquitetura-Pedaggica atravs de outra operao de detalhamento de relacionamento hierrquico, ele compreende que este faz parte do contedo. Da mesma forma, operaes detalhamento de relacionamentos

114

hierrquicos foram realizadas sobre os outros conceitos, descobrindo que bate-papo um recurso de comunicao e que este por sua vez um servio.

Figura 70: Realizando operaes de detalhamento de relaes hierrquicas Ainda, o analista visualiza que existe uma relao de propriedade entre o conceito Lista-Atividades e outro conceito da ontologia. Curioso, ele realiza a operao de detalhamento de relacionamentos de propriedade. Uma mensagem mostrada, informando que a lista de atividade disponibilizada no Curso_ABC, como mostrado na Figura 71.
Relaes de Propriedade

Figura 71: Explorando o significado das relaes de propriedade Para o analista, o padro foi completamente compreendido de forma intuitiva atravs do padro conceitual base e das informaes que adquiriu com as sucessivas operaes de detalhamento de relacionamentos hierrquicos e de propriedade. Neste ponto da interpretao, comeam a surgir hipteses sobre as informaes contidas no padro. O analista supe que ao acessar a lista de atividades, os alunos encontraram dvidas sobre as atividades requisitadas pelo Curso_ABC e por isto acessaram o bate-papo para questionamentos. Considerando esta hiptese, o analista resolveu verificar quais os outros recursos de comunicao foram

115

utilizados pelos alunos aps o acesso a lista de atividades. Desta forma, ele realiza a operao de roll-up sobre o conceito Recurso-Comunicao, substituindo o conceito Bate-papo para o Recurso-Comunicao. O padro abstrato obtido ilustrado pela Figura 72. O analista verifica que o padro abstrato criado possui suporte superior ao padro conceitual base explorado anteriormente, ou seja, os alunos acessaram outros recursos de comunicao alm do bate-papo. Para verificar quais os padres conceituais detalhe que sumarizam o padro abstrato, o analista requisita a operao de drill-down. Como resultado, uma janela contendo os padres conceituais detalhe mostrada na rea de Padres Detalhe (Figura 73). A partir deste padres, o analista verifica que os alunos foram visualizar seus e-mail.

Figura 72: Exemplo de padro abstrato

Figura 73: Padres conceituais detalhe Nota-se at ento, que o prottipo permite uma intensa interatividade com o analista de maneira amigvel e flexvel. Ou seja, o analista facilmente inspeciona os padres presentes nos agrupamentos que despertam interesse, seleciona um padro conceitual base para aprofundar a interpretao, escolhe diferentes dimenses de interesse sem re-execuo as fases anteriores, e realiza operaes que compem a analise exploratria, podendo assim aprofundar a compreenso e descobrir padres relacionados.

116

8.5.3

Definindo filtros e Recuperando Padres Surge ento, uma curiosidade de verificar se os estudantes esto preocupados com os

seus desempenhos durante o curso Curso_ABC. Para verificar esta hiptese o analista define filtros de interesse interagindo com a Ontologia de Domnio representada graficamente na rea da Ontologia de Domnio. Nela, ele seleciona o conceito Progresso-aluno, adicionandoos na rea de Definio de filtros, conforme visualizado na Figura 74-A. Aps definir o filtro, o analista requisita a recuperao dos padres que esto de acordo com o filtro utilizando o mecanismo de busca equivalente. Neste caso, foram encontrados 48 padres, visualizados na rea de Padres Filtrados (Figura 74-B).

Figura 74: Definio do filtro de interesse - I Analisando os padres, o analista verifica que realmente os estudantes acompanham seus desempenhos no curso Curso_ABC. Porm, surge a curiosidade de verificar se os alunos so instigados a acompanhar o seu desempenho pelo acesso ao recurso de comunicao bate-

117

papo, que julga ser o mais utilizado. O analista supe que o desempenho dos alunos pode ser pauta para muitas discusses na ferramenta de bate-papo. Para isso, o analista aprimora o filtro definido, expressando que os padres conceituais devem conter uma requisio ao recurso de bate-papo e posteriormente ao desempenho dos alunos do curso (Figura 75). Obedecendo estas restries, 4 padres foram recuperados. Analisando os padres, mais uma vez o analista tem sua hiptese comprovada.

Figura 75: Definio do filtro de interesse - II O analista ento resolve ampliar o escopo da pesquisa por padres, aplicando o mtodo de busca por padres aproximados, como visualizado pela Figura 76. Para isto ele escolhe a medida de similaridade escolhida foi a GVSM, o nvel de abstrao informado foi 1, e o valor de similaridade mnimo do padro foi de 0,7. Para esta situao especificada, foram recuperados 342 padres. Nota-se que o padro conceitual que possui valor de similaridade 1 aquele que casa com os interesses especificados pelo analista atravs do filtro. Os padres com similaridade menor que 1 so aqueles que possuem algumas variaes. Por exemplo, o padro selecionado com similaridade 0,9 um padro que representa uma similaridade muito prxima ao interesse especificado pelo filtro pois ao invs dos usurios acessarem o bate-papo, como especificado no filtro, eles acessaram outro recurso de

118

comunicao que possibilita a visualizao de e-mail. Ao analisar este padro, o analista achou-o interessante pois demonstra que os alunos tambm utilizam outros recursos de comunicao e no somente o bate-papo.

Figura 76: Aplicao do mtodo de busca aproximada 8.6 Consideraes Os mecanismos propostos e desenvolvidos no ambiente de apoio fase de Anlise de Padres apresentam diversas vantagens em relao a esta fase em um processo de MUW aplicado no mesmo domnio, porm sem auxilio de mecanismos para a interpretao e recuperao de padres. Estas vantagens e desvantagens esto sumarizadas na Tabela 13.

119

Tabela 13. Comparao do Processo de MUW anterior com o atual. Critrios


Fase de Anlise de Padres do Processo MUW de Machado Forma de visualizao do padro Textual Fase de Anlise de Padres do Processo MUW de Vanzin Textual e grfica

Anlise dos Critrios


Fase de Anlise de Padres do Processo MUW de Machado No existe interatividade com os padres. Fase de Anlise de Padres do Processo MUW de Vanzin A representao grfica permite a interatividade como padro, auxiliando-o na interpretao e recuperao de padres. Fcil interpretao, possibilitando a escolha de diferentes dimenses de interesse. Permite aprofundar a compreenso do significado dos conceitos que compem o padro. Diminuio no nmero de padres retornados, conseqentemente, maior facilidade de recuperar padres relevantes, uma vez que os padres abstratos so obtidos sob demanda.

Composio do Padro visualizado na fase de Anlise Padro composto por um Conjunto de conceitos de servio e conjunto de identificadores contedo, de acordo com a dimenso numricos ou por conceitos da de interesse. taxonomia. Explorao do significado do Padro No disponvel. Operao de detalhamento de relacionamentos hierrquicos e de propriedade. Obteno dos Padres Abstratos Todos os padres abstratos foram obtidos como resultado do algoritmo de Minerao de Dados. Os padres abstratos so obtidos sobre demanda, atravs da operao de roll-up

Dificuldade de interpretar o significado de cada padro.

No existe a possibilidade de aprofundar a interpretao das informaes expressas pelo padro. Dificuldade de recuperar padres relevantes devido ao grande nmero de padres retornados com o uso de taxonomia.

120

Critrios
Fase de Anlise de Padres do Fase de Anlise de Padres do Processo MUW de Machado Processo MUW Atual Obteno dos padres que detalham os Generalizados No disponvel. Os padres que detalham os padres generalizados so obtidos pela operao de drill-down. Definio de filtros Composto por um vetor de pginas, como forma de expresso genrica de padres.

Anlise dos Critrios


Fase de Anlise de Padres do Processo MUW de Machado Impossibilidade de recuperar os padres que suportam o generalizado de forma rpida e intuitiva. Conhecimento do domnio para a definio de filtros e limitaes de restries. Fase de Anlise de Padres do Processo MUW de Vanzin Possibilidade de recuperao rpida dos padres que suportam o padro generalizado (abstrato) interagindo com o mesmo. Facilidade para a definio do filtro, feito de forma interativa com a Ontologia de Domnio. O analista no precisa ter um profundo conhecimento do domnio e nem dominar uma sintaxe em particular. Possibilidade de recuperar padres similares ao interesse especificado pelo filtro. Possibilidade de direcionar o foco em grupos de padres especficos. Uma vez que no h um interesse num determinado grupo, vrios padres so desconsiderados, otimizando o tempo de anlise.

Composto por um conjunto de elementos, permitindo definir restries conceitual, estruturais e estatsticas. A restrio conceitual definida atravs da interao com Ontologia de Domnio representada graficamente. Mecanismo de busca equivalente e por aproximao. Agrupamento de padres de acordo com critrio pr-definido.

Mecanismos de busca Mecanismo de busca equivalente. Agrupamento de Padres No utilizado.

Impossibilidade de descobrir padres similares ao filtro definido. Muito tempo consumido na anlise dos padres, uma vez que muitos so redundantes e desinteressantes.

121

8.7 Depoimento do Analista O analista envolvido no processo de MUW guiado pelo trabalho de Machado [MAC03] participou de uma demonstrao da utilizao do prottipo desenvolvido no escopo deste trabalho. O objetivo foi avaliar a utilidade dos mecanismos propostos na fase de Anlise de Padres, considerando o mesmo domnio para o estudo de caso utilizado no trabalho de Machado. Aps a demonstrao, o analista participou de uma entrevista. As questes formuladas e o parecer do analista podem ser encontrados no Anexo II deste volume. A entrevista guiou o analista a estabelecer um comparativo das atividades realizadas na fase de Anlise de Padres no processo de MUW vivenciado anteriormente, sem um ambiente de apoio a esta fase, com a fase de Anlise descrita neste estudo de caso. Cabe ressaltar que o objetivo no era de encontrar padres relevantes, e sim avaliar se os mecanismos propostos auxiliariam na busca por padres potencialmente relevantes. Quanto fase do processo anterior, o analista enfatiza que era dispendido muito tempo e esforo para entender o significado dos padres, alm de que tambm tinha que entender alguns conceitos tcnicos do processo para prosseguir a busca por padres relevantes. O analista tambm dedicava muito tempo configurando as clusulas (filtros) para recuperar padres relevantes, e mesmo assim elas eram bem limitadas. Assim, ao final da fase de Anlise sem um ambiente de apoio interpretao e recuperao, o analista j se dava por satisfeito quanto encontrava pelo menos alguns padres relevantes. Para o entrevistado, a utilizao do ambiente de apoio na fase de Anlise de Padres, possibilita que o analista facilmente interprete e recupere padres potencialmente relevantes para o domnio. Ou seja, analista no necessita dispender tempo com detalhes tcnicos, como por exemplo, se preocupar em conhecer como definir um filtro de interesse atravs de sintaxes de difcil manipulao; em compreender o significado das URL do projeto do site, etc. De acordo com a viso do analista, o ambiente de apoio proposto neste trabalho demonstrou ser til por: representar os padres de forma intuitiva e de fcil compreenso; permitir aprofundar a interpretao do padro de forma fcil e visual; descobrir padres relacionados atravs das operaes de drill-down e dos agrupamentos; possibilitar a

122

explorao de padres inesperados atravs da navegao pelos agrupamentos de padres, uma vez que nem sempre o analista tem em mente os caminhos realizados pelos estudantes; permitir a verificao de hipteses, representadas facilmente atravs de filtros criados a partir de um glossrio de termos (ontologia) e sem profunda preocupao com sintaxe. Assim, com a utilizao de um ambiente de apoio, os benefcios da fase de Anlise de Padres para o processo de MUW aplicado na EAD ficam mais visveis, onde a partir dos padres relevantes possvel aperfeioar a modelagem conceitual de ambiente educacional.

123

9 CONCLUSES E TRABALHOS FUTUROS


O presente trabalho centra-se na fase de Anlise de Padres, onde problemas enfrentados comprometem o resultado do processo de MUW. Os mecanismos propostos por esta pesquisa visam facilitar as atividades de interpretao e de recuperao de padres seqenciais de navegao fazendo uso do conhecimento representado pela Ontologia de Domnio. Visando viabilizar os mecanismos propostos, os eventos de domnio so representados em dois nveis, a saber, Fsico e Conceitual. Ainda, torna-se necessrio o mapeamento entre estes nveis. A Ontologia de Domnio (nvel Conceitual) e o mapeamento entre os nveis de representao dos eventos so explorados na fase de Anlise de Padres por permitir flexibilidade de interpretao e recuperao de padres considerando diferentes dimenses de interesse, sem necessidade de retorno fase de Preparao de Dados. Os mecanismos de interpretao de padres visam representar padres seqenciais fsicos na forma de padres seqenciais conceituais de acordo com diferentes dimenses de interesse, e ainda permitir a anlise exploratria dos padres conceituais, atravs da operao de detalhamento de relacionamento, roll-up e drill-down. Desta forma, os mecanismos de interpretao de padres contribuem por: a) facilitar entendimento dos padres seqenciais amenizando o esforo do analista na interpretao do significado deste; b) no exigir do analista um profundo conhecimento do domnio, uma vez que a ontologia representa parte deste conhecimento; c) permitir aprofundar a compreenso do conhecimento suportado pelos padres seqenciais conceituais de forma interativa; d) descobrir conceitos e outros padres relacionados de forma fcil e intuitiva. Uma comparao destes mecanismos de interpretao de padres com as abordagens similares foi descrito na seo 5.3. Os mecanismos de recuperao de padres complementam os mecanismos de interpretao contribuindo na restrio do foco da busca por padres relevantes, atravs da gerao de agrupamentos ou da aplicao de filtros de interesse. A comparao destes mecanismos de recuperao de padres em relao as abordagens relacionadas foi descrito na seo 6.4.

124

A gerao de agrupamentos otimiza a atividade de inspeo ad hoc uma vez que a partir de poucos padres o analista pode considerar ou desconsiderar todo o grupo de padres, por estes terem caractersticas em comum. J os mecanismos de recuperao de padres atravs de filtros contribuem por: a) minimizarem a necessidade de aprendizado de uma sintaxe; b) no requerem do analista um profundo conhecimento do domnio para a sua definio, uma vez que exploram a Ontologia de Domnio para este propsito; c) suportarem diferentes tipos de restries e serem aplicados considerando diferentes mecanismos de busca (equivalente ou aproximada). Para avaliar os mecanismos propostos, foi definido um ambiente de apoio que disponibiliza estes mecanismos atravs das funcionalidades de um prottipo. O estudo de caso realizado possibilitou a comparao da fase de Anlise de Padres em dois processos de MUW aplicados no contexto da EAD, sendo que um destes processos utilizou o prottipo para apoiar a fase de Anlise de Padres. Como resultado, os mecanismos apresentaram visveis vantagens relacionadas interpretao e recuperao de padres, confirmadas pelo analista que participou de ambos os processos. Quanto a extensibilidade da abordagem proposta, cabe ressaltar que os mecanismos propostos foram avaliados considerando padres obtidos atravs da aplicao do algoritmo AprioriAll, porm, estes mecanismos podem ser perfeitamente aplicados para classes associativas ou mesmo padres seqenciais retornados por algoritmos similares ao AprioriAll. Quanto as limitaes, a principal delas refere-se dependncia dos mecanismos na estrutura de como o conhecimento do domnio representado e como os nveis de representao dos eventos do domnio so mapeados. A existncia destas restries se faz necessria para simplificar os mecanismos propostos, ou seja, a inexistncia destas implica na extenso dos mecanismos de recuperao e interpretao. Outras limitaes referem-se: a impossibilidade de definir filtros de interesse que suportem qualquer tipo de expresso regular; a possibilidade de utilizar somente um clculo para a medida de similaridade necessrio para o mecanismo de busca por aproximao; e somente um critrio para a gerao dos agrupamentos de padres.

125

Trabalhos futuros centram-se em estudar a viabilidade da integrao dos mecanismos propostos com a Web Semntica j que esta composta por uma camada que especifica as ontologias de domnio. O objetivo explorar como esta camada suportaria os mecanismos propostos. Outro interessante trabalho futuro visa explorar a utilizao de agentes para auxiliar os analistas na definio dos filtros de interesse de acordo com os padres do uso da Web armazenados. Outros trabalhos futuros propem a validao emprica na PUC-Virtual; avaliao a aplicabilidade dos mecanismos em outros domnios; aplicabilidade de outros critrios de agrupamentos e outras medidas de similaridades para o mecanismo de busca por aproximao;

126

REFERNCIAS
[AGR93] Agrawal, R.; Imielinski, T.; Swami, A. N. Mining association rules between sets of items in large databases. In: ACM SIGMOD International Conference on Management of Data, 1993, pp.207-216. Agrawal, R.; Srikant, R. Mining sequential patterns. In: 11th International Conference on Data Engineering, 1994, pp.3-14. Agrawal, R.; Srikant, R. Fast algorithms for mining association rules. In: International Conference on Very Large Data Bases, 1994, pp.487-499. Becker, K.; Vanzin, M. Discovering interesting usage patterns in web-based learning environments. In: International Workshop on Utility, Usability and Complexity of E-Information Systems, 2003, pp.57-72. Berry, M.; Linoff, G. Data mining techniques: for marketing, sales, and customer support. New York , John Wiley & Sons, 1997, 454 p. Berendt, B.; Spiliopoulou, M. Analysing of navigation behaviour in Web sites integrating multiple information systems. The VLDB Journal, vol. 9-1, May 2000 , pp.56-75. Berendt, B.; Hotho, A.; Stumme, G. Towards semantic Web mining. In: 1rst International Semantic Web Conference, 2002, pp.264-278. Berendt, B.; Mobasher, B.; Nakagawa, M.; Spiliopoulou , M. The impact of site structure and user environment on session reconstruction in Web usage analysis. In: 4th WebKDD Workshop, 2002, pp.159-179. Berendt, B. Using site semantics to analyze, visualize, and support navigation. Data Mining Knowledge Discovery, vol.6-1, Jan. 2002, pp.37-59. Blanchard, J.; Guillet, F.; Briand, H. Exploratory visualization for association rule rummaging. In: 4th International Workshop on Multimedia Data Mining, 2003, pp.107-114. Brickley, Dan; Guha, R.V. RDF Vocabulary Description Language 1.0: RDF Schema. Capturado em: http://www.w3.org/TR/rdf-schema/, June 2003, 24 p. Cabena, P.; Hadjinian, P.; Stadler, R.; Verhees, J.; Zanasi, A. Discovering data mining: from concept to implementation. New Jersey: Prentice Hall, 1998, 224p.

[AGR94a] [AGR94b] [BEC03]

[BER97] [BER00]

[BER02a] [BER02b]

[BER02c] [BLA03]

[BRI02] [CAB97]

127

[CHE96]

Chen, M.; Park, J. S.; Yu, P. S. Data mining for path traversal patterns in a Web environment. In: 6th Conference on Distributed Computing Systems, 1996, pp. 385-392. Cooley, R.; Srivastava, J.; Mobasher, B. Web mining: information and pattern discovery on the World Wide Web. In: 9th IEEE International Conference on Tools with Artificial Intelligence (ICTAI'97), 1997, pp.558-567. Cooley, R.; Mobasher, B.; Srivastava, J. Data preparation for mining world wide Web browsing patterns. Journal of Knowledge and Information Systems, vol.1-1, Feb. 1999, pp.5-32. Cooley, R.; Tan, P.; Srivastava, J. Websift the web site information filter system. In: Workshop on Web Usage Analysis and User Profiling, 1999, pp 163182. Cooley, R. The use of Web structure and content to identify subjectively interesting Web usage patterns. ACM Transactions on Internet Technology, vol. 3-2, May 2003, pp. 93-116. Dai, H.; Mobasher, B. Using ontologies to discovery domain-level Web usage profiles. In: 2nd Semantic Web Mining Workshop, 2002, 13p. Fayyad, U.; Piatetsky-Shapiro, G.; Smyth, P. The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, vol. 39-11, Nov. 1996, pp.27-34. Ganesan, P.; Garcia-Molina, H.; Widom, J. Exploiting hierarchical domain structure to compute similarity. ACM Transactions on Information Systems, vol. 21-1, Jan. 2003, pp. 64-93. Goldberg, D.; Nichols, D.; Oki, B.; Terry, D. Using collaborative filtering to weave an information tapestry. Communications of the ACM, vol. 35-12, Dec. 1992, pp.61-70. Goldberg, M. W.; Salari, S.; Swoboda, P. World wide web-course tool: an environment for building WWW-based courses. In: International World Wide Web Conference on Computer Networks and ISDN Systems, 1996, pp.12191231. Gruber, T. A translation approach to portable ontology specifications. Knowledge Acquisition, vol.5-2, Sept. 1993, pp.199-220. Han, J. et al. DBMiner: A system for mining knowledge in large relational databases. In: International Conference on Data Mining and Knowledge Discovery, 1996, pp.250-255.

[COO97]

[COO99]

[COO99a]

[COO03]

[DAI02] [FAY96]

[GAN03]

[GOL92]

[GOL96]

[GRU93] [HAN96]

128

[HAN97] [HAN00] [HIP02]

Han, J. Olap mining: an integration of olap with data mining. In: IFIP Conference on Data Semantics, 1997, p.1-11. Han, J.; Kamber, M. Data mining: concepts and techniques. San Francisco, Morgan Kaufmann Publishers, 2000, 550 p. Hipp, J.; Guntzer, U. Is pushing constraints deeply into the mining algorithms really what we want?: an alternative approach for association rule mining. SIGKDD Exploration, vol. 4-1, June 2002, pp.50-55 IBM Software, I. DB2 Intelligent Miner for Data. IBM Software, 2002. Capturado em: http://www3.ibm.com/software/data/iminer/fordata/index.html, October, 2004, 27p. Integral Solutions Limited. Clementine User Guide-Version S, Integral Solutions Limited, 1998. Capturado em: http://www.spss.com/clementine/, Maro 2004. Klemettinen, M.; Mannila, H.; Ronkainen, P.; Toivonen, H.; Verkamo, A. Finding interesting rules from large sets of discovered association rules. In: Third ACM International Conference on Information and Knowledge Management (CIKM), 1994. pp.401-407. Kosala, R.; Blockeel, H. Web mining research: A survey. SIGKDD Explorations, vol.2-1, June 2000, p.1-15. Berners-Lee, T.; Hendler, J.; Lassila, O. The semantic Web. Scientific American, vol. 284-5, May 2001, pp.35-43. Machado, L. Minerao do uso da Web na Educao a Distncia: proposta para a conduo de um processo a partir de um estudo de caso. Dissertao de Mestrado, Programa de Ps-Graduao em Cincia da Computao, PUCRS, 2003, 103 p. Mannila, H.; Toivonen, H.; Verkamo, A. I. Discovering frequent episodes in sequences. In: Proceedings of the 1rst International Conference on Knowledge Discovery and Data Mining, 1995, pp. 210-215. Marquardt, C. Apoio ao pr-processamento de dados da minerao do uso em ambientes de ensino na Web. Dissertao de Mestrado, Programa de PsGraduao em Cincia da Computao, PUCRS, 2004, 105 p. Medeiros, G.; Medeiros, M.; Vargas, R.; Herrlein, M.; Colla, A.; Franciosi, B.; Wagner, P. Um cenrio educacional para a PUCRS Virtual. Colabora Revista Digital da CVA-RICESU, vol. 1-1, Agosto 2001, 6 p.

[IBM04]

[ISL98]

[KLE94]

[KOS00] [LEE01] [MAC03]

[MAN95]

[MAR04]

[MED01]

129

[MOB96]

Cooley, R.; Mobasher, B.; Srivastava, J. Web mining: Pattern discovery from World Wide Web transactions. Technical Reports, Department of Computer Science, University of Minnesota, 1996. 25 p. Oberle, D.; Berendt, B.; Hotho, A.; Gonzalez, J. Conceptual user tracking. In: International Atlantic Web Intelligence Conference, 2003, pp.142-154. Pohle, C. Integrating and updating domain knowledge with knowledge discovery. 2003. In: 6th International Conference for Business Informatics, 2003, pp. 15-17. Pohle, C.; Spiliopoulou, M. Building and exploiting ad hoc concept hierarchies for Web log analysis. In: 4th International Data Warehousing and Knowledge Discovery Conference, 2002, pp.83-93. Sahar, S. Interestingness via what is not interesting. In: 5th International Conference on Knowledge Discovery and Data Mining, 1999, pp.332-336. Smith, M.; Welty, C.; McGuinness, D. OWL Web Ontology Language Guide. Capturado em http://www.w3.org/TR/owl-guide/, July 2004, 23p. Silberschatz, A.; Tuzhilin, A. What makes patterns interesting in knowledge discovery systems. IEEE Transactions on Knowledge and Data Engineering, vol. 8-6, December 1996, pp.970-974. Spiliopoulou, M.; Faulstich, L. WUM: a Web Utilization Miner. In: Workshop on the Web and Data Bases, 1998, pp.109-115. Spiliopoulou, M.; Pohle, C. Modelling and incorporating background knowledge in the web mining process. In: Exploratory Workshop on Pattern Detection and Discovery, 2002, pp.154-169. Srikant, R.; Agrawal, R. Mining sequential patterns: generalizations and performance improvements. In: International Conference on Extending Database Technology, 1996, pp.3-17. Srikant, R.; Agrawal, R. Mining generalized association rules. In: 21th International Conference on Very Large Data Bases, 1995, pp.407-419. Srivastava, J.; Cooley, R., Deshpande, M.; Tan, P. Web usage mining: discovery and applications of usage patterns from Web data. SIGKDD Explorations, vol.1-2, Jan. 2000, pp.12-23. Stumme, G.; Hotho, A.; Berendt, B. Usage mining for and on the semantic Web. In: National Science Foundation Workshop on Next Generation Data Mining, 2002, pp. 77-86.

[OBE03] [POH03]

[POH02]

[SAH99] [SMI04] [SIL96]

[SPI98] [SPI02]

[SRI95]

[SRI97] [SRI00]

[STU02]

130

[SUR02]

Sure, Y.; Angele, J.; Staab, S. Ontoedit: guiding ontology development by methodology and inferencing. In: International Conference on Ontologies, Databases and Applications of Semantics (ODBASE), 2002, pp.1205-1222. Suzuki, R. C.; Bonfim, T. Aplicaes de recursos computacionais no Ensino Distncia. In: IV Congresso RIBIE, 1998, 6p. Vanzin, M.; Becker, K. Exploiting knowledge representation for pattern interpretation. In: Workshop on Knowledge Discovery and Ontologies, 2004. pp.61-71. Vanzin, M.; Becker, K. Tutorial sobre minerao do uso da Web. In: 19 Simpsio Brasileiro de Banco de Dados. Braslia, 2004. Zaiane, O. R. Web usage mining for a better web-based learning environment. In: IEEE International Conference on Advanced Learning Technologies, 2001, pp.450-455. World Wide Web Consortium, Web Characterization Activity. Capturado em: http://www.w3.org/, March 2004. WebCT. Web course tools official http://www.webct.com/, Abril 2004. page. 2002. Capturado em:

[SUZ98] [VAN04]

[VAN04a] [ZAI01]

[W3C03] [WCT02]

131

ANEXO I

Ontologia de Domnio representada em OWL

132

<?xml version="1.0"?> <rdf:RDF xmlns:vcard="http://www.w3.org/2001/vcard-rdf/3.0#" xmlns:owl="http://www.w3.org/2002/07/owl#" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:protege="http://protege.stanford.edu/plugins/owl/protege#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:jms="http://jena.hpl.hp.com/2003/08/jms#" xmlns="http://a.com/ontology#" xmlns:rss="http://purl.org/rss/1.0/" xmlns:daml="http://www.daml.org/2001/03/daml+oil#" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xml:base="http://a.com/ontology"> <owl:Ontology rdf:about=""> <owl:imports rdf:resource="http://protege.stanford.edu/plugins/owl/protege"/> </owl:Ontology> <owl:Class rdf:ID="Hotel"> <rdfs:subClassOf> <owl:Class rdf:ID="Acomodaao"/> </rdfs:subClassOf> </owl:Class> <owl:Class rdf:ID="Academia"> <rdfs:subClassOf> <owl:Class rdf:ID="Facilidade"/> </rdfs:subClassOf> </owl:Class> <owl:Class rdf:ID="Evento"/> <owl:Class rdf:ID="Contedo"> <rdfs:subClassOf rdf:resource="#Evento"/> </owl:Class> <owl:Class rdf:ID="Quadra-Tenis"> <rdfs:subClassOf rdf:resource="#Facilidade"/> </owl:Class> <owl:Class rdf:ID="Localizar"> <rdfs:subClassOf> <owl:Class rdf:about="#Servio"/> </rdfs:subClassOf> </owl:Class> <owl:Class rdf:ID="Servio"> <rdfs:subClassOf rdf:resource="#Evento"/> </owl:Class> <owl:Class rdf:ID="Detalhar"> <rdfs:subClassOf rdf:resource="#Servio"/> </owl:Class> <owl:Class rdf:ID="Restaurante"/> <owl:Class rdf:ID="Reservar"> <rdfs:subClassOf rdf:resource="#Servio"/> </owl:Class> <owl:ObjectProperty rdf:ID="faz-parte"> <rdfs:domain> <owl:Class> <owl:unionOf rdf:parseType="Collection"> <owl:Class rdf:about="#Restaurante"/> <owl:Class rdf:about="#Acomodaao"/> </owl:unionOf> </owl:Class> </rdfs:domain> <rdfs:range rdf:resource="#Contedo"/> </owl:ObjectProperty> <owl:ObjectProperty rdf:ID="disponibiliza"> <rdfs:range rdf:resource="#Facilidade"/> <rdfs:domain rdf:resource="#Hotel"/> </owl:ObjectProperty>

133

<owl:ObjectProperty rdf:ID="refere-se-a"> <rdfs:range rdf:resource="#Hotel"/> <rdfs:domain rdf:resource="#Detalhar"/> </owl:ObjectProperty> <rdf:Description> <rdf:rest rdf:parseType="Collection"> <owl:Class rdf:about="#Hotel"/> </rdf:rest> <rdf:first rdf:resource="#Facilidade"/> </rdf:Description> <Hotel rdf:ID="Blue-Tree"/> </rdf:RDF>

134

ANEXO II

Questes Relacionadas a Entrevista com o Especialista do Domnio

135

Entrevista com o Especialista na rea de EAD

1. Qual a sua percepo sobre os mecanismos de interpretao de padres do uso da Web em relao ao processo de MUW realizado sem utilizao de um ambiente de apoio fase de Anlise de Padres?

Sem um ambiente de apoio fase de Anlise de Padres, o analista acabava dedicando muito tempo em tentar entender o significado dos padres retornados do processo de minerao. O analista tambm ficava muito tempo envolvido em entender os conceitos do processo. A fase de anlise se tornava desgastante, assim, o analista j se dava por feliz quando encontrava um padro relevante.

A utilizao de um ambiente de apoio interpretao muito vlida pois libera o analista da tarefa rdua que tentar entender o significado dos padres retornados pelo processo de minerao. Ainda, o ambiente de apoio permite que o analista se dedique ao objetivo do processo de MUW, que encontrar padres relevantes. Com um ambiente de apoio fica mais visvel os benefcios do processo de MUW, onde a partir dos padres relevantes possvel aperfeioar a modelagem conceitual de um curso.

2. Qual a sua percepo sobre os mecanismos de recuperao de padres do uso da Web em relao ao processo de MUW realizado sem utilizao de um ambiente de apoio fase de Anlise de Padres? Sem um ambiente de apoio fase de Anlise de Padres, o analista dispendia muito tempo configurando as clusulas para encontrar padres relevantes, e mesmo assim elas eram bem limitadas.

136

Com um ambiente de apoio, o analista no se prende a detalhes tcnicos e se concentra nos objetivos. Os mecanismos de recuperao so teis por possibilitarem a explorao por padres inesperados atravs da navegao pelos agrupamentos de padres. Nem sempre o analista tem em mente os caminhos realizados pelos estudantes. Outra funcionalidade interessante analisar padres considerando diferentes nveis de detalhe, de forma fcil e visual. Os mecanismos de recuperao tambm possibilitam a verificao de hipteses, representadas facilmente atravs de filtros criados a partir de um glossrio de termos (ontologia). Os padres descobertos possibilitam adaptaes no ambiente educacional de acordo com as expectativas dos estudantes.

Você também pode gostar