Você está na página 1de 5

I Workshop de Teses e Dissertaes em Banco de Dados

O uso da Minerao de Dados na Web aplicado a um Ambiente de Ensino a Distncia


Leticia dos Santos Machado PPGCC-FACIN-PUCRS Av. Ipiranga, 6681 Prdio 16 Porto Alegre - Brasil lmachado@inf.pucrs.br Resumo Este trabalho apresenta o estado atual dos estudos sobre a utilizao de tcnicas da Minerao de Dados, aplicadas Web, denominada de Web Mining. Muitas pesquisas esto centradas na abordagem da Minerao do Uso da Web, onde a anlise de comportamento de usurios utilizada para a descoberta de padres de navegao na Web. A partir destas experincias, proposto aqui um estudo de caso, para acompanhar uma aplicao voltada ao processo de ensino-aprendizagem a distncia, onde busca-se descobrir e analisar, atravs da minerao Web, as interaes destes usurios com o ambiente de ensino baseado na Web. Mais especificamente, busca-se estabelecer um modelo de Minerao do Uso da Web, pertinente para a descoberta de conhecimento aplicado a ambientes de ensino a distncia, atravs da anlise de navegao dos usurios, enquanto interagem neste ambiente, a fim de prover recursos de comparao entre os projetos atuais de um site educativo e seu uso real. Palavras-Chave: minerao de dados, minerao do uso da Web, ensino a distncia, padres de navegao. Karin Becker PPGCC-FACIN-PUCRS Av. Ipiranga, 6681 Prdio 16 Porto Alegre Brasil kbecker@inf.pucrs.br

1. Introduo
A World Wide Web com sua crescente disseminao de informaes e servios, alcanou diferentes contextos de aplicaes onde destacam-se: comrcio eletrnico, bibliotecas digitais, educao a distncia, etc. A acessibilidade e a facilidade do uso de ferramentas par manipular os recursos da Web, tem tornado esta tecnologia, uma escolha para educao a distancia. Os educadores deste novo processo de aprendizagem, utilizam estes ambientes e ferramentas para disponibilizar informaes online, porm possuem pouco suporte para avaliar e discriminar os diferentes comportamentos das aes dos alunos sobre o ambiente de ensino virtual e a forma de execuo das atividades online propostas durante a realizao dos cursos [1]. A aplicao das tcnicas de Minerao de Dados, uma das etapas que envolve o processo de descoberta de conhecimento em grandes bases de dados [2], busca encontrar padres e relaes no conhecidos nestes dados. Recentes pesquisas utilizam tcnicas da minerao de dados aplicadas aos dados Web, em uma rea denominada de Minerao Web (Web Mining) [3]. Especificamente, a Minerao do Uso da Web MUW (Web Usage Mining ) a classe de aplicaes que visa identificar padres de acesso atravs da anlise da interao do usurio com a Web, possibilitando descobrir informaes novas e teis sobre o comportamento de um usurio durante sua navegao [4,5]. Neste trabalho, procura-se explorar a existncia dos registros de acesso Web em ambientes de apoio ao ensino a distncia e os avanos da minerao de dados. Tem-se como objetivo extrair padres relevantes sobre o comportamento de navegao dos estudantes,
117

I Workshop de Teses e Dissertaes em Banco de Dados

visando auxiliar educadores e projetistas de sites educacionais a avaliar e interpretar a forma de execuo das atividades dos cursos online, dentro de mtricas que identifiquem e verifiquem a adequao da forma de apresentao dos recursos oferecido para o curso em um site educacional. Mais especificamente, busca-se estabelecer um modelo de Minerao do Uso da Web, pertinente para a descoberta de conhecimento aplicado a ambientes de ensino a distncia, atravs da anlise de navegao dos usurios, enquanto interagem neste ambiente, a fim de prover recursos de comparao entre os recursos atuais de um site educativo e seu uso real.

2. Ambientes de Ensino baseados na Web


A educao a distncia um campo onde a tecnologia baseada na Web possibilitou a expanso de cursos e a distribuio de conhecimento. Alguns ambientes como WebCT1, Virtual-U2, etc., provm uma coleo de recursos de propagao de contedo dos cursos, sistemas de conferncia assncrona e sncrona, componentes de submisso de tarefas, etc. Neste modelo de interao virtual e distribudo, torna-se mais difcil para os educadores acompanhar o desempenho dos alunos, e avaliar o uso esperado dos recursos para realizar as atividades propostas durante a execuo do curso. Alm disso, torna-se complexo estimar a estrutura de contedos do curso e dos recursos para abord-los, e encontrar sua efetividade no processo de ensino-aprendizagem [1]. Isto deve-se principalmente caracterstica de disponibilizao de contedo da Web, onde cada usurio pode optar por uma srie de alternativas para a navegao e interagir de forma pouco previsvel no site. A anlise de dados fornecidas pelas ferramentas de ensino baseadas na Web, referemse a informaes estatsticas sobre o acesso aos cursos online, apresentando-se assim, restrita e limitada em sua capacidade de auxiliar a compreenso implcita de informaes sobre a tendncia de utilizao e percepo das pginas Web. Assim, neste cenrio, surge a necessidade de um acompanhamento mais completo para os educadores que participam deste processo de ensino, onde ser de extrema valia acompanhar as atividades do curso, e extrair padres e comportamentos de acessos dos estudantes no site educacional. O objetivo estimar possveis mudanas e melhorias necessrias no contedo e estrutura do curso, e de suas atividades, com o intuito de minimizar desorientaes que podero ocorrer durante o acesso s pginas e recursos do curso online, alm de descobrir modelos de aprendizagem similares . Os sistemas de aprendizagem baseados na Web contam com os servidores Web para fornecer acesso aos recursos e aplicaes. Os servidores Web armazenam os acessos de todas as atividades em um arquivo de log (registro) na forma de transaes. Cada transao indica quais pginas Web ou scripts foram requisitados e o status da requisio, o momento da solicitao, o endereo IP de onde partiu a solicitao, possivelmente a identificao do usurios, etc, [4,3]. O registro Web fornece de forma bruta o acompanhamento dos caminhos e atividades dos estudantes no site, mostrando acessos misturados de diferentes usurios, contendo entradas irrelevantes, etc., alm de serem extremamente volumosos. Esta forma pode ser tambm uma representao incompleta dos dados, j que pode no registrar acessos que puderam ser respondidos sem o envio de tais requisies ao servidor Web em funo de mecanismos de otimizao prprios da Web (e. g. cache, proxy, etc). Contudo, existem tcnicas para limpar e transformar os registros, bem como para descobrir padres teis escondidos nestes registros de acesso Web [2,4].
1 2

http://www.webct.com http://www.virtual-u.org
118

I Workshop de Teses e Dissertaes em Banco de Dados

3. Minerao do Uso da Web e sua aplicao em Ensino a Distncia


A anlise do histrico das aes do aluno atravs do registro de acesso ao servidor Web, como em qualquer processo de descoberta de conhecimento em base de dados, dever seguir trs principais fases para a execuo da Minerao do Uso da Web sendo elas: prprocessamento, descoberta de padres e anlise de padres [3]. A fase de pr-processamento dos dados busca extrair do log, somente os registros significativos, para restaurar as atividades dos usurios dentro de seqncias de pginas ou scripts acessados. Alm de remover registros inteis (e.g. arquivos de imagens), deve-se identificar os diferentes usurios, organizar os acessos em sesses associadas aos respectivos usurios, etc, [4]. Tipicamente, essa etapa exige a transformao, generalizao e sumarizao de alguns valores dos dados, por exemplo atravs de consultas SQL, para melhor compor o modelo dos dados que iro ser processados durante a fase de aplicao dos algoritmos e tcnicas da minerao. A descoberta de padres sobre os acessos a pginas resultantes da anlise e interpretao dos logs corresponde extrao e reconhecimento de caractersticas, regularidades, excees, regras, explorando os relacionamentos e descobrindo diferentes tipos de conhecimentos no conjunto de dados aplicado. A maioria dos algoritmos, inclui a minerao de regras de associao, minerao de padres freqentes inter-sesses, padres freqentes intra-sesses, etc., sendo escolhidos para descobrir a tendncia e a relao dos dados de utilizao da Web. A anlise dos padres extrados pela minerao propriamente dita, o ltimo passo do processo de MUW. Esta fase ir refletir na interpretao e validao dos padres encontrados, ou seja, quais os padres de navegao que podero corresponder a conhecimentos novos e teis sobre os padres de navegao, gerando possveis recomendaes de reestruturaes e ou alteraes, no conjunto de pginas analisadas dentro do domnio de ensino a distncia.

4. Trabalhos Relacionados
Muitos tm sido os trabalhos na rea da Minerao do Uso da Web que envolvem diferentes aplicaes. Uma das reas mais pesquisadas est direcionada a aplicaes de comrcio eletrnico [3], que apresenta muitos elementos interessantes para a utilizao da Minerao do Uso da Web na explorao de ambientes de ensino suportados pela Web. O trabalho de [4], detalha os problemas relacionados principalmente a fase de prprocessamento da Minerao do Uso da Web. Em [5,6] o problema de usar a MUW para a avaliao de sites de comrcio eletrnico, a fim de gerar recomendaes de reestruturaes abordado. Dessa forma, a natureza dos padres a serem descobertos podem ser o mesmo entre ambos os domnios de aplicao (comrcio eletrnico e ensino a distncia), mas a identificao dos usurios e das sesses, bem como a interpretao das atividades, e as necessidades da aplicao, so significativamente diferentes, e para tanto, necessrio adaptlas a um ambiente de aprendizagem on-line. Assim, a caracterizao e modelagem dos dados para a descoberta de conhecimento em ambientes de EAD, so uma das principais contribuies deste trabalho. No domnio da educao a distncia, [1] aborda a idia de utilizar expresses de restries para centralizar a busca de padres durante as fases de pr-processamento, descoberta e anlise de padres, e [8] prope um data warehouse de referncia para anlises de interaes dos alunos com o ambiente, usando tcnicas de minerao de dados.
119

I Workshop de Teses e Dissertaes em Banco de Dados

5. Descrio do Trabalho
Nossas pesquisas esto sendo direcionadas a um estudo de caso junto Unidade de Ensino a Distncia da Pontifcia Universidade Catlica do Rio Grande do Sul (PUCRS), a qual utiliza o WebCT como principal ferramenta de apoio. O log de acessos utilizado, relativo a duas edies de um mesmo curso, e esto sendo analisados com a finalidade de caracterizar e apropriar quais os dados sero necessrios para representar as expectativas de usos e o comportamento de navegao esperados pelos educadores em relao ao uso real deste site. A indicao desta amostra de anlise se deve ao fato de que o curso em questo, tem passado por constantes mudanas entre suas novas edies, e percebe-se uma falta de parmetros para indicar os reais problemas e apontar solues. Os dados brutos foram recebidos e a identificao dos alunos foi criptografada, para manter o anonimato. A experincia est sendo apoiada por um pesquisador daquela Unidade, doravante denominada especialista. O trabalho objetiva estabelecer um modelo de Minerao do Uso da Web, voltado descoberta de conhecimento em ambientes de ensino a distncia, atravs da anlise de navegao dos usurios, enquanto interagem neste ambiente, a fim de prover recursos de comparao entre o projeto atual de um site de ensino e seu uso real. O modelo abordado por este trabalho inclui: (a) apropriao dos dados necessrios e a definio de sua representao; (b) definio de um conjunto inicial de anlises de padres de navegao, que atendam ao conjunto de premissas expressas para o domnio; (c) Definio de um mecanismo de avaliao de padres de navegao; (d) Transformao dos padres de navegao vlidos em expectativas de uso para avaliao de sites de ensino em um processo incremental; (e) Definio de recursos de comparao entre expectativas e padres reais de uso. A finalidade do site para o meio de ensino virtual verificar e avaliar a realizao do processo de aprendizagem de acordo com algumas premissas: S a quantidade de vezes (freqncia de acessos) que o aluno realizou acesso a reas especficas do site (e.g leituras, participaes em chat, frum pr-determinados). S a ordem e seqncia dos acessos realizados durante a navegao no ambiente de ensino, para executar as tarefas. S padres de comportamento de navegao para refletir a maneira como o aluno ou o grupo de alunos virtual executou suas atividades por tipo de atividade solicitada, ou seja se existiu alguma ocorrncia padronizada de acessos para os links endereados na descrio da atividade.

6. Caracterizao do estgio atual do trabalho


Entre as atividades realizadas at o momento esto: a) fundamentao terica; b) compreenso do domnio de avaliao de uso de sites voltados ao ensino, suas premissas e restries; c) desenvolvimento de um estudo de caso. Este ltimo complexo, e j abordou vrias etapas subjacentes ao pr-processamento e anlises preliminares, e deve ser paralelo a todo desenvolvimento desta pesquisa. A concluso deste trabalho implica a realizao das seguintes atividades adicionais: criao de uma taxonomia de acessos para associar estes
120

I Workshop de Teses e Dissertaes em Banco de Dados

acessos a padres de execuo das atividades propostas durante o curso, definio do conceito de sesso a ser adotado, para uma anlise temporal destes dados, anlise de templates de navegao para filtrar os resultados obtidos, e avaliar o mapa de navegao de aprendizagem extrado.

7. Concluso
A Minerao do Uso da Web tem-se mostrado apropriada para a busca de comportamentos de navegao em diferentes aplicaes, e agora revela tambm, sua aplicabilidade a ambientes de ensino a distncia. No estgio atual da pesquisa, espera-se que atravs das descobertas de padres de navegao encontrados, possa-se oferecer recursos que permitam a comparao e avaliao da estrutura atual de um site educativo e seu uso real, baseado nos principais conceitos do processo KDD (Knowledge Discovery in Database), visando gerar critrios, mecanismos e modelos vlidos da interao do usurio com o ambiente Web, atravs do seu uso e interface apresentadas.

Referncias
[1] ZAANE, O.; LUO, J. Towards Evaluating Learners Behaviour in a Web-based Distance Learning Environment, Proc. IEEE International Conference on Advanced Learning Technologies (ICALT 2001), Madison, WI, USA, 6-8 August 2001. FAYYAD, U., et al., Advances in Knowledge Discovery and Data Mining. Menlo Park, Califrnia, AAAI Press, 1996. SRIVASTAVA, J., et al., Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data. In ACM SIGKDD Explorations, January 2000 COOLEY, C.; MOBASHER, B; SRIVASTAVA, J. Data Preparation for Mining World Wide Web Browsing Patterns. Journal of Knowledge and Information Systems, (1) 1, 1999. SPILIOPOULOU, M.; POHLE, C.; FAULSTICH, L.C. Improving the effectiveness of a web site with web usage mining. In long version of Proc. of KDD Workshop WEBKDD99, LNCS. Springer Verlag, 1999. SPILIOULOU, M., et al., Data Mining to Measure and Improve the Success of Web Sites. Journal of Data Mining and Knowledge Discovery, Special Issue on Ecommerce. Kluwer Academic Publishers, 2001. ZAANE. O. et al., Discovering web access patterns and trends by applying OLAP and data mining technology on web logs. In Advances in Digital Libraries, pages 19-29, Santa Barbara, CA, April 1998. SILVA. D.R. et al., Acompanhamento do Aprendizado em Educao a Distncia com uso de Data Mining. In Proceedings CLEI, Conferncia Latinoamericana de Informtica, 27., Mrida, Venezuela, 2001.

[2] [3] [4]

[5]

[6]

[7]

[8]

121

Você também pode gostar