Escolar Documentos
Profissional Documentos
Cultura Documentos
In: IFLA M&M, 2004, So Paulo, Anais..., So Paulo: USP. 2004. Disponvel em <http://www.fernando.parreiras.nom.br/publicacoes/dsi_ifla.pdf>.
Professor do Programa de ps-graduao em cincia da informao da ECI / UFMG Professora do Programa de ps-graduao em cincia da informao da ECI / UFMG 3 Mestrando em cincia da informao pela ECI / UFMG 4 Mestrando em cincia da informao pela ECI / UFMG
1. Introduo
Os avanos das tecnologias de informao e comunicao (TICs) tm contribudo para o acelerado aumento da quantidade de informaes disponveis hoje. A maior disponibilidade de recursos de informao demanda servios de intermediao que permitam a coleta e filtragem automticas das fontes e a distribuio seletiva desse contedo aos usurios de acordo com seu perfil de interesse. Trata-se aqui do campo de pesquisas dos Sistemas de Recuperao de Informao (SRI). Calvin Mooers (Mooers 1951) define trs problemas a serem equacionados nesse campo: o da representao e organizao da informao, o da especificao da busca por informao e o da criao de mecanismos para recuperao. Saracevic mostra que existem diversas abordagens desenvolvidas para a modelagem do usurio (Saracevic, Spink, Wu 1997), atividade relacionada ao problema de especificao da busca por informao. As abordagens esto centradas no sistema, como o caso da relevance feedback (Spink, Losee 96) e da expanso de consultas query expansion (Efthimidiadis 1996), ou no usurio, como a question analysis (Taylor, 1968), ou no sistema e no usurio, como os sistemas de disseminao seletiva (Luhn 1961). O processo de Disseminao Seletiva de Informaes (DSI), na lngua inglesa selective dissemination of information (SDI), foi concebido por Hans Peter Luhn, da IBM Corporation, em 1958, com a finalidade de aperfeioar servios de alerta oferecidos por bibliotecas, centros de documentao e sistemas especializados de informaes documentais. A grande expanso da literatura mundial, a proliferao das bases referenciais especializadas on-line e a necessidade de atualizao dos usurios das inmeras especialidades da comunidade cientfica e tecnolgica foram fatores motivadores desse tipo de servio automatizado de informao j nos anos 60. Luhn define DSI como ...servio que consiste em direcionar novos itens de informao, de qualquer que seja a fonte, para aqueles pontos onde a probabilidade de seu uso, em conexo com o interesse corrente [do usurio], seja alta. (Luhn apud Housman, 1973). Como se v, o tema no recente. Porm, sua rediscusso, luz das possibilidades inovadoras oferecidas pelas bibliotecas digitas e a tecnologia de redes de comunicao Web, se justifica cada vez mais, diante da quantidade de informao disponvel e da necessidade crescente em se manter atualizado. O objetivo desse artigo propor um modelo de arquitetura funcional a ser integrado a um projeto de concepo de infra-estrutura de apoio construo de bibliotecas digitais, em desenvolvimento na Escola de Cincia da Informao da UFMG. Sua contribuio especificar em alto nvel o funcionamento de um mdulo de DSI para futura implementao do servio no projeto SABiO (Sistemas de Agentes para Bilbiotecas Digitais). Alm de discutir o DSI no ambiente atual de redes Web e suas novas possibilidades. Na Seo 2 apresentam-se os conceitos que cercam o tema DSI, alm de um breve histrico das principais iniciativas realizadas no Brasil. Os trabalhos relacionados a partir
de reviso atualizada da literatura internacional so apresentados na Seo 3. A Seo 4 descreve o interesse da adio de um mdulo de DSI na Arquitetura SBIO. O modelo a ser adotado especificado na Seo 5 pelo levantamento dos requisitos de arquitetura, funcionalidade e desempenho desejveis. Finalmente, na Seo 6, so discutidas algumas questes guisa de concluso.
b) No final da dcada de 70 o Departamento de Informao e Documentao (DID) da Empresa Brasileira de Pesquisa Agropecuria (EMBRAPA) iniciou um servio automatizado de DSI, aps uma experincia prvia de disseminao manual. Inicialmente o DID operou apenas com a base de dados AGRICOLA da National Agricultural Library dos Estados Unidos, incorporando ao servio posteriormente as seguintes bases de dados: Commonwealth Agricultural Bureaux (CAB); International Food Information System (IFIS); BIOSIS, composto por Biological Abstracts e Bio-Research Index; Chemical Abstracts Service. Criado para atender os pesquisadores da empresa, esse servio foi mais tarde estendido aos pesquisadores de outras instituies de ensino e pesquisa do setor agrcola brasileiro, chegando a atender tambm a entidades de pases do Cone Sul; c) O Instituto de Pesquisas Tecnolgicas (IPT) implantou um sistema automatizado de DSI destinado a disseminar informaes constantes da base de dados COMPENDEX, produzida pela Engineering Index Inc. dos Estados Unidos. O fascculo nmero 2, volume 6 do peridico Revista de Biblioteconomia de Braslia foi dedicado temtica DSI, com artigos relatando experincias na Faculdade de Medicina Veterinria e Zootecnia da USP, na Companhia Vale do Rio Doce, no Centro de Informao Cientfica para a Sade da Secretaria de Estado de Sade do Rio de Janeiro, disseminao seletiva de informaes para os alunos de ps-graduao em Sade Pblica e Administrao Hospitalar, experincia em biblioteca universitria e detalhamentos relativos s experincias do CIN/CNEN e da EMBRAPA.
3. Trabalhos Relacionados
Os sistemas de DSI podem ser classificados como baseados em contedo, em colaborao ou hbridos. Nesses sistemas o perfil pode ser tanto informado explicitamente pelo usurio ao sistema quanto construdo a partir da experincia de utilizao do usurio (suas buscas, anotaes e comentrios associados aos recursos). Os sistemas baseados em contedo (ou de filtragem por contedo), determinam a relevncia de um recurso e realizam o casamento (matching5) entre o perfil do usurio e o recurso pela anlise de seu contedo. Os sistemas baseados em colaborao (filtragem colaborativa) determinam a relevncia de um recurso realizando o matching entre o perfil do usurio e perfis de usurios com interesses similares ou perfis comunitrios padro (Ferreira, Silva 2001). Vrios autores, tais como Peter Wurman, Shardanand e Pattie Maes alm de Michael Wellman, analisam sistemas de recomendao seguindo a abordagem filtragem colaborativa em ambientes comerciais, como Amazon.com e outros.
Dentre os sistemas DSI baseados em contedo destacam-se as iniciativas de Tak Yan, denominada SIFT (Stanford Information Filtering Tool) (Yan, Garcia-Molina 1999) e de Ken Lang, denominada NewsWeeder (Lang 1995). O SIFT foi um dos primeiros servios DSI na Internet. Comeou de maneira experimental em fevereiro de 1994 e se tornou um servio comercial em abril de 1996 lidando, naquela poca, com mais de 18.400 usurios, 40.100 perfis e processando cerca de 80.000 documentos por dia. Suas fontes de informao so notcias da USENET e artigos de diversas listas de correio eletrnico. O NewsWeeder, apesar de possuir alguns aspectos de DSIs colaborativos, considerado um DSI baseado em contedo. Foi submetido a testes de desempenho em 1994 e se mostrou superior a outras iniciativas de DSI. Quanto forma de captao, filtragem e armazenamento de recursos, os servios funcionam similarmente: periodicamente varrem fontes de informao, recuperam as referncias para recursos novos ou alterados, realizam a indexao de cada um, armazenam seus descritores em repositrio de dados e, finalmente, realizam o matching dos descritores com os perfis de usurios, disseminando, a partir dos resultados da comparao, os recursos ou suas referncias de acesso. A diferena est na forma de obteno e gerenciamento dos perfis de usurio. Enquanto no SIFT os perfis so construdos explicitamente pelo prprio usurio, atravs de correio eletrnico ou de formulrios Web, no NewsWeeder o perfil construdo por navegao definido pelo sistema atravs das experincias de navegao passadas. A idia do modelo de navegao do NewsWeeder pressupe que, ao navegar pelos recursos em busca de informaes, o usurio indique seu nvel de interesse pelo recurso em uma escala de pontos de 1 a 5, fazendo com que o sistema aprenda suas preferncias e defina seu perfil de consulta automaticamente. importante ressaltar que, embora ambos os sistemas expressem os perfis utilizando o modelo vetorial, a atribuio de pesos ocorre de maneira diferente. O SIFT segue os princpios tf-idf (term-frequency/inverse-document-frequency) que observam que: 1) quanto mais vezes um termo aparece em um documento, mais relevante ele no contexto do documento e; 2) quanto mais vezes um termo aparece no conjunto de todos os documentos, menos ele capaz de discriminar os documentos desse conjunto. No SIFT, os termos com baixo poder de discriminao no so eliminados, mas sim tm seu grau de importncia minimizado. J o NewsWeeder segue o princpio MDL (Minimum Description Length), procurando eliminar do modelo termos com baixo poder de discriminao. De acordo com Lang (Lang 1995), o mtodo MDL apresentou melhor desempenho se comparado com as tcnicas que utilizam tf-idf. No universo dos servios de DSI baseados em colaborao tm-se o GroupLens (Resnik, et al. 1994). Integrvel arquitetura do sistema USENET, o GroupLens um sistema distribudo para disseminao da informao que utiliza regras e clculos de determinao de nveis de interesse de grupos de usurios em documentos de uma coleo para prever os interesse de outros usurios e grupos. Em uma arquitetura distribuda, os servidores colhem os nveis de interesse dos usurios, atravs de um modelo de navegao similar ao utilizado pelo NewsWeeder. Alm disso, compartilham
esses nveis de interesses com outros servidores utilizando tcnicas de propagao (herdadas da USENET) e troca de mensagens. Elaboram tambm tabelas de predio de interesses, atravs da combinao dos diferentes nveis de interesses indicados pelos usurios, que so utilizadas para definir o grau de relevncia dos documentos para eles. Na elaborao das tabelas de predio, as opinies de cada usurio assumem pesos diferentes ditados pela sua volatilidade histrica de opinio: as opinies de usurios que historicamente mantm seus critrios de julgamento de valor possuem peso maior sobre as opinies daqueles mais volteis. Sua fora est na capacidade de predio da relevncia de um documento a um determinado usurio com base na identificao de interesses comuns entre ele e outros grupos que tambm fazem uso do sistema. Independentemente da categoria, crescente o nmero de iniciativas de construo de servios de DSI. E como em todo campo em crescimento, necessrio o estabelecimento de bases conceituais slidas que garantam a avaliao das iniciativas e permitam avanos contnuos. Nesse sentido, os pesquisadores portugueses Joo Ferreira e Alberto Silva propuseram em 2001 o MySDI (Ferreira, Silva 2001). Com o objetivo de oferecer uma arquitetura genrica para suportar o projeto e a construo de servios de DSI, o modelo conceitual MySDI fornece balizes para a construo de sistemas em conformidade com os requisitos de arquitetura, funcionalidade e desempenho desejveis nesses tipos de servios. Podem-se citar muitos outros sistemas de DSI presentes na literatura, tais como o HERMES (Faensen, 2001) e o SIENA (Carzaniga, 2000), alm de outros.
arquiteturas multi-agentes so: adaptao, balanceamento de carga (escalabilidade), tolerncia falhas e capacidade de integrar diversas fontes de informao distribudas, entre outras. Nos ltimos anos, sistemas multi-agentes com arquitetura peer-to-peer (P2P) se tornaram populares em aplicaes de compartilhamento de arquivos (cf. Projeto Edutella). A arquitetura SABiO, tal como relatada por Bax (1997), uma arquitetura multi-agente, porm no P2P em seu modelo mais puro, totalmente descentralizado. A arquitetura do SABiO pode ser considerada como hbrida, entre Cliente/Servidor e P2P. Arquiteturas baseadas em Agentes, como o SABiO, oferecem as caractersticas desejveis para se implementar sistemas multi-agentes com suporte a consultas, perfis e notificaes. Atualmente existem pelo menos duas opes que podem ser utilizadas para implementar o servio de notificao especificado para integrar a arquitetura SABiO. Uma utilizaria a biblioteca de cdigos (API) da plataforma de agentes desenvolvida no projeto DIET, e a outra utilizaria a API do projeto JXTA da Sun Microsystems (www.jxta.org). DIET um projeto para conceber uma plataforma multi-agente de cdigo livre aberta, robusta, adaptativa e escalonvel (Marrow et. al., 2001; Hoile et. al., 2002; DIET Agents Website).
Com a integrao do mdulo de agentes DSI arquitetura SABiO espera-se preencher uma lacuna hoje existente nas arquiteturas multi-agente aplicadas a construo de bibliotecas digitais. Os sistemas P2P descritos na literatura ou possuem capacidades de consulta pelo usurio, i.e., Gnutella (Gnutella e Edutella), ou apenas tratam
perfis/notificaes, i.e., SIENA (Carzaniga, 1998). A especificao do servio DSI na arquitetura SABiO procura unificar essas abordagens (consulta e notificao) em um ambiente de construo de bibliotecas digitais. Vale notar ainda que tais sistemas (Gnutella, Edutella e SIENA) no foram desenvolvidos originalmente para serem utilizados com foco em bibliotecas digitais.
4.2. O SABiO-DSI
SABiO-DSI um modelo conceitual cujo objetivo servir de base para se comparar e discutir sistemas de DSI que seguem configuraes de arquiteturas multi-agente. Outro objetivo servir de referncia para a implementao de um servio de DSI, integrando arquitetura de agentes da plataforma SABiO. O diagrama de contexto da Figura 2 ilustra a integrao plataforma SABiO, mostrando os atores que interagem com o modelo SABiO-DSI, ou seja, os usurios e os outros agentes SABiO. Como mostra a Seo 3, os principais problemas a serem solucionados em um sistema DSI so: 1) a especificao das necessidades de informao do usurio seu perfil; e 2) o casamento de padro (matching) eficiente entre os novos recursos que entram na base e o perfil dos usurios a filtragem. As prximas sees descrevem, em detalhes, como esses dois problemas so tratados no modelo. 4.2.1. Agentes de interface SABiO-DSI Os agentes de interface gerenciam informaes que caracterizam as necessidades de informao do usurio no longo prazo (manuteno dos perfis), alm de realizar o envio de notificaes. Os perfis so utilizados como base para a busca e notificao automticas. Os perfis alimentam o servio de notificao automtica, que envia alertas aos usurios de acordo com o surgimento de novos recursos de seu interesse.
O SABiO-DSI utiliza dois mecanismos de interao com o usurio: 1) Interface Web: onde o usurio tem uma postura ativa e interage com o sistema navegando em suas telas, criando, enviando e armazenando consultas e informaes sobre seu perfil; 2) Envio de mensagens por correio eletrnico: o usurio recebe uma notificao sobre eventos relacionados ao seu perfil. Estes eventos podem ser novos artigos (os usurios so informados da incluso de novos artigos, baseado na associao da classificao do documento com a classificao eleita pelo usurio) ou novos usurios (comunicao de incorporao de novos usurios que possuam um perfil semelhante). O perfil do usurio construdo diretamente pelo prprio usurio atravs do preenchimento de formulrios. A partir destas respostas, o sistema faz a associao dos dados fornecidos com os dados da base, colocando o usurio em um segmento j existente ou criando um novo, caso ainda no exista perfis semelhantes. O SABiO-DSI armazena as seguintes informaes sobre os perfis dos usurios: a) Freqncia de notificao: periodicidade em que o usurio recebe informaes do sistema. b) Atributos do perfil do usurio: nome, escolaridade, rea de interesse, residncia, etc. c) Palavras-chave eleitas pelo usurio: para descrever seus interesses. d) Consultas gravadas pelo usurio: consultas avanadas que utilizam operadores lgicos. 4.2.2. Agentes de Associao e Filtragem (Motor DSI): Esta camada responsvel por identificar similaridades entre perfis dos usurios utilizando os atributos armazenados e realizar, a partir destes, a construo de comunidades ou grupos de interesses comuns. Alm disso, responde pelo armazenamento
de consultas. O usurio pode optar por armazenar ou no a consulta, e pela sua utilizao ou no para notificao, transformado-a em uma consulta permanente. Dessa forma, as consultas so consideradas atributos do perfil dos usurios. Todos os descritores utilizados pelo usurio em suas consultas so gravados pelo sistema. Os usurios podem consultar quais so os descritores mais utilizados, dando-lhes a opo de consider-los ou no para fins de notificao. A implementao dos agentes de Associao e Filtragem ser baseada nos trabalhos de Yan e Garcia-Molina, que, em 1994, definiram a estrutura de ndices para indexao de perfis e algoritmos eficientes para o casamento de padres entre documentos e perfis (Yan e Garcia-Molina, 1994). Estas estruturas originaram o sistema SIFT j citado. Como visto acima na Seo 4.2.1, os usurios expressam suas necessidades de informao em perfis, gerenciando-o pela interface Web. Um perfil uma consulta e uma regra de notificao. Enquanto a consulta especifica o contedo que o usurio deseja receber, a regra de notificao especifica como o contedo ser entregue, ou seja, com que freqncia (diariamente, semanalmente), atravs de qual protocolo (e-mail) e formato (HTML, texto puro, BibTeX). As consultas no so diferentes daquelas que podem ser submetidas na interface de busca do SABiO, que so classificadas em simples ou avanadas. As consultas avanadas podem usar operadores booleanos como expresso de filtragem. Uma consulta avanada uma expresso booleana formada de pares atributo/valor e separados por operadores lgicos. e.g., author=Marcos de Andrade or title LIKE %disseminao% . O conjunto de atributos so os campos bibliogrficos (metadados) extrados quando um documento d entrada em uma coleo do SABiO. Um valor de ranking expresso em percentagem. Dados bibliogrficos que casam com a consulta em nveis superiores queles expressos no registro de ranking da consulta so registrados para serem enviados ao usurio. Alternativamente, os usurios podem especificar que os N registros bibliogrficos mais relevantes devem ser enviados. O agente de filtragem submete a consulta conforme a periodicidade escolhida pelo usurio e escolhe os documentos que superam a adequao ao ranking e possuem data de entrada no sistema posterior data do ltimo envio. 4.2.3. Camada de Agentes do SABiO Esta camada no ser descrita neste artigo, e representada na Figura 2 como um ator na representao UML. citada apenas para melhor contextualizar o SABiO-DSI. Alm de outros agentes, ela consiste nos agentes responsveis por coletar os recursos para a base SABiO.
5. Concluso
Um requisito importante para servios de DSI a personalizao, que por sua vez, depende de interao privilegiada com o usurio, que deve prover informaes explicitamente ou implicitamente pela prpria utilizao do sistema. Nesse ltimo caso, o sistema observa o comportamento de uso do usurio. Ambientes de bibliotecas digitais se beneficiam de formas de interao at ento inexistentes nos servios de bibliotecas tradicionais, passando a ser interessante que tais ambientes ofeream servios de DSI. Dessa forma, espera-se com esse artigo iniciar uma discusso de idias que no so recentes, mas que, quando aplicadas em novos ambientes de bibliotecas digitais podem representar fonte de inovao, com resultados favorveis para o desenvolvimento da cincia e tecnologia nacionais. Assim, propomos aqui um modelo conceitual para a discusso do tema e tambm com base de especificao de requisitos para a concepo de um DSI integrado arquitetura SABiO. A motivao para se aplicar a DSI no SABiO a criao de funcionalidades que vo alm da busca e navegao e propem a notificao dos usurios baseada em filtragem de novos documentos da base por perfil. Nesse contexto, esse trabalho tem pela frente os seguintes desafios tcnicos: a) Estudo de uma variedade de modelos e linguagens de consultas para DSI textual que utilizam tcnicas de banco de dados, recuperao de informao e lgica formal. b) Desenvolvimento de algoritmos de filtragem de informao usando indexao dos perfis de usurios. c) Implementaes de protocolos para interao entre os agentes da plataforma SABiO. d) Testes reveladores de robustez, escalabilidade e eficincia desta plataforma.
6. Referencial Bibliogrfico
Bax, M. P. (1997) Agentes de Interface para Bibliotecas Digitais: a arquitetura SABiO, VI SEAB, guas de Lindia, SP. Carzaniga, A. (1998) Architectures for an Event Notification Service Scalable to a Wide Area Networks. Politecnico di Milano, PhD thesis, Italy. Carzaniga, A.; Rosenblum D. S.; Wolf A. L. (2000) Achieving scalability and expressiveness in an Internet-scale event notification service. Proceedings of the nineteenth annual ACM symposium on Principles of distributed computing. Disponvel em: < http://doi.acm.org/10.1145/343477.343622 >. Acesso em: 30 mai. 2004.
DIET Agents website. http://diet-agents.sourceforge.net. Edutella Project. http://edutella.jxta.org. Efthimidiadis, E. N. (1996) Query expansion. In WILLIAMS, M. Annual Review in Information Science and Technology, v.31, p.121-187. Faensen, D. et al. (2001) Hermes A Notification Service for Digital Libraries. In: JCDL01, Roanoke, Virginia, USA. Ferreira, J.; Silva, A. (2001) MySDI: A Generic Architecture to Develop SDI Personalised Services (How to Deliver the Right Information to the Right User?). In: Proceedings of the ICEIS'2001. Setubal, Portugal. p.262-270. Disponvel em: < http://citeseer.ist.psu.edu/489601.html >. Acesso em: 25 mai. 2004. Gnutella website. http://www.gnutella.com. Hoile, C. et. al. (2002) Core specification and experiments in DIET: a decentralised ecosystem-inspired mobile agent system. Proceedings of the 1st International Joint Conference on Autonomous Agents & Multiagent Systems (AAMAS 2002), Bologna, Italy. Disponvel em: < http://citeseer.ist.psu.edu/565145.html >. Acesso em: 30 mai. 2004. Housman, Edward M.(1973). Selective dissemination of information. Annual Review of Information Science and Technology. Washington, American Society of Information Science, p. 221-241. Lang, K. (1995) NewsWeeder: learning to filter netnews. In: Kaufmann, M. Proceedings of the 12th International Conference on Machine Learning. Lake Tahoe, CA. Disponvel em: < http://citeseer.ist.psu.edu/lang95newsweeder.html >. Acesso em: 25 mai. 2004. Luhn, H. P. (1961) Selective dissemination of new scientific information with the aid of electronic processing equipment. American Documentation, v.12, p.131-138. Marrow P. et. al. (2001) Agents in Decentralised Information Ecosystems: The DIET Approach. Proceedings of the AISB'01 Symposium on Information Agents for Electronic Commerce, AISB'01 Convention, University of York, United Kingdom. Disponvel em: < http://www.intelligence.tuc.gr/publications/aisb01.pdf >. Acesso em: 30 mai. 2004. Mooers, C. (1951) Zatocoding applied to mechanical organization of knowledge. American Documentation, v.2, p.20-32. Revista de Biblioteconomia de Braslia. (1978) Braslia, Associao dos Bibliotecrios do Distrito Federal, ABDF; Departamento de Biblioteconomia da Faculdade de Estudos Sociais Aplicados da Universidade de Braslia, v.6, n.2.
Saracevic, T.; Spink, A.; Wu, M. (1997) User and intermediaries in information retrieval: what are they talking about? In: Jameson, A.; Paris, C.; Tasso, C. User Modeling: Proceedings of the Sixth International Conference, UM97. Vienna, New York: Springer Wien New York. Disponvel em: <http://wwwis.win.tue.nl:8080/2ID10/Resources/users-and-intermediaries.pdf >. Acesso em: 25 mai. 2004. Spink, A.; Losee, R. M. (1996) Feedback in information retrieval. In Williams, M. Annual Review in Information Science and Technology, v.31, p.33-78. Taylor, R. S. (1968) Question negotiation and information seeking in libraries. College & Research Libraries, v.29, p.178-194. Yan, T. W.; Garcia-Molina, H. (1994) Index structures for selective dissemination of information under the Boolean model. Transactions on Database Systemns (TODS), v.19, n.2. Disponvel em: < http://doi.acm.org/10.1145/176567.176573 >. Acesso em: 25 mai. 2004. Yan, T. W.; Garcia-Molina, H. (1999) The SIFT information dissemination system. ACM Transactions on Database Systemns (TODS), v.24, n.4, p.529-565. Disponvel em: < http://citeseer.ist.psu.edu/yan00sift.html >. Acesso em: 25 mai. 2004.