Você está na página 1de 10

A Web Semntica e suas contribuies para a cincia da informao

Renato Rocha Souza


Doutorando em cincia da informao. Escola de Cincia da Informao. Universidade Federal de Minas Gerais E-mail: rsouza@eci.ufmg.br

INTRODUO Surgida no incio dos anos 90, a World Wide Web*, ou simplesmente Web, hoje to popular e ubqua, que, no raro, no imaginrio dos usurios, confunde-se com a prpria e balzaquiana Internet a infra-estrutura de redes, servidores e canais de comunicao que lhe d sustentao. Se a Internet surgiu como proposta de um sistema distribudo de comunicao entre computadores para possibilitar a troca de informaes na poca da Guerra Fria, o projeto da Web, ao implantar de forma magistral o conceito de hipertexto imaginado por Ted Nelson & Douglas Engelbart (1962), buscava oferecer interfaces mais amigveis e intuitivas para a organizao e o acesso ao crescente repositrio de documentos que se tornava a Internet. Entretanto, o enorme crescimento alm das expectativas do alcance e tamanho desta rede, alm da ampliao das possibilidades de utilizao, fazem com que seja necessria uma nova filosofia, com suas tecnologias subjacentes, alm da ampliao da infraestrutura tecnolgica de comunicao. Para apresentar as mudanas por que est passando a Web na transio para este novo patamar que tem sido chamado de Web Semntica e avaliar alguns dos impactos deste fenmeno, convm explorar brevemente os conceitos inerentes aos sistemas de recuperao de informaes, sua funcionalidade, e estabelecer algumas categorias de anlise. A Web e os sistemas de recuperao de informaes A dificuldade de conceitualizao do que um sistema de recuperao de informaes (SRI) advm, a princpio, da ambigidade dos conceitos de sistema e de informao em si (Arajo, 1995). Podemos adotar, entretanto, algumas definies que faam sentido no escopo do assunto tratado e, desde j, assumimos que, ao falar de sistemas de recuperao de informaes, estamos falando em tecnologias para a recuperao de informaes registradas em formato impresso ou digital.

Ldia Alvarenga
Doutora em cincia da informao (UnB). Professora titular da Escola de Cincia da Informao. Universidade Federal de Minas Gerais E-mail: lidiaalvarenga@eci.ufmg.br

Resumo
O presente artigo apresenta o processo de atualizao por que passa a World Wide Web na sua transio para o que tem sido chamado de Web Semntica. Neste sentido, busca-se identificar as tecnologias, as organizaes associadas e o embasamento filosfico e conceitual subjacentes a esta nova web. O artigo tambm procura apresentar as imbricaes existentes com a cincia da informao e as possibilidades de ampliao de escopo dos seus objetos tradicionais de pesquisa com o aporte dos novos padres e tecnologias que esto sendo desenvolvidos no mbito da Web Semntica. Palavras-chave Web Semntica; Cincia da informao; Internet; Sistemas de recuperao da informao; Hipertexto.

Web Semantics and its contributions to information science Abstract


This article explores the updating process that is taking place in the World Wide Web in the transition to what is being called The Semantic Web. In this sense, we try to identify the technologies, the associated organizations and institutions, the conceptualization and the philosophy that underlie this new web. The article also tries to show the interconnections between the semantic web and the field of information science, and how the semantic web technologies can broaden the traditional information science research subjects. Keywords Semantic Web; Information science; Internet; Systems of information retrieval; Hypertext.

* Em uma traduo literal, Teia de Alcance Mundial.

132

Ci. Inf., Braslia, v. 33, n. 1, p. 132-141, jan./abril 2004

A Web Semntica e suas contribuies para a cincia da informao

As metodologias e tecnologias associadas biblioteconomia e documentao e, mais recentemente, cincia da informao surgiram como uma resposta s necessidades causadas pelo papel cambiante que tomou o conhecimento humano e seus registros atravs dos tempos (Wersig, 1993). Com a exploso de documentos disponveis, surgiram os diversos sistemas de informao que, mediante operaes de indexao, armazenamento e recuperao, buscavam organizar e prover acesso informao registrada em documentos. Com o fenmeno contemporneo da crescente disponibilizao destes documentos em formato digital, vimos surgir e ampliarem-se os sistemas informatizados de recuperao de informaes. Prover aos usurios fcil acesso aos documentos atinentes disponveis o objetivo dos SRIs. Para Lancaster & Warner (1993, p. 4-5), os SRIs so uma interface entre uma coleo de recursos de informao, em meio impresso ou no, e uma populao de usurios, e desempenham as seguintes tarefas: aquisio e armazenamento de documentos; organizao e controle destes; distribuio e disseminao aos usurios. Esta viso abrangente e inclui tarefas que so normalmente associadas a atores humanos. Salton & Mcgill (1983, p. 1) e, mais tarde, Baeza-Yates & Ribeiro-Neto (1999, p. 1) definem SRIs como sistemas que lidam com as tarefas de representao, armazenamento, organizao e acesso aos itens de informao. H de se distinguir os sistemas de recuperao de informaes dos sistemas de recuperao de dados, nos quais basta uma determinada condio a ser satisfeita para que se tenha uma resposta exata, fruto de uma busca completa e exaustiva. A recuperao de informaes traz dificuldades intrnsecas ao conceito de informao, como a dificuldade da determinao da real necessidade do usurio e seu melhor atendimento com os documentos que fazem parte do acervo do sistema (Foskett, 1997, p.5). Isto nos traz problemas para as consultas, como baixas revocao* e preciso**. Para a representao adequada de documentos, necessrio criar sistemas de indexao eficazes, de forma que a recuperao das informaes neles contidas, de acordo com as necessidades dos usurios, seja a mais significativa possvel. A determinao do processo de indexao vivel no momento em que os sistemas so
* Razo do nmero de documentos atinentes recuperados sobre o total de documentos atinentes disponveis na base de dados. ** Razo do nmero de documentos atinentes recuperados sobre o total de documentos recuperados.

projetados e deve funcionar continuamente, medida que novas informaes so adicionadas ao sistema. Embora tenha sido projetada para possibilitar o fcil acesso, intercmbio e a recuperao de informaes, a Web foi implementada de forma descentralizada e quase anrquica; cresceu de maneira exponencial e catica e se apresenta hoje como um imenso repositrio de documentos que deixa muito a desejar quando precisamos recuperar aquilo de que temos necessidade. No h nenhuma estratgia abrangente e satisfatria para a indexao dos documentos nela contidos, e a recuperao das informaes, possvel por meio dos motores de busca (search engines), baseada primariamente em palavras-chave contidas no texto dos documentos originais, o que muito pouco eficaz. A dificuldade de determinar os contextos informacionais tem como conseqncia a impossibilidade de se identificar de forma precisa a atinncia dos documentos. Alm disso, a nfase das tecnologias e linguagens atualmente utilizadas nas pginas Web focaliza os aspectos de exibio e apresentao dos dados, de forma que a informao seja pobremente descrita e pouco passvel de ser consumida por mquinas e seres humanos. neste contexto que surge a proposta da Web Semntica. A WEB SEMNTICA A Web Semntica no uma Web separada, mas uma extenso da atual. Nela a informao dada com um significado bem definido, permitindo melhor interao entre os computadores e as pessoas. Com estas palavras, Berners-Lee (2001) define os planos de seu grupo de trabalho no World Wide Web Consortium* (W3C) para operar a transformao que ir modificar a Web como a conhecemos hoje. Web Semntica (Decker et alii, 2000 & Berners-Lee et alii, 1999) o nome genrico deste projeto, capitaneado pelo W3C, que pretende embutir inteligncia e contexto nos cdigos XML utilizados para confeco de pginas Web, de modo a melhorar a forma com que programas podem interagir com estas pginas e tambm possibilitar um uso mais intuitivo por parte dos usurios. Embora semntica signifique estudo do sentido das palavras, Guiraud (1975) reconhece trs ordens principais de problemas semnticos:

* Consrcio de empresas, profissionais, cientistas e instituies acadmicas que responsvel pela criao de padres tecnolgicos que regulam a World Wide Web.

Ci. Inf., Braslia, v. 33, n. 1, p. 132-141, jan./abril 2004

133

Renato Rocha Souza / Ldia Alvarenga

1) a ordem dos problemas psicolgicos, que relaciona os estados fisiolgicos e psquicos dos interlocutores nos processos de comunicao de signos; 2) a ordem dos problemas lgicos, que estabelece as relaes dos signos com a realidade no processo de significao; 3) a ordem dos problemas lingsticos, que estabelece a natureza e as funes dos vrios sistemas de signos. Guiraud confere terceira ordem de problemas o status de semntica por excelncia (1976, p.8), mas o uso da conotao semntica para a Web ampliada est ancorado na segunda definio, e se justifica se observarmos as aumentadas possibilidades de associaes dos documentos a seus significados por meio dos metadados descritivos. Alm disso, as ontologias construdas em consenso pelas comunidades de usurios e desenvolvedores de aplicaes permitem o compartilhamento de significados comuns. Berners-Lee (2001) imagina um mundo em que programas e dispositivos especializados e personalizados, chamados agentes, possam interagir por meio da infraestrutura de dados da Internet trocando informaes entre si, de forma a automatizar tarefas rotineiras dos usurios. O projeto da Web Semntica, em sua essncia, a criao e implantao de padres (standards) tecnolgicos para permitir este panorama, que no somente facilite as trocas de informaes entre agentes pessoais, mas principalmente estabelea uma lngua franca para o compartilhamento mais significativo de dados entre dispositivos e sistemas de informao de uma maneira geral. Para atingir tal propsito, necessria uma padronizao de tecnologias, de linguagens e de metadados descritivos, de forma que todos os usurios da Web obedeam a determinadas regras comuns e compartilhadas sobre como armazenar dados e descrever a informao armazenada e que esta possa ser consumida por outros usurios humanos ou no, de maneira automtica e no ambgua. Com a existncia da infra-estrutura tecnolgica comum da Internet, o primeiro passo para este objetivo est sendo a criao de padres para descrio de dados e de uma linguagem que permita a construo e codificao de significados compartilhados. Para melhor entender estes padres e linguagens, vamo-nos debruar a seguir um pouco mais sobre estes conceitos. SGML, HTML e XML Um documento na Web composto por uma mistura de dados e metadados. Meta um prefixo de auto134

referncia, de forma que metadados sejam dados sobre dados. Os metadados em documentos na Web tm a funo de especificar caractersticas dos dados que descrevem, a forma com que sero utilizados, exibidos, ou mesmo seu significado em um contexto. A linguagem ainda utilizada atualmente para a construo da maioria das pginas Web o HTML, ou HyperText Markup Language (linguagem de marcao em hipertexto). A linguagem HTML derivada do padro SGML (Standard Generalized Markup Language), que , na verdade, uma metalinguagem, ou seja, uma linguagem para descrever outras linguagens. O padro SGML baseado na idia de que documentos contm estrutura e outros elementos semnticos que podem ser descritos sem que se faa referncia forma com que estes elementos sero exibidos. O conjunto de todas as tags marcaes sintticas que descrevem os dados e comandos para manipulao de um documento passveis de serem utilizadas por uma linguagem derivada do SGML chamado de DTD, ou Document Type Definition. A linguagem HTML um conjunto definido de tags, ou um DTD especfico do SGML, e foi criada tendo em mente a necessidade de construo de documentos para serem exibidos em dispositivos de computador (na Web), da sua vocao para tratar do formato que os dados contidos no documento vo assumir ao serem exibidos. Um navegador ou browser, ao ler um documento HTML, interpreta as tags que este documento contm para decidir como sero exibidos os dados tambm contidos. Os navegadores atuais interpretam o HTML porque o DTD para definio do HTML fixo, e conhecido a priori pelo interpretador do navegador. Assim mesmo, podemos ter navegadores diferentes interpretando definies de exibio de forma particular, com resultados distintos no dispositivo de sada. A estrutura do HTML rgida, no existindo a possibilidade de adio de novos comandos de marcao (tags), sem que haja uma redefinio do DTD da linguagem e conseqente atualizao dos navegadores para que interpretem estas novas tags. A ltima especificao do HTML lanada pelo W3C foi a verso 4.0, e desde ento a linguagem no tem sofrido mais modificaes. A partir das limitaes do HTML e das necessidades de uma linguagem que pudesse descrever o contedo semntico e os significados contextuais, alm da estrutura e forma de exibio de documentos, foi criado o XML (eXtensible Markup Language). O XML uma recomendao formal do W3C e, em determinados aspectos, assemelha-se ao HTML. Ambas so derivadas do SGML e contm tags para descrever o contedo de
Ci. Inf., Braslia, v. 33, n. 1, p. 132-141, jan./abril 2004

A Web Semntica e suas contribuies para a cincia da informao

um documento. Mas, enquanto o HTML tem como objetivo controlar a forma com que os dados sero exibidos, o XML se concentra na descrio dos dados que o documento contm. Alm disso, o XML flexvel no sentido de que podem ser acrescentadas novas tags medida que forem necessrias, bastando para isso que estejam descritas em um DTD especfico; ou seja, qualquer comunidade de desenvolvedores pode criar suas marcaes (tags) especficas que sirvam aos propsitos de descrio de seus dados. Isto possibilita que os dados sejam descritos com mais significado, abrindo caminho para embutirmos semntica em documentos da World Wide Web e nas intranets. O HTML 5.0 ou XHTML o HTML 4.0 reescrito como se fosse um DTD especfico que segue o padro XML. Os dados contidos nos documentos XML podem ser exibidos em uma infinidade de maneiras, dependendo do dispositivo em que sero manuseados (telas de computador, celulares, PDAs etc.). Os documentos XML no contm, em si, as diretivas para exibio dos dados, e, para cada dispositivo-destino especfico, podemos realizar uma transformao do documento originalmente em XML para um documento passvel de ser exibido ao usurio ou entendido e utilizado por outro dispositivo tecnolgico. Esta transformao realizada utilizandose a linguagem XSL (eXtensible Stylesheet Language), e cada arquivo XSL contm as definies de exibio ou leitura de um ou vrios dispositivos especficos (tela do computador, tela do celular, impressora, coletores de dados, outros sistemas de informao etc.), no formato que melhor convier (tabelas, grficos, seqncia de caracteres etc.). O arquivo XML passa por uma transformao definida pelo XSL, e o resultado um arquivo muito semelhante a um documento HTML comum. Desta forma, o trio XML, seu DTD especfico e o XSL se apresentam como um conjunto de padres que possibilitam o armazenamento, descrio significativa, intercmbio e exibio dos dados de forma personalizada. O padro XML aceito como o padro emergente para troca de dados na Web. Mas, apesar de possibilitar aos autores a criao de suas prprias tags, em uma perspectiva computacional, h muito pouca diferena entre as tags <AUTHOR> e <CREATOR>. Para que as marcaes semnticas criadas sejam utilizadas de forma no-ambgua por comunidades maiores, so necessrios alguns padres de compartilhamento mais universais. O W3C e as comunidades de usurios tm procurado prover estes padres, como abordamos em seguida. Muitas empresas esto migrando seus bancos de dados e bases de documentos para padres compatveis com XML
Ci. Inf., Braslia, v. 33, n. 1, p. 132-141, jan./abril 2004

e SGML, de forma a possibilitar a interoperabilidade dos sistemas internos da companhia. Metadados e o Dublin Core No basta possuir uma linguagem flexvel como o XML para construir metadados. Para compartilhar um significado, necessrio que este seja consensual e inteligvel de forma no ambgua entre todos os participantes de uma comunidade. Para resolver o problema da exploso de nomenclaturas diferentes e as vrias situaes em que a interpretao dos dados de maneira unvoca no possvel, foram criados, no escopo do projeto da Web Semntica, alguns padres de metadados, de construo de cdigo XML e uma nova significao para o termo ontologias, como vemos a seguir. O padro Dublin Core uma iniciativa para criao de um vocabulrio controlado, mesmo que limitado, para uso na Web, baseado no pressuposto de que a busca por recursos de informao deve ser independente do meio em que esto armazenadas. composto de 15 elementos de metadados (DCMI, 2003) e se baseia no padro MARC* (2003). Seus elementos so title (o nome dado ao recurso, ou ttulo), creator (a pessoa ou organizao responsvel pelo contedo), subject (o assunto, ou tpico coberto pelo documento), description (descrio do contedo), publisher (o responsvel por tornar o recurso ou documento disponvel), contributors (aqueles que contriburam para o contedo), date (data em que o recurso foi tornado disponvel), type (uma categoria preestabelecida para o contedo), format (o formato no qual o recurso se apresenta), identifier (identificador numrico para o contedo, tal como uma URL**), source (fonte de onde foi originado o contedo), language (a linguagem em que est escrito), relation (como o contedo se relaciona com outros recursos, como, por exemplo, se um captulo em um livro), coverage (onde o recurso est fisicamente localizado) e rights (um ponteiro ou link para uma nota de copyright). O Dublin Core Metadata Initiative (DCMI) teve incio em 1995, ganhando o nome da localidade onde se deu o encontro inicial, Dublin, Ohio, USA. Sua aceitao foi rpida e hoje
* O MARC um padro para comunicao de informaes bibliogrficas de forma que possibilite o entendimento por dispositivos eletrnicos. uma iniciativa da biblioteca do Congresso dos EUA. ** A URL, ou Uniform Resource Locator, um caso particular dos URI (Uniform Resource Identifier), que so os endereos que identificam um ponto de contedo da World Wide Web, seja este uma pgina de texto, vdeo, imagem, som etc. O tipo mais comum de URI a URL, que descreve o endereo de uma pgina na Web (o servidor que a hospeda e o nome do documento neste servidor) e o mecanismo (protocolo) utilizado para o acesso (HTTP, FTP etc.).

135

Renato Rocha Souza / Ldia Alvarenga

um padro internacional, com participantes de mais de 20 pases. Existem duas formas para o padro Dublin Core, a forma simples e a qualificada. Enquanto Simples apenas especifica os padres para os 15 possveis pares de atributo e valor, a qualificada aumenta a especificidade dos metadados com informaes sobre codificao e outras orientaes para o processamento dos documentos. O padro RDF O RDF ou Resource Description Framework uma recomendao do W3C que deve vir a ser implementada na confeco de pginas da Web Semntica. O RDF encerra um padro de ontologias, para a descrio de qualquer tipo de recurso Internet, como um site Web e seu contedo. O RDF estabelece na verdade um padro de metadados para ser embutido na codificao XML, e sua implementao exemplificada pelo RDF Schema, ou RDFS, que faz parte da especificao do padro. A idia do RDF a descrio dos dados e dos metadados por meio de um esquema de triplas de recursopropriedade-valor, e uma forma coerente de acesso aos padres de metadados (namespaces*) publicados na Web (como o Dublin Core, ou outro namespace compartilhado). Vejamos no quadro 1 um exemplo de cdigo XML que utiliza trs diferentes namespaces. Nas segunda, terceira e quarta linhas de cdigo, vemos a referncia aos namespaces utilizados pelo documento XML o namespace do padro RDF, o do padro Dublin Core e o namespace de especificao de Vcards (Visit Cards), que padroniza a descrio dos dados comumente encontrados em um carto de visita. Uma vez especificado um namespace, podemos utilizar seus descritores de forma no-ambgua ao longo do documento, fazendo sempre referncia a qual deles estamos utilizando (ex: <v:Name>, <dc:Creator> ou </ rdf:Description>). Podemos ter centenas ou milhares de namespaces de uso geral (como o da especificao Dublin Core) ou especficos (como o do padro Vcard) publicados na Web, de forma que os metadados estejam sempre disponveis, e, sempre que precisarmos de um vocabulrio controlado para descrever algum domnio
* Um namespace (NS) define um vocabulrio controlado que identifica um conjunto de conceitos de forma nica para que no haja ambigidade na sua interpretao. Os namespaces XML so conjuntos de tipos de elementos e atributos possveis para cada tipo. As triplas do RDF se baseiam em namespaces de forma que a cada recurso seja associado uma dupla de propriedade e valor. Os namespaces podem ser referenciados por meio de uma URI, que se constitui em um repositrio compartilhado, e no-ambguo, onde usurios e programas de validao de cdigo XML podem consultar a sintaxe e propriedades semnticas dos conceitos cobertos.

QUADRO 1 Exemplo de cdigo XML

do conhecimento, possamos recorrer aos metadados consensuais e compartilhados. O padro RDF, as ontologias e os namespaces compartilhados vo permitir que qualquer indivduo ou organizao publique informaes em sites Web de forma que produtos de software ou agentes possam interpretar a informao marcada semanticamente e agir sobre esta informao de forma mais inteligente. Em resumo, so estes alguns dos benefcios do padro RDF: prover um ambiente consistente para a publicao e utilizao de metadados na web utilizando a infra-estrutura do XML; prover uma sintaxe padronizada para a descrio dos recursos e propriedades dos documentos na Web; permitir que aplicaes possam agir de forma inteligente e automatizada sobre as informaes publicadas na Web, uma vez que seus significados so mais facilmente inteligveis. O padro RDF ainda est em evoluo, e se estudam solues para que a descrio dos namespaces seja feita de forma mais inteligente e no repetitiva no escopo de um documento e, alm disso, possam compreender mais propriedades. Neste mbito, vamos falar um pouco mais sobre um tipo mais genrico de namespace, que so as ontologias. Ontologias A palavra ontologia deriva do grego onto (ser) e logia (discurso escrito ou falado). Na filosofia, a ontologia uma teoria sobre a natureza da existncia, de que tipos de coisas existem; a ontologia como disciplina filosfica estuda tais teorias. Pesquisadores da Web e de
Ci. Inf., Braslia, v. 33, n. 1, p. 132-141, jan./abril 2004

136

A Web Semntica e suas contribuies para a cincia da informao

inteligncia artificial adaptaram o termo aos seus prprios jarges, e, para eles, uma ontologia um documento ou arquivo que define formalmente as relaes entre termos e conceitos. Neste sentido, uma ontologia mantm semelhanas com os tesauros, utilizados para definio de vocabulrios controlados. Nas palavras do SemanticWeb.org, uma ontologia uma especificao de uma conceituao. designada com o propsito de habilitar o compartilhamento e reuso de conhecimentos, de forma a criar compromissos ontolgicos, ou definies necessrias criao de um vocabulrio comum. As ontologias se apresentam como um modelo de relacionamento de entidades e suas interaes, em algum domnio particular do conhecimento ou especfico a alguma atividade. O objetivo de sua construo a necessidade de um vocabulrio compartilhado para se trocarem informaes entre os membros de uma comunidade, sejam eles humanos ou agentes inteligentes. Diversos padres e linguagens para construo e compartilhamento de ontologias na Web esto sendo criados, todos baseados no XML, com algumas diferenas de sintaxe de marcao (tags). Alguns exemplos so o SHOE*, a Ontology Exchange Language (XOL)**, a Ontology Markup Language (OML e CKML***) e a Resource Description Framework Schema Language (RDFS)****. Existe uma proposta de extenso do RDF e o RDFS chamada OIL (Ontology Interchange Language)***** e seu sucessor DAML+OIL******. O DAML+OIL (DARPA Agent Markup Language Ontology Interchange Language) uma linguagem baseada no XML, desenhada para possuir muito mais capacidade que este na descrio de objetos e no seu relacionamento; para expressar semntica e criar um alto grau de interoperabilidade entre sites Web. O OWL uma linguagem de marcao semntica para publicao e compartilhamento de ontologias na Web e do DAML+OIL. Um exemplo de um editor que suporta a criao cooperativa de ontologias baseado na Web o Webonto*******.
* http://www.cs.umd.edu/projects/plus/SHOE/ ** http://ecocyc.panbio.com/xol/xol.html *** http://www.ontologos.org/ **** http://www.w3.org/TR/PR-rdf-schema/ ***** http://www.ontoknowledge.org/oil/ ****** http://www.daml.org/ ******* http://webonto.open.ac.uk/

Agentes O grande poder da Web Semntica s vai se realizar quando forem criadas peas de programa que coletem contedo da Web de diversas fontes, processem estas informaes e compartilhem os resultados com outros programas. Estes programas so os agentes. Embora no haja uma definio universal para o termo agente no mbito da computao, podemos considerar o conceito disseminado de agentes como assistentes de tarefa, ou seja, entidades de software que empregam tcnicas de inteligncia artificial com o objetivo de auxiliar o usurio na realizao de uma determinada tarefa, agindo de forma autnoma e utilizando a metfora de um assistente pessoal. A tecnologia de agentes permite que se repense a natureza da interao entre homem e computador, na qual esse ltimo torna-se um parceiro do usurio, cooperando para o alcance dos objetivos traados. Podemos esperar que o futuro da computao seja caracterizado por uma completa delegao de tarefas por parte dos usurios aos computadores, sem a necessidade de qualquer tipo de manipulao direta. A utilizao de agentes possibilita a implementao de um estilo complementar de interao, chamado gerncia indireta, no qual o computador se torna uma entidade ativa, dotada de certo grau de autonomia e capaz de realizar tarefas que auxiliem o usurio no desempenho de suas atividades, de acordo com seus interesses. Em Wooldridge & Jennings (1995), apresenta-se um conjunto de propriedades desejveis a um agente, a saber: autonomia, de modo a agir sem qualquer tipo de interveno, possuindo controle sobre suas aes e estado interno; sociabilidade, de modo a interagir com outros agentes (artificiais ou humanos) por meio de algum tipo de linguagem de comunicao; reatividade, de modo a perceber alteraes em seu ambiente, reagindo a tempo; proatividade, de modo a estar apto a tomar iniciativas, em vez de simplesmente atuar em resposta ao ambiente; continuidade temporal, ou seja, est sendo executado continuamente, ativamente ou em background, possivelmente captando informaes sobre o usurio e sobre o ambiente, para melhor desempenhar suas funes;

Ci. Inf., Braslia, v. 33, n. 1, p. 132-141, jan./abril 2004

137

Renato Rocha Souza / Ldia Alvarenga

orientao para objetivos, por ser capaz de interagir e desempenhar uma srie diversa de aes isoladas, com objetivo de executar uma tarefa mais complexa. Em Nwana (1996), apresentada uma tipologia para agentes na qual estes so analisados segundo vrias dimenses: mobilidade; presena de um modelo de raciocnio simblico; exibio de um conjunto ideal e primrio de atributos, tais como autonomia, cooperao e aprendizagem; papis desempenhados pelos agentes; filosofias hbridas, decorrentes da combinao das caractersticas anteriores; atributos secundrios, tais como versatilidade, benevolncia, confiabilidade, qualidades emocionais, entre outros. Com base nessas caractersticas, Nwana classifica os agentes como colaborativos, mveis, de informao/Internet, reativos, hbridos, inteligentes e de interface.

FIGURA 1 O roadmap da Web Semntica (SemanticWeb. Org, 2001)

A efetividade destes agentes de software vai aumentar exponencialmente medida que mais contedo marcado semanticamente e passvel de ser entendido por mquinas estiver disponvel. A Web Semntica promete esta sinergia: mesmo os agentes que no tenham sido expressamente desenhados para trabalhar em conjunto podero trocar informaes entre si, quando houver semntica embutida nestes dados. A WEB SEMNTICA: A WEB SE APROXIMA DE UM GRANDE SRI A partir dos conceitos de sistemas de recuperao de informaes e das tecnologias apresentadas, vamos entender um pouco mais o grande panorama da Web Semntica, com a ilustrao a seguir (figura 1). Na figura 1, que ilustra o roadmap da Web Semntica (SemanticWeb.Org, 2001), podemos entender como as tecnologias se articulam entre si e como a Web Semntica aproxima a Web da funcionalidade plena de um sistema de recuperao de informaes. Vamos associar as vrias entidades representadas e suas funcionalidades associadas a seguir. No mbito da representao e indexao dos documentos, temos as ferramentas e tecnologias para anotao semntica das pginas web (WebPage annotation Tools) e para construo de ontologias
138

compartilhadas (Ontology Construction Tools). Estas ferramentas possibilitaro a existncia cada vez mais ampla e disseminada de pginas web marcadas semanticamente (Annotated Web-Pages) com metadados descritos em namespaces de domnio pblico (Metadata Repositor y) e com contedo semntico compartilhado em seu significado pelas comunidades e usurios da web atravs das ontologias. As ontologias criadas sero articuladas entre si por meio de ferramentas especficas e meta-ontologias (Ontologies Articulation Toolkits). Com uma estratgia padronizada de indexao, podemos projetar sistemas mais funcionais para recuperao da informao armazenada. No mbito da recuperao e uso dos documentos, os agentes, associados aos mecanismos de busca e inferncia (Inference Engine) executaro o harvesting (colheita) de informaes nos documentos anotados semanticamente de maneira eficaz, porque sero capazes de compreender seus contedos, de modo que a informao seja mais significativamente utilizada pelos usurios (humanos e no humanos) da Web. Estes podero acessar estas novas tecnologias por meio dos portais comunitrios (community portals) ou mesmo dos portais corporativos das organizaes. Podemos esperar que a Web tenha grande melhoria dos ndices de revocao e preciso no atendimento das necessidades de informao, porque a semntica embutida nos documentos permitir aos dispositivos de recuperao evitar os problemas comuns de polissemia e sinonmia,
Ci. Inf., Braslia, v. 33, n. 1, p. 132-141, jan./abril 2004

A Web Semntica e suas contribuies para a cincia da informao

alm de considerar as informaes em seus contextos de significado. A infra-estrutura da Internet e as intranets, no mbito das vrias organizaes, sero os dispositivos responsveis pelo armazenamento e os canais por onde ocorre a disseminao dos documentos, neste grande sistema de informao. As tecnologias para implementao, assim como os prottipos destas ferramentas, j se encontram disponveis, e o processo de atualizao da Web est em pleno curso. A Web Semntica no trata de uma revoluo, mas sim de uma evoluo da Web como a conhecemos hoje. Trata-se principalmente da adoo de padres de metadados e de compartilhamento destes padres, de forma que possamos melhor utilizar o vasto repositrio de informaes disponvel da Web de maneira mais produtiva, gil e significativa. A WEB SEMNTICA E A CINCIA DA INFORMAO Como dissemos, acreditamos que, na convergncia destas tecnologias e ferramentas apresentadas, podem surgir alternativas para suportar um uso mais significativo e eficaz do grande patrimnio disponvel nas redes de informao. Mas o que no foi dito que estes padres que esto sendo criados no limitam seu escopo de aplicabilidade Web. A palavra de ordem que se iniciou com o XML interoperabilidade, ou seja, a possibilidade de sistemas diferentes conversarem entre si. Tudo indica que os padres que esto sendo desenhados para esta nova Web tambm sejam adotados na arquitetura de bibliotecas digitais e de novos sistemas de informao. Podemos esperar que estas tecnologias tambm tragam mudanas para a rea e a atividade dos profissionais da cincia da informao. Podemos exemplificar algumas atividades bem especficas que sero possibilitadas ou melhoradas com esta nova Web: Projetos de novos e melhorados motores de busca Com a marcao semntica das informaes, h uma nova mirade de possibilidades para o projeto de mecanismos de recuperao de informaes. Nota-se uma preocupao atual por parte dos maiores motores de busca em se preparar para essa outra verso da Web (Marchiori, 1998), que constituda gradualmente de um nmero cada vez maior de documentos marcados semanticamente. Faz parte do escopo da cincia da informao o estudo de processos de indexao e recuperao de informaes e, nesta perspectiva, bem provvel que venhamos a confrontar nossas linguagens artificiais de indexao com as metodologias de marcao semntica dos dados representadas pelos metadados e
Ci. Inf., Braslia, v. 33, n. 1, p. 132-141, jan./abril 2004

namespaces da Web Semntica e, tambm, da lgica formalizada do XML e do RDF. Construo de novas interfaces com o usurio para sistemas de informao O estudo de interfaces dos sistemas de informao, como os motores de busca, com o usurio, ganha um novo impulso com aumentadas possibilidades da Web Semntica, uma vez que a lgica intuitiva e natural do RDF permite que projetemos interfaces para sistemas de informao de forma mais intuitiva e coerente com o funcionamento cognitivo dos seres humanos. Alm disso, com os agentes inteligentes, poderemos aprimorar e personalizar a utilizao dos perfis de usurios para que a interao destes com os sistemas seja mais significativa e gil. A lgica de triplas do RDF casa-se sobremaneira com a construo de mapas conceituais (Novak, 1977), e podemos adotar estratgias de visualizao como as geometrias hiperblicas (Lamping, 1995). Construo automtica vocabulrios controlados de tesauros e

Devido semntica genrica e formalizada do RDF (Ora Lassila et alii, 1999), s possibilidades de se embutir significado nos documentos e disponibilizao de ontologias em diversas reas do conhecimento, podemos esperar o surgimento de novas metodologias automatizadas para criao de tesauros e vocabulrios controlados, a partir da anlise das marcaes semnticas dos documentos e das relaes trplices de recurso, propriedade e valor, explicitadas pelo RDF. Indexao automtica de documentos Por meio das ontologias e dos metadados utilizados, compartilhados e validados entre comunidades de interesse, podemos engendrar novas metodologias para analisar automaticamente a atinncia de documentos e assim classific-los de maneira automtica ou semiautomtica. Gesto do conhecimento organizacional De acordo com Teixeira Filho (2000), a gesto do conhecimento organizacional nasce da confluncia entre tecnologia da informao e administrao e se posiciona entre os campos da cultura organizacional, estratgia empresarial e sistemas de informao de uma organizao. Outros autores poderiam acrescentar o campo da educao corporativa e de recursos humanos, e um dos campos de estudo da cincia da informao. Podemos apontar a grande confluncia das tecnologias tornadas disponveis pela Web Semntica e as
139

Renato Rocha Souza / Ldia Alvarenga

necessidades de gesto do conhecimento organizacional. Com o aumento das possibilidades de recuperao de documentos e da interoperabilidade entre os sistemas, podemos esperar maior funcionalidade de portais corporativos, tecnologia-smbolo da gesto do conhecimento. Com as ontologias comunitrias e da padronizao dos metadados, torna-se mais fcil a tarefa de explicitar, classificar e armazenar o conhecimento produzido pelos ativos de capital intelectual da organizao. Gesto da Informao Inteligncia Competitiva Estratgica e da

CONCLUSES O objetivo deste artigo , alm de oferecer uma amostra das tecnologias e inovaes que surgem com a Web Semntica, apontar as confluncias entre o campo da cincia da informao, com sua tipologia e teoria sobre os sistemas de recuperao de informao, e a filosofia e as tecnologias que esto embutidas no projeto desta nova e atualizada Web. O estudo das possibilidades que se abrem e a compreenso de que todo o embasamento filosfico, metodolgico e conceitual da Web Semntica parte do ncleo duro da cincia da informao nos impelem a demarcar e arrebanhar os legtimos territrios do saber e a buscar ativamente uma atuao no desenho destes novos panoramas informacionais. Precisamos hoje trilhar um caminho rumo a uma nova e necessria valorizao da rea de cincia da informao, que oferece teoria, metodologias e competncias que compem a quintessncia daquilo que se espera dos trabalhadores e pesquisadores de uma sociedade baseada em informao e conhecimento. E a importncia da Web e das demais redes digitais de troca de informaes no panorama mundial so amostras de como a atividade de organizao da informao necessria para a evoluo dos indivduos, organizaes e da sociedade em geral.
Artigo recebido em 23-10-2003 e aceito para publicao em 24-04-2004.

Segundo Cronin (1990), as atividades de gesto de recursos de informao so vitais para acompanhamento dos ambientes externo e interno das organizaes e, conseqentemente, para a gesto estratgica do negcio. Dentre estas atividades, podemos citar a anlise contnua de informaes sobre indicadores selecionados publicada nas redes de comunicao como a Internet. A tecnologia dos agentes promete automatizar e agilizar a colheita destas informaes, por meio da anlise de dados que alimentaro data marts e data warehouses*, que, por sua vez, constituiro uma fonte de informaes para auxlio na tomada de deciso.

* Um data warehouse uma coleo de dados no-voltil, crescente no tempo, integrada e orientada ao negcio, para dar suporte a decises gerenciais (Inmon, 1996). O data mart segue a mesma filosofia, mas tem abrangncia menor.

140

Ci. Inf., Braslia, v. 33, n. 1, p. 132-141, jan./abril 2004

A Web Semntica e suas contribuies para a cincia da informao


REFERNCIAS ARAJO, Vnia M.R.H. Sistemas de recuperao da informao: nova abordagem terico conceitual. Cincia da Informao, Braslia, v. 24, n. 1, 1995. Disponvel em: < > Acesso em: 07 fev. 2003. BAEZA-YATES, R.; RIBEIRO-NETO, B. Modern information retrieval. New York : ACM, 1999. 511 p. BERNERS-LEE, T. et al. The semantic toolbox: building semantics on top of XML -RDF. Disponvel em: <http://www.w3.org/ DesignIssues/Toolbox.html>. Acesso em: jun. 2003. BERNERS-LEE, T., LASSILA, Ora; HENDLER, James. The semantic web. Scientific America, Maio 2001. Disponvel em: <http:// www.sciam.com/article.cfm?ar ticleID=00048144-10D2-1C7084A9809EC588EF21>. Acesso em: jun. 2003. CRONIN, Blaise. Esquemas conceituais e estratgicos para a gerncia da informao. Revista da Escola da Biblioteconomia da UFMG, Belo Horizonte, v. 19, n. 2, p. 195-220. 1990. DECKER, S. et al. The semantic web: the roles of XML and RDF. IEEE Expert, v. 15, n. 3. Oct. 2000. DUBLIN CORE METADATA INITIATIVE. Disponvel em: <http:/ /dublincore.org.>. Acesso em: jun. 2003. ENGELBART, Douglas. Augmenting human intellect: a conceptual framework. Disponvel em: < http://www.liquidinformation.org/ engelbart/62_paper_full.pdf >. Acesso em: ago. 2003. FOSKETT, A. C. The subject approach to information. 5. ed. London : Library Association, 1997. 119 p. GUIRAUD, Pierre. A semntica. 2. ed. Rio de Janeiro : Difel, 1975. 133 p. HERMANS, B. Inteligent software agents on the Internet: an inventory of currently offered functionality in the information society & a prediction of (near-) future developments, Tilburg, Holanda : Tilburg University, 1996. Disponvel em: <http:// www.hermans.org/agents>. Acesso em: jun. 2003. INMON, Willian. Building the data warehouse. 2. ed. New York : John Wiley, 1996. 401 p. LAMPING, J; RAO, R.; PIROLLI, P. A Focus+context technique based on hyperbolic geometry for visualizing large hierarchies. Disponvel em: <http://www.acm.org/sigchi/chi95/proceedings/papers/ jl_bdy.htm>. Acesso em: jul. 2003. LANCASTER, F. W.; WARNER, A. J. Information retrieval today. Information Resources, 1993. LASSILA, Ora; SWICK Ralph R. Resource description framework (RDF) model and syntax specification: recommendation W3C, Feb. 1999. Disponvel em: <http://www.w3.org/TR/1999/RECrdf-syntax19990222>. Acesso em: jun. 2003. LAWRENCE, Steve. Context in web search. IEEE Data Engineering Bulletin, v. 23, n. 3, p. 25-32, 2000. Disponvel em: <http:// citeseer.nj.nec.com/lawrence00context.html>. Acesso em: jun. 2003. MARC standards. Disponvel em: <http://www.loc.gov/marc/>. Acesso em: jun. 2003. MARCHIORI, Massimo. The limits of web metadata, and beyond. In: INTERNATIONAL WORLD WIDE WEB CONFERENCE, 7., 1998. Computer networks and ISDN systems. Proceedings... [S. l. : s. n. ], 1998. v. 30. p. 1-9. NELSON, T. H. Literary machines. Sausalito, CA : Mindful, 1982. NOVAK, J. D. A theory of education. Ithaca, NY : Cornell University, 1977. NWANA, H.; Software agents: an overview. Knowledge Engineering Review, v. 11, n. 3. p. 205-244, 1996. RAGHAVAN, P. et al. Finding anything in the billion page web: are algorithms the key? Toronto : WWW8, 1999. SALTON, Gerard; MCGILL, Michael J. Introduction to modern information retrieval. New York : Mcgraw-Hill Book, 1983. 448 p. SEMANTIC web. Disponvel em: <http://www.semanticweb.org/ about.html>. Acesso em: jun. 2003. TEIXEIRA FILHO, J. Gerenciando conhecimento. Rio de Janeiro : Senac, 2000. WEB architecture: describing and exchanging data. Disponvel em: <http:/ /www.w3.org/1999/04/WebData>. Acesso em: jun. 2003. WERSIG, Gernot. Information science: the study of postmodern knowledge usage. Information Processing & Management, Oxford, U.K. v. 29, p. 229-239, Mar. 1993. WHAT is computer terminology. Disponvel em: <http:// www.whatis.com>. Acesso em: jun. 2003. WOOLDRIDGE, M.; JENNINGS, N. Intelligent agents: theory and practice. Knowledge Engineering Review, v. 10, n. 2, p. 115-152, 1995. WOOLDRIDGE, M; JENNINGS, N. (Ed.). Agent technology: foundations, applications, and markets. Berlim : Springer-Verlag, 1998.

Ci. Inf., Braslia, v. 33, n. 1, p. 132-141, jan./abril 2004

141

Você também pode gostar