Você está na página 1de 16

As Cincias Documentais e a Construo da Web Semntica

Cristina Ribeiro Resumo


Na investigao e na prtica, os especialistas das Cincias Documentais tm ao longo do tempo desenvolvido abordagens caracterizao, descrio, organizao e explorao dos documentos. A evoluo tecnolgica das ltimas dcadas trouxe duas vagas de modificaes de fundo ao trabalho nesta rea. A primeira chegou com a disponibilidade de meios poderosos de armazenamento e tratamento automtico dos documentos, a segunda corresponde vulgarizao das comunicaes em rede e ao aparecimento da Web. A mudana mais significativa aqui o alargamento da produo e do uso de todo o tipo de documentos aos no especialistas. Neste cenrio rapidamente se verificou que a principal limitao ao acesso aos documentos provinha da falta dos modelos e organizao que caracterizavam as coleces tradicionais. Est neste momento a surgir, na comunidade das tecnologias para a Web, uma nova viso sobre os documentos centrada no seu significado. O ncleo dos desenvolvimentos nesta rea est no consrcio W3C e na sua iniciativa "Semantic Web". O objectivo das propostas que surgem nesta rea tornar a informao na Web inteligvel para as mquinas, explicitando o seu significado e estabelecendo linguagens para os conceitos usados. Os resultados das iniciativas no sentido da Web semntica dependem do empenhamento dos investigadores das Cincias da Informao, que podem simultaneamente contribuir com o seu saber e experincia de casos, obter os meios para experimentar as novas solues que sero requeridas pelo ambiente dinmico da Web e colaborar no estabelecimento de padres para a informao que partilhada. Both in research and in practice, Information Science specialists have long been developing approaches to the characterization, description, organization and use of documents. Technological evolution in the past few decades brought about two cycles of deep change in this area. The first has come with the generalized availability of powerful tools for storing and manipulating documents, the second is associated with the rapid growth of network communications and the Web. The most significant change is the opening of the world of document production and use to the non-specialists. In this context it has been quickly noticed that the main constraint on document access came from the absence of the models and organization, typical of traditional collections. A new vision on documents, centered on their meaning, is currently emerging in the community of Web technologies. The core developments in this area come from the W3C Consortium and its "Semantic Web" initiative. The goal of the proposals in this area is to make information on the Web "machine understandable". The success of the initiatives towards the Semantic Web depends on the commitment of experts from Information Science, who can contribute with their knowledge and experience from case studies, while obtaining the tools to experiment new solutions required by the dynamic Web environment and cooperating in setting the standards for the information to be shared.

Abstract

Os Documentos nas Cincias Documentais e na Informtica As Cincias Documentais e a Informtica tm sempre tido como objecto em comum a Informao, com abordagens muito diversas sua manipulao. Nas Cincias Documentais valorizou-se a entidade documento como objecto de estudo, e o tratamento da informao aparece subordinado ao dos documentos. A nfase no tratamento de documentos fez desenvolver mtodos para os caracterizar e classificar muito dependentes da anlise por especialistas. Na Informtica, a abordagem centrada na tecnologia levou a valorizar a informao muito estruturada, elegendo como objectos os itens de informao elementares e os seus relacionamentos. A nfase no tratamento automtico fez centrar o estudo mais na informao do que nos documentos de onde provinha. A generalizao da divulgao de informao em linha e o uso generalizado da Web alterou a relao com a informao em ambos os domnios. Do lado das Cincias Documentais h um enorme incremento do uso da tecnologia, necessria tanto para o avano na caracterizao dos documentos como para a sua divulgao nos novos meios. Do lado da Informtica comeou a ser necessrio alargar o mbito dos objectos tratados para incluir informao proveniente de fontes diversas e naturalmente pouco estruturada. A ligao da informao ao documento, tradicional nas Cincias Documentais, tem um aspecto intrnseco muito importante: a manuteno do contexto de origem do documento. Este um aspecto de importncia crescente tambm na informatizao das organizaes, em que uma parcela cada vez maior dos documentos objecto de anlise, modelizao, aquisio da informao subjacente e eventual preservao. Uma diferena tradicional entre a manipulao da informao nas Cincias Documentais e na Informtica tem a ver com a fase do processo em que se faz a modelizao da informao. A estruturao da informao tradicional na Informtica prvia sua aquisio, e o modelo adoptado enforma as aplicaes suportados pela informao produziram. A aproximao que se tem observado na prtica entre os profissionais das Cincias Documentais e da Informtica decorre de necessidades muito concretas sentidas em ambas as reas. A necessidade de tratar objectos mais complexos, em em causa. Nas Cincias Documentais a modelizao ocorre tradicionalmente aps a recolha da informao e da anlise dos processos que a

novos suportes e com componente tecnolgica aprecivel requer aos profissionais das Cincias Documentais uma reconstruo dos seus modelos e tcnicas. A crescente valorizao de informao com carcter pouco estruturado, requerendo modelos mais abrangentes, bem como a importncia da preservao do contexto, tm levado a Informtica a debruar-se sobre as teorias e a prtica do tratamento dos documentos. Em ambas as reas se evoluiu no sentido de caracterizar a informao nos seus aspectos fundamentais e de clarificar a relao entre informao e documento. As Tecnologias A partir dos anos 60, a disponibilidade de meios de armazenamento e tratamento automtico dos dados fez aparecer os primeiros modelos e sistemas de bases de dados. Os desenvolvimentos conceptuais e o aumento da sofisticao dos sistemas oferecidos no pararam desde a, acompanhando o desenvolvimento tecnolgico e o alargamento das reas de aplicao. Hoje em dia as bases de dados suportam todos os domnios de actividade em que seja necessrio a persistncia de informao e uma parte substancial das aplicaes informticas incluem-nas de forma implcita ou explcita. Os meios computacionais abriram novas possibilidades aos profissionais das Cincias Documentais. A compilao em bases de dados da informao de catalogao, as possibilidades de pesquisa em grandes volumes de informao e as ferramentas de apoio edio ilustram a mudana qualitativa nesta rea, considerando apenas o apoio s tarefas tradicionais. A evoluo no uso dos computadores trouxe tambm uma vaga de mudanas um pouco mais subtis, que tm a ver com a vulgarizao do uso dos computadores muito para alm dos ambientes especializados em que se implantaram inicialmente. Do uso dos computadores em grandes organizaes para tarefas de processamento de grandes volumes de dados e em departamentos especializados de universidades para investigao passou-se, a partir dos anos 70 com os micro-computadores, sua introduo em tarefas mais diversificadas e em organizaes de menores dimenses e rapidamente sua presena na vida de todos os dias com a generalizao da introduo dos computadores tanto no ambiente das organizaes como no domstico [CBI 2003]. Uma nova dimenso no uso dos computadores surgiu com o aparecimento das

ligaes em rede e com a criao da Web. Para alm das ferramentas disponveis em cada computador, os utilizadores passaram a ter acesso a informao das mais variadas fontes, atravs de uma interface acessvel sem conhecimentos tcnicos. Tornou-se fcil trocar informao em formato mquina entre utilizadores no especializados e portanto produzir novos documentos com base na informao existente. Do ponto de vista das Cincias Documentais, esta mudana traz novas perspectivas para as tarefas tradicionais mas requer tambm a considerao de uma nova realidade no tratamento e acesso aos documentos. Por um lado, criou-se nos utilizadores dos recursos em linha uma grande expectativa quanto acessibilidade dos recursos e a disponibilidade para a sua consulta sem intermedirios. Por outro lado, a criao e a disponibilizao de enormes volumes de informao na Web coloca questes complexas na sua validao, evoluo e preservao. Uma nova vaga de mudanas tecnolgicas est em vista com a actividade que se desenvolve actualmente no mbito do consrcio W3C sob a designao de Web semntica. O objectivo da Web semntica tornar a informao na Web inteligvel no apenas para as pessoas, seus utilizadores finais, mas tambm para as mquinas, que cada vez mais so intermedirios para as tarefas complexas que os utilizadores pretendem realizar sobre a informao disponvel. A Web semntica pretende fazer evoluir a Web de uma rede em que a informao facilmente trocada entre mquinas mas o seu significado apenas acessvel s pessoas para aquela em que o significado dos dados possa tambm ser manipulado pelas mquinas. A tarefa de construir uma Web dos significados, embora requeira o desenvolvimento de novas solues tecnolgicas para normalizar as representaes dos significados, depende crucialmente da capacidade de elaborar modelos adequados para a representao dos documentos, tarefa central para as Cincias Documentais e da Informao. A Pesquisa de Informao A rea da pesquisa de informao, condicionada tradicionalmente pela capacidade de tratamento manual da informao, desenvolveu-se a partir dos anos 50 no sentido da automatizao. Os progressos nesta rea [Sparck-Jones 2003] mostraram que a indexao e pesquisa automticas, mais do que mimar as tcnicas

usadas manualmente, abriram caminho a novos modelos e tcnicas com resultados que excedem os obtidos pelos mtodos tradicionais, para alm de permitirem a experimentao numa escala impraticvel para estes. D-se por isso a coincidncia, nos anos 90, de a criao da Web surgir num tempo em que os mtodos de indexao e pesquisa automtica tinham j provado o seu valor. A pesquisa na Web forneceu-lhes um campo de experimentao de outra ordem de grandeza, ao mesmo tempo que permitiu explorar aspectos da informao inexistentes nos meios tradicionais, como o exemplo das ligaes no hipertexto, correntes nos documentos na Web. As limitaes presentes na pesquisa de informao situam-se nas reas onde as barreiras no acesso ao significado dos documentos so maiores. Exemplos disto so a informao visual - imagens e vdeo - e a informao multi-lngua. Nestes domnios a investigao em mtodos automticos tem sido intensa mas os resultados esto ainda longe dos obtidos na pesquisa de informao textual no que diz respeito satisfao das necessidades dos utilizadores. A rea da pesquisa de informao assim uma das que pode beneficiar com a evoluo da descrio da informao, podendo tirar partido do enriquecimento dos documentos disponveis e das possibilidades abertas para a interpretao automtica dos seus contedos. A produo de documentos electrnicos Os contextos de produo de documentos tradicionais beneficiavam do facto de os documentos surgirem enquadrados em processos bem definidos dentro das organizaes e de ser possvel a sua gesto nesse contexto. A mudana para a produo de documentos com suporte em aplicaes informticas introduziu modificaes em muitos aspectos, de que se vo destacar dois. Usando como exemplo a informao de natureza contabilstica de uma organizao, pode-se dizer que a sua produo em papel fornecia uma viso fcil de interpretar para um utilizador humano, corporizando-se em documentos produzidos a diversos nveis da organizao, relacionados com os seus processos de funcionamento e dando origem em pontos especificados aos documentos requeridos oficialmente. Quando a organizao passa a gerir a sua contabilidade usando uma aplicao

informtica suportada numa base de dados, ainda que os processos desenvolvidos sejam os mesmos, a informao contabilstica passa a estar estruturada segundo um modelo interno base de dados. Alguns dos modos de uso e pesquisa nessa informao deixam de ser baseados em documentos. O arquivo e preservao desta informao coloca problemas que esto ainda em aberto, desde saber o que constitui a informao a preservar at ao estabelecimento das normas e dos formatos necessrios sua manipulao [DPC 2002]. Um outro aspecto na gesto da informao a nvel das organizaes o facto de, para alm da informao que reside nos sistemas de informao e que objecto de particular cuidado por dizer respeito ao ncleo das suas actividades, todo o pessoal da organizao produzir os seus prprios documentos - para comunicao interna, para contacto com parceiros, via correio electrnico, em relatrios de divulgao mais ou menos generalizada. Esta informao tem correntemente uma natureza de organizao ao documento mas, sendo produzida por ferramentas muito diversas, sofre de problemas de gesto bvios: difcil estrutur-la a nvel da organizao e est frequentemente representada em formatos privativos de aplicaes que so descontinuados e geram a perda efectiva dos contedos. Em ambos os casos ilustrados a introduo de uma nova sofisticao no armazenamento e tratamento da informao no foi acompanhada do desenvolvimento de modelos que permitam interpret-la fora do contexto estrito das operaes que suporta, e portanto fomentar o seu uso mais flexvel e a sua preservao. A informao na Web A vulgarizao do uso dos computadores e da acessibilidade Web produziu uma mudana nos modos de uso da informao cuja extenso ainda no est completamente vista. Para o utilizador leigo, a navegao na Web pe vista uma quantidade de informao avassaladora, criando por um lado a impresso de que tudo o que se pode querer consultar est l, e por outro alguma sensao de impotncia pelo facto de, como resultado de uma consulta realizada usando um motor de busca, haver aparentemente uma quantidade no manejvel de documentos na resposta obtida. Do ponto de vista do fornecimento de informao, a Web criou nos utilizadores

uma expectativa muito grande da disponibilidade da informao que tradicionalmente requeria um contacto mais personalizado ou a interveno de um tcnico. Passou a esperar-se das empresas, das instituies pblicas e dos mais diversos servios que tivessem a sua informao consultvel na Web. Do lado das organizaes a Web vista como um meio poderoso de acesso s pessoas e muitos dos processos de interaco com os utilizadores esto a ser substitudos, com vantagens para ambos os intervenientes, por servios prestados atravs da Web. Do ponto de vista das organizaes cuja misso j era o fornecimento de informao- bibliotecas, servios de documentao, arquivos, a era da Web veio criar a necessidade de fornecer na Web e directamente aos utilizadores finais servios menos especializados do que os que eram prestados por tcnicos conhecedores do domnio. Por outro lado as facilidades de comunicao permitem alargar o mbito destes servios, oferecendo uma vista integrada da informao de diversas fontes e uma efectiva separao entre a localizao fsica dos recursos e a sua integrao lgica. Internamente s organizaes, os conceitos introduzidos pela Web tambm produziram mudanas na estruturao das aplicaes de suporte ao funcionamento. Onde antes eram comuns aplicaes dedicadas a tarefas especficas de um departamento passa agora a haver diferentes interfaces para um repositrio de informao comum que, conforme o departamento e o utilizador, do acesso s funes relevantes ou autorizadas. O facto de ser adoptado o padro de interaco na Web separa os requisitos de acesso dos utilizadores das caractersticas do posto de trabalho: qualquer computador da organizao pode oferecer a qualquer utilizador acesso s funcionalidades requeridas pelas suas funes. Genericamente e para aplicaes que so projectadas para o uso em diversos ambientes (utilitrios, acesso a recursos) est a tornar-se norma a interface da aplicao ser projectada para uso atravs do browser Web. Para aplicaes que requerem a manipulao de documentos, as interfaces tiram em geral partido das facilidades do hipertexto, sendo portanto cada vez mais comum a reconstruo de documentos explicitando a sua estrutura e referncias. A massificao da disponibilizao e do uso da informao na Web tem feito reflectir sobre a qualidade da informao disponvel. Nos modos de edio tradicionais a informao passava por um processo que garantia ao utilizador um grau de confiana associado credibilidade das instituies de edio. No ambiente da

Web a facilidade de publicao leva a que, mesmo da parte de instituies com grande credibilidade, sejam disponibilizados contedos de natureza provisria a par com os que correspondem aos parmetros de qualidade da edio tradicional. Tem havido mesmo, por parte de organizaes cientficas, a prtica de tornar os artigos submetidos para publicao visveis na Web, estando abertos a comentrios antes da sua publicao definitiva. Esta uma forma de tirar partido das facilidades de comunicao para tornar mais vivo e aberto o processo de edio. Este modo de funcionamento tem no entanto como reverso a possibilidade de se disseminarem documentos cujo estado difcil de atestar. Mais genericamente, qualquer pessoa ou organizao pode publicar informao cujo contedo de alguma forma objectvel; para os mecanismos de pesquisa actualmente disponveis esta pode no ser distinguida da que provm de uma fonte conceituada, e o utilizador que tem de ter os conhecimentos necessrios para fazer a distino. Comunicao e Significado da Informao A troca de informao entre pessoas e o seu uso nas mais diversas actividades supe um entendimento quanto ao significado da informao manipulada. Entre pessoas a comunicao efectiva depende da partilha de um contexto que fornea significado informao. muitas vezes necessrio explicitar o significado de conceitos que so usados implicitamente na comunicao humana, seja porque necessrio restringir num determinado domnio o significado de um termo relativamente ao seu uso na linguagem comum, seja porque se pretende evitar ambiguidades, seja ainda porque se pretende fornecer ao interlocutor (ou mais genericamente a algum que vai usar a informao) o contexto exacto em que a deve interpretar. Esta explicitao tipicamente feita em linguagem natural, de uma maneira rigorosa mas informal, sendo fcil de utilizar por pessoas. Quando se passa da comunicao entre pessoas para a comunicao entre aplicaes, a linguagem deixa de poder ser informal. Uma aplicao tem habitualmente um domnio cujos conceitos so captados tanto na informao que manipulada como nas funcionalidades oferecidas ao utilizador da aplicao. Pode-se dizer que a semntica do domnio est implicitamente captada na aplicao. Quando h necessidade de comunicao entre aplicaes, habitual estabelecer uma linguagem prpria, que mais uma vez tem implcitos os conceitos do domnio. Estas

linguagens, habitualmente designadas protocolos, so faladas pelas aplicaes quando precisam de trocar informao entre si. A informao trocada tem significado para as aplicaes, e pode ser transformada por estas em informao inteligvel para o utilizador humano. No desenvolvimento de aplicaes informticas de alguma dimenso habitual fazer a distino entre vrias camadas. A informao manipulada pela aplicao gerida por um servidor de dados, que trata do armazenamento e da resposta aos pedidos da aplicao, ao passo que o servidor da aplicao realiza sobre os dados os procedimentos necessrios para cumprir as funcionalidades da aplicao. Sobre estas camadas situa-se a interface do utilizador, que d acesso s funes da aplicao adaptadas a um tipo de utilizador e a um ambiente. Este modelo em camadas favorece uma viso em que os dados esto separados das operaes que sobre estes se realizam e da forma de as apresentar ao utilizador. Um mesmo servidor de dados pode suportar aplicaes diferentes sobre um mesmo domnio, e uma mesma aplicao pode apresentar-se de forma diversa a utilizadores que lhe acedam de diferentes plataformas ou que disponham de privilgios diferentes. Neste modelo claro que o significado da informao est implcito no modelo de dados usado pelo servidor de dados, e que este tem de ser partilhado pelo servidor da aplicao que a l, escreve e interroga. A Web Semntica: Explicitar o Significado da Informao As linguagens usadas na Web foram desenhadas com o objectivo de serem de acesso fcil para pessoas. A maior parte da informao disponvel na Web encontra-se em formato de texto com hiperligaes, tornando fcil a navegao entre documentos. A explorao intensa da Web fez aumentar o seu uso por pessoas mas fez tambm surgir o conceito de servios, ou seja de aplicaes que se destinam a realizar tarefas em nome do utilizador, explorando por ele a informao disponvel e fornecendo um resultado que ele no poderia obter ou que lhe consumiria demasiado tempo. O que distingue uma aplicao que opera sobre informao disponvel na Web para realizar uma determinada tarefa de uma aplicao que usa uma base de dados de grande dimenso para uma tarefa semelhante? A diferena essencial est na falta de conhecimento do modelo dos dados no caso da Web. Se queremos uma aplicao que

opera sobre informao proveniente de fontes muito heterogneas, temos de deixar de a basear num modelo de dados implcito. Se analisarmos a manipulao da informao desde a comunicao entre as pessoas em linguagem natural, em que a semntica informal e implcita, passando pela sua explicitao na descrio informal de conceitos, e evoluindo para uma captao mais estrita e menos ambgua nos modelos de dados partilhados entre uma aplicao e o seu servidor, observamos parte de um contnuo semntico [Uschold 2003] que at este ponto pode j ter semntica expressa formalmente mas a que falta ainda a possibilidade de a processar automaticamente nas aplicaes. Este ltimo nvel o que deve ser oferecido no ambiente da Web Semntica. Segundo Tim Berners-Lee, criador da Web e impulsionador da iniciativa da Web Semntica no consrcio W3C, A Web Semntica uma extenso da Web actual na qual a informao recebe um significado bem definido, permitindo que os computadores e as pessoas cooperem melhor[Berners-Lee et al. 2001]. No estado actual do desenvolvimento, a Web Semntica tem, para alm deste propsito genrico, diversas tecnologias desenvolvidas e em desenvolvimento para o concretizar. As mais bsicas esto ao nvel da uniformizao da sintaxe usada para representar dados elementares, em que as linguagens de anotao da famlia do XML [W3C] se esto j a tornar a norma de facto. Este primeiro nvel garante um formato aberto e a possibilidade de criar anotaes arbitrrias, ou seja completa liberdade em termos de criao de conceitos. A Web Semntica pode ser vista como o alargamento para a Web dos esforos desenvolvidos na Cincia da Computao, desde os anos 50, no sentido de representar conhecimento de uma forma adequada automatizao do raciocnio [Brachman et al. 1985, Sowa 2000]. O primeiro aspecto que teve de ser visto a uma nova luz no mbito da Web foi o da abertura em termos de criao de conceitos: ao contrrio do que poderia ser feito na modelizao de um domnio particular (embora mesmo neste caso a tarefa possa no ser fcil) impensvel na Web centralizar modelos. preciso permitir que cada comunidade crie os seus prprios conceitos e os possa exprimir sem limitaes. Esta facilidade proporcionada pela uniformidade sintctica das linguagens de base. As aplicaes actuais j fazem uso das anotaes presentes nos documentos e que pretendem explicitar a sua estrutura e o significado das suas componentes. Este uso assume, no entanto, o conhecimento da semntica dessas anotaes, que pode ser

inconsistente entre o criador dos dados e a aplicao que os usa. A anotao em XML permite assim que cada utilizador estruture livremente os seus documentos, mas no estabelece nada quanto ao significado dessa estrutura. O nvel seguinte nas tecnologias para a Web Semntica o RDF ou Resource Description Framework [W3C 2003], que uma linguagem para fazer em XML afirmaes acerca de recursos. As frases RDF so termos com um sujeito, um verbo e um objecto e permitem formular afirmaes como X o autor de Y em que X e Y podem corresponder a recursos na Web (identificados por URIs, Universal Resource Identifiers [W3C 2003]), pessoas ou o que se quiser, e a propriedade o autor de pode ela prpria estar definida num URI. A ligao de recursos e conceitos a URIs fundamental aqui, uma vez que permite associar os conceitos usados nas afirmaes RDF s suas definies situadas num local nico na Web. As Ontologias O uso do RDF permite escrever afirmaes que captam o significado dos dados numa aplicao. Se cada aplicao pode criar os seus prprios conceitos, e pretendemos que outras possam manipul-los de uma forma sensvel ao significado, ento preciso que o significado desses conceitos seja exposto de uma forma que se possa manipular automaticamente. Na Web Semntica esse o papel das ontologias [W3C 2003, DAML 2003, Hendler et al. 2002]. O termo ontologia, de uma rea da Filosofia, foi recentemente adoptado na Cincia da Computao com um significado mais estrito que tem servido para identificar no mbito desta comunidade os conceitos formalizveis desta rea, na perspectiva da computao. Na Filosofia, a ontologia questiona o ser e a existncia, investigando a natureza, propriedades essenciais e relaes de todos os seres, e os prprios princpios e causas da existncia [Hyperdictionary 2003]. Na Cincia da Computao, e mais especificamente nos domnios da Inteligncia Artificial onde comeou por ser adoptado, o termo tem servido para caracterizar uma especificao formal e explcita de como representar objectos, conceitos e outras entidades cuja existncia assumida numa determinada rea, bem como as relaes que se verificam entre estes. Este uso estrito do termo, embora conforme ao seu esprito mais abrangente, limita-se aos seus aspectos automatizveis, e nesse sentido uma definio corrente

para ontologia a especificao de uma conceptualizao[Gruber 2003]. Na sua verso mais elementar, uma ontologia pode reduzir-se a uma hierarquia taxonmica, com a relao de subclasse associada. Genericamente uma ontologia pode incluir as definies que associam nomes de entidades num domnio de discurso (classes, relaes, funes, ou outros) com descries informais do seu significado e os axiomas que restringem as interpretaes e o uso de tais nomes. Neste sentido uma ontologia pode ser usada como uma teoria lgica. Em termos de uso, a ontologia serve de vocabulrio para a troca de informao entre aplicaes. A adopo de uma ontologia um compromisso de consistncia com os seus conceitos, e a garantia de que uma aplicao, dentro dos limites das suas funcionalidades, ir interrogar outras aplicaes e responder aos pedidos destas de acordo com o vocabulrio comum. Dentro do modelo aberto da Web estas aplicaes podem situar-se a nveis diferentes no uso da informao, terem objectivos diversos e lidarem com informao mais ou menos complexa. A partilha da ontologia pretende garantir consistncia na informao trocada, mas no completude: um servio pode ser incapaz de responder a um pedido que lhe enviado, apesar de este estar formulado segundo conceitos da ontologia a que conforma [Gruber 2003]. Papel da Cincia da Informao Observando o panorama das tecnologias relacionadas com a manipulao da informao verificamos que estas se estendem por reas que vo dos sistemas de informao e bases de dados s redes, das tecnologias Web representao de conhecimento e inferncia automtica. Este universo est em evoluo to rpida que impossvel, mesmo para quem trabalha dentro das tecnologias, manter-se a par delas em todas as suas dimenses. Torna-se por isso difcil ver quais os aspectos que os especialistas das Cincias Documentais e da Cincia da Informao podem influenciar com os seus conhecimentos e viso dos problemas. O primeiro cenrio que se pode imaginar bastante conservador, e reflecte de certo modo o que se tem visto no passado recente com a introduo das chamadas tecnologias da informao nos domnios tradicionais das bibliotecas e da documentao. Do lado dos especialistas nestas reas nota-se um grande desajuste relativamente aplicao das tecnologias. Acontece frequentemente que o especialista da informao no se apercebe das possibilidades oferecidas pela tecnologia e pouco

ambicioso nos seus projectos. Possivelmente ocorrer com a mesma facilidade a situao em que da tecnologia se esperam solues para problemas que requerem mais do que tecnologia. Em qualquer dos casos no fcil, nem para o especialista da informao nem para o das tecnologias, abarcar toda a complexidade do domnio complementar. Se se continuar nesta linha ser de esperar maiores avanos e resultados mais visveis nas reas onde as tecnologias esto bem implantadas, como as bibliotecas, e a continuao de um certo afastamento naquelas onde os investigadores da informao esto menos inseridos na cadeia de fornecimento da informao, como o caso dos arquivos. Neste cenrio, medida que as ontologias surgem e so refinadas ser necessrio incorpor-las nos novos mecanismos de estruturao e arquivo da informao. Num cenrio mais optimista podemos ver a contribuio dos especialistas da informao a surgir inserida nos prprios processos de definio da estrutura da informao, do seu significado e dos seus modos de uso. So claras as reas onde esta contribuio pode ser significativa. Enumeram-se de seguida algumas. - Modelizao de sistemas de informao - nas fases de definio dos conceitos do domnio, da natureza dos dados e das funcionalidades das aplicaes suportadas num sistema de informao a colaborao entre os especialistas da informao, os das tecnologias e os das aplicaes permite embutir nos modelos desenvolvidos as facetas relevantes tanto para as suas funes de suporte s aplicaes como para as de repositrio multifacetado. - Desenvolvimento de modelos para pesquisa de informao - trata-se aqui de contribuir para construir modelos que usem a informao nas suas diversas formas e que sejam adequados a cumprir a funo de recuperao de informao usando toda a flexibilidade oferecida pela explorao da semntica dos dados. - Desenvolvimento de interfaces para aplicaes e servios de troca de informao - pretende-se aqui fazer uso da sensibilidade dos profissionais da informao aos modos de interaco e de consulta de informao e sua evoluo. - Definio, implementao e acompanhamento dos processos de preservao de informao em qualquer formato e meio - esta, embora seja uma tarefa pouco visvel, das que mais se modificou com os novos meios de produo de informao. Est-se neste momento numa situao em que no praticvel o

arquivo a posteriori de uma parte aprecivel dos documentos que so produzidos, sendo condicionante da preservao a interveno dentro do processo de criao. A contribuio dos especialistas da informao aqui essencial, uma vez que, sendo a preservao e arquivo funes vistas como menos prioritrias dentro das aplicaes, facilmente so deixadas fora do desenho inicial, e dificilmente surgem de forma limpa na continuao do desenvolvimento. Em suma, o conhecimento sobre a descrio de documentos valioso tanto no desenvolvimento de ontologias, como na especificao dos padres de inferncia vlidos para os documentos. Pode ainda contribuir para a especificao das componentes de arquivo das aplicaes para gesto de informao, bem como para as regras de autenticao dos documentos. As cincias ligadas aos domnios das humanidades tm uma tradio de evoluo muito ponderada, preferindo discutir em profundidade os conceitos antes de avanar para explorar as suas ramificaes na prtica profissional. O acompanhamento das tecnologias vai requerer um tipo de atitude mais experimental, avanando com demonstraes de conceitos ainda antes de estes serem aceites e validados pela comunidade. Sem isto, h um risco efectivo de que os avanos se faam apesar da imaturidade dos conceitos, e que depois no reste seno aceitar normas para as quais os profissionais da rea no puderam contribuir. Concluses Nas reflexes recentes, da parte de investigadores oriundos das Cincias Documentais, sobre a construo cientfica da rea da Cincia da Informao [Silva e Ribeiro 2002], so visveis o aprofundamento do seu objecto de estudo e o estabelecimento dos mtodos de investigao apropriados. O lanamento das bases para a Cincia da Informao trar decerto uma maior sensibilidade a problemas que vo para alm dos tradicionais nas Cincias Documentais e uma ligao mais forte aos temas da Informtica. Pretendeu-se aqui fazer uma visita aos domnios da Web Semntica, fazendo sobressair tanto a sua abrangncia em termos tecnolgicos como as oportunidades que existem, nas reas que esto a ser exploradas, para os investigadores da Cincia da Informao.

V-se frequentemente a sofisticao tecnolgica ser imposta s pessoas sem que isso seja acompanhado de uma efectiva apropriao das novas ferramentas por parte dessas pessoas. A tecnologia surge assim mais como uma barreira ao aprofundamento das capacidades humanas do que como uma chave de acesso a novas vistas sobre o mundo e novas formas de interaco. Nesta rea iremos observar decerto experincias mais e menos bem sucedidas na aplicao da tecnologia aos problemas do dia-a-dia. bem certo que para alguns dos problemas centrais da nossa relao com a informao ainda no existem solues definitivas. Alguns destes so no entanto bem familiares aos investigadores das Cincias Documentais. Ao adoptarem uma estratgia de abertura para as possibilidades oferecidas pelas tecnologias, estes iro ter acesso a ferramentas que lhes podem oferecer meios de criar solues, test-las e partilh-las. A experincia acumulada tanto em termos de problemas genricos como de casos concretos de aplicao ser valiosa tanto para sugerir novas solues para problemas recorrentes como para criar solues para os novos problemas que a evoluo tecnolgica cria. Referncias BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora - Semantic Web. Scientific American. 284:5 (2001). BRACHMAN, Ronald J.; LEVESQUE, Hector, J. - Readings in knowledge representation. Los Altos, Cal: Morgan Kaufmann, 1985. CBI - Charles Babbage Institute- Center for the History of Information Technology [Em linha]. Actualizado 1 Ago. 2003. [Consultado 17 Out. 2003]. Disponvel em http://www.cbi.umn.edu/shp/bibliography.html. DAML - The DARPA Agent Markup Language Homepage [Em linha]. Actualizado 10 Jun. 2003. [Consultado 17 Out. 2003]. Disponvel em http://www.daml.org/. DPC - The Digital preservation coalition [Em linha]. Actualizado 2002. [Consultado 17 Out. 2003]. Disponvel em http://www.dpconline.org/graphics/index.html. GRUBER, Tom - What is an ontology? [Em linha]. [Consultado 17 Out. 2003]. Disponvel em http://www-ksl.stanford.edu/kst/what-is-an-ontology.html. HENDLER, James; BERNERS-LEE, Tim; MILLER, Eric - Integrating

applications on the semantic Web. Journal of the Institute of Electrical Engineers of Japan. 122:10 (2002) 676-680. Disponvel em http://www.w3.org/2002/07/swint. Hyperdictionary [Em linha]. [Consultado 17 Out. 2003]. Disponvel em http://www.hyperdictionary.com/dictionary/ontology. SILVA, Armando Malheiro da; RIBEIRO, Fernanda - Das Cincias Documentais Cincia da Informao. Porto: Edies Afrontamento, 2002. SOWA, John F. - Knowledge representation: logical, philosophical, and computational foundations. Pacific Grove, CA: Brooks Cole Publishing, 2000. SOWA, John F. - Ontology. [Em linha]. Actualizado 16 Jun. 2000. [Consultado 17 Out. 2003]. Disponvel em http://users.bestweb.net/~sowa/ontology/index.htm. SPARCK-JONES, Karen - Document retrieval : shallow data, deep theories, historical reflections, potential directions. In ECIR 2003 - EUROPEAN CONFERENCE ON INFORMATION RETRIEVAL RESEARCH, 25 - Lecture Notes in Computer Science 2633. p. 1-11. USCHOLD, Michael - Where are the semantics in the semantic web?. AI Magazine. 24:3 (2003) 25-36. W3C - Extensible Markup Language (XML) [Em linha]. Actualizado 20 Ago. 2003. [Consultado 17 Out. 2003]. Disponvel em http://www.w3.org/XML/. W3C - Naming and addressing: URIs [Em linha]. Actualizado 9 Jul. 2002. [Consultado 17 Out. 2003]. Disponvel em http://www.w3.org/Addressing/. W3C - RDF Primer [Em linha]. Actualizado 10 Out. 2003. [Consultado 17 Out. 2003]. Disponvel em http://www.w3.org/TR/rdf-primer/. W3C - Semantic Web [Em linha]. Actualizado 11 Out. 2003. [Consultado 17 Out. 2003]. Disponvel em http://www.w3.org/2001/sw/. W3C - Web-Ontology (WebOnt) Working Group [Em linha]. Actualizado 15 Out. 2003. [Consultado 17 Out. 2003]. Disponvel em http://www.w3.org/2001/sw/WebOnt/.