Escolar Documentos
Profissional Documentos
Cultura Documentos
cincia da informao
Renato Rocha Souza INTRODUO
Doutorando em cincia da informao. Escola de Cincia da
Informao. Universidade Federal de Minas Gerais Surgida no incio dos anos 90, a World Wide Web*, ou
E-mail: rsouza@eci.ufmg.br
simplesmente Web, hoje to popular e ubqua, que,
no raro, no imaginrio dos usurios, confunde-se com
Ldia Alvarenga
Doutora em cincia da informao (UnB). Professora titular da Escola a prpria e balzaquiana Internet a infra-estrutura de
de Cincia da Informao. Universidade Federal de Minas Gerais redes, servidores e canais de comunicao que lhe d
E-mail: lidiaalvarenga@eci.ufmg.br sustentao. Se a Internet surgiu como proposta de um
sistema distribudo de comunicao entre computadores
para possibilitar a troca de informaes na poca da
Guerra Fria, o projeto da Web, ao implantar de forma
magistral o conceito de hipertexto imaginado por Ted
Resumo
Nelson & Douglas Engelbart (1962), buscava oferecer
O presente artigo apresenta o processo de atualizao por interfaces mais amigveis e intuitivas para a organizao
que passa a World Wide Web na sua transio para o que e o acesso ao crescente repositrio de documentos que
tem sido chamado de Web Semntica. Neste sentido,
se tornava a Internet. Entretanto, o enorme crescimento
busca-se identificar as tecnologias, as organizaes
associadas e o embasamento filosfico e conceitual alm das expectativas do alcance e tamanho desta
subjacentes a esta nova web. O artigo tambm procura rede, alm da ampliao das possibilidades de utilizao,
apresentar as imbricaes existentes com a cincia da fazem com que seja necessria uma nova filosofia, com
informao e as possibilidades de ampliao de escopo dos
seus objetos tradicionais de pesquisa com o aporte dos suas tecnologias subjacentes, alm da ampliao da infra-
novos padres e tecnologias que esto sendo desenvolvidos estrutura tecnolgica de comunicao.
no mbito da Web Semntica.
Para apresentar as mudanas por que est passando a
Palavras-chave
Web na transio para este novo patamar que tem sido
Web Semntica; Cincia da informao; Internet; Sistemas chamado de Web Semntica e avaliar alguns dos
de recuperao da informao; Hipertexto. impactos deste fenmeno, convm explorar brevemente
os conceitos inerentes aos sistemas de recuperao de
informaes, sua funcionalidade, e estabelecer algumas
Web Semantics and its contributions to
categorias de anlise.
information science
A Web e os sistemas de recuperao de
Abstract informaes
This article explores the updating process that is taking place
in the World Wide Web in the transition to what is being
A dificuldade de conceitualizao do que um sistema
called The Semantic Web. In this sense, we try to identify de recuperao de informaes (SRI) advm, a princpio,
the technologies, the associated organizations and da ambigidade dos conceitos de sistema e de informao
institutions, the conceptualization and the philosophy that
underlie this new web. The article also tries to show the
em si (Arajo, 1995). Podemos adotar, entretanto, algumas
interconnections between the semantic web and the field of definies que faam sentido no escopo do assunto
information science, and how the semantic web technologies tratado e, desde j, assumimos que, ao falar de sistemas
can broaden the traditional information science research de recuperao de informaes, estamos falando em
subjects.
tecnologias para a recuperao de informaes registradas
Keywords em formato impresso ou digital.
Semantic Web; Information science; Internet; Systems of
information retrieval; Hypertext.
1) a ordem dos problemas psicolgicos, que relaciona referncia, de forma que metadados sejam dados sobre
os estados fisiolgicos e psquicos dos interlocutores nos dados. Os metadados em documentos na Web tm a
processos de comunicao de signos; funo de especificar caractersticas dos dados que
descrevem, a forma com que sero utilizados, exibidos,
2) a ordem dos problemas lgicos, que estabelece as ou mesmo seu significado em um contexto.
relaes dos signos com a realidade no processo de
significao; A linguagem ainda utilizada atualmente para a construo
da maioria das pginas Web o HTML, ou HyperText
3) a ordem dos problemas lingsticos, que estabelece a Markup Language (linguagem de marcao em
natureza e as funes dos vrios sistemas de signos. hipertexto). A linguagem HTML derivada do padro
Guiraud confere terceira ordem de problemas o status SGML (Standard Generalized Markup Language), que
de semntica por excelncia (1976, p.8), mas o uso da , na verdade, uma metalinguagem, ou seja, uma
conotao semntica para a Web ampliada est ancorado linguagem para descrever outras linguagens. O padro
na segunda definio, e se justifica se observarmos as SGML baseado na idia de que documentos contm
aumentadas possibilidades de associaes dos documentos estrutura e outros elementos semnticos que podem ser
a seus significados por meio dos metadados descritivos. descritos sem que se faa referncia forma com que
Alm disso, as ontologias construdas em consenso pelas estes elementos sero exibidos. O conjunto de todas as
comunidades de usurios e desenvolvedores de aplicaes tags marcaes sintticas que descrevem os dados e
permitem o compartilhamento de significados comuns. comandos para manipulao de um documento passveis
de serem utilizadas por uma linguagem derivada do SGML
Berners-Lee (2001) imagina um mundo em que chamado de DTD, ou Document Type Definition.
programas e dispositivos especializados e personalizados,
chamados agentes, possam interagir por meio da infra- A linguagem HTML um conjunto definido de tags, ou
estrutura de dados da Internet trocando informaes um DTD especfico do SGML, e foi criada tendo em
entre si, de forma a automatizar tarefas rotineiras dos mente a necessidade de construo de documentos para
usurios. O projeto da Web Semntica, em sua essncia, serem exibidos em dispositivos de computador (na Web),
a criao e implantao de padres (standards) da sua vocao para tratar do formato que os dados
tecnolgicos para permitir este panorama, que no contidos no documento vo assumir ao serem exibidos.
somente facilite as trocas de informaes entre agentes Um navegador ou browser, ao ler um documento HTML,
pessoais, mas principalmente estabelea uma lngua interpreta as tags que este documento contm para decidir
franca para o compartilhamento mais significativo de como sero exibidos os dados tambm contidos. Os
dados entre dispositivos e sistemas de informao de navegadores atuais interpretam o HTML porque o DTD
uma maneira geral. para definio do HTML fixo, e conhecido a priori
pelo interpretador do navegador. Assim mesmo, podemos
Para atingir tal propsito, necessria uma padronizao ter navegadores diferentes interpretando definies de
de tecnologias, de linguagens e de metadados descritivos, exibio de forma particular, com resultados distintos
de forma que todos os usurios da Web obedeam a no dispositivo de sada. A estrutura do HTML rgida,
determinadas regras comuns e compartilhadas sobre no existindo a possibilidade de adio de novos
como armazenar dados e descrever a informao comandos de marcao (tags), sem que haja uma
armazenada e que esta possa ser consumida por outros redefinio do DTD da linguagem e conseqente
usurios humanos ou no, de maneira automtica e no atualizao dos navegadores para que interpretem estas
ambgua. Com a existncia da infra-estrutura tecnolgica novas tags. A ltima especificao do HTML lanada
comum da Internet, o primeiro passo para este objetivo pelo W3C foi a verso 4.0, e desde ento a linguagem
est sendo a criao de padres para descrio de dados no tem sofrido mais modificaes.
e de uma linguagem que permita a construo e
codificao de significados compartilhados. Para melhor A partir das limitaes do HTML e das necessidades de
entender estes padres e linguagens, vamo-nos debruar uma linguagem que pudesse descrever o contedo
a seguir um pouco mais sobre estes conceitos. semntico e os significados contextuais, alm da estrutura
e forma de exibio de documentos, foi criado o XML
SGML, HTML e XML (eXtensible Markup Language). O XML uma
recomendao formal do W3C e, em determinados
Um documento na Web composto por uma mistura de aspectos, assemelha-se ao HTML. Ambas so derivadas
dados e metadados. Meta um prefixo de auto- do SGML e contm tags para descrever o contedo de
um documento. Mas, enquanto o HTML tem como e SGML, de forma a possibilitar a interoperabilidade
objetivo controlar a forma com que os dados sero dos sistemas internos da companhia.
exibidos, o XML se concentra na descrio dos dados
que o documento contm. Alm disso, o XML flexvel Metadados e o Dublin Core
no sentido de que podem ser acrescentadas novas tags No basta possuir uma linguagem flexvel como o XML
medida que forem necessrias, bastando para isso que para construir metadados. Para compartilhar um
estejam descritas em um DTD especfico; ou seja, significado, necessrio que este seja consensual e
qualquer comunidade de desenvolvedores pode criar suas inteligvel de forma no ambgua entre todos os
marcaes (tags) especficas que sirvam aos propsitos participantes de uma comunidade. Para resolver o
de descrio de seus dados. Isto possibilita que os dados problema da exploso de nomenclaturas diferentes e as
sejam descritos com mais significado, abrindo caminho vrias situaes em que a interpretao dos dados de
para embutirmos semntica em documentos da World maneira unvoca no possvel, foram criados, no escopo
Wide Web e nas intranets. O HTML 5.0 ou XHTML do projeto da Web Semntica, alguns padres de
o HTML 4.0 reescrito como se fosse um DTD especfico metadados, de construo de cdigo XML e uma nova
que segue o padro XML. significao para o termo ontologias, como vemos a seguir.
Os dados contidos nos documentos XML podem ser O padro Dublin Core uma iniciativa para criao de
exibidos em uma infinidade de maneiras, dependendo um vocabulrio controlado, mesmo que limitado, para
do dispositivo em que sero manuseados (telas de uso na Web, baseado no pressuposto de que a busca por
computador, celulares, PDAs etc.). Os documentos XML recursos de informao deve ser independente do meio
no contm, em si, as diretivas para exibio dos dados, em que esto armazenadas. composto de 15 elementos
e, para cada dispositivo-destino especfico, podemos de metadados (DCMI, 2003) e se baseia no padro
realizar uma transformao do documento originalmente MARC* (2003). Seus elementos so title (o nome dado
em XML para um documento passvel de ser exibido ao ao recurso, ou ttulo), creator (a pessoa ou organizao
usurio ou entendido e utilizado por outro dispositivo responsvel pelo contedo), subject (o assunto, ou tpico
tecnolgico. Esta transformao realizada utilizando- coberto pelo documento), description (descrio do
se a linguagem XSL (eXtensible Stylesheet Language), e contedo), publisher (o responsvel por tornar o recurso
cada arquivo XSL contm as definies de exibio ou ou documento disponvel), contributors (aqueles que
leitura de um ou vrios dispositivos especficos (tela do contriburam para o contedo), date (data em que o
computador, tela do celular, impressora, coletores de recurso foi tornado disponvel), type (uma categoria
dados, outros sistemas de informao etc.), no formato preestabelecida para o contedo), format (o formato no
que melhor convier (tabelas, grficos, seqncia de qual o recurso se apresenta), identifier (identificador
caracteres etc.). O arquivo XML passa por uma numrico para o contedo, tal como uma URL**), source
transformao definida pelo XSL, e o resultado um (fonte de onde foi originado o contedo), language (a
arquivo muito semelhante a um documento HTML linguagem em que est escrito), relation (como o contedo
comum. Desta forma, o trio XML, seu DTD especfico e se relaciona com outros recursos, como, por exemplo,
o XSL se apresentam como um conjunto de padres que se um captulo em um livro), coverage (onde o recurso
possibilitam o armazenamento, descrio significativa, est fisicamente localizado) e rights (um ponteiro ou link
intercmbio e exibio dos dados de forma personalizada. para uma nota de copyright). O Dublin Core Metadata
O padro XML aceito como o padro emergente para Initiative (DCMI) teve incio em 1995, ganhando o
troca de dados na Web. Mas, apesar de possibilitar aos nome da localidade onde se deu o encontro inicial,
autores a criao de suas prprias tags, em uma Dublin, Ohio, USA. Sua aceitao foi rpida e hoje
perspectiva computacional, h muito pouca diferena
* O MARC um padro para comunicao de informaes
entre as tags <AUTHOR> e <CREATOR>. Para que as bibliogrficas de forma que possibilite o entendimento por
marcaes semnticas criadas sejam utilizadas de forma dispositivos eletrnicos. uma iniciativa da biblioteca do Congresso
no-ambgua por comunidades maiores, so necessrios dos EUA.
alguns padres de compartilhamento mais universais. ** A URL, ou Uniform Resource Locator, um caso particular dos
O W3C e as comunidades de usurios tm procurado URI (Uniform Resource Identifier), que so os endereos que identificam
um ponto de contedo da World Wide Web, seja este uma pgina
prover estes padres, como abordamos em seguida.
de texto, vdeo, imagem, som etc. O tipo mais comum de URI a
URL, que descreve o endereo de uma pgina na Web (o servidor que
Muitas empresas esto migrando seus bancos de dados e a hospeda e o nome do documento neste servidor) e o mecanismo
bases de documentos para padres compatveis com XML (protocolo) utilizado para o acesso (HTTP, FTP etc.).
O padro RDF
alm de considerar as informaes em seus contextos namespaces da Web Semntica e, tambm, da lgica
de significado. formalizada do XML e do RDF.
INMON, Willian. Building the data warehouse. 2. ed. New York : WHAT is computer terminology. Disponvel em: <http://
John Wiley, 1996. 401 p. www.whatis.com>. Acesso em: jun. 2003.
LAMPING, J; RAO, R.; PIROLLI, P. A Focus+context technique based WOOLDRIDGE, M.; JENNINGS, N. Intelligent agents: theory and
on hyperbolic geometry for visualizing large hierarchies. Disponvel em: practice. Knowledge Engineering Review, v. 10, n. 2, p. 115-152, 1995.
<http://www.acm.org/sigchi/chi95/proceedings/papers/ WOOLDRIDGE, M; JENNINGS, N. (Ed.). Agent technology:
jl_bdy.htm>. Acesso em: jul. 2003. foundations, applications, and markets. Berlim : Springer-Verlag,
LANCASTER, F. W.; WARNER, A. J. Information retrieval today. 1998.
Information Resources, 1993.