Você está na página 1de 20

WEB SEMNTICA

SEMANTIC WEB
Gisele Vasconcelos Dziekaniak, Mestre
Professora Substituta do Departamento de Biblioteconomia e Histria
Fundao Universidade do Rio Grande
Josiane Boeira Kirinus, Mestre
Professora do Departamento de Cincias da Economia e Informtica
URCAMP, So Borja, RS.

RESUMO
O trabalho aborda a Web Semntica: a nova verso da web que est em desenvolvimento,
atravs de projetos como o Scorpion1 e o Desire2. Estes projetos buscam organizar o
conhecimento armazenado em seus arquivos e pginas web, prometendo a compreenso da
linguagem humana pelas mquinas na recuperao da informao, sem que o usurio precise
dominar refinadas estratgias de buscas. O artigo apresenta o padro de metadados Dublin
Core como o padro mais utilizado atualmente pelas comunidades desenvolvedoras de
projetos na rea da Web Semntica e aborda o RDF como estrutura indicada pelos visionrios
desta nova web para desenvolver esquemas semnticos na representao da informao
disponibilizada via rede, bem como o XML enquanto linguagem de marcao de dados
estruturados. Revela a necessidade de melhorias na organizao da informao no cenrio
brasileiro de indexao eletrnica a fim de que o mesmo possa acompanhar o novo paradigma
da recuperao da informao e organizao do conhecimento.

PALAVRAS-CHAVE: Web Semntica. Organizao do Conhecimento. Metadados. Dublin


Core. RDF. XML. Projeto Scorpion. Projeto Indexa.

1 INTRODUO

A Web Semntica surge como uma possvel soluo para a estruturao semntica
dos dados na web, viabilizando o processamento da informao por parte das mquinas.
Berners-Lee (2001), idealizador da nova web, cita um exemplo do que a Web Semntica ser
capaz de fazer. Neste exemplo, um usurio pede ao computador que ele encontre um mdico
de uma determinada rea da medicina e d mquina algumas restries, tais como: este
mdico deve ter seu consultrio no mesmo bairro que o usurio e deve estar ligado
comunidade acadmica. O computador navega pela rede e encontra algumas opes. De uma
maneira inteligente e automtica, ele deve comparar a agenda do usurio com a agenda do
mdico e oferecer opes de horrios para consulta. O usurio s ter o trabalho de escolher o
horrio que melhor lhe convm.

1
Pgina projeto Scorpion: < orc.rsch.oclc.org:6109/>

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 20
A Web Semntica representa a evoluo da web atual. Enquanto a web tradicional
foi desenvolvida para ser entendida apenas pelos usurios, a Web Semntica est sendo
projetada para ser compreendida pelas mquinas, na forma de agentes computacionais, que
so capazes de operar eficientemente sobre as informaes, podendo entender seus
significados. Desta maneira, elas iro auxiliar os usurios em operaes na web.
A Web Semntica visa incorporar semntica s informaes. Isso proporcionar no
somente aos usurios entenderem as informaes como tambm as mquinas. Ela pretende
fornecer estruturas e dar significado semntico ao contedo das pginas web, criando um
ambiente onde agentes de software e usurios possam trabalhar de forma cooperativa.
Neste novo contexto, a web ser capaz de representar associaes entre coisas que
em princpio poderiam no estar relacionadas. Segundo Berners-Lee (2001) os computadores
necessitam ter acesso a colees estruturadas de informaes (dados e metadados) e de
conjuntos de regras de inferncia que ajudem no processo de deduo automtica para que
seja administrado o raciocnio automatizado, ou seja, a representao do conhecimento.
Estas regras so especificadas atravs de ontologias, que permitem representar
explicitamente a semntica dos dados. Atravs dessas ontologias possvel elaborar uma rede
enorme de conhecimento humano, complementando o processamento da mquina e
melhorando qualitativamente o nvel de servios na web.
Segundo Hendler (2001), a Web Semntica pode ser considerada como a composio
de um grande nmero de pequenos componentes ontolgicos que apontam entre si. Dessa
forma, companhias, universidades, agncias governamentais e grupos de interesses
especficos procuraro ter seus recursos web ligados a um contedo ontolgico, j que
ferramentas poderosas sero disponibilizadas para intercambiar e processar essas informaes
entre aplicaes web.
Entretanto, preciso ressaltar que a semntica no est somente relacionada ao
contedo de um recurso, mas tambm forma de como este se relaciona com os demais
recursos na web. Portanto, essencial que os recursos disponibilizados sejam expressivos o
bastante para que as mquinas ou agentes sejam capazes de processar e entender o real
significado do dado, intermediando as necessidades de cada usurio e as fontes de
informaes disponveis.

2
Pgina projeto Desire: <http://www.ariadne.ac.uk/issue5/desire/>

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 21
O objetivo da Web Semntica estruturar o contedo que est solto na Internet. Para
isto necessrio que agentes1 percorram a rede, pgina a pgina para executar tarefas
consideradas sofisticadas para o usurio. Esses agentes sero capazes de identificar o
significado exato de uma palavra e as relaes lgicas entre vrias palavras.
Para os computadores entenderem o contedo da web necessrio que eles consigam
ler dados estruturados2 e tenham acesso a conjuntos de regras que o ajudem a conduzir seus
raciocnios. As pginas web tero de ser escritas numa linguagem nova e serem entendidas
por diferentes sistemas.
Algumas tecnologias foram desenvolvidas para a Web Semntica, tais como o XML,
linguagem de marcao que permite aos usurios criarem tags3 personalizadas sobre o
documento criado, diferentemente do HTML, que possui estrutura de tags fixas, impedindo a
criao de novos tipos de descritores (vide seo 3.2 em que se aborda o XML de forma mais
especfica).
Outra tecnologia utilizada pela Web Semntica o RDF, que trabalha com um trio de
informao o qual expressa o significado das informaes. Cada componente do trio tem sua
prpria finalidade, em analogia ao sujeito, verbo e objeto de uma frase e recebe uma
identificao URI4 (vide seo 3.1 deste artigo que volta a abordar o RDF, com maior
aprofundamento).
Na linguagem humana uma palavra pode assumir vrios significados, o que pode
causar confuso nos sistemas. A soluo usar URIs diferentes para cada conceito. Quando
acontecer de dois bancos de dados usarem URIs diferentes para um conceito necessrio que
o software que vai vasculh-los saiba quando est tratando do mesmo conceito. Neste caso
so usadas as ontologias, que fornecero o vocabulrio necessrio para a comunicao entre
os agentes e as pginas e mostraro as relaes entre os conceitos. Na prtica, uma ontologia
define termos (nome de entidades num determinado contexto) associados a textos que
descrevem o que os mesmos significam e axiomas formais que restringem a interpretao e o
uso dos termos.
Segundo Faria e Girardi (2002), um exemplo de aplicao da Web Semntica a
Gesto do Conhecimento, rea que se concentra na obteno, manuteno e acesso ao
conhecimento de uma organizao, com o objetivo de aumentar a produtividade. Com o
impacto da Internet e da globalizao muitas empresas se inseriram no mundo virtual.

1
Programas que percorrem a web em busca de determinada informao.
2
Informaes colocadas em campos fixos de um arquivo.
3
Marcao de dados inserida em arquivos.

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 22
Surgiram muitos sistemas de controle de documentos on-line. Segundo os autores
supracitados, esses sistemas tm fraquezas como:
- A pesquisa da informao: essas pesquisas so feitas baseadas em palavras-chave, os
sistemas recuperam muita informao irrelevante devido ao uso de certas palavras em
diferentes contextos;
- A extrao da informao: os sistemas so requeridos para extrair informao relevante
das fontes de informaes, mas na realidade no o fazem;
- Manter fontes de texto fracamente estruturadas: uma atividade difcil e que consome
muito tempo, quando as fontes so grandes. Manter tais colees consistentes, corretas,
requer uma representao mecanizada da semntica e das restries que ajudam a detectar
anomalias;
- Gerao automtica de documentos: adaptao de sites que se modificam dinamicamente
de acordo com as preferncias dos usurios poderia ser muito til, mas requer mquinas
que acessam a representao da semntica destas fontes de informaes.
A tecnologia da Web Semntica providencia novas possibilidades para a gesto do
conhecimento como: pesquisas inteligentes ao invs de pesquisas utilizando palavras-chave.
Neste contexto entram os metadados.
A Web Semntica utiliza metadados para dar significado aos seus recursos, estes
metadados so criados atravs de alguns padres prprios para web. Na prxima seo so
apresentados conceito, caractersticas e padres de metadados.

2 METADADOS

Pode-se dizer que metadados so dados sobre dados. Neste contexto, metadados
referem-se a estrutura descritiva da informao sobre outro dado, o qual usado para ajudar
na identificao, descrio, localizao e gerenciamento de recursos da web. Entretanto, eles
podem ser aplicados em qualquer meio.
De acordo com Iannella e Waugh (1997), no contexto da web, trs aspectos devem ser
considerados no desenvolvimento de metadados:
- Descrio de recursos: informao expressa atravs de metadados, determinado pelo
objetivo e tipo do recurso.

4
Tecnologia usada para criar as URLs.

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 23
- Produo de metadados: sumrio da descrio dos dados, que pode tornar-se um processo
extremamente caro e cansativo quando realizado manualmente. A tendncia realizar
automaticamente esse processo, incentivados pelo uso das tecnologias XML e RDF.
- Uso de metadados: Envolve o uso e acesso de metadados, especialmente relevante para a
localizao de recursos na web. Neste contexto, metadados devem incluir informaes
sobre os recursos, tais como a identificao, descrio, estrutura.

Outras questes de relevncia relacionadas a metadados podem ser apontadas, ainda


conforme Iannella e Waugh (1997):
- Devido ao grande nmero de padres de metadados existentes, possvel descrever um
recurso a partir de mais de um conjunto de descritores;
- Deve existir um conjunto de padres de metadados especficos de forma a acomodar os
diferentes tipos de recursos.
- A internacionalizao de padres deve ser considerada. A maioria dos padres baseada
em descritores em ingls;
- Metadados devem ser gerados no momento em que o recurso criado e disponibilizado na
web, evoluindo medida que o recurso modificado. No entanto, alguns tipos de
metadados especficos, tais como crticas sobre um filme ou um artigo, podem ser gerados
parte.
- Metadados so dados. Assim, apresentam tambm caractersticas de armazenamento e
acesso, bem como dificuldades de interpretao de seu contedo.

2.1 Padres de Metadados

A criao de um nico padro de metadados que aborde todas as reas do


conhecimento humano cada vez mais difcil devido a alguns fatores, tais como: o tamanho
da web, um padro nico seria composto por um nmero elevado de elementos descritores
referentes aos diversos domnios do conhecimento; mediante a variedade de descritores, a
catalogao se tornaria exaustiva e exigiria um conhecimento mais especfico.
Segundo Souza, et al. (1997), os padres de metadados tm como funo fornecer as
definies e formar uma rede para automatizar registros de propriedades e dados cadastrais de
forma padronizada e consistente.
Existem padres diferentes de metadados para finalidades distintas de informaes.
Para se ter uma idia da variedade de esforos so apresentados alguns destes padres: DIF

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 24
(Directory Interchance Format) padro para criar entradas de diretrios que descrevem um
grupo de dados: GILS (Government Information Locator Service) usado para descrever
informaes governamentais; FGDC (Federal Data Geographic Committee) usado na
descrio de dados geoespaciais; MARC (Machine Readable Cataloging) usado para a
catalogao bibliogrfica; CIMI (Consortium for the Interchange of Museum Information)
que descreve informaes sobre museus.
Dentro da categoria para descrio de recursos na web, encontra-se o Dublin Core,
que apresenta uma estrutura a partir de um conjunto de descritores simples e genricos que
objetiva a descoberta e o gerenciamento de recursos na web. Tambm no exige
conhecimento de especialistas no momento de descrever os recursos, devido simplicidade de
utilizao, podendo ser usado por qualquer tipo de usurio, talvez por isso seja o padro
recomendado pela W3C3 para utilizao na web.

2.1.1 Dublin Core - DC

O padro Dublin Metadata Core Element Set, possui uma lista central de quinze
elementos descritores, sendo um dos padres mais utilizados na web. Possui pares (nome
atributo/valor atributo) como estrutura e sua utilizao no possui maior complexidade.
Segundo Lagoze et al. (1996) o Dublin Core pretende ser simples e, para facilitar o
uso pelos criadores e mantenedores de documentos web, descritivo o suficiente para auxiliar
na recuperao de recursos na Internet.
Isto gera um paradoxo: os descritores fornecidos pelo DC, por serem genricos e
simples, no cobrem a total necessidade de descrio dos recursos, pois dependendo da
aplicao a que se refere um recurso, no se encontram descritores apropriados, ou que, no
mnimo, possam ser aproveitados.
Para sanar esta ausncia, foram desenvolvidos elementos extras que complementam
os 15 elementos definidos pelo DC, que podem ser denominados de qualifiers. Estes
qualifiers so avaliados pelo DCMI (Dublin Core Metadata Iniciative) para fazerem parte do
conjunto de descritores s aplicaes.
dada preferncia aos qualifiers que podem ser utilizados de maneira geral por
vrias aplicaes. O DCMI recebe sugestes concernentes de padres existentes adicionais
que possam servir como qualifiers. Estas sugestes so analisadas, debatidas e aprovadas ou
no pelo DCMI.

3
URL do W3C: <http://www.w3c.org>

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 25
Para a representao destes qualifiers, dada preferncia aos vocabulrios,
anotaes formais e termos mantidos e estabelecidos pelas agncias j conhecidas dos
usurios. Os implementadores desenvolvem qualifiers adicionais para uso dentro de
aplicaes e domnios especficos. Tais qualifiers podem ser reusados por outras comunidades
dentro do contexto mais amplo (DCMI, 2001).
Segundo o DCMI (2001), o Dublin Core Qualifiers possui duas classes:
- Refinamento do Elemento: um elemento refinado compartilha o significado do elemento
de uma maneira mais especfica e restrita. Se um usurio no compreende o refinamento
do elemento ele deve ignorar o qualifier e retornar ao elemento geral.
- Esquema de Codificao: identificam esquemas que auxiliam na interpretao de um
elemento. Esses esquemas incluem vocabulrios controlados e anotaes formais ou
regras para a representao do mesmo. Como esquema tem-se o Perfil de Aplicao
abordado a seguir.

2.1.2 Perfil de Aplicao

Perfil de aplicao um tipo de esquema de metadados. Este esquema consiste de


elementos projetados de um ou mais esquemas de padres de metadados, combinados por
implementadores para uma aplicao particular.
Um perfil de aplicao possui as seguintes caractersticas segundo Heery e Patel
(2002):
- So elaborados sob medida para aplicaes particulares, ou seja, so criados elementos
que melhor descrevem os dados de uma aplicao especfica dentro de um domnio
tambm especfico.
- Estes elementos podem ser utilizados de um ou mais namespaces4 j existentes e
aplicados combinadamente em uma aplicao particular.
- O Perfil de Aplicao permite o uso dos elementos j definidos em um namespace
existente, mas no podem criar novos elementos.

Um perfil de aplicao tem sua utilidade no que se refere divulgao e publicao


da maneira com que os pesquisadores esto utilizando os padres de metadados. Sendo assim,
desenvolve novos padres e elementos que melhor descrevem suas necessidades de aplicao.

4
Esquema que define unicamente todos aqueles elementos elaborados pelo registro de autoridade para um
namespace particular.

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 26
Ressalta-se que necessria a publicao e a manuteno destes padres e elementos
para a disponibilizao dos mesmos a outros pesquisadores e comunidades. Esta publicao
realizada no que se denomina Schema Registry, que o local (portais web, banco de dados)
onde se armazena o registro de todos os esquemas associados com um namespace e todos os
perfis de aplicao contendo os elementos associados quele namespace. Para tanto, so
necessrias aplicaes especficas, adotando parmetros e linguagens abordados a seguir.

3 FERRAMENTAS PARA DESENVOLVIMENTO DA WEB SEMNTICA

Como j foi abordado, para que a Web Semntica se torne realidade preciso que
alguns instrumentos/ferramentas sejam utilizados em conjunto, visando o entendimento
homem/mquina. So elas o RDF e o XML. Segue uma breve apresentao das mesmas,
ainda que o foco do artigo no esteja em aprofundar discusses acerca da aplicao e
implementao destas tecnologias.

3.1 Resource Description Framework RDF

O RDF tem por objetivo definir um mecanismo de representao de metadados para


descrever recursos no vinculados a um domnio especfico de aplicao. Resultado do
trabalho em conjunto desenvolvido por vrias comunidades.
O RDF recebeu a influncia de vrias fontes diferentes. As principais influncias
vieram das comunidades de padronizao da web (HTML, XML e SGML), da
Biblioteconomia (metadados de catalogao), da representao do conhecimento (ontologias),
da programao orientada a objetos, da linguagem de modelagem, entre outras.
Segundo Moura (2001), na rea de descoberta de recursos, o RDF possibilita a
implementao de mecanismos de pesquisa mais eficientes. Na rea de catalogao, o mesmo
pode ser utilizado para descrever os recursos de informao em um stio da web, como em
uma biblioteca digital. Na rea de agentes inteligentes o RDF pode facilitar o intercmbio de
informaes e o compartilhamento de conhecimento.
O RDF um sistema para auxlio ao desenvolvimento de metadados cuja finalidade
promover a interoperabilidade entre aplicaes que compartilham informaes que sejam
entendidas por sistemas na web (ZANETE, 2002?). Metadados representados em RDF so
usados para dar significado aos recursos da Web Semntica por permitir que estes sejam
manipulados e compreendidos por mquinas.

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 27
Ele no predefine qualquer semntica nem pressupe um domnio especfico de
conhecimento. Trata-se assim de um mecanismo de descrio neutro, que serve para
descrever recursos de qualquer rea do conhecimento (RDF, 1999 apud BAX; REZENDE,
2001).
A estrutura de descrio de recursos RDF composta por trs tipos de objetos:
recursos, propriedades e triplas. Um recurso o que ser descrito por uma expresso RDF.
Todo recurso identificado por um URI (Uniform Resource Identifier, incluindo a o Uniform
Resource Locator - URL). Uma propriedade qualquer caracterstica utilizada para
descrever um recurso.
Em RDF, um domnio de conhecimento definido via um RDF Schema (RDF, 1998).
no RDF Schema, portanto, que definida a semntica e as caractersticas de uma
propriedade. Uma aplicao que crie metadados em RDF e outra que utilize estes metadados
devem utilizar o mesmo Schema para um funcionamento adequado.
Uma tripla formada por um recurso, uma propriedade e um valor para a propriedade
daquele recurso. Uma tripla possui a seguinte forma <sujeito, predicado, objeto>. O
significado de uma tripla pode ser resumido como: o recurso (sujeito) que possui a
propriedade (predicado) com determinado valor (objeto). Um valor ou objeto pode ser tanto
um outro recurso quanto um tipo primitivo definido por XML (Extensible Markup Language)
(BAX; REZENDE, 2001)
Por exemplo, a tripla <http://www.urcamp.tche.br/josiane/metadados, criador,
Josiane> teria o significado: Josiane a criadora da pgina
<http://www.urcamp.tche.br/josiane/metadados>. importante notar que um recurso pode ter
mais de um valor para uma dada propriedade. Por exemplo, suponha que o indivduo X e o
indivduo Y tenham construdo a pgina http://pagina.com.br/ a existncia das duas triplas <
http://pagina.com.br/,criador, indivduo X> e <http://pagina.com.br/, criador,
indivduo Y> em um documento RDF no seria errnea.
Todas as triplas representam um grafo direcionado que vai do nodo sujeito para o nodo
objeto e o arco tem o nome da propriedade. Um recurso representado graficamente por uma
elipse enquanto um terminal representado por um retngulo. As triplas acima seriam
representadas por:

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 28
criador
Josiane
http://www.urcamp.tche.br/josiane/metadados

criador
Indivduo A

http://pagina.com.br

Indivduo B
criador

Figura 1: Declarao RDF5

O RDF destaca-se pela simplicidade com que busca estruturar o contedo contido na
web. Ele no uma linguagem, mas sim um modelo de representao para descrio
semntica de recursos.

3.2 Extensible Markup Language - XML

O XML nada mais do que uma linguagem de marcao de dados (metadados) que
oferece aos seus usurios a descrio de dados estruturados, facilitando declaraes precisas
do contedo de documentos e mais ainda, facilitando a recuperao destes documentos via
web. (DUARTE; FURTADO JUNIOR, 2000?)
De acordo com os autores supracitados, os arquivos XML so textos para leitura por
uma pessoa assim como o HTML e podem codificar o contedo, as semnticas e as
esquematizaes para uma grande variedade de aplicaes desde as simples at as mais
complexas, dentre elas: - um simples documento, - um registro estruturado tal como uma
ordem de compra de produtos, - um objeto com mtodos e dados como objetos Java ou
controle ActiveX, (...) Todos os links entre informaes e pessoas na web. (DUARTE;
FURTADO JUNIOR, 2000?)
A linguagem XML supre as deficincias da HTML, permitindo a criao de
marcaes definidas pelo prprio usurio e, desta forma, proporcionando uma maior descrio
dos recursos em termos de metadados. Tambm fornece uma linguagem sofisticada de folha

5
A sintaxe de RDF pode ser expressa em XML da forma especificada em RDF (1999).

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 29
de estilo a XSL (eXtensible Stylesheet Language), baseada no padro DSSL (Document
Style and Semantics Specification Language) que adiciona estilos visuais (cores, tipos de
fontes, etc.) aos documentos web.
Desta forma, a formatao do documento tratada separadamente de sua estrutura,
resolvendo assim um dos principais problemas do HTML, sem incorrer em um sistema de
marcaes complexas como a SGML (MOURA, 2001).
XML a representao textual do dado. O componente bsico em XML o element,
isto , o texto limitado entre delimitadores (tags) < > ...</> (incluindo os prprios
delimitadores) tal como pessoa, nome, idade e e-mail. possvel associar atributos a
elementos. Um atributo definido como um par (nome, valor).
A linguagem XML deve respeitar duas restries: tags devem estar corretamente
aninhadas e atributos devem ser nicos. Quando um documento atende a essas duas restries
diz-se que um documento bem formado, sendo possvel organiz-lo segundo uma estrutura
de rvore e represent-lo via XML na web, o que auxilia na recuperao da informao.

4 PROJETOS SOB A PERSPECTIVA DA WEB SEMNTICA

Atualmente, existem projetos em desenvolvimento em vrias comunidades cientficas


internacionais visando criar ferramentas para descrio de recursos eletrnicos, ou seja, para
que os computadores consigam interpretar a linguagem humana e at mesmo indexar de
forma eletrnica os documentos6 inseridos na Internet ou nas bases de dados destas prprias
comunidades cientficas.
So exemplos destes projetos:
- Scorpion Project, desenvolvido pela comunidade americana;
- Projeto INDEXA, desenvolvido no Brasil;
- DESIRE - Development of a European Service for Information on Research and
Education, da Comunidade Europia.

6
Como documento, neste contexto, tem-se: artigos, papers, surveys, pginas, e-books, links, dentre outros
suportes informacionais armazenados na Internet.

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 30
Este trabalho apresentar o Projeto Scorpion, como estudo de caso representativo
dos projetos internacionais e o Projeto Indexa, representante da comunidade brasileira, no
cenrio de projetos para indexao eletrnica.
Estes projetos so comentados logo a seguir, a fim de ilustrar os conceitos abordados
nas sees anteriores, bem como com o objetivo de demonstrar o estado da arte dos projetos
de indexao automtica no contexto web.

4.1 Projeto Scorpion

Desenvolvido pela Online Computer Library Center OCLC7 desde 1996. Este
projeto utiliza banco de dados da Dewey Decimal Classification CDD eletrnica, um dos
esquemas de classificao mais utilizado pela comunidade bibliotecria, em nvel
internacional, para classificar materiais em bibliotecas, centros de documentao e em
qualquer tipo de bases de dados informacionais.
O sistema amplamente utilizado no mundo para classificar o conhecimento de
maneira hierrquica. Foi desenvolvida por Melvil Dewey em 1786 e atualmente um dos
sistemas mais utilizados no mundo das bibliotecas (cerca de 90% das bibliotecas americanas a
utilizam, ao contrrio do Brasil, onde so poucas as bibliotecas que a utilizam em comparao
a outros pases).
O projeto Scorpion tem como objetivo a explorao da indexao e a catalogao de
recursos eletrnicos. Como supracitado, tem seu foco primrio na estrutura de ferramentas
para reconhecimento automtico do assunto em busca avanada.
Este projeto tem como vantagem em relao aos mtodos tradicionais de indexao,
poupar tempo e agilizar o trabalho de indexao dos bibliotecrios no tratamento da
informao, alm de tentar fazer o que uma biblioteca faz em um espao circunscrito (o
ambiente fsico).
Faz isso atravs de listas de cabealhos de assuntos controlados; buscando sinergia
entre o mundo desorganizado da web e o mundo organizado das bibliotecas, atravs da
insero de novas tecnologias via Internet.
Como proposta principal, o Scorpion se prope a tentar combinar a indexao e a
catalogao focalizando-se na construo de ferramentas para reconhecimento de assunto
automaticamente, combinando tcnicas de Biblioteconomia com tcnicas de recuperao
automtica da informao, reduzindo custos na catalogao e facilitando este processo.

7
URL da OCLC: www.oclc.org

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 31
Como sugesto dos desenvolvedores, eles pensam na emisso de uma lista de
assuntos em potencial, aps o tratamento do documento pela tecnologia Scorpion, a ser
apresentada a um catalogador humano que poderia escolher os assuntos mais apropriados
desta lista retirada do texto, atravs de algoritmos de hankiamento e palavras baseadas na
CDD, como descritores do documento em processo de indexao.
Esta metodologia agiliza o trabalho do indexador como tambm evita que o mesmo
faa uma leitura tcnica exaustiva do material para index-lo, uma vez que o Scorpion pode
emitir uma lista de opes com os termos mais significativos no documento.
O projeto visa otimizar esta etapa, oferecendo ao indexador estas palavras, alm de
favorecer tambm o processo de transformao destas palavras escolhidas para representarem
o documento em linguagem artificial, que para a Biblioteconomia, segundo Lancaster (1993)
a etapa de traduo em que, depois de escolhidas as palavras do texto, faz-se um controle
das permitidas a serem utilizadas na base de dados, evitando duplicidade de semntica entre
as escolhidas para esta representao.
Este projeto decidiu utilizar a CDD eletrnica como banco de consultas para gerao
de indexao automtica porque a Dewey possui alto grau de integridade de classes (o que
equivale dizer que para cada assunto h uma nica representao, pelo menos em nvel de
contexto), alm de ser considerada pelos desenvolvedores do projeto, como uma base de
conhecimento excelente para uma ferramenta de tarefa de indexao automtica8.
A CDD oferece meios uniformes para denotao do tpico primrio de um recurso
assim podendo agrupar artigos semelhantes (bases de dados de artigos semelhantes para
procura de artigos de comum interesse). O agrupamento na CDD feito pela diviso em
classes, sendo dividido em suas 10 grandes reas (princpio da decimalidade), conforme
apresenta-se a seguir:
000 Generalidades
100 Filosofia e Psicologia
200 Religio
300 Cincias Sociais
400 Lingstica
500 Cincias Exatas e Puras
600 Cincias aplicadas, Tecnologia

8
Convm lembrar que esta no uma viso unnime. Maniez (1993) aponta que as classificaes hierrquicas
como a CDD, CDU e LC possuem claras deficincias estruturais, rupturas lgicas, alto grau de disperso,
terminologia pobre e acentuadas manifestaes enumerativas.

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 32
700 Artes e Recreao
800 Literatura
900 Histria, Geografia e Biografia

Quadro 1: Diviso do Conhecimento CDD das classes principais

De acordo com esta classificao hierrquica, em que cada conceito denotado por
um nmero que identifica sua posio na hierarquia (de no mnimo trs nmeros, conforme
agrupamento acima), tem-se na CDD o armazenamento do conhecimento humano dividido
por reas principais, com subdivises por conceitos, partindo do genrico para o especfico.
Quanto mais longo o nmero de classificao9, maior ser a especificidade representada
(conceito mais especfico).
O Scorpion cria o seu banco de dados relacionado com a Dewey, utilizando os
registros da CDD do ESS Editorial Support System, da OCLC, para criar bancos de dados
de recuperao enfileirados para atribuir assuntos automaticamente aos documentos.
A atribuio dos cabealhos obtida pelo Scorpion atravs do SMART System for
Manipulating And Retrieving Text baseado em representaes estatsticas atravs dos
algoritmos ATN e ATC, que computam peso aos termos, atravs de grau 0.0 a 1.0, para
reduzir a vantagem de recuperao que registros longos tm sobre os menores.
Os registros do ESS baseiam-se na natureza hierrquica da CDD e so representadas
as classes mais amplas de um nmero CDD no banco de dados da ESS atravs de registros
separados. Por exemplo, na classe 000, ele abarcaria:
000 Generalities
005 Computer programming, programs, data
005.3 Programs
Esta relao entre classes, ou hierarquia estrutural em Dewey, mostra que todos os
tpicos fazem parte dos tpicos mais amplos acima hierarquicamente e caso a busca se d por
qualquer um deles, recuperar informaes semelhantes - o que expande significativamente a
indexao (aumentando a revocao) -, porm sem onerar a base de dados, como o caso de
outras tecnologias de indexao eletrnica, que criam ndices invertidos com todas palavras
no pertencentes ao antidicionrio, criado com palavras pertencentes, em sua maioria, de
artigos e preposies.

9
Mais longo, no sentido de possuir mais algarismos. Por exemplo, de acordo com a CDD, a classificao 658
mais genrica do que a 658.3. A 658.34 mais especfica que a 658 e mais especfica tambm que a 658.3, assim
sucessivamente.

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 33
O Scorpion vai alm e evita a duplicidade semntica, por seguir a CDD que possui
integridade em sua estrutura, evitando conceitos idnticos representados por palavras (e
notaes) distintas.
O acrscimo que o Scorpion traz ao estado da arte em indexao eletrnica
justamente o uso deste acmulo de conhecimento j consolidado pela rea de
Biblioteconomia. Ele, alm de utilizar indexao por hanking estatstico de palavras, com
algoritmos que computam peso aos termos, vai alm, buscando interdisciplinaridade com os
instrumentos para atribuio de cabealhos de assunto, bem como utilizando a CDD para
coletar, estruturar e padronizar o tratamento destes assuntos.
O Scorpion no pode substituir a catalogao humana. H ainda muitos aspectos que
esta oferece e que so difceis, seno impossveis, de se automatizar. Porm, ele deve produzir
ferramentas que ajudem a reduzir o custo e o tempo despendido pela indexao tradicional
(humana) automatizando a tarefa de atribuir assunto quando os documentos estiverem
disponveis eletronicamente.

4.2 Projeto Indexa

Desenvolvido pela Escola de Cincia da Informao da Universidade Federal de


Minas Gerais, o Indexa um sistema de indexao de sites em mecanismos de busca na
Internet.
Seu objetivo criar uma ferramenta automatizada que analise o documento para o
auxilio na preparao de websites, antes que este seja submetido classificao e indexao
pelos mecanismos de busca. Isto com a gerao das descries das pginas analisadas em
RDF (como formato de representao de metadados), atravs de um processo semi-
automtico e supervisionado.
O projeto quando concludo dever ser capaz, segundo seus idealizadores, de:
- Analisar as informaes de uma pgina e propor modificaes e ajustes (alguns
automticos e outros manuais), para auxiliar os processos de indexao usados pelos 5
maiores mecanismos de busca na web;
- Identificar fatores regionais (brasileiros) que influem no processo de classificao pelos
mecanismos de busca;
- Tornar uma informao melhor recupervel.

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 34
A plenitude do projeto se dar quando os principais mecanismos de busca utilizarem
padres genricos de descrio de recursos como o RDF. Em sua verso piloto, o Indexa
utiliza para sua aplicao na web, o Java (Servlets e JPS) e o formato de representao de
metadados adotado o RDF.
As ferramentas utilizadas visam preparar sites para serem indexados por mquinas de
busca, alm de submeter URLs a estas mquinas, bem como analisar estes sites indexados
pelos mecanismos de busca.
Para preparar sites a serem indexados pelos mecanismos de busca, o Indexa se prope
a selecionar palavras candidatas a bons descritores atravs da:
- Freqncia da palavra na pgina (TF term frequency);
- Especificidade da palavra na coleo (inverso da freqncia da palavra na coleo da
mquina de busca IDF Inverted Document Frequency);
- Posio da palavra na estrutura da pgina.
Utilizando os parmetros acima citados seria possvel analisar um documento HTML e
dele extrair possveis palavras-chave. Este procedimento calcula, para cada palavra do
documento, o seu grau de relevncia para a descrio da pgina.
Para a realizao do clculo da Especificidade necessrio obter o nmero de
ocorrncias de cada palavra no ndice do mecanismo de busca e tambm qual o peso atribudo
a cada faixa de valores de freqncia. J o clculo da localidade de uma palavra realizado
com a atribuio de valores a cada posio possvel de ocorrncia dentro de um documento.
Os valores podem variar de acordo com a importncia do local do ponto de vista de
Recuperao da Informao.
Para submeter as URLs aos mecanismos de busca, o Indexa analisa os fatores
extrnsecos que fogem do controle do web designer e como soluo prope o envio da pgina
para vrios mecanismos de busca para tentar que a quantidade de sua submisso origine
vrios links. Isso com o objetivo de que pginas com nmero mnimo de contedo tornem-se
visveis.

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 35
Para anlise dos sites indexados, o projeto Indexa prope a realizao de relatrios
automticos periodicamente, para avaliar o desempenho de uma pgina nos hankings dos
mecanismos de busca na Internet. Isto atravs de tcnicas de minerao de dados para clculo
de hanking que sero adotados para a gerao de regras lgicas que descrevem o
comportamento dos algoritmos de relevncia.
De um modo geral, o Indexa trabalha de uma forma mais efetiva do que os sistemas de
busca, trabalhando os documentos (pginas) a serem submetidos aos mecanismos de busca
existentes, a fim de que estes se tornem utilizados pelos usurios da Internet.

5 CONSIDERAES FINAIS

O artigo teve como epicentro discusses acerca da Web Semntica, seu conceito,
objetivo e sua importncia diante do cenrio da necessidade de criao de mtodos
satisfatrios no tratamento de informaes distribudas pela Internet. Onde o advento da
tecnologia Web Semntica fornecer maior preciso ao acesso informao relevante atravs
da estruturao e da representao semntica dos dados.
Procurou-se dar destaque necessidade de objetivar a formao de um ambiente coeso
tanto em nvel tecnolgico quanto em nvel de representao do contedo dos documentos.
Apresentou-se projetos que adotam a metodologia de implementao de acordo com a
Web Semntica, bem como identificou ferramentas utilizadas para tal implementao: DC,
RDF e XML. Acredita-se que estas ferramentas devam ser trabalhadas em conjunto no
desenvolvimento de bases de dados e plataformas semnticas que visem coadunar
homem/mquina na busca pela satisfao na organizao do conhecimento das necessidades
informacionais em ambiente web.
O destaque para o uso do Dublin Core vem do fato de ser este um padro de
metadados bastante simples quanto aos seus campos de preenchimento, o que facilita a
padronizao na utilizao de recursos e tratamento da informao pelos prprios criadores de
pginas web (catalogadores leigos), possibilitando uma pr-classificao destas pginas, o que
facilitaria a indexao das mesmas pelas bases de dados.
Quanto aos projetos, tecendo uma breve comparao entre os existentes na
Comunidade Europia e Americana, com os projetos em nvel nacional (quanto ao uso da
tecnologia da Web Semntica e indexao automtica), percebe-se que no primeiro grupo, os

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 36
projetos parecem seguir a tendncia pela busca da qualidade dos recursos de representao e
recuperao de documentos de boa qualidade (especificidade).
No Brasil, parece que os projetos ainda esto bastante tmidos e muitos ainda buscam
posies de destaques dos documentos indexados nos mecanismos de busca, sem a devida
preocupao com a qualidade da informao, preocupando-se com o hankiamento dos
mesmos, (apesar do projeto Indexa ser de grande importncia uma vez que o mesmo oferece
um canal de pr-tratamento da informao inserida na web).
Para otimizar este cenrio, acredita-se ser necessrio a participao de profissionais
bibliotecrios a fim de que seja possvel aproveitar o conhecimento legado de indexao e
classificao, (vide projeto Scorpion que est tentando utilizar a CDD como forma de
classificar documentos de forma eletrnica, aproveitando sua integridade de classes
semnticas) no somente reproduzindo tais tcnicas, mas, em parceria com profissionais da
tecnologia da informao, superar estas tcnicas e desenvolver novas metodologias para
tratamento, recuperao e organizao da informao eletrnica.
A Biblioteconomia sempre tratou a informao e a organizou atravs de metadados
descritivos como, por exemplo, uma entrada de ttulo em um catlogo de uma biblioteca (quer
este catlogo fosse eletrnico ou manual), o que faz com que o usurio no precise estar com
a obra em mos para ter idia do que trata a mesma.
Porm, este tratamento sempre foi dado a acervos limitados fisicamente, atravs de
uma rede uniformizada. Mas o que fazer para tratar volumes informacionais gigantescos e
com crescimento exponencial como as grandes bases de dados virtuais web, uma vez que o
custo pela catalogao especializada bastante caro, alm de ser uma prtica dispendiosa e
morosa cujas tcnicas so direcionadas para o tratamento apenas de volumes informacionais
relativamente circunscritos?
A web pode oferecer ferramentas automatizadas para busca da informao sem
tratamento e a Biblioteconomia pode oferecer sua experincia e teoria na organizao da
informao. Estas comunidades, aliando suas tcnicas e tecnologias, podem atrelar recursos
poderosos para enfrentar problemas de acesso e manuteno informao eletrnica de
qualidade.
Esse estado revela a necessidade de melhorias no tratamento da informao no cenrio
brasileiro de indexao eletrnica. Inmeras implementaes foram detectadas na bibliografia
de projetos disponveis via rede, com relao indexao por hankiamento, atravs de
algoritmos de balanceamento de pesos e de estatstica. Porm precisa ser trabalhada a viso
semntica e ontolgica se o objetivo for o de otimizar e agregar qualidade indexao

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 37
eletrnica, almejando a relevncia dos resultados nas buscas via Internet, evitando a
recuperao do lixo informacional.

REFERNCIAS

BAX, M. P.; REZENDE, B.V. Projeto Indexa: ferramenta de auxlio divulgao de


informaes na web. [2001?]. Disponvel em:
<http://www.paradigma.com.br/artigos/artigos_04.pdf> . Acesso em: 20 outubro de 2002.

BERNERS. T.B.; HENDLER; J., LASSILA, O. The Semantic Web. Scientific American,
maio 2001. Disponvel em: <http://www.scientificamerican.com/2001/050lissueberners-
lee.html> Acesso em: 08 setembro de 2002.

CRISTIANINI, G. M. S.; MORAES, J. de S. Novas tecnologias, antigas classificaes.


Disponvel em: <http://intermega.globo.com/biblio_fespsp/texto_69.pdf>. Acesso em: 25
novembro de 2002.

DUARTE, O.C.M.B.; FURTADO JUNIOR, M. B. XML: Extensible Markup Language.


Tutorial disciplina Redes de computadores. (2000?) Disponvel em:
<http://www.gta.ufrj.br/grad/00_1/miguel/link1.htm> Acesso em 22 maio de 2002.

DCMI - DUBLIN CORE METADATA INITIATIVE. Dublin Core Qualifiers. 2001.


Disponvel em: <http://www.dublincore.org/documents/2000/07/11/dcmes-qualifiers>.
Acesso em: 12 setembro de 2002.

FARIA, C. G.; GIRARDI, R. Uma anlise da web semntica e suas implicaes no acesso
informao. 2002. Disponvel em: <http://maae.deinf.ufma.br/ensino/ia/artigos> Acesso
em: 08 janeiro de 2003.

HEERY, R; PATEL, M. Application profiles: mixing and matching metadata schemas. 2002.
Ariadne, n. 25. Disponvel em: <http://www.ariadne.ac.uk/issue25/app-profiles/intro.html.>
Acesso em: 12 agosto de 2002.

HENDLER, J. Agents and the semantic web. IEEE Intelligents Systems, mar./abr. 2001.

IANNELLA, R.;WAUGH, A. Metadata: Enabling the Internet. 1997. Disponvel em:


<ftp://www.dstc.edu.au/RDU/reports/CAUSE97>. Acesso em: 28 novembro de 2001.

IKEMATU, R. S. Gesto de metadados: sua evoluo na tecnologia da informao. Bate


Byte, Setembro 2000. Disponvel em: <http:www.pr.gov.br/celepar/celepar/batebyte/edicoes/
2000/bb101/gestao.htm>. Acesso em: 18 janeiro de 2002.

LAGOZE, C. et al. The Warwick Framework A container Architecture for Aggregating


Stes os Metadata. 1996. Disponvel em: <http://dlib.org/dlib/july96/lagoze/07lagoze.html>.
Acesso em: 15 setembro de 2002.

LANCASTER, F. W. Indexao e resumos: teoria e prtica. Braslia: Briquet de Lemos,


1993.

MANIEZ, J. Lvolution des langages documentaires. Documentaliste-Sciences de


linformation, 1993, v. 30, n. 4-5, p. 254-259.

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 38
MILLER, E. W3C Semantic Web Activity. Semantic Web Activity Statement. Disponvel
em: <http://www.w3.org/2001/sw/Activity> Acesso em: 24 agosto de 2002.

MOURA, A. M. C. A Web Semntica: fundamentos e tecnologias. 2001, Instituto Militar de


Engenharia. IME. Rio de Janeiro. Disponvel em: http://ipanema.ime.eb.br/namoura/public/
websemantica.zip. Acesso em 12 janeiro de 2002.

PROJECT Scorpion. Disponvel em: <http://orc.rsch.oclc.org:6109/> Acesso em: 12 junho


2002.

RDF: Resource Description Framework. Model and Syntax Specification. W3C


Recommendation 22 febreary 1999. Disponvel em: <http://www.w3.org/TR/1999/REC-rdf-
syntax-19990222> Acesso em: 25 maio 2002.

RDF: Resource Description Framework. Schema Specification. 1998. Disponvel em:


<http://www.w3.org/TR/1998/WD-rdf-schema/ > Acesso em: 25 janeiro 2002.

SOUZA, T. B.; et al. Metadados: catalogando dados na Internet. Transinformao, v. 9, n.2,


1997, maio/ago. Disponvel em: <http://puccamp.br/~biblio/tbsouza92.html>. Acesso em: 19
agosto de 2000.

ZANETE, N. H. Introduo ao RDF: Resource Description Framework. [2002?]. Disponvel


em: <http://www.faccar.com.br/zanete/zaneteRDF.hmt> Acesso em: 16 setembro de 2002.

WIERENGA, K., DESIRE: Development of a European Service for Information on Research


and Education. Ariadne, n.5, 1996, set. Disponvel em: <http://www.ariadne.ac.uk/
issue5/desire/> Acesso em: 12 junho 2002.

WORLD WIDE WEB CONSORTIUM (W3C). Resource Description Framework (RDF)


Model and syntax specification, 1999. Disponvel em: <http://www.w3c.org/TR/1999/REC-
rdf-syntax/> Acesso em: 16 junho de 2002.

ABSTRACT
This paper approaches the Semantic Web: a new version of web development, through
projects as Scorpion and Desire. The aim of these projects in to organize knowledge stored in
their files and web pages promissing the understanding of human language by the machines to
recover information, without the user needs to dominate refined searching strategies. The
article presents the metadatas pattern Dublin Core as the present day most used pattern by the
project developer communities in the area of the Web Semantic and approaches RDF as
suitable structure for the visionary of this new web to develop semantic outlines in the
representation of the information made available through net, as well as XML as language of
demarcation of structured data. Reveals the need of improvements in the treatment of the
information in the Brazilian scenery of electronic indexation so that the same can accompany
the new paradigm of recovery of information and organization of the knowledge.

KEYWORDS: Semantic web. Organization of the Knowledge. Metadatas. Dublin Core.


RDF. XML. Project Scorpion. Project Indexa.

Originais recebidos em 21/06/2004

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n.18, 2 sem. 2004 39

Você também pode gostar