Você está na página 1de 67

:

ÁAiLTON FEITOSA
e

É :
ç u

o
É

ORGANIZAÇÃO DA INFORMAÇÃO NA WEB:


Êo
DAS TAGS À WEB SEMÂNTICA
É
E

E:
x

E : :
Estudos Avançados em Ciência da Informação - V. 2

|
é
O Ailton Feitosa — 2006
Érie
O Ciência da Ficha Técnica
Informação e da
«1 Comunicação Revisão: O autor
. e, Projeto gráfico: Cláudia Gomes
Presidente Editorial Capa: Victor Tagore
Antonio Miranda - UnB

Secretária Executiva Dados Internacionais de Catalogação


iza Antunes Araújo na Publicação (CIP)

Comissão Editorial F31to — Feitosa, Ailton.


Kátia Carvalho - UFB Organização da informa
Neusa Dias de Macedo - USP ção na web: das tags à web
semântica / Ailton Feitosa.
Elmira Simeão- UnB
Brasília : Thesaurus, 2006.
132 p. ; il. (Estudos Avan-
çados em Ciência da Informa-
ção; v. 2)

1. Organização da infor-
mação. 2. Indexação na web.
3. Recuperação na web. |. Tf-
tulo

CDU: 007
CDD: 001.5

ISBN: - 85-7062-568-5

A Glaucione, meu grande amor, e a Natália,


Amanda e Lara, amores de outra natureza. Sem famí-
Tedos os direitos em língua portuguesa, no Brasil, reservados de acordo com a lei. Nenhuma parte deste
tivro pode ser reproduzida ou transmitida de quaiquer forma ou por qualquer meio, incluindo fotocópia, lia, meu mundo seria incompleto; meu trabalho seria
gravação ou informação computadorizada, sem permissão por escrito do autor. Está é uma publicação imotivado; minhas maiores conquistas seriam meras
RR

THESAURUS EDITORA DE BRASÍLIALTDA. SIG Quadra 8, lote 2356 - CEP 70810-480 - Brasília, DF. Fane:
(061%) 3344-3738 — Fax: (081) 3344-2353, www.thesaurus. com.br, e-mail: editor E thesaurus. com.br — Contato ações inacabadas, opacificadas ao longo do tempo.
com o autor: mamede Sunb.br

Composto e impresso no Brasil


Printed in Brazil
Sumário

Lista de abreviaturas e siglas 9


1
1 Introdução .....isteneneremenaeacenanarananeerenenenecacacanteareass
2 Elementos de Organização da Informação .........o 17
2.1 Documentos ...ccenceerercarteeeaeenarenacsanentaiantesocerranentena 17
2.2 Ciclo Documentário ...........ccsssseesreneeaaneerenererencrecanenta 18
É
2,3 Tratamento intelectual da informação ..........mae 21
,
i 2.3.1 Indexação... ssereaerertinenteranerenenarareererereerines 22
: 2.3.1.1 Índices e Resumos.............. 23
2.3.1.2 Indexação automática 24
.
2.3.2 Recuperação da Informação... eee . 28
2.3.2.1 Modelos de Recuperação da Informação ........... 30
2.4 Resumo do capítulo ...... ...
cer eenesesertsr senos
eeeereereece 31
:

3 Serviços de Indexação e Recuperação na MED ecran 33


3.1 Breve histórico dos serviços de busca na Web 33
º
3.2 Meta Tags: as primeiras técnicas de otimização da web
para os mecanismos de busca ........eemesmeneerementenmentos 47
3,3 Padrões de meta dados: tendências da organização na
WED Leciitte san encencenacaana
rereeneaaaana cenaaser
scene eos neie taa aanerananteas 50
3.4 Resumo do capítulo 59

4 Web Semântica ......... eee rneneecaterenemeeaeeaeeeerararanenentonta 63


4.1 Caracterização da web semântica ......seesceeeereeasterenmo 63
4.2 Ontologias ..........sissrereecenerereerarerennaerenenerenaraneraeecennemo 70
4.3 Infra-estrutura da Web Semântica... 78
4.4 As gerações da web... enereereocerteearreearaeeneneataa 83
É
44,1 A Fº geração: HTML E XHTML ....ii. 85
4.4.2 A 2º geração: XML, DTD e XML Schema........... 86 E
S :
Lista de abreviaturas e siglas
4.4.2.1 XML sirene 88 e

4.4.2.2 XML-Schema ..... esses 93


4.4.3 À 3º geração: padrões e linguagens de especificação
ão ABNT Associação Brasileira de Normas Técnicas
de ontologias (RDF, RDF Schema, DAML+OIL, CDD Classificação Decimal de Dewey
OWD) si rrrrreaeaareneaaieaaaeanearanaererarrrraresa 98 CDU Classificação Decimal Universal
4.4.3.1 RDF..... 101 :
ÉÉ CI Ciência da Informação
4.4.3.2 RDFS 118 do CRG Classification Research Group
4.4.3.3 OWL 113 Ê DAML Darpa Markup Language
4.5 Resumo do capítulo 120 É
DARPA Defense Advanced Research Projects Agency
DTD Definição de Tipo de Documento
5 Considerações finais ........ses senai 123 EGDC Federal Geographic Data Committee
HTML Hypertext Markup Language
E
ge IDF Inverted Document Frequency
Bibliografia... eee 125 ISO International Standardization Organization
JSP Java ServerPages

ÉÉ
, KIWC Keyword in Context
LDAP Lightweight Directory Access Protocol
MIDI Musical Instruments Digital Interface
NISO National Information Standards Organization
OIL Ontology Inference Layer
OWL Web Ontology Language
PDF Portable Document Format
RDF Resource Description Framework
Í RDF'S Resource Description Framework Schema
É
RFC Requests for Comments
SGML Standardized Markup Language
TEI Text Enconding Iniciative
URI Universal Resource Identifier
URL Universal Resource Locator
ao URN Nome Uniforme de Recurso
W3C World Wide Web Consortium
WEB World Wide Web
WS Web Semântica

Organização da Informação na web; das tags à web semântica E Organização da Informação na web: das tags à web semântica
Ailton Feitosa : Ailton Feitosa
19

XHTML Linguagem de Marcação de Hipertexto Extensível


XML Extensible Markup Language
XML-S Extensible Markup Language Schema

a
1 Introdução

Ea
O advento do serviço World Wide Web na Internet proporcionou
de com-
grande crescimento na quantidade de informações, de usuários e

EuÊ
putadores ligados à rede. De acordo com dados das instituições de pesqui-

DO ana broa
mundo, dados
sa NUA Internet Surveys! e Nielsen NetRatirgs?, em todo o
pessoas com
do ano de 2003 apontavam para cerca de 605,60 milhões de

É
cerca de 14,5
acesso à Internet (tabela 1) e, no Brasil, em julho de 2003,
até
milhões. Segundo estimativas da NUA, somente nos Estados Unidos,
atingin-
o final de 2003, foram realizados negócios entre empresas na rede
Gestor
do a soma de 1,3 trilhão de dólares (ilustração 1). Dados do Comitê

E
de 2004,
da Internet no Brasil (2004), indicavam a existência, em janeiro
distri-
de mais de 223 milhões de servidores de Internet em todo o mundo,

a Aard
as posições
buídos entre trinta países. A tabela 2 apresenta as dez primeir
dessas esta-
nessa classificação, destacando o Brasil em 8º lugar. Ao lado
o.br
tísticas, o Serviço de Domínios para a Iniernet no Brasil - Registr

pan
:
de 509 mil
(http://registro.br) contabilizava, em dezembro de 2003, mais
de mais
domínios em todo o país, número que está hoje (2006), na ordem
de sites
de 859 mil (ilustração 2). Em todo o mundo são quase 57 milhões
ando as informa -
publicados na web (SERVER WATCH, 2004). Atualiz
m para
dd ções para o ano de 2005, pesquisas do site ClickZnetworik? aponta
número
um número de 1,08 bilhão de usuários, sendo 22,32 milhões o
à

12,52 milhões
global de brasileiros com acesso à rede, dos quais cerca de
o número de
são usuários ativos. A previsão para o ano de 2010 é de que
usuários da Internet em todo o mundo salte para 1,8 bilhão.

, http:/ewwr.nua.comisurveys/how many. onlinefindex.htmi


y=br
2 hitp:/Ay ww miolsennetratings.comínews jsp?section=dat to&countr
3 http:/huww.clickz.com/stats/web. worldwide
PAPER

Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
R
Tabela 1: Quantidade de usuários conectados à internet
em todo o mundo em 2903 Domínios Registrados por DPN - 1101/2006 07:00:00
eee am
4 »PN QUANTIDADE 8
co DEH QUANTIDADE
Totalmundial 605600
Profissionais Liberais
É o Entidades 1253 0.18
Afica BM 340 0.04 ADH.BR
E AGR. BR 0.68
Asia/Pacifico 187 24 54 6.01 ADV.BR s847
a AM.BR 189 0.17
“Eloa ago —
= ART.BR 2581 0.30 HRQ.BR
-cuopa AM S1.41 ATO.BR 133 0.02
it com. BR 785676 219 9.03
-CrienteMédio 51 CO0P.BR 293 0.03 BIO.BR
Go
0.06 EMD.BR 10 0.00
c A
: ESP.BR s17 a38 0.05
Canadá EUA 8267 | : ETC.BR 367 0.04 CiH.BR
Amérialalina 335 :84 0.02 CHG.BR 15 0.00
e FAR.BR cmr.BR 964 0.11
FE a FM.BR 133 0.02
Fonte: NUA (2008, b). 0.0? ECH.BR i2s 0.91
á 712.BR 607
ac o.io ENG.BR 2652 0.31
dos GOV.BR
US ECOMMERCE 1998 - 2003 0.05 EFI.BR 2589 o.30
E IMB.BR 452
5125 0.60 FHD. BR as 0.01
E bush .
fo IHD.DR FOT.BR s88 0.08
o Lu
E Bualenao i IHP.9R 2403 8.28
veombmer 0.90 EST.BR 97 am
MIL.BR 22 16 0.00
sao NET. BR 631 0.07 G6F,BR
sem JOR.BR s19 0.06
DRG.BR 23615 2.75 0.01
244 0.03 LEL .BR 107
a PSI.BR 106 0.01
g om 58 o.01 MAT.BR
REC.BR a067 o.24
qm 2012 0.23 MED .BR
SEv.BR 1043 6.12
o do THP.BR 36 0.00 MUS.BR
z mo 0.26 HOT.BR m 0,01
TUR.BR 2193 65 0.01
E TY.BR 180 0.02 WIR.BR
g mo 828617 96.41 DPO.BR 758 0.09
0.09
E PPS.BR 718
ERS.BR 2421 o.28
so Universidades 9380 0.05
amo 9.14 PSC.BR
BR ilas
1407 0.13 gsL.BR ss q.oi
00 3
Go EDU. BR SLE.DR 14 0.00
.
ePo ess ts 2000 out 2002 2003 ds 2391 0.27
Nustraçã
ção 1: Volume de negócios realizados na internet no o der or
VET.BR
à
293 gas
2.03
Ê e Pessoas Físicas
1998-2008. a8430 96
período de 3146 0.37 ZLG.BR
di ú HOM. BR
Fonte: NUA (2008, bj.

Tabela 2: Posição dos paí á Ê.


cont tudo "=> IDHA sem 0.08
109.80
países por número de servidores Total 959494
de internet o
Posição dos países por número dé hosts Ilustração 2: Quantitativo de domínios registrados no
Pais Janeiro/2004 Brasil até janeiro de 2006
4º Estados Unidos 167105,368 Fonte: Registro.br (2006)
2 Japão tip) E DEZ DOE

o ltála (ãoUnido 5.460.578 1 or ur


permite inferências sobre o : enor-
4º Reino (uk -
o * A análise dos dados apresentados
5 Alemanha E À - — . ea
certo, o crescimen-
me volume de informações disponíveis na Internet.í Por
421.405 andor
' En
6º Holanda (ni) 3.419.182 — AUS : «
o E —
a
a . .
to da quantidade de informação eletrônica disponível por meio da Internet
ç TT 3.210.081 a

é uma realidade que pode ser percebida em todos os campos do conheci-


a .
. Z
9 Austrália E 5
Fast (Dr)
Dare É
10º Taiwan (tu) 2 FT BS ngé mento humano. : =
.
Por outro lado, exatamente devido a esse volume de informações,
z SAL :
edu,
e gTLDs)
Ledu, us, mil. org, gov
| É
recuperação de
em

ornam-se cada vez maiores os problemas de acesso e de


:
t -

Fonte: Comitê Gestor da internet no Brasil (2004)


. ua

x a. ami
Organização da tnformação na web: das tags à web semântica
-
Organização da Informação na web: : d das t à EE
:
ags à web semántica
anti : Ailion Feitosa
Aiton Feitosa
14 15

qualquer tipo de informação na rede. Alguns desses problemas linguagens


pode HyperText Markup Language (HTML) — ou de outras
caracterizados, como aponta Maedche (2000), por fatores como. nm de marcação -, não apresentam conteúdos originais; os autores
- crescimento acentuado das fontes de informação digitalizada; s da web
estimavam que, naquela época, cerca de 30% das página
- acesso, localização e resumo de informações tornam-se cada vez
já eram “duplicações”;
mais difíceis, tendo em vista a necessidade de se filtrar informa- correção orto-
baixa qualidade dos dados, seja por problemas de
ções (a esses fatores contrapõe-se a indisponibilidade de ferramen-
gráfica, digitalização ou de correção conceitual.
tas que possibilitem a filtragem);
- existência de um hiato entre o conceito de informação e as atuais dades do
Ao lado desses problemas, são destacadas, ainda, as dificul
formas de armazenamento — o autor argumenta que a falta do uso de conhec imento ao
usuário na recuperação da informação, seja pela falta
de formas padronizadas para o armazenamento de informações na seja pela sua inabi-
elaborar questões que reflitam seus objetivos de busca,
web prejudica o compartilhemento do conhecimento; as grandes quantida-
lidade para interpretar, classificar, priorizar ou filtrar
selecionando apenas
Bacza-Yattes e Ribeiro-Neto (1999) são outros estudiosos das des de informação retornadas pelo sistema de busca,
, por exemplo, assi-
disciplinas relacionadas com recuperação de informação, que a aqueles documentos que lhe interessam. Quivey (2002)
de comunicação
tam dificuldades na área, tais como: aa nala que, com o crescimento da Internet e das tecnologias
como o é atualmen-
- baixa efetividade ou elevado custo das técnicas de pré- disponíveis, nunca foi tão fácil encontrar informação,
entemente as pes-
processamento da linguagem natural, bem como de extração de te. Tal facilidade é questionável, no entanto, já que fregii
lhes ser totalmen-
texto semântico em grandes quantidades de dados - na maioria soas perdem horas examinando informações que podem
lembra que a maio-
dos casos essas técnicas só são efetivas em textos bem estruturados te desnecessárias, excessivas ou redundantes. A autora
zação de páginas para
com tesauros ou com outras informações contextuais; ria dos mecanismos de busca trabalham com a locali
smente retornam
- informações distribuídas em diferentes computadores, topologias o texto especificamente digitado pelo usuário e simple
, sem nenhuma
plataformas e larguras de banda diversas — esses fatores podem milhares de fontes como ocorrências para o que foi pedido
ta a análise do usu-
discriminação da informação. Isso, obviamente, dificul
tornar o acesso bem mais complexo do que em ambientes de rede ação desejada está
ário que nunca pode ter certeza de que a exata inform
local, por exemplo; a web é provavel
localizada entre as primeiras fontes retornadas. Assim,
- acentuada volatilidade dos dados - os autores estimavam, em 1999 a humana, mas
mente o mais rico repositório de informações na históri
que cerca de 40% da informação disponível na Internet já era mo. sc pode saber O
como a maioria dessa informação é desestruturada, não
dificada mensalmente, o que indica a ocorrência de baixos níveis que ela contém e com que propósito, ou que se pode esperar
dela. A autora
de modo
de preservação da informação digital (preservação de originais); assinala a existência de alguns sites que armazenam informações
afirma serem apenas
- acentuada volatilidade de endereços e páginas — diversos sites e estruturado e que utilizam sistemas de busca, mas
páginas mudam de endereço com elevada fregiiência; pequenas “ilhas de ordem, no caótico mar de informações”.
e que a
- grande volume de informações — fator que torna cada vez mais Do exposto nos parágrafos anteriores, é fácil depreender-s
e recuperação de
complexa a tarefa de se recuperar informações na web; otimização das ferramentas para armazenamento, busca
dos pesquisado-
- dados não estruturados e redundantes - muitos sites, além de não informações na web deve ser uma preocupação constante
a padronização de
estarem estruturados rigorosamente segundo os padrões da res. Portanto, a falta de instrumentos que permitam
u diversas comuni-
metodologias de estruturação de páginas e sites motivo
; o
Organizaçãosa da Informação na web: : d das tags à web semântica Organização da Informação na web: das tags à web semântic
a
Ailton Feito Ailton Feitosa
16

dades acadêmicas por todo o mundo ao estudo de alternativas de solução


para esses problemas. Alguns exemplos desses projetos são o Dublir Core,
o TEI, a XME* e, mais recentemente, a Web Semântica. Web Semântica e
Ontologia de Web são denominações adotadas pelo W3 Consortium', e
que trazem iniciativas para a estruturação ou desenvolvimento de
metodologias que viabilizem a organização semântica das informações dis- 2. Elementos de Organização da
poníveis na web em todo o mundo.
O crescimento da informação compara-se a uma montanha que se
Informação
torna cada vez mais alta e volumosa, o que torna necessária a busca de
melhores métodos para significativamente se gerenciar a incrível quantida-
de de informação disponível. Portanto, na vanguarda dessa busca, está O
conceito de Web Semântica, como um método de gravação de significados
em páginas da web, unidas com um esquema para adicionar interpretação 2.1 Documentos
lógica aos documentos. A iniciativa busca oferecer instrumentos para se
obter um sistema global, estruturado cuidadosamente, de modo a permitir É impossível a abordagem de qualquer assunto relacionado ao trata-
que os usuários sclecionem a informação desejada, em conformidade com
mento da Informação, mesmo tendo como suporte a web, sem uma refle-
as suas preferências individualizadas (QUIVEY, 2002). xão sobre conceitos básicos da área de Ciência da Informação. Entre esses
“ conceitos, está o de documento. Um documento é um objeto que fornece
um dado ou uma informação e pode ser diferenciado entre outros docu-
e mentos, de acordo com suas características físicas ou intelectuais. As ca-
racterísticas físicas de um documento relacionam-se aos conceitos de mate-
rial, natureza, tamanho, peso, forma de produção, suporte, entre outras.
As características intelectuais relacionam-se aos conceitos de objetivo, con-
4 teúdo, assunto, tipo de autor, fonte, forma de difusão, originalidade, entre
Dublin Core Metadata Initiative. é uma organização dedicada a promover a ampla adoção de padrões de
interoperabilidade de metadados e desenvolver vocabulários de metadados especializados para a ouiras.
descrição de recursos, de modo a habilitar a descoberta inteligente de informações na web, Mais
As características intelectuais de um documento permitem definir
informações estão disponíveis em [http://www dublincore.org]. O Text Encoding Initiative (TEI) tem
desenvolvido, com base na Standard Generalized Markup Language (SGML), uma codificação para um seu interesse, público alvo e valor Entre as características intelectuais,
grande número de documentos em diversas extensões do conhecimento humano. A iniciativa TEI ó um Guinchat e Menou (1994) destacam:
projeto de pesquisa internacional, patrocinado pela Association for Computing in the Humanities (ACH),
pela Association for Literary and Linguistic Computing (ALLC), e pela Association for Computational - objetivo — refere-se à razão pela qual o documento foi produzido:
Linguistics (ACL). Informações adicionais podem ser encontradas no site oficial do projeto: [http://
wwutei-corg/]. À eXtensible Markup Language (XML) é um formato de texto simples e muito flexivel, para servir como prova, para preparar outro documento, para ex-
derivado da SGML (ISO 8879) que tem desempenhado importante papel no intercâmbio de grande, por idéias, para divulgar resultados de um trabalho, para ensino,
variedade de dados na Internet ou fora dela,
O World Wide Web Consortium, ou simplesmente W3€, toi criado em outubro de 1994 para liderar o
entre outras;
desenvolvimento da World Wide Web em reiação às suas tecnologias a interoperabilidade. O consórcio
— grau de elaboração - refere-se à autoria e à finalidade de um docu-
conta com cerca de quatrocentas organizações-membros, espalhadas por todo o mundo, é tem sido o
referencial quanto às especificações normativas e metodológicas para praticamente todas as tecnologias “mento. Com base na noção de grau de elaboração é possível esta-
envolvidas na web. Mais informações podem ser obtidas em [http:/Awww w3.0rg/Consortium/]
belecer-se uma classificação dos documentos em:
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
19

— — primários — documentos originais elaborados pelo autor; os documentos a serem tratados; e outra na qual são apresentados os
produtos documentários, que resultam desse processamento: referên-
— secundários — documentos que descrevem documentos pri-
o cias bibliográficas, descrições de documentos, índices, instrumentos
mários, como por exemplo as bibliografias, os catálogos e os
“o de pesquisa, documentos secundários e terciários. Os produtos
resumos; documentários são utilizados em atividades de pesquisa e, novamen-
— —terciários - documentos elaborados a partir de documentos “te, transformados em documentos que realimentam o sistema (ilustra-
primários ou secundários e que reúnem, condensam e elabo- “o ção 3).
ram a informação original na forma mais adequada às neces-
sidades de um usuário ou grupo de usuários. Ciclo Documentário

- conteúdo — o conteúdo pode ser avaliado a partir da identificação Entrada de Atividades de Produtos
do assunto, da forma de apresentação, da exaustividade da análi- Documentos > Processamento » Documentários

se, do nível científico do texto, da novidade das informações, da


representatividade das informações para um dado grupo de leito-
Hustração 3: O Ciclo Documentário - visão sistêmica
res, entre outras características.

— tipo - refere-se ao nível de relevância do documento; há documen-


As principais atividades do Ciclo documentário envolvem a cole-
tos essenciais, isto é, que tratam de assuntos que possuem interes-
“ta, 0 registro, o tratamento intelectual, a pesquisa e a difusão. À ilus-
se direto para determinada comunidade de leitores e documentos
tração 4 representa um modelo esquemático para o ciclo documentário,
marginais, ou seja, que possuem polca ou nenhuma relevância
o obtido a partir da análise das definições de Guinchat e Menou(1994),
para o usuário.
“de Lancaster (1993), Robredo e Cunha (1986) e de Nakayama (2001).
“A análise dessa ilustração permite identificar operações de entrada, de
* processamento técnico e de saída. As operações de entrada compreen-
2.9 Cildo Documentário dem a seleção (que se dá pela localização e posterior escolha) e a aquisi-
ção (que pode ser realizada por meio de compra, permuta, doação, pro-
Em uma unidade de informação — que pode ser entendida como “ jetos, convênios, entre outras formas). As operações de processamento
uma instituição ou sistema de informação — cada documento que en- “técnico, ou tratamento intelectual compreendem a catalogação, a clas-
tra recebe um tratamento visando a facilitar a recuperação das infor- sificação, a indexação e o resumo. As operações de saída correspondem
mações nele contidas. Esse tratamento relaciona-se a operações de se- “àquelas que permitem tornar disponíveis as informações:
leção, avaliação, análise, tradução e recuperação de documentos capa- “ armazenamento, disseminação (divulgação, distribuição, disseminação
zes de responder a necessidades específicas, de acordo com o perfii do “seletiva da informação), recuperação (acesso), ou alerta (forma de di-
usuário e com seus objetivos. O conjunto de operações de tratamento vulgação das novas aquisições, por meio de exposição, impressão ou
dos documentos é organizado num ciclo conhecido como cadeia armazenamento em mídia eletrônica, como CD/DVD ou em linha).
“documeniária ou ciclo documentário. O ciclo documentário, como
qualquer outro sistema, apresenta uma extremidade na qual entram

Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Aiiton Feitosa Ailton Feitosa
20 21

:2.3 Tratamento intelectual da informação


Comunidade Usuária
Enelução doe
Ganhesimentes
Circuito Cientifico
Nacional v Internacional “A partir da realização das operações documentárias, um serviço de
informações pode originar produtos com algum tipo de tratamento inte-
Atividades de Pesquisa e
Desenvolvimento Atividades de »ctual ou não. Produtos que recebem tratamento intelectual podem ser
classificados, de acordo com o nível desse tratamento em simples, elabota-
“dos, analíticos, analítico-críticos ou complexos (CAVALCANTI, 1982). O
tamento intelectual da informação compreende operações como a cata-

Súuloa RUC
logação e a análise temática da informação. A catalogação ou descrição
bibliográfica éé uma forma de referência que destina-se a fornecer uma des-
[00

Depósito Legal, : JJ
Catálogos
Indices; Pubbicação Primária
Colêgias Inuisiveis;
(listas de Discussão, exição precisa documento, identificando-o materialmente, de forma única e
Bibliografias tómimas de debales chots,
e) ão ambígua, de modo a permitir sua identificação, localização e represen- |
IoCosas > | < l tação em catálogos ou em outros instrumentos que facilitem a sua locali- |
DD

Coleta zação física. A análise temática da informaçãoé relativa ao conteúdo *


aformacional dos documentos e permite a identificação do tema ou as-
unto a que se referem. Outros termos utilizados para definir essa opera-
Polias, Interossos é Objetivos da
ão são análise da informação, descrição de conteúdo, análise documentária,
> 00

Tratamento Material Unidade da Informação


descrição de assunto, representação de conteúdo ou representação de as-
sunto (NAKAYAMA, 2001). |
A análise temática da informação ocorre no processamento técnico
Tratamento Intelectual
Estalogação
à informação, mais especificamente na classificação, na indexação, na
“disseminação, no resumo, na recuperação e na busca. À operação de classi-
um 1
Análise Documentário
ficação consiste principalmente na atribuição de um número ou outro sím-
“bolo para descrever o documento. À indexação consiste em atribuir um ou
IDC

vários descritores, que podem ter ligações entre si, para descrever o conteú-
“do do documento. De certo modo, uma lista de termos pode ser vista
DLSED >

mo uma espécie de mini-resumo, uma vez que reúne os termos em uma


Armazenamento ista ou índice, Com relação à extensão do registro, a indexação pode ser
“Seletiva (mais restrita) ou exaustiva (mais completa). A operação de resu-
Pesquisa Documental mo consiste na condensação do documento em linguagem natural. O prin-
ipal objetivo do resumo é indicar de que trata o documento ou sintetizar
<a DR] “seu conteúdo. Conforme o nível de aprofundamento, o resumo pode ser
0

“classificado como resumo breve ou resumo detalhado (ampliado). Esse


grau de aprofundamento é também denominado extensão do registro de
Ilustração 4: Atividades do Ciclo Documentário “Um resumo, De todas as operações do processamento técnico, a mais im-
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
23
22

técni-
portante para o contexto desta obra é, sem dúvida,a indexação, da qual to preciso (CARNEIRO, 1985). Para a consecução desse objetivo, a
tnor-
pode depender em grande medida a qualidade dos resultados advindos de ca de indexação necessita da utilização de instrumentos normativos
natural e
uma operação de busca e recuperação. Por esse motivo, a operação de mas), bem como de instrumentos linguísticos como a linguagem
indexação será abordada em uma seção específica deste capítulo. “as linguagens documentárias.
A linguagem natural é formada pela reunião de sinais utilizados e
' reconhecidos facilmente pelo homem. Quando empregada na indexação
2.3.1 Indexação denominada “livre”, utiliza termos como se apresentam nos documentos.
e
“A linguagem documentária compreende o conjunto de regras, símbolos
“ termos previamente estabelecidos, formando uma linguag em artificial para
Embora fontes de informação contendo texto-completo tenham sido
escassas por algum tempo, a partir de meados da década de 80 essas fontes a indicação do conteúdo temático dos documentos. É, por conseguinte,
como
começaram a proliferar-se, uma vez que os preços dos computadores come- uma metalinguagem, que utiliza uma construção simbólica, concebida
instrumento para conversão de uma linguagem em outra.
çaram a cair e que sua capacidade de armazenamento começa a tornar-se
cada vez maior, de modo que bases de dados de textos-completos A técnica da indexação necessita do uso de uma linguagem de
gem
correspondem a um segmento cada vez mais crescente no mercado (atual- “ indexação, que compreende a especialização de uma lingua
mente, é notório como a disponibilidade de tais fontes cresceu documentária. A linguagem de indexação é uma “linguagem artificial utili-
“ zada para o registro ou indicação dos temas contidos nos documentos,

me
exponencialmente). Certamente, a vantagem de se acessar documentos com-
pletos, ao invés de apenas referências a esses documentos, é indiscutível. “dotada de vocabulário controlado e regida por uma sintaxe própria”
uti-
Entretanto, se por um lado o armazenamento de mais e mais documentos “ (CAVALCANTI, 1982). Um vocabulário controlado relaciona termos
desse tipo é vantajoso, por outro traz uma série de dificuldades para a lizados em sistemas de indexação, com vistas à uniformidade de armazena-
recuperação da informação. Os aspectos intelectuais da recuperação têm a gem, bem como à facilidade de recuperação. A sintaxe compreende um
sido reduzidos à utilização de palavras-chaves, bem como de frases chaves, conjunto de regras necessárias à tarefa de combinação dos elementos do
combinadas à utilização de operadores booleanos ou de proximidade, que vocabulário.
são recursos menos efetivos em se tratando de recuperação em textos-com-
pletos. Técnicas de indexação automáticas ou semi-automáticas, normal-
2.3.1.1 Tipos de índices
mente bascadas em processos estatísticos, linguísticos ou baseados na In-
teligência Artificial, têm sido pesquisadas e utilizadas especialmente para
aqueles textos completos que não foram submetidos a processos de Os produtos orginários da operação de indexação são os índices. A
indexação manual ou de resumo. principal função da elaboração desses índices, que são instrumentos utili-
Definida por Robredo (1982) como “operação de representar o con- zados para a representação do conteúdo de documentos primários, é facili-
teúdo dos documentos, qualquer que seja o método utilizado”, a indexação tar a recuperação de informações relativas ao documento indexado ou re-
utiliza-se de instrumentos para o tratamento da informação, de modo a “sumido. Índices, bem como resumos, geralmente são incluídos em bases
obterem-se termos que representem corretamente os conceitos contidos em de dados que podem ser impressas, armazendas em fichas, ou em formato
determinado documento. Assim, o principal propósito de um serviço de eletrônico (LANCASTER, 1993) ou, ainda, como assinala Harman (1994),
que
indexação é assegurar da forma mais eficiente e econômica possível, que em um arquivo invertido ou em outra estrutura de dados, de modo
s,
qualquer documento ou informação seja fornecido ao usuário no momen- pesquisas possam ser realizadas no índice, utilizando operadores booleano

Organização «a Informação na web: das tags à web semântica


Organização da Informação na web: das tags à web semântica Aliton Feitosa
Ailton Feitosa
24 25

ou algoritmos baseados no peso dos termos, para se obter resultados orde- ou um parágrafo. A decisão depende, em parte, da natureza do objeto a ser
nados de acordo com critérios estatísticos. A tabela 4 apresenta alguns “indexado. Por exemplo, quando se trata de uma pesquisa em registros bibli-
desses tipos de índices. *ográficos, o registro é claramente definido como um dos registros do catálo-
go bibliográfico, Quando se trata de uma aplicação em artigos de jornal, o
Tabela 4: Tipos de índice e suas características registro poderá ser cada artigo. Dessa forma, a escolha do tamanho do regis-
pareça vaga,
tro, emb ora inicialmente pareç 8 pode basear-se no tamanho do docu-
ipo dede índice
Tipo indi Caracteristicas
: . : i ápi is), a autora
ARWIK (aulhor and key-mord in context) Índice automático que relaciona autores e palavras-chaves . - mento - para documentos muito gr andes (de 100 páginas ou mais),
Alfabético Termos em ordem aliabélica : recomenda a divisão do registro por páginas ou por seções do documento.
Analítico teta a rolerência bbllogáfica e um resumo ou anéis do o Importa aqui destacar que a escolha do tamanho do registro não é tão
Assindêtico não incorpora reierências cruzadas . inã mas, principalmente, para a rea-
Coordenado ou correlativo esa de combinação dos descritores para a obtenção da o importante para à exibição dos resultados, it P o forne ce a texto
indicação de assuntos específicos - lização da pesquisa. Assim, um. registro muito peque p :

Correnta publicado periodicamente, com afinalidade de atualizar “para os algoritmos de pesquisa, o que fornece resultados pobres; um registro
informações constantes de determinados documentos : q. 1. ância
encontra- d
Cumulativo de publicações seriadas, reúne numa só lista as
indice “muito grande, entretanto, pode diluir a importência das palavras
entradas relativas a vários fasciculas au volumes ú Bnçi ias. A segunda decisão ch
isão chave para quaisIquer siste-
De citações ioçã das referências
associação jas oicitadas por autor em um artigo A, : das e causar falsas ocorrênc su Jo, p .
com as referências feitas posteriormente ao próprio artigo À “ma de indexação é a escolha do que constitui uma palavra e, por conseguin-
; uso de Huncamento na indexação automálica, para a produção Nos sistemas de indexação ç
KLIO (key leitor in context) cie indices dc. “te, quais. dessas palavras devem ser indexadas.
: i
KIWWAC (key word and context) índice obtido pela permutação
das palavras de um título “manual, a escolha é facilmente feita por um indexador humano. Para a
AWIT (key word in tíllo) Espécie de índice KWIG
7
baseado em permutação selecionada ão : a
indexação Ati
automática,
.
entretanto,
A a Ç ã
definir ir que que p pontuação
é necessario deve
as palavras significativas aparecem na devida ordem alfabética,
MOC (hey mora outof context) seguidas pelo tíkio completo, dentro porém, de um J ser utilizada como separador entre as palavras e definir que palavras indexar.
cletermihado espaço linear
KWOT (key word out of tie) as palavras significativas do titulo são extraídas 6 colocadas o: Essa separação normalmente é feita com todos os espaços em branco
emordmalstéita É etodas as pontuações, embora haja exceções, dependendo da aplicação e
- o arranjo deste índice é feito pelas classes gerais da CDU e dois a. . = d b
KWUC (key word and UDC) subdivisões dessas classes em ordem alfabética das palavras- : : do software utilizado. Tratando-se da informação armazenada na web,
chaves dos títulos que constam de cada classe * todos os serviços de busca utilizada essa definição. Definidos os limites

Fonte: adaptado de Cavalcanti, 1982 das palavras, outro problema a ser resolvido é a indexação de números,
uma vez que o conjunto de números únicos é infinito. Não indexar núme-
ad

pode acarretar problemas na recuperação, quando um


ros, entretanto,
2.5.1.2 Indexação automática
número for imprescindível para a pesquisa, como é o caso de datas, anos
ou números de identificação de documentos. Outro problema para a
Como já mencionado, grandes quantidades de texto estão atualmente ú indexação é relativo aos caracteres individuais (a, b, c, etc). Se, por um
disponíveis para acesso em linha, incluindo tanto os textos criados para lado, indexar esses caracteres pode representar um aumento no tamanho
acesso eletrônico como publicações tradicionais. Entretanto, não é possível = do índice, por outro, não indexá-los pode representar perda de informa-
pesquisar informações nesses textos sem o auxílio da indexação automática. ção, quando um caractere for imprescindível à pesquisa (por exemplo:
Segundo Harman (1994), o ponto chave para a qualquer indexação é a esco- “vitamina 0). Como solução para definir que palavras devem ou não ser
lha dos limites do registro que identifica uma unidade pesquisável. Um re indexadas, Harman (1994), sugere os seguintes “compromissos”, a serem
gistro pode ser definido como um livro, um capítulo em um livro, uma seção estabelecidos com o usuário:

Organização da Informação na web. das tags à web semântica : o Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ro Ailton Feitosa
27

— a pontuação deve ser estudada e potenciais problemas identifica- Outros sistemas utilizam a sufixação ou derivação para substituir
os para
dos; todas as palavras indexadas com suas raízes. Os algoritmos utilizad
cação
— deve-se estudar o uso de letras maiúsculas e minúsculas; uma téc- realizar essa tarefa normalmente possuem três partes: uma especifi
exceções e uma
nica usual, relata a autora, é a conversão dos caracteres maiúscu- “ou qualificação da terminação da palavra; uma lista de
los para minúsculos durante a indexação, o que pode, entretanto, . ação necessária, A utilização de sistemas de sufixação ou derivação deve-se
e
acarretar problemas para a recuperação de nomes próprios: a dois fatores primordiais: a redução do tamanho do índice armazenado
— a indexação de números depende profundamente da aplicação; o aumento da performance, devido ao uso de variantes das palavras.
datas, rótulos de seções e números combinados com letras podem Outra técnica conhecida e utilizada por diversos sistemas comerciais
ser indexados; outros tipos de números não devem ser indexados; de indexação é a da atribuição de pesos aos termos, que fornece a possibi-
— quanto à indexação de caracteres individuais, pode-se verificar o alfa- lidade de ordenar os documentos com base no número de termos que
beto, anotando-se as letras que possuem um significado particular correspondem à pesquisa do usuário e às ocorrências desses termos nos
documentos. Essa técnica utiliza ordenações estatísticas complexas e pode
para a aplicação; após essa operação, tais letras podem ser indexadas.
ser utilizada quando se desejar aumentar a precisão em uma busca com
iados
três ou tnais termos. A técnica consiste em se atribuir pesos diferenc
Com relação ao tratamento automatizado para a indexação automá-
para os termos, de modo que mesmo quando não contiverem um dos ter-
tica, diversas técnicas têm sido desenvolvidas, algumas com aplicações in-
mos pesquisados, sejam retornados documentos que possuem os outros
teressantes, tanto no âmbito de pequenas coleções, como para grandes
dois termos fornecidos na busca. Alguns sistemas de medida que podem
acervos, como é o caso da técnica baseada na ocorrência dos termos. Ci-
ser utilizados por essa técnica baseiam-se no Inverted Document Frequency
tam-se ainda outras técnicas como: indexação de palavras não significati-
(IDF), que mede a escassez de um termo no texto. Outros utilizam algum
vas; uso de sufixos; e extensão da busca — esta última, segundo Harman
tipo de função de medida da frequência do termo no texto.
(1994), muito bem sucedida em pequenas coleções.
Independentemente de todas essas técnicas e metodologias, um dos
À técnica de indexação de palavras não significativas baseia-se na
maiores problemas encontrados nos sistemas de recuperação da informa-
construção de listas de termos não que não possuem maior relevância ao ter-
ção é que documentos relevantes são perdidos porque não contêm os
campo daquele assunto específico. Como a construção desse tipo de listas, a
mos da busca. Para grandes coleções de textos-completos, uma estratégi
entretanto, pode ser uma tarefa difícil do ponto de vista da escolha, mui-
viável pode ser o uso de um mecanismo de expansão de busca. Um método
tos sistemas utilizam trabalhos desenvolvidos no passado por pesquisado-
“de expansão de uma busca pode ser o uso de uma linguagem documentária,
res. Assim, palavras que ocorrem com fregiiência muito elevada nos textos
como um tesauro ou uma terminologia, como instrumento de controle de
são integradas a essas listas. Uma técnica mais apropriada é a produção de
vocabulário incorporado automaticamente ao sistema. Tratando-se de
uma lista de termos não-significativos baseada no próprio corpus do texto
indexação automática, no entanto, embora haja pesquisas que se preocu-
a ser indexado, com base na fregiiência com que determinadas palavras
pem em desenvolver metodologias para a construção automática de tesauros,
ocorrem naquele texto, conforme, por exemplo, a sua classe gramatical ou
essa é uma tarefa difícil e extremamente dependente do domínio do conhe-
outro critério definido por especialistas. Assim, palavras como aquelas
cimento a que se refere o sistema de busca. Por esse motivo, o uso de um
pertencentes às classes dos artigos, das conjunções e das preposições, por
gerenciador eletrônico de tesauros pode ser uma alternativa mais viável no
exemplo são removidas do documento matriz. Então o documento somen-
que ser refere à obtenção de resultados mais precisos.
te será indexado pelas palavras cujo conteúdo é significativo.

Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
28

2.3.2 Recuperação da informação Segundo Piedade (1977), os dois fatores que mais influenciam a
E revocação e a precisão, são a exaustividade — isto é, a extensão ou número
De acordo com Lancaster (1993), para qualquer necessidade especi- “de conceitos escolhidos para se representar o conteúdo de determinado
fica de informação, haverá sempre muito mais itens que não possuem rele- “= documento; e a especificidade — isto é, a exatidão com que os termos esco-
de
vância ou pertinência ao assunto pesquisado pelo consulente (itens inú- “Ihidos descrevem o conteúdo do documento em questão. A escolha
teis) do que itens que possuam relevância ou pertinência às necessidades muitos termos para a representação do conteúdo de uma base de docu-
desse usuário (itens úteis). Portanto, a principal função de um sistema de mentos, isto é, alta exaustividade, poderá aumentar a revocação — mais
recuperação de informações é permitir que o usuário localize o maior nú- itens serão recuperados —, mas alguns documentos recuperados tratarão
mero possível de itens relevantes. apenas superficialmente sobre o assunto e, nesse caso, a precisão será bai-
À relação entre o total de itens úteis para o ustiário e o total de itens xa. Por outro lado a escolha de poucos termos, mas exatos, para à repre-
sentação do conteúdo de uma base de documentos, “isto é, alta
JTecuperados é denominada coeficiente de precisão. Essa relação pode ser
representada pela fórmula: especificidade, poderá aumentar a precisão — apenas itens que coincidam
cp = niu/nt exatamente com o termo de busca serão recuperados -, sendo recuperado
onde pequeno o número de itens que tratarão sobre o assunto em profundidade.
cp = coeficiente de precisão Em resumo, o aumento da exaustividade aumenta a revocação é diminui a
niu = número de itens úteis precisão. Por outro lado, o aumento da especificidade diminui a revocação
nt = número total de itens recuperados é e aumenta a precisão.
A relação entre o total itens úteis encontrados pelo o usuário em Quanto mais específica for a indexação, mais precisas serão as res-
uma determinada busca e a quantidade total de itens úteis sabidamente postas e menor será a revocação (CARNEIRO, 1985). Tomando esse pon-
disponíveis na base de dados é denominada coeficiente de revocação. Essa to de vista, e lembrando que a revocação, que é definida por Lancaster
relação pode ser representada pela fórmula: (1993, p. 4), como “a capacidade de recuperar documentos úteis” tem me-
ir = niu/ntu nor importância em um sistema de indexação automática, então, o ideal é
onde que se aumente o nível de precisão, que o autor define como “a capacidade
ir = índice de revocação de evitar documentos inúteis”, por meio do aumento da especificidade da
niu = número de itens úteis indexação. Lancaster (1993) argumenta, aínda, que quanto maior for o
ntu = número total de itens úteis acervo da base de dados, menos aceitável será uma baixa precisão, isto é,
O indice de revocação e o coeficiente de precisão são grandezas em bases de dados muito grandes, torna-se progressivamente mais difícil
inversamente proporcionais. Portanto, quanto menor for o índice de alcançar um nível de revocação aceitável, com um nível de precisão
revocação, mais preciso será o resultado da pesquisa, isto é, maior será a satisfatório. Com o advento dos serviços de busca na web e tendo em vista
a grande quantidade de informações disponíveis na rede, esses conceitos,
quantidade de itens úteis recuperados. É importante destacar-se, tam-
embora ainda muito relevantes do ponto de vista da organização da infor-
bém, que resultados satisfatórios na recuperação dependem diretamente
mação, ganham menor aplicabilidade no momento da recuperação, uma
da qualidade com que a indexação foi realizada isto é, da política de
vez que é impossível a definição do número de total de itens úteis disponí-
indexação utilizada, das regras usadas para a redação do resumo, da qua-
lidade do vocabulário controlado, da qualidade das estratégias de busca, veis na web.
entre outros fatores.

Organização da Inormação na web: das tags à web semântica or Organização da Informação na web: das tags à wob semântica
Ailton Feitosa ' Ailton Feitosa
so 31

2.5.2.1 Modelos de Recuperação da Informação . “gúmero total de palavras em um documento são removidas, com
uma lista
| de termos não significativos (MOLE, 19990).
Os modelos de recuperação mais comuns são o booleano, o vetorial, o A ponderação de termos tem sido explicada pelo controle da
o probabilístico e o de atribuição de pesos. De acordo com a definição do — exaustividade ou especificidade na busca, onde a exaustividade está relaci-
19990).
MOLE Text Analysis Group (1999), o método de recuperação booleana é o “ onada com a revocação e a especificidade com a precisão (MOLE,
mais simples dos métodos de recuperação e, como diz o seu nome, bascia- A ponderação de termos para o modelo de vetor de espaço tem sitointeira-
se no uso de operadores booleanos. Assim, os termos em uma busca são “mente baseada em estatísticas de termos simples. Segundo os autores, há
cia
ligados por meio dos conectores e, ou e não. O método bocleano é o três principais fatores de ponderação dos termos: a) fator de freqiiên
fregiientemente utilizado em mecanismos de busca na Internet, uma vez “dos termos; b) fator da frequência da coleção; c) fator da extensão da nor-
que é rápido e que pode ser utilizado em linha. No entanto, para maior | “ malização. Esses fatores são combinados para, juntos, definirem o peso
eficiência, esse método requer que o usuário tenha pelo menos algum co- “vyesultante para o termo.
nhecimento acerca do tópico de pesquisa desejado,
Atualmente, a recuperação baseada no método booleano tem sido
combinada com o método de navegação por conteúdo, utilizando-se redes 2.4 Resumo do capítulo
de conceitos, nas quais termos compartilhados de documentos obtidos
previamente são utilizados para refinar ou expandir a busca. Em diversos “ É impossível a abordagem do tratamento da informação na web
sistemas, os operadores booleanos têm sido substituídos por operadores sem uma reflexão sobre como alguns conceitos e processos da Ci-
fuzzy* (MOLE, 19998). ência da Informação tais como a classificação, a indexação, e a
Ê O modelo de vetor-espaço pode ser dividido em três estágios: a) recuperação da informação, relacionam-se com o conceito de do-
indexação do documento, na qual os termos chaves são extraídos do docu-
cumentos;
mento; b) extensão dos termos indexados para melhorar a recuperação
“” Um documento é um objeto que fornece um dado ou uma infor-
dos documentos relevantes para o usuário; c) classificação do documento
mação e pode sex diferenciado entre outros documentos, de acordo
com relação à busca, de acordo com uma medida de similaridade (MOLE,
com suas características físicas (por exemplo: material, natureza,
1999b).
tamanho, peso, forma de produção, suporte) ou intelectuais (por
A indexação probabilística é baseada no pressuposto de que existe
algum nível de diferença na distribuição do conteúdo de termos-significati- exemplo: objetivo, conteúdo, assunto, tipo de autor, fonte, forma
vos e de termos não-significativos. Recentemente, um método de indexação de difusão, originalidade);
automática que utiliza um agrupamento serial de palavras tem sido intro- “A informação disponível na web é passível de tratamento intelec-
duzido. O valor de tal agrupamento é um indicador se o termo é ou não tual utilizando os mesmos processos do ciclo documentário tradi-
significativo. Essa indexação pode ser bascada na frequência do termo, cional: em uma extermidade do sistema entram documentos a se-
isto é, os termos que têm alta ou baixa fregiência em um documento são rem processados e na outra extremidade resultam os produtos
considerados não significativos. Desse modo, em geral, de 40 a 50% do documentários como, por exemplo, referências bibliográficas, des-
crições de documentos, índices, instrumentos de pesquisa, docu-
* Um modelo baseado na teoria do conjunto fuzzy permite a interpretação de uma busca do usuário, com mentos secundários e ferciários;
a ulitização de um descritor lingúístico para cada termo (MOLE, 1999a)

Organização da Informação na web: das tags à web semântica ização da Informação na web: das lags à web semântica
Allton Feitosa Omganiaçã : Aliton Feitosa
32

33
” À grande maioria dos documentos de completos publicados na
web não foi submetida a processos de indexação manual ou de
resumo, o que exige esforços na busca por técnicas de indexação
automáticas ou semi-automáticas - normalmente baseadas em pro-
cessos estatísticos, lingiísticos ou com o suporte de conceitos de
Inteligência Artificial — que ofereçam maior precisão no momento
3 Serviços de Indexação e
da sua recuperação;
Entre as técnicas usadas, citam-se: listas de termos não significati- Recuperação na web
vos; sufixação; derivação; atribuição de pesos diferenciados aos
termos, incluindo o método Inverted Document Frequency (IDF),
que mede a escassez de um termo no texto; uso de linguagens
documentárias como tesauros e bancos de dados terminológicos;
Entre os modelos de recuperação mais importantes estão o 3.1 Breve História dos serviços de busca na UJEB
booleano, o vetorial, o probabilístico e o de operadores fuzzy;
Pesquisadores ligados a instituições acadêmicas ou provedoras de
Desde o início da Internet sempre houve preocupações de se
soluções comerciais, na busca de melhorar a organização da infor- “ disponibilizar serviços que garantissem a recuperação dos documentos
mação na web, têm utilizado e aprimorado diversos modelos de- - publicados. Entre as ferramentas mais antigas citam-se o Archie, o
senvolvidos no passado para indexação automática é para recupe- “Veronica, o Jughead e o Gopher (CENDÓN, 2001). O advento da World
ração da informação, “Wide Web trouxe consigo o crescimento exponencial da quantidade de
“documentos registrados na Internet, o que motivou a implementação de
“outros serviços de organização e de recuperação de informações. Nessa
“área, alguns dos pioneiros da web foram o AltaVista, o Yahoo!, o Open
“Directory, a Virtual Libray, o Excite, o Lycos, entre outros serviços. Atu-
“almente (2006) há centenas de serviços dessa natureza, categorizados,
. conforme as suas características tecnológicas, em diretórios de pesqui-
sa e mecanismos de busca, Ambos os termos referem-se às ferramentas
“utilizadas para recuperação de informação na Internet, mas que funcio-
“ nam de maneira diferente. Os mecanismos de busca criam seus índices
automaticamente e percorrem continuamente a Web -- utilizando software
“conhecido como robot, crawler ou spider —, visitando sites e indexando
suas páginas. No momento da recuperação, as pesquisas são feitas uti-
lizando-se essas informações colhidas. Os diretórios, por seu turno, cons-
-troem seus índices por meio de descrições de páginas fornecidas pelas
“ pessoas no momento de submetê-las a um cadastro. As pesquisas ba-
-seiam-se nas informações fornecidas, que podem ou não refletir o con-
Organização da Informação na web: das tags à web semântica
Ailion Feitosa
Organização da Informação na web: das iags à web semântica
34 35

teúdo real das páginas. Assim, a indexação dos mecanismos de busca é “manos: no âmbito da Internet, o autor define o termo para referir-se a pro:
feita de maneira diferente daquela dos diretórios e os fatores importan- E gramas que exploram a rede em busca de qualquer tipo de informação, e
tes para o julgamento da relevância das páginas também diferem (BAX; que usualmente compilam uma grande base de dados para pesquisas futu-
CAMPOS, 2000). Algumas dessas diferenças e características são dis- “tas. Essa categoria de robôs é geralmente denominada spider”.
cutidas, a seguir, neste capítulo. Em outubro de 1993, Martin Koster criou-o sistema Archie-Like
Os diretórios foram a primeira solução proposta para a organização Indexing of the Web (Aliweb), que permitia aos usuários submeterem páginas
de conhecimento na web e surgiram com uma intenção de se coletar manu- para serem indexadas de acordo com sua própria descrição. Em dezembro do
almente, ou por meio de indicações de usuários, a maior quantidade de : mesmo ano, duas outras iniciativas foram implementadas: o JumpStation,
informações possível, contando-se a grande variedade dos assuntos dispo- “que coletava informações do título e do cabeçalho das páginas, o o WWW
níveis na Internet. = Worm, que indexava títulos e URLS. Essas duas ferramentas possuiam o mes-
Segundo Wall (2004), o primeiro mecanismo de buscas a ser "mo problema estrutural: ao invés de estabelecerem um sistema de classificação
disponibilizado na Internet foi o Archie, criado em 1990 pelo estudante = dos resultados, listavam-nos na ordem em que os encontravam.
Alan Emtage, na Universidade McGill em Montreal. A intenção original Em fevereiro de 1993 estudantes da universidade de Stanford inicia-
era a utilização do nome “archives”, o que não foi possível pelas restrições ram as atividades do projeto Architext, que veio a tornar-se Excite em me-
do sistema operacional Unix, que exigia nomes mais curtos. Basicamente, ados daquele ano. O software de busca, que previa a utilização de análise
o Archie era composto por um banco de dados contendo nomes de arqui- estatística de palavras para tornar a localização mais eficiente, foi Hberado
vos na web e um sistema de busca para a localização e recuperação de - para a utilização em outros sites.
nomes de arquivos coincidentes com uma pesquisa do usuário. Em 1991, Wall (2004) relata que todos esses serviços possuíam deficiências, por.
o '
Mark McCahill, da Universidade de Minnesota, desenvolveu o Gopher, como “ que seus spíders não eram suficientemente inteligentes para compreenderem
uma alternativa para o Archie e em 1993 um grupo de consultoria e pes- significado dos links encontrados, resultando a necessidade de que o usuário
quisas da Universidade de Nevada desenvolveu o Very Easy Rodent-Oriented tivesse plena certeza dos termos de busca a serem utilizados, sob pena de não
Netwide Index to Computerized Archives (VERONICA), que tinha o mes- . conseguir localizar nenhuma informação relativa ao assunto em questão. Em
mo propósito do Archie, mas que trabalhava com arquivos de texto plano. o “Janeiro de 1994 surge o diretório ElNet Galaxy, que possuía características
Na mesma época surgiu também o Jughead. “similares aos diretórios atuais e que contava também com recursos de Gopher
Com o advento da web, Matthew Gray introduziu o seu sistema World “e Telnet. Em seguida, em abril do mesmo ano, surge o Yahoo, criado por
Wide Web Wanderer, mais tarde conhecido como Wandex, que inicialmen- David Filo e Jerry Yang, como uma coleção de suas páginas favoritas. Filo e
te tinha apenas a intenção de medir o crescimento da web por meio da “Yang logo tiveram que reorganizá-lo para tornar-se um diretório dotado de um
contagem dos servidores web ativos. Logo foi agregada ao sistema a capa- “ mecanismo de busca local, uma vez que a quantidade de páginas referenciadas
cidade de capturar URL's e ele fazia varreduras diárias, chegando a acessar : “cresceu rapidamente. Diferenciaram-se também das outras iniciativas, intro-
a mesma página centenas de vezes no mesmo dia. Segundo Wall (2004), “ duzindo uma descrição para cada um dos links referenciados.
essa foi a primeira iniciativa do uso de tecnologias que originaram os ter- Em abril de 1994, Brian Pinkerton, da Universidade de Washing-
mos spiders (aranhas), crawlers (rastejadores) ou bots (robôs), para desig- “ ton apresentou o WebCrawler que, segundo Wall (2004) e Willey (2004),
nar qualquer tipo de mecanismos de coleta automática de dados na Internet.
que
Para Willey (2004), robôs de computador são programas capazes de execu- sa Wiley (2004) utiliza também o conceito de chatierbo!, para referir-se a programas de computador
possuem capacidade de realizar algum tipo de diálogo interativo ou de prestar algum tipo de informação
tar tarefas repetitivas em velocidades que seriam impossíveis para os hu- básica para a usuário, de modo intuitivo e repetitivo.

Organização da iniormação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Allton Feitosa Ailton Feitosa
36 : 37

foi o primeiro crawler (rastejador) com capacidade para indexar textos Em 1997 foram lançados o Ask Jeeves e o Northern Light. Segun-
completos de páginas inteiras. Antes dele, um usuário podia pesquisar : do Wall (2004), 1998 foi o último ano de lançamento de

apenas nas URL's ou em descrições de páginas fornecidas pelos seus au- - upermecanismos, como o Google, que introduziu a característica de clas-
tores. Logo o WebCrawler tornou-se tão popular que às vezes era impos- | sificação dos resultados com base nas ligações com outras páginas. Des-
sível acessá-lo, devido à grande quantidade de usuários conectados — cer- “de então, tornou-se tão popular que mesmo grandes serviços de busca
ca de quinze mil acessos diários. Passado algum tempo, o provedor de como a AOL e o Yahoo passaram a receber resultados a partir de sua
serviços de Internet americano, American On-Line (AOL), adquiriu o - : base de dados. No mesmo ano foram lançados o MSN, o DirectHit e o
WebCrawler e passou a executá-lo em sua própria rede. Em 1997, o Exci- “ Open Directory.
te comprou o WebCrawler da AQL e passou a oferecer sua base de dados | . Em 2000 foi lançado o Teoma, que utiliza a classificação por clusters
para que aquela empresa mantivesse o seu serviço de busca, o NetFind. para organizar sites, de acordo com a popularidade específica do assunto.
Em seguida ao lançamento do WebCrawler vieram o Lycos, o Infoseck e Em 2001, o Ask Jeeves comprou o Teoma, para substituir seu antigo Direct
e OpenText. . Hit. Nos últimos anos, na árida corrida pelos melhores resultados finan-
O Lycos foi desenvolvido na Universidade Carnegie Mellon, sob a éeiros, algumas empresas foram fundindo-se ou sendo vendidas. Tal é o
coordenação de Michael Mauldin e foi publicado com cerca de 54 mil do- - “caso do LookSmart, que adquiriu o WiseNut em março de 2002; e do
cumentos. Trazia como principais características a recuperação categorizada Overture, que em 2003 adquiriu o AlTheWeb eo Altavista. Em o o
por relevância; a iocalização baseada em prefixos ou na proximidade de Yahoo! adquiriu o Overture e deixou de utilizar o mecanismo de busca co
palavras; e o tamanho do seu catálogo — após um mês do seu lançamento Google, em favor de seu próprio mecanismo de busca, A empresa inves n
o Lycos já contava com cerca de 394 mil páginas indexadas; seis meses “também em um novo banco de dados que substituiu tanto a base do
depois, com aproximadamente 1,5 milhão; um ano e meio depois, com AltaVista, como a do AUTheWeb. buídas da filosofia
mais de 60 milhões de páginas, mais do que qualquer outro mecanismo de No tocante à busca na web, muitas iniciativas m uidas 4 car O
busca da época. do software livre sempre foram implementadas; mas há que se les ac
Em 1995 o Alta Vista foi publicado, introduzindo novas caracterís- . Nutch.Org, que constitui-se um esforço para implementar um sistema de
ticas como a maior largura de banda para a época; técnicas de pesquisa “localização na web com código-fonte aberto e com estratégia de desenvol.
avançada; técnicas de pesquisa em linguagem natural; permissão para que vimento comunitário. Os argumentos da organização em favor da disponi-
usuários adicionassem ou excluíssem suas URL's em 24 horas; pesquisa de lidade de um buscador com código fonte aberto enfatizam o risco de as
âtuais empresas tornarem-se monopólios. Certamente, apenas uma empre-
links que apontavam para uma dada página; e dicas de pesquisa. Em 1996
vieram o diretório Looksmart e o mecanismo de busca HotBot, este último sa, ou um pequeno grupo, controlando praticamente todo o sistema de
de propriedade da empresa Inktomi Corporation. Essa empresa foi funda- localização e recuperação na web pode representar um sério risco à dissemi-
da por Eric Brewer, professor assistente da Universidade da Califórnia em ' nação democrática da informação. Nesse sentido, o Nutch pretende ser
Berckeley, e pelo doutorando em Ciência da Computação, Paul Gauthier. ima alternativa transparente aos sistemas comerciais de localização na web,
Segundo Willey (2004), o nome deve ser pronunciado “ink-to-me” e trata- ropiciando maior confiabilidade aos resultados gerados, quanto a não
rem secretamente direcionados - se houver orientação, ela será pública.
se de uma apologia a uma aranha mitológica — unktomi ou iktomi — que
Outro argumento da instituição é o de que todos os principais sistemas de
vive nas planícies indígenas americanas e que é por eles muito conhecida,
localização existentes têm fórmulas de classificação próprias e não têm
pois acreditam que traz cultura para o povo.
interesse em explicar porque foi dada uma posição a um determinado re-
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
ABlton Feitosa Ailton Feitosa
39
38

sultado. Além disso, como são entidades que visam lucro, alguns sistemas
de localização determinam o posicionamento dos resultados principalmente
com base no pagamento (NUTCH, 2004).
Segundo texto de apresentação do seu web site, o Nutch espera
permitir que qualquer pessoa possa facilmente colaborar para o desen-
volvimento de um sistema de localização na web, com tecnologia de
ponta conhecida em nível mundial, e com custos reduzidos. Tal sistema
tem como objetivos: a localização mensal de bilhões de páginas; a ma-
nutenção de um índice atualizado dessas páginas; a realização de pelo
Others: 1.14 a —— — Excite: 4,3%
“menos mil pesquisas por segundo nesse índice; o provimento de resul- : D.8Vo —
A |
-— Ask: 1.89%
0,8% InfoSpace: 1.3%
tados de alta qualidade; operação com o menor custo possível (NUTCH, Lycos:

2004). lustração 5: Utilização de serviços de busca na web por


internautas americanos em maio de 2004,
Relativamente ao panorama do uso de serviços de busca na web atu- Fonte: (SULLIVAN, 2004a)
al, Sullivan (2004a) apresenta um relatório acerca da popularidade dos
serviços, obtida pela mensuração do volume de pesquisas. A ilustração 5
mostra a porcentagem de utilização de serviços de busca na web, por usu-
ários norte-americanos, no mês de maio de 2004.
Os dados relativos ao Yahoo! contemplam também as pesquisas re-
alizadas por meio do AltaVista, do Overture e do AliTheWeb, adquiridos
por aquela companhia. Os dados relativos ao Google contemplam tam-
bém o parceiro Go.com. Os dados relativos à AOL Search contemplam
também o Netscape Search. Os dados relativos ao Excite referem-se tam-
bém ao iWon, MyWay e My Web Search, todos de propriedade da rede Ask
other: 1% Mix: 2%
Jeeves Excite Network. Os dados relativos ao Ask correspondem ao Ask Ask: 2%
Feeves e ao Teoma. O valor relativo ao InfoSpace engloba também seus Ilustração 6: predomínio das tecnologias de busca na
outros serviços: o Dogpile e o WebCrawler. O HotBot está representado web por empresas em maio de 2004.
Fonte: (SULLIVAN, 2004a)
nos dados relativos ao Lycos, já que foi adquirido por aquela companhia.
54% das
Em relação à utilização do mecanismo de busca, a ilustração 6 mos- Os dados mostram o Google liderando a utilização, com
tra a liderança das empresas Google e Yahoo! Aproximadamente 95% do buscas, é referem-se não apenas às buscas na base Google, mas também
e a Excite
mercado americano, em maio de 2004, utilizava os mecanismos forneci- nos seguintes serviços que utilizam a tecnologia Google: a AOL
-se
dos por essas empresas. o Network — iWon, My Way e My Web Search. Os dados do Yahoo referem
buscas do
também à MSN Search. O rótulo Mix refere-se à combinação de
HotBot e
Iycos— que acessa informações do LookSmart, do Google, do
do Yahoo, além das suas próprias - e do InfoSpace, que executa meta
busca em diversos mecanismos de busca.
Organização da Informação na web: das tags à web semântica
Organização da Informação na web: das tags à web semântica Ailton Fellosa
Ailton Feitosa
40 4

Certamente, a mesma busca feita em diferentes mecanismos poderá tra- O Vivísimo foi fundado por uma equipe de cientistas do Departa-
zer resultados completamente diversos, recuperando informações extremamente mento de Ciência da Computação, na Universidade Carnegie Mellon, dan-
pobres em um sistema e verdadeiras minas de ouro em outro — o uso de opera- “do continuidade a uma pesquisa originalmente subvencionada pela National
dores booleanos, por exemplo, pode representar uma grande diferença nos * Science Foundation. Em junho de 2000, após a universidade haver libera-
resultados de uma pesquisa, Como uma tentativa de solução para tal proble- do os direitos da propriedade intelectual aos idealizadores do projeto, o
ma, surgiram as ferramentas de meta-busca. A primeira delas, segundo Willey o Erupo fundou uma organização comercial,
(2004), foi o MetaCrawler, que fazia pesquisa no Lycos, no AltaVista, no O sistema, que é uma combinação de conhecimentos das áreas de
Yahoo!, no Excite, no WebCrawler e no Infoseek simultaneamente. O : inteligência artificial, recuperação da informação, cognição e matemática,
MetaCrawler foi desenvolvido em 1995, por Eric Selburg, um estudante de | baseia-se, principalmente, na tecnologia de clustering que, por sua vez, fun-
mestrado na Universidade de Washington — a mesma origem do WebCrawler, * damenta- se no agrupamento de documentos de acordo com suas descri-
alguns anos antes -, sob a orientação de Oten Etzioni. O MetaCrawler baseia- “ções. Neste caso, as descrições são obtidas pela metabusca de URL', títu-
se na reformatação dos resultados obtidos em outros mecanismos, apresenta- Jos e resumos em outros serviços de busca direta, seguida do reagrupamento
do-os para o usuário final em uma página concisa. Além dessa iniciativa, ou-
tros metabuscadores que se destacam no mercado de busca na Internet são o | vez que o sistema não possui crawler o ouu spider e« nem indexa os sites pro-
Mamma, o Dogpile, o Vivíssimo, o Kartoo e o ProFusion. -priamente ditos.
Criado em 1996, como resultado de uma dissertação de mestrado, o A técnica de clustering difere de outras como aclassificação, a constru-
Mamma foi um dos primeiros serviços de busca a introduzirem o conceito
ção de taxonomia, e a marcação de meta dados, uma vez que é totalmente
de metabusca na Internet. Devido à qualidade dos seus resultados, bem “automatizada, dispensando a intervenção humana. De acordo com informa-
como aos benefícios da metabusca, o serviço cresceu rapidamente e, rece- “ções obtidas no site do serviço, o maior desafio da técnica de clustering tem
beu em fevereiro de 2004, uma menção honrosa na categoria de melhor “sido o de buscar e organizar rapidamente os grupos de conhecimento relati-
serviço de metabusca, conferida pelos assinantes do site Search Engine “vos à pesquisa do usuário. Tal iniciativa apóia-se no uso de um algoritmo
Watch, organizado pelo consultor Danny Sullivan, especialista em meca- ' heurístico que tem propiciado, segundo o site, bons resultados para páginas
nismos de busca. “da web em geral; resumos de patentes; publicações acadêmicas e escolares;
O metabuscador Dogpile foi lançado em janeiro de 1996 e rapida- a anais de encontros; entre outros tipos de informação (VIVISSIMO, 2004).
mente tornou-se um dos serviços mais usados na web. No ano 2000 foi (o KartOOé um serviço de metabusca de informação na web que
adquirido pela companhia InfoSpace. Atualmente (2006) o Dogpile per- trouxe uma maneira inovadora de apresentação dos resultados: trata-se da
mite a localização de informações principalmente no Google, no Yahoo, “ representação dos seus resultados na forma de mapas interativos. Os sítios
no Ask Jecves, no About, no FindWhat e no LookSmart, entre outros. De encontrados são representados por círculos maiores ou menores, de acor-
acordo com o site do serviço, o uso do mascote de um cachorro como do com a sua pertinência ao assunto. Entre as principais características de
marca, é uma apologia à idéia de tempos antigos em que os cães recolhiam - sua estratégia de recuperação, estão a capacidade de realizar buscas por
o jornal da manhã e entregavam a informação nas mãos dos seus donos : palavras no endereço da página; a capacidade de realizar buscas avança-
(DOGPILE, 2004). das; e a capacidade de realizar buscas em linguagem natural, inclusive com
o uso de pontos de interrogação colocados no final da sentença (KARTOO,
2004). A ilustração 7 mostra os resultados de uma pesquisa pelo termo
8 Para maiores detalhes, recomenda-se a leitura do seguinte artigo: SULLIVAN, Danny, SHERMAN, Chris.
4th Annual! Search Engine Watch Awards. Publicado em 06/02/2004, Disponível em:
legislação utilizando-se esse serviço. Destaca-se como uma das principais
<http://
searchenginewatch.com/awards/article.php/330984 !meta>, Acesso em 02/05/2008.

Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
42 43

características do serviço, o fato de que, mesmo que o termo seja digitado exem-
“ estabelecer maior rigor e riqueza ao controle terminológico. Um dos
em português, o painel esquerdo da tela apresenta uma lista de termos
a “pos significativos é o serviço Scirus, especializado em pesquisas científi-
relacionados, nos idiomas francês e inglês. cas. O sistema apresenta recursos tradicionais, como a área de busca por
“termos livres e a classificação dos resultados com base na ocorrência dos
exi-
“termos exatamente como foram digitados. Os resultados, portanto,
bem ocorrências literais do termo pesquisado nas páginas. Adicionalmen-
E te, no entanto, o serviço oferece um painel de termos sugeridos, que pode-
sado. A
E riam guardar algum tipo de relação semântica com o termo pesqui
a .
É ilustração 8 apresenta os resultados de uma pesquisa pelo termo “crianç
& in-
Observe-se que, no painel central, são retornados resultados literais
“ dependentemente de o termo haver sido digitado em caixa alta ou baixa,
'serão exibidos resultados com todas as letras em minúsculas, todas as
são
““tetras maiúsculas ou apenas com a inicial maiúscula. No painel direito,
sugerin do que al-
- apresentados termos alternativos, inclusive em inglês,
“-gum tipo de controle terminológico está sendo realizado no sistema.
Pod ig ay Qua SS Sb
E Gorgles [OTA 5) fr Bona
E
let qto cobre a pino — Eos queria E
cor qse Sto, ENPERA Ehinta

Hustração 7: Resultado da busca pelo termo legislação no KartOO.


Fonte: (KARTOO, 2004)
Emater a forr Mot the seords criança
Found: 656 total 4 3) ournal gosta | GhZ wet resuhts

O ProFusion organiza as fontes de informação em grupos ou catego- Sist hrs teleganer | date

rias hierarquizados verticalmente, por assuntos. Os assuntos são organiza- à Ermadakected resulta Refine your search
usitigethoss heyeords
tata da Celane ds. Stan um tas Pesqules:
dos por colunas, sendo que a primeira, à esquerda, refere-se aos assuntos
amplos e as demais, à direita, aos assuntos específicos de maior proemi- ento/Brasil FAVA Ca
em the implenientato! .
astuto da Grlarmie da sedolescrnte CEU AS
nência dentro de dado assunto amplo. O sistema permite ainda ao usuário dal

a criação dos seus próprios grupos cu categorias de fontes de informação.


Uma outra característica relevante é a página de Análise de Busca, que
fornece ao usuário informações detalhadas sobre os resultados da busca
como, por exemplo, a quantidade de documentos recuperados por fonte de
E
informação; o número total de documentos recuperados; links aparente- i E

mente duplicados; links mortos; tempo que durou a busca, entre outras
lustração 8: Iniciativas de controie terminológico no serviço
(PROFUSION, 2004). de busca Scirus.com
Com o objetivo de aprimorar os resultados na pesquisas realizadas
O'Scirusé um dos melhores serviços de busca, em se tratando de
na web, diversos serviços de busca têm utilizado recursos que procuram
assuntos científicos — foi considerado o melhor serviço de busca especi-

Organização da informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
44 45

alizada pelos usuários do site Search Engine Watchº. Utilizando tecnologia ' dinâmico. O sistema não utiliza meta marcações, pois são vulneráveis à
de ponta, o serviço busca aproximadamente 167 milhões de páginas que intervenção dos autores das páginas em busca de melhores classificações
tratam exclusivamente sobre ciências, permitindo aos usuários a localiza- “nos sistemas de busca.
ção de artigos ou páginas científicas, escolares, técnicas e médicas; bem Em relação à natureza dos domínios, o sistema indexa: 58,5 milhões
como de relatórios e manuscritos de artigos e jornais não catalogados por de sites edu; 18 milhões de sites .org; 6,8 milhões de sites ac.uk (acadêmi-
outros mecanismos de busca. O nome é uma homenagem a Scirus, um cos no Reino Unido); sites; 18,6 milhões de sites .com; 5 milhões de sites
profeta da mitologia grega, e é justificado, segundo os idealizadores do * gov; mais de 45 milhões de sites especializados em ciência, tecnologia e
projeto, pois assim como os visionários e profetas têm a capacidade de “medicina. Além de páginas da web o sistema indexa periódicos, incluindo:
julgar os símbolos e sinais do que está por vir, também a ciência é uma “14,6 milhões de citações na MEDLINE", 5,5 milhões de artigos com texto
disciplina visionária, que trabalha continuamente com novas idéias. O sis- “integral no ScienceDirect", 1,2 milhões de patentes a partir da USPTO”,
tema, então, pretende ser uma ferramenta pró-ativa para dar suporte aos 261 mil e-prints no ArXivorg, 5.352 artigos com texto integral na BioMed
atuais visionários: os cientistas (SICRUS, 2004). “ Central!*, 10.600 relatórios técnicos da NASA; e 7.672 artigos de texto
O fato de as páginas indexadas possuírem apenas conteúdo científi- “integral do projeto Euclid'* (SCIRUS, 2004).
co, representa um diferencial muito interessante para o usuário, uma vez Na mesma direção do aprimoramento das técnicas de busca na
que os termos pesquisados apenas apontarão para conteúdos pertinentes à “Internet, outro exemplo relevante é a introdução, em meados de 2003, do
língua científica especializada, filtrando outras acepções pertinentes à lin- operador semântico no serviço Google. Como esse operador ainda não
gua geral; além disso, o sistema indexa os sites mais profundamente do está disponível para o idioma português, as ilustrações 9 e 10 apresentam
que em apenas dois níveis, descobrindo maior quantidade de informações “os resultados de uma pesquisa pelo termo “Laws”, utilizando o operador
relevantes. Em relação aos delimitadores de pesquisa, o usuário poderá “semântico “=”. Gomo se pode observar na ilustração nº 10, o sistema retorna
especificar sua busca por áreas, como saúde, física e ciências sociais: por “resultados que contenham tanto sinônimos, quanto outros termos relacio-":
nome de autor, periódico ou artigo; por intervalo de data; por natureza do nados ao termo pesquisado, como por exemplo: Law, Statutes, Code, Act, “
acervo: conferências, resumos ou patentes: é possível também a
personalização e a gravação das pesquisas.
Os resultados são classificados por relevância e por data. A relevân- Co MEDLINE — base de dados compilada pela Biblioteca Nacional de Medicina dos Estados Unidos. Para mais
cia é obtida com base na localização e na frequência dos termos na página informações, recomenda-se uma visita ao sítio da instituição disponível em: http://aww.nimnih.gow/.
* SelenceDirect - serviço implementado a partir de 1997 pela empresa de consultoria em informação
— classificação estática, correspondente à primeira metade do algoritmo de Elsevier, a ScienceDirect autodenomina-se como a maior coleção eletrônica de bibliografias e textos
integrais nas áreas de ciência, tecnologia e medicina.. Mais detalhes poderão ser obtidos em: http:
busca; bem como pelo cálculo do número de ligações para uma página,
www. info scienceditect.com/licensing options/index.shimi,
isto é, quanto mais ligações para uma página, maior sua relevância no 2 USPTO - escritório de Marcas Registradas e Patentes do Estados Unidos. Para mais informações,
contexto — classificação dinâmica, correspondente à segunda metade do recomenda-se uma visita ao sítio da instituição disponível em: http://www uspto.govl,
8 ArXivorg — iniciado em 1991, o serviço compreende um arquivo totalmente automatizado de artigos
algoritmo de busca. O peso final é dado pela soma dos valores estático e científicos eletrônicos. O acervo cobre principalmente a área do física e suas disciplinas correlatas:
matemática, ciências não-lineares, lingúlstica computacional e neurociência. Para mais informações,
recomenda-se uma visita ao sítto da instituição disponivei em: http:/wum.arxiv.org/.
“4 BioMed Central - editora independente que fornece acesso livre e imediato a documetntos relativos a
pesquisas médicas. Mais informações podem ser obtidas no sítio da instiluição, disponível em: http:/
www. biomedcentral.com/into/,
* Para mais detalhes, recomenda-se a leitura do seguinte artigo: SULLIVAN, Danny. 2002 Search Engine is Projeto Euclid — Iniciativa da biblioteca da Universidade de Cornell, com o objetivo de promover a
Watch Awards. Publicado em 28/01/2003. Disponível em: <http://searchenginewatch.com/awards! cominicação acadêmica nas áreas de matemática teoria e aplicada e de estatística. Para mais informações,
atticle,pho/2155921 Especialiy>. Acesso em 02/05/2008. recomenda-se uma visita ao sítio institucional, dispnível em: http:/ptojecteuclid.org/DienstUIA.O/Home.

Organização da Informação na web: das tags à we semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
46 47

Rights, Rules, Legislation e Regulation. Além desse recurso, o Google in.


- mânticos ao seu serviço de busca, embora muitos usuários continuem alheios
troduziu também o uso da busca por radical que, realizada automatica- “a tais mudanças.
mente, retorna termos variantes de uma mesma palavra. Para exemplificar,
uma busca pelos termos run linux retorna, também, running linux.
3.2 Meta Tags: as primeiras técnicas de
8 e avauçada Preferências Ferramentas de ilomas Dic
otimização da web para os mecanismos de busca
“: Pesquisa Googlé
SE Pesqiiizar na Web € Pesquio ar páginas 5
magens : Grupos à Diretório ea Existem na web diversos recursos, como tutoriais ou guias, que
fa nesea “ abordam a otimização de páginas para a indexação por mecanismos de
Categonas Recreation > Humor = Laws Society > Issues » Digabilitias — busca. Entre tais recursos, a maioria recomenda que se forneçam meta
“dados no código fonte de uma página web, para a descrição de infor-
: mações. Tais meta dados podem ser: palavras-chaves; título; descrição
“do conteúdo; resumo; autor; informações de copyright; distribuição;
lustração 9 Sintaxe para a utilização do opetador semântico no Google
“ idioma; entre outras. A gravação dessas meta iags no conteúdo da pági-
na, que pode ser realizada com o uso do elemento <meta>, que integra a
“ biblioteca da linguagem HTML, foi muito utilizada para favorecer a
indexação de páginas da web pelos mecanismos de busca. No entanto,
“ devido aos abusos cometidos por webmasters, que desenvolveram téc-
“nicas de spamming, as empresas € organizações que desenvolvem meca-
nismos de busca passaram a utilizar outras metodologias de indexação.
| Desse modo, embora ainda possam se utilizar das meta tags para a des-
coberta de conteúdo de uma página, essa técnica passou a ter menor
“ importância na indexação automática da web e seu uso tem sido mais
bem fiscalizado com tecnologias anti-spam que, inclusive, apenam os
“sites cujo uso for considerado abusivo. Tal fato não é um indicativo de
* que se deva evitar o uso das meta tags mas, ao contrário, seti Uso Tres-
— Copy eiioaa
api Law é
“ ponsável, respeitando as políticas anti-spam, pode favorecer a classifi-
ines Lt egistationtohrard Legislatian [egulalor Chegulaton)

Ilustração 10; Resultados de uma pesquisa semântica no Google cação de uma página web nos diversos mecanismos de busca — O pró-
prio texto de ajuda do serviço Yahoo! recomenda que se utilizem as tags
No campo das inovações de serviços, em 2003 o Google lançou o description e keywords para a otimização dos resultados da busca
AdSense , um programa de anúncios
únci i com
baseado em contexto, que permite (YAHOO!, 2004). A tabela 4 contém uma lista das principais meia-tags
que pessoas consigam obter rendimentos apenas pela colocação de anúnci- usadas para promover a classificação de uma página da web junto a um
os relevantes em suas páginas; nos últimos anos, (2003-2004), o Google mecanismo de buscas, e foi adaptada de Bowman (2004) com comple-
iniciou um Investimento pesado na introdução dos citados elementos se- mentos de SeoConsultants.com (2004).

Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semántica
Ailton Feitosa Ailton Feitosa
48 49

Tabela 4: principais meta tags utilizadas para a definição de políticas de


indexação por mecanismos de busca “é mínima: no entanto, caso seja utilizada, é importante que as palavras
Nome da Tag Sinjaxe Descrição escolhidas estejam também grafadas no título e no primeiro parágrafo da
Robots <meta name="vobots" content="index, follow'> Indica ao robô, spider ou crawisr se lho será página (SEOCONSULTANTS.COM, 20049).
ou não permitida a indexação da página web
Similar à meta tag Description, pode ser
Abstract <meta namez"abatract' content="desorição "> utilizada para fornecer uma segunda Tabela 5: Uso do elemento Link para otimizar a indexação
descrição a respeito do conteúdo da página pelos mecanismos de busca
<meta name="author" content="wsbmaster da página in an
Author ou rosponsável pola infermação”> Fornese a indicaçãoã do aulor da página
ani
Copyright “meta name="copyright content="inlormação sobre o Indica o detentor dos direitos autorais sobre Valor do
direito autoral'> Sintaxe Descrição
o conteúdo da página atributo
Distribution «meta name='distribulion" content="global ou losal ou Bafine a audiência da um site (global, local, indica o inicio de uma coleção de
> start <link rel="start" content="index, foliow">
1 (uso inferno - Intranets) documentos
Expires <meta name="sxpires” content="indicação de data”> Designa uma versão substituta para um
Indica se à página possui uma deta ca
expiração documento. Pode ser utilizada juntamente
= Indica o código do idioma utilizado na página, cem o atributo lang, para especificar uma
Language <meta http-equiv="content-languaga" content="idioma"> — de acordo com as convenções de código Alternate <link rel="alternate" bref="ink-reference"> versão do documento em outro idioma ou
internacionais, com o afribuio media, para designar uma
versão em outro tipo de suporte.
nn Redireciona o visitante para outro endereço, Refere-se 20 primeiro documento de uma
Refresh <meta htp-equiv="refesh" content="nº de em um interveio de segundos. Essa tag. série; este link indica aos mecanismos de
segundos;URL=endereço"> considerada spam e seu uso é apenado
Start <link rel="star!" hret='"linic-reference"> busca que o documento é considerado pelo
pelos mecanismos de busca. autor como a ponto de partida de uma
Indicação lexlusl do conteúdo da página. coleção.
Pera evitar que o texto seja truncado pelos Designa o próximo elemento em uma série
Noxt <link ret="next" href='link-reference">
linear.
mecanismos de busca, ao apresentarem os
resultados, é interessante que a tag Prev (ou Designa o elemento anterior em tma seria
<ink rel="prev" href='link-reference">
Description <meta name="descriplion” content="descrição'> Description passta apenas entre 140 e 200 previous) linear.
caracteres. O funcamento varia de acordo Rejere-se a um documento que serve como
com o mecanismo de busca & coiti o número um sumário do site. Alguns mecanismos de
Contents <link rel-"contents" href="link-reference"> busca podem interpretar esse valor como
de caracteres exibidos nos resultados da
busca sinônimo de ToC (Table of Contents).
«meta name="keyiwords” content="paiavras-chaves que indica a lista de palavras-chaves que Refere-se a um documento que fornece tm
Keywords
descrovem a página "> representam o conteúdo da página. Index <link rel='index” href="link-reference"> índice de assuntos para 0 documento
corrente
Fonte: adaptado de (BOWMAN, 2004) Refere-se a um documento que fornece um
Glossary <link rel="glossary” hrefink-reference"> glossário de termos para o documento
corrente
Para que o uso das meia tags seja efetivo em termos de promoção de Refere-se a um documento que contem
Copyright <link rel="copyright' href='link-reference"> uma declaração de copyright para o
uma página da web junto aos mecanismos de busca, é importante que se documento corrente
Refere-se a um documento que serve como
evitem alguns erros comuns, que podem ser considerados como técnicas de Chapter <link rel="chapter" href='ink-reterence"> capílulo para uma coleção de documentos
spamming, como, por exemplo: não se deve escrever textos que possuam a
Refere-se a um documento que específica
Seclion <link rel="section" href='link-reference"> uma seção para uma coleção de
mesma cor do fundo da página ou de uma célula de uma tabela; não é documentos
Refere-se a um documento que especifica
recomendável que se repita uma palavra muitas vezes na tag keyword — o Subseclion «<link rel="subsestion" href="link-reference"> uma subseção para uma coleção de
mesmo vale para as tags title e description e esta técnica de spamming é documentos
Refere-se a um documento que especifica
conhecida como keyword stuffing ; quaisquer palavras listadas no título da Appendix <link vel="appendix" href='link-reference"> um apêndice para uma coleção de
documentos
página devem ser também incluídas nas tags keyword e description, além Refere-se a um documento que inclui
informações de ajuda, coro links para
de ocorrerem em diferentes pontos da página, como texto comum Heip <link rel="help" href="ink-reference">
outras fontes, detalhamento de
(BOWMAN, 2004). A relevância da meia tag keywords atualmente (2006), informações, entre outras.

Fonte: Adaptado de SeoConsultants.com (200d4a).

Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Aiton Feitosa
51

Outro elemento que pode facilitar a indexação pelos mecanismos de informação. De uma maneira mais simples,é possível se dizer, também,
busca é o elemento link. Esse elemento possui diversos atributos que po- que meta dado é “dado sobre dado”. O conceito de meta dado está associ-
dem fornecer uma indicação de ordenação do documento em relação a ado, ainda, a conhecimento — contido ém pessoas ou mídias - dentro e
outros documentos em um site. Cria-se, assim, uma sequência de páginas “fora de uma organização, incluindo informação sobre dados físicos, pro-
que pode ser útil À indexação automatizada. A tabela 5 fornece algumas cessos técnicos é de negócios, regras e restrições sobre os dados e estrutu-
indicações de uso do elemento link, com vistas à indexação. ras de dados usados por uma corporação. Assim, falar sobre meta dados é,
Devido ao fato de que-a meto tag keywords atualmente (2006) pos- também, falar sobre conhecimento (MARCO, 2000).
sui pouco peso na classificação dos resultados dos mecanismos de busca, Embora possa parecer que os conceitos de meta dado e de repositório
Wall (2004a) sugere que as palavras-chaves escolhidas para a representa- de dados são conceitos recentes, eles têm suas otigens no início dos anos
ção de conteúdo dos documentos de um site sejam colocadas em partes 70. Nessa época, os primeiros repositórios de dados comerciais eram deno-
estratégicas, como: título; texto de links internos; cabeçalhos <h1>, sendo minados, dicionários de dados e tinham mais enfoque nos dados, do que
usado um por página; sub-cabeçalhos <h2> e <h5>; meta description; tex- no conhecimento. A preocupação comum na época era, então, propiciar
tos de links de barras de navegação; links externos, quando possível. O um repositório centralizado de informações sobre os dados em si — como
autor sugere, ainda, a utilização de negritos e listas com marcadores para O suas definições, relações, origem, domínio, uso e formato —, com vistas a
| destaque de palavras importantes, além da descrição, com palavras-cha- “ subsidiar o trabalho dos administradores de bancos de dados, cujas fun-
ves, de todas as tags <alt> que ocorrerem na página. Uma outra técnica ções principais eram o planejamento, controle, avaliação, armazenamento
importante, lembra o autor, é a promoção de uma política de hiperlinks, e uso de tais dados. Dessa maneira, utilizando um dicionário de dados, o
isto é, o estabelecimento do maior número possível de hiperligações de administrador de banco de dados estava apto a especificar requisitos, mo-
outros sites para o site que se pretende promover junto aos mecanismos de “delar dados corporativos e prestar suporte às bases de dados. A partir dos
| busca. Essa estratégia justifica-se porque os principais mecanismos de bus- anos 90, o conceito de meta dados foi se alterando e, atualmente, o desafio
| ca, a exemplo do Google, orientam suas buscas por meio da análise de com que se deparam os especialistas em informação é a habilidade para
Uhiperlinks. diferenciarem repositórios de meta dados de dicionários de dados. Os
repositórios de meta dados realizam todas as funções de um dicionário de
dados, mas possuem um escopo mais amplo, determinado, entre outros
3.3 Padrões de meta dados: tendências da fatores, por necessidades que emergiram a partir dos anos 90: 05 sistemas
organização na web tornaram-se mais flexíveis e não integrados; criaram-se os conceitos de ar-
mazéns de dados e mercados de dados; com o advento dos negócios reali-
zados em linha, muitas necessidades de informação dos usuários ficaram
A palavra meta dados origina-se do prefixo grego metá, que significa
ainda sem ser preenchidas; com a popularização dos negócios realizados
mudança, posterioridade, além, transcendência e reflexão crítica sobre al-
“ em linha, aumentou, propotcionalmente, a necessidade de se implementar
guma coisa. À palavra dado, no sentido informático, refere-se a informa-
maior nível de segurança e de confiança aos dados envolvidos nas transa-
ção em forma codificada (FERREIRA, 1986). Assim, juntando-se os ter- “ções (MARCO, 2000).
mos, pode-se chegar a uma noção de transcendência sobre a informação, No sentido do saber biblioteconômico, meta dado pode ser considera-
ou de uma possível descrição da informação que os dados representam.
do como dado estruturado, que compartilha diversas características similares
Nessa perspectiva, meta dado é todo dado físico, isto é, contido em algum
para a catalogação, e que descreve as características de um determinado recur-
software ou qualquer tipo de mídia,e que fornece informação sobre outra
Organização da Informação na web: das tags à web semântica
Organização da informação na web: das tags à web semântica Aitton Feitosa
Aiiton Feitosa
52 53

so informacional, Portanto, um registro de meta dados consiste em um núme- “- na-se mais fácil a extração de conteúdo de uma base de dados de descrição
ro pré-definido de elementos que representam atributos específicos de um ob- “de recursos, do que de arquivos textuais em formato HTML; d) meta dados
jeto, sendo que a cada elemento pode estar associado um ou mais valores . administrativos podem ser utilizados para facilitar o gerenciamento do siste-
(TAYLOR, 2003). A cada elemento de um registro de meta dados estão asso- “ma de informação, uma vez que ajudam a avaliar quando os recursos devem
ciadas propriedades como nome, domínio, tipo, tamanho, formato, responsa- = ser revistos ou removidos da base de dados (DAY, 2000).
bilidade e, no caso de sistemas informatizados, origem. A propriedade nome Na área de Ciência da Informação há diversos esquemas de meta
identifica univocamente o elemento. O domínio especifica o conjunto de valo- : dados, citando-se, entre as iniciativas mais populares, o Dublin Core, o
res que o elemento de dado pode assumir; por exemplo, ao domínio do idio- C AACR? (Anglo-American Cataloging Rules) e o GILS (Government
ma de um documento poderiam estar associados os códigos de idiomas. A “lnformation Locator Service). Obviamente, segundo as características da
propriedade tipo refere-se ao tipo de conteúdo que se poderá armazenar no ““&rea de conhecimento em questão e do sistema de informações, os meta
elemento de dados, como por exemplo, valores textuais, numéricos, datas, “ dados podem variar significativamente. Não obstante essa possibilidade
entre outros. A propriedade tamanho refere-se ao número máximo de caracteres “ de variação, para Taylor (2003), cada esquema deverá possuir pelo menos
que poderão ser armazenados no elemento. O formaio refere-se à forma com - “três características: número limitado de elementos; o nome de cada elemen-
que a informação deverá ser representada, e define as posições de determina- º to; o significado de cada elemento. Em relação ao agrupamento dos ele-
dos símbolos como traços, pontes, barras, entre outros; nos sistemas mentos de meta dados de um rectirso informacional, Day (2000) sugere
informatizados, os formatos são também conhecidos como máscaras. A ori- “uma classificação, segundo o uso, em: a) dados descritivos — são aqueles
gem determina se os valores a serem armazenados no elemento de dados serão que contêm informação passível de utilização por sistemas de busca, como:
digitados pelo usuário, utilizando um formulário de entrada de dados, ou se título; título abreviado; título alternativo (em outro idioma, por exemplo);
serão calculados ou gerados automaticamente pelo sistema. A tabela 6 repre- subtítulo; descrição; URI; autor; idioma; codificação do conjunto de
senta um exemplo de um registro de meta dados: , caracteres: organização (de criação e de hospedagem do documento); for-
matos de arquivo (por exemplo, texto, imagem, áudio, vídeo), meio físico,
Tabela 6: Exemplo de registro de meta dados propriedade intelectual ou copyright, disponibilidade (por exemplo, indi-
Nome do Elemento Valor cação se O acesso à informação é gratuito ou sujeito a registro); software
Tiluio Catálogo da web : requerido para acesso (navegadores específicos, software de MIDI); e pú-
Criador Dagnija MoAuifle
Editor Bibioieca da Universidade de Queensland blico alvo; b) dados do assunto — são aqueles que descrevem o conteúdo
Identificador http:tunay library ug.ede au/lad/mainmenu.
html
Formato Texlo/html do documento, como: palavras-chaves; código de classificação; sistema de
Relação Web site da biblioteca classificação; e termos do tesauro ou cabeçalho de assuntos; c) dados ad-
Fonte: Adaptado de (TAYLOR, 2003) - ministrativos — são aqueles que facilitam a organização e a administração
“« do sistema de informações, como, por exemplo: responsável pela manu-
O uso de meta dados apresenta muitos benefícios, corno por exemplo: tenção do documento; data de adição do documento ao sistema; data da
a) meta dados são estruturados e, desse modo, podem formar a base para o última modificação; data de expiração (por exemplo, de um anúncio de
desenvolvimento de sistemas de busca mais avançados; b) meta dados po- conferência): catalogador do documento; origem do registro; e proprietá-
dem ser convertidos para outros formatos, de modo que possam intercperar rio dos direitos. Day (2000) considera que, embora essa lista de elementos
com diferentes protocolos de busca e recuperação; c) em relação a documen- não seja exaustiva, cla contém aqueles que, em sua avaliação, são funda-
tos publicados na Internet, pensando-se
em recuperação automatizada, tor- mentais para a organização da informação.

Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
55
54

A escolha de um formato de meta dados é uma das decisões mais “artes, ciências, educação e negócios, além dos setores do governo. Devido
importantes no desenvolvimento de sistemas de informação, e é essencial à proliferação dos documentos eletrônicos em face da impossibilidade de
que ta! formato permita a integração com o software que forma a base do “os bibliotecários e especialistas em informação realizarem a catalogação
sistema. É também importante que o formato contenha todos os campos “de todos os documentos, pensou-se, inicialmente, em um conjunto de
considerados apropriados à descrição dos dados do sistema. Como já men- “treze elementos que permitissem aos próprios autores e administradores
cionado, o formato Dublin Core é, na atualidade (2006), um dos mais “de sites fazerem essa marcação, a partir da utilização de regras simples
importantes meios de descrição de recursos na Internet e é um exemplo das , “= (ilustração 12). Assim, a tarefa tornar-se-ia factível, mesmo para aqueles
iniciativas que se propõem a definir um core (núcleo) de meta dados, isto “que não dominassem os princípios de catalogação e classificação. Poste-
é, um conjunto de dados essenciais que possam ser utilizados como pa- riormente, o número de elementos foi elevado para quinze — título, cria-
drão para a descrição de recursos na web. Ao lado do formato Dublin “dor, assunto, descrição, editor, colaborador'*, data, tipo, formato,
Core, outra iniciativa que merece destaque no âmbito é o Resource identificador, fonte, idioma, relação, cobertura e direitos. Embora o pa-
Description Framework (RDF), A arquitetura RDF é discutida em maior drão tenha sido concebido originalmente para a descrição de documen-
profundidade no capítulo Web Semântica. “tos da web, o Dublin Core tem sido utilizado com outros tipos de mate-
O esquema Dublin Core caracteriza-se pela sua utilidade e flexibili- “riais e aplicações (NISO Press, 2001; NISO Press, 2004).
REA LA is
dade na representação de dados. A semântica dos elementos foi projetada "Arquivo Edita Exbr Favoitos Feramentas Aldo
para ser claramente compreendida por um grande número de pessoas, sem ndeieço [ET hitp:/ fdubincose org?

a necessidade de treinamento, bem como para interagir com o maior nú-


mero possível de tecnologias. Assim, a intenção da metodologia não é su-
plantar outros recursos usados para descrever documentos, mas, ao con-
trário, complementá-los. Outra característica interessante do formato Dublin
Core é que embora, por padrão, todos os elementos sejam opcionais, é
possível que o administrador do sistema ou especialista em informação ca
Buic
defina situações de obrigatoriedade, quando necessário (TAYLOR, 2003). Initiativee
the Initiativ
Shout the
about
Public Comtnant

A Dublin Core Metadata Initiative (DCMD (ilustração 11) iniciou- Contart PÉ status
of Delipesabios
Dem News The Dublin Cure Metadata Euaative s an opeu forum engaged
se em 1995, com um workshop realizado em Dublin, no estado de Ohio Documents in the development of uteroperable oulme metadata standards
imipistrative
Heotinas ani that support a broad range of pupases and business inoteis
nos Estados Unidos, que congregou bibliotecários, pesquisadores especi- Frasentations. DOMI's actiaties iiclule consensas-duven wurkiig groups, Hetadata
standards hatson, and Agente
alistas em biblioteconomia e em bibliotecas digitais, provedores de con- Projects glolcad workshops, conferences.
edncatimmal effoats to propuere wilespread acceptaner of dente
Resources Architecture
metadata stazulards and practices
teúdos e especialistas em técnicas de marcação de textos. Como o evento, Tosiz sou Sofrmare Citation
wjnrishops General dutenncenents Coleetion Deselooment
patrocinado pelo Online Computer Library Center (OCLC) e pelo National Ectucatiem =]
tandar ds Bubative armonnçes
Center for Supercomputing Applications (NCSA), teve lugar em Dublin, o 'g) “ à Internet

conjunto de elementos sugeridos recebeu o nome de Dublin Core. O obje- EMinica [E 21/48 O 9 6 Sg 8 BS AO. | Jan [ED [BON ri ram
tivo desse workshop era promover a melhoria dos padrões de descoberta Ilustração 11: Site do padrão Dublin Core na internet
Fonte: <hitp:/dublincore.org>
da informação na web. A proposta original, inicialmente reunindo inte-
resses de um pequeno grupo, rapidamente atraiu atenções, em escala glo- — embora
1 OQ elemento contributor foi traduzido aqui como colaborador— apenas por uma questão de estilo
bal, de uma grande variedade de fornecedores de informação nas áreas de haja registro do termo contribuidor no idioma português brasileiro na obta de Houaiss (2001).

Organização da Informação na web: das tags à web semântica


Organização da Informação na web: das lags à web semântica Ailton Feitosa
Ailton Feitosa
57

Editar Egbi Favoitos Feamentos Ajuda


o bém, pelo fato de serem muito amplos com relação à cobertura, tais serviços
o usuário
riem Taro
são muito mais efetivos na localização do que na descoberta. Se
The NETA tag of HTHK is desigmed co encode a named metadaça element. “busca por um itém conhecido, os resultados da busca provavelm ente serão
Each elenent describes a given aspect qÉ a docugent or other E;
information resource. For example, tis tagged nétadota element,
- úteis, caso o tema seja mais amplo, é de se imaginar que a precisão seja mais
baixa. Como a web apresenta um alto grau de desorganização, no que tange
<meta nabe = "DC. Creator”
content = "Simpson, Hoter">

aays that Honer Siupson io the Creator, where the element nezéd “a estruturas de meta dados, e uma vez que as tecnologias incluídas nessa
banda extraem informação com base exclusivamente nos documentos, ter-
Creator is defineg in the D£ element set. In the more general fora,

«mesa neme = "PREFIM, ELEMENT NAME”


content = “ELEMENT VALUE”> é 'minam por operar em nível de cópia, isto é, não há como reconhecer fontes
the capitelized
descriptions;
uords arc
thus in the exeuúpie,
peant to be ceplaçed in actual
duplicadas ou estabelecer relações entre diferentes fontes, o conteúdo dos
ELEMENT NAME was: Creator : índices é apenas um extrato do conteúdo dos acervos indexados.
A banda 2 de Dempsey e Heery (2000) compreende serviços que se
ELEMENT PALUE was: Simpson, Homer
and PREFIX was: DC
iíthin a META tag the Eirst lecter of a Dublin Core element name
capitalized. DE places no cestrietien on alphabetic case in an
is baseiam em padrões que traduzem os esforços da comunidade de Ciência da
element vaiue and any number of META tagged elements may appear
together, in any order. JHMore than ope DC element with the same nene
Informação para a busca em sites organizados por diretórios. Os formatos
Hay appent,
book description
and each DC element is optional.
with two suthors, tmo titles,
The nexL example
and no other
is à
netadata, incluem recursos de descrição construídos manualmente e são um pouco mais
<meta nene = "he, Title” complexos do que os formatos originados pela indexação automática. O for-
“ matos da banda 2 baseiam-se na criação de meta dados referentes a recursos
content = “The Conmimist Manifesto”
<meta name = "DE, Creator”

selecionados; o padrão Dublin Core é o mais característico dessa banda.


content - “Marx, E.»

“$] Concluído á CI ELI Inema


JBtleicior| ESSA E ES 6 dj do [E ET mo | yr e | BAD Em geral, os formatos da banda 2 são criados de modo que possam ser
ltustração 12: Disposição de meta tags Dublin Core em uma página HTML “aplicados por usuários não-especialistas na descrição de documentos de dife-
Fonte: htip:/Awww.jetf.orgirteiricars1.txt “rentes tipos e de diferentes domínios. As descrições dos documentos podem
ser feitas apenas manualmente ou podem compreender o aperfeiçoamento
Dempsey e Heery (2000) analisaram diversos formatos de meta dados manual de descrições realizadas automaticamente. Os formatos incluem ele-
e os sistematizaram, de acordo com sua complexidade, em bandas. A classi- mentos descritivos e outros atributos, e são projetados para permitirem bus-
ficação estatui que a banda | compreende estruturas de organização mais : cas baseadas em campos e não requerem conhecimentos aprofundados
simplificadas, aumentando gradativamente a complexidade até se atingir a Os formatos concernentes à banda 3 (ilustração 13) são mais com-
banda 3, Assim, a banda 1 corresponde aos sistemas de indexação automá- plexos e requerem os conhecimentos de especialistas para serem criados e
tica de texto integral, que é realizada pelos serviços de busca da Internet. mantidos. Essa banda inclui o formato MARC, amplamente utilizado pela
Nessa banda, os meta dados são criados automaticamente, a partir da extra- comunidade bibliotecária e nos catálogos de bibliotecas. A descrição dos
ção, realizada pelos crawlers ou spiders, de informações consideradas rele- registros é realizada intelectualmente e requer conhecimentos não apenas
vantes em um documento. Como abordado na seção que tratou dos meca- sobre o formato, como também sobre as regras de classificação. Alguns
nismos de busca, tais informações podem se referir algumas partes do docu- “ formatos dessa banda são tão complexos, que podem ser utilizados não
mento, como título, parte inicial do texto ou a metatags. A desvantagem apenas para a localização e descoberta de informações em documentos,
dos meta dados nessa banda, está no fato de que sua estrutura normalmente mas também para a organização de coleções inteiras. Esses formatos, como
é oculta, uma vez que as arquiteturas dos sistemas são protegidas, devido a o TEI, por exemplo, propiciam níveis de análise de conteúdo e navegação
interesses comerciais. Como os serviços de indexação desse tipo geralmente entre categorias de objetos. Usualmente associados à atividade de pesquisa
utilizam os próprios documentos para a obtenção de informações e, tam- “ou acadêmica, são expressivos o suficiente para envolverem uma ampla

Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
5B 58

diversidade de relações, em diferentes níveis. A tabela 7 apresenta o esque- em ban-


A tabela 8 apresenta uma sistematização da classificação
ma de classificação em bandas, de Dempsey e Heery (2000).
das, de acordo com as características de cada uma,
Tabela 7: Tipologia de formatos de me ta dad os Tabela 8: Características dos formatos de meta dados
Banda 1
findicos de texto nd ornatos io Sara 9) (astraturas mais Banda 3 (1) (integram uma Banda 3
Característica Banda 1 Banda 2
integral) simples) come lexas, domínios arquitetura semântica mais
Indexação
Serviços de global, . na Descrições de colações
Formatos Dublin Core rene TEL headers - da internet Serviços de bussa: seletiva na intemet; ' a
acadêmicas e de oulros
IAFARyHOIS ++ MARG IOPSR Ambiente de uso : - x eita Mis
proprislários RFC 1807 EAD serviços de indexação diretórios de serviços repositórios importantes
sis CIMI da web
Localização, seleção,
Fonte: (DEMPSEY; HEERY, 2000) avaliação, análise,
Função Localização Localização; seleção
documentação
.c j - j
omo já mencionado, a banda 3 agrupa padrões mais avançados de Necessária expertise
intelectual de
meta dados, baseados na linguagem SGML (Standard Generalized Mark- Criação robôs,
Gerados oupor spiders
crawlers
Gerados por robôs, mais entrada mania! profissionais de
informação
up Language) e suas derivadas (HTML, XML e XHTML). As principais
:

my ; Campos e subcampas,
características dessa banda estão lí do avanço dos algoritmos associ- Estrutura Não estruturados Pares de aiributos-valores qualificadores, marcação
ados de d b : o igadas
e descoberta da informação não mais de localização. Destacam-se htip com interface proporcionada por
estruurada
.
ia . Protocolos de nao pa formulério:protocolos da sorvigo de diretórios Z39.50. Navegadoros e
des dessa banda: TEI (Text Encoding Initiative), ICPSR (Unter-
como padrô .
ou pa
Political and Social Research), USMARC e EAD
(o va io Consortium for Description); associados lormulíio na Raçã
ncoded Archival o
= Status Proprietário Padrões emergentes para Internet Padronização de
escription); domínios especificos
- .
|nm io TEL tag AACRZ
dei . : (Chapter 9)
Fonte: (DEMPSEY: HEERY, 2000)
glsteStento <ltle»
prison - Memo O
a : | See Chapter 21 i
“DF º : feng” ct tem otima
resp» «names -

fede ' DR 34 Resumo do Capítulo


[e publicadtoniStrat> <pubisher> ab : Ea
peste ig eos
. . A
siso lype> . mid
TI
T
Go / O advento da World. Wide Web . trouxe consigo o fenôme. no da
o,
Ea <p>UREO.
explosão exponencial da quantidade de documentos registrados
m
: "Pole : i
E
savaltabilityo
fedates”” e
na Internet, para o que foi necessária a implementação de serviços
| . : as , Fixed field: Datet
“é e
FeseriosStmo <p>
[enatesSimt> enote> : de organização e de recuperação de informações como os diretórios,
[ebiblFuio <lilleStmt> “Tite added
ielitie>
[title fevelerjm aju'>
- é I
a os mecanismos de metabusca é os mecanismos de busca direta;
“ Os mecanismos de busca direta criam seus índices automatica-
mente e percorrem continuamente a Web — utilizando sojtware
Fetibis
uti cetádestumi esuthor
ebibirito <ediionStmto cp»
e
conhecido como robot, crawler ou spider -, visitando sites
febibiFuti> setenta 7

em
f <biblFuth> <pubticationStml> cdates
»
048
publicationStml> «pusPlace
Tiga TT indexando suas páginas. No momento da recuperação, as pesqui-
e <seriesStmi> pr”
cbiblFul> caotesSimi> <noles
9.
19.280
sas são feitas utilizando-se essas informações colhidas;

Ilustração 13: Padrões de meta dados da banda 3 de Dempsey e Heery


“ Os diretórios constroem seus índices por meio de descrições de pági-
(2000)
Fonte: http://www libraries.psu.edu/tas/jea/ecdartf-teia.html nas fornecidas pelas pessoas, no momento de submetê-las a um ca-

Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
so 61

dastro. Os diretórios foram a primeira solução proposta para a or- ” Dempsey e Heery (2000) analisaram diversos formatos de meta
ganização de informações na web e surgiram com uma intenção de dados e os sistematizaram, de acordo com sua complexidade, em
se coletar manualmente, ou por meio de indicações de usuários, a três bandas. A banda 1 corresponde aos sistemas de indexação
maior quantidade possível de documentos disponíveis na Internet; automática de texto integral, que é realizada pelos serviços de bus-
A mesma busca feita em diferentes mecanismos poderá trazer re- ca da Internet. A banda 2 compreende serviços que se basciam em
sultados completamente diversos, recuperando informações extre- padrões para a busca em sites organizados por diretórios. Os for-
mamente pobres em um sistema e verdadeiras minas de ouro em matos incluem recursos de descrição construídos manualmente e
outro. Como uma tentativa de solução para tal problema, surgi- são um pouco mais complexos do que os formatos originados pela
ram as ferramentas de meta-busca, que baseiam-se na reformatação “indexação automática. À banda 3 inclui formatos mais complexos
dos resultados obtidos em outros mecanismos, apresentado-os para que requerem os conhecimentos de especialistas para serem cria-
o usuário final em uma página concisa; dos e mantidos. Entre esses formatos estão o MARC e o TEL, À
No tocante à busca na web, muitas iniciativas imbuídas da filoso- descrição dos registros é realizada intelectualmente e requer conhe-
fia do software livre sempre foram implementadas; mas há que se cimentos não apenas sobre o formato, como, também, sobre as
destacar o Nutch, Org, que constitui-se um esforço para implementar tradicionais regras de classificação.
um sistema de localização na web com código-fonte aberto e com
estratégia de desenvolvimento comunitário;
Novas metodologias de recuperação têm surgido, como por exemplo:
o uso de conhecimentos das áreas de inteligência artificial, cognição e
matemática; a tecnologia de clustering, que fundamenta-se no agrupa-
mento de documentos de acordo com suas descrições; o controle
terminológico de termos semanticamente relacionados, como sinôni-
mos e equivalentes em línguas estrangeiras, entre outros;
Também novas formas de apresentação têm surgido, como os
mapas interativos e conceituais:
Do ponto de vista da autoria de páginas HTML, as primeiras
tecnologias utilizadas para facilitar a localização pelos sistemas de
busca foram as tags <meta> e <link>. No entanto, abusos cometi-
dos por webmasters motivaram a busca pelo estabelecimento de
novos padrões de metadados para a representação, bem como de
novas modalidades de indexação:
Entre os padrões de metadados mais importantes e originários da
área de Ciência da Informação, citam-se: Dublin Core, TEI, AACR2,
MARC e GILS;

Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
63

4 Uleb Semântica

. Este capítulo trata dos aspectos teóricos da Web Semântica, focando-


“se principalmente em ontologias, linguagem XML, esquemas XML, RDE,
“esquemas RDPF e linguagem OWL. Foram estudados alguns textos de au-
tores representativos da área: Berners-Lee (1989;1998,2001), Hyvonen
(2002), Lassila (1997), Miller (2002), Daconta (2003), Brickley (2001),
Miller (2004), entre outros. Além desses autores foram consultadas reco-
“mendações normativas do W3 Consortium sobre tecnologias da web se-
“mântica: OWL, RDE, RDF-Schema, XML, XML-Schema. Foram consulta-
“das as especificações semânticas do DARPA para DAML+OIL, DAML-R,
“DAML-L e DAML-S (DAML,2004)

4.1 Caracterização da web semântica

Segundo Nafria (2001) a Internet, como a havia imaginado Berners-


Lee em 1989, não era exatamente o que é hoje, mas algo muito mais revo-
lucionário e que ainda está por chegar: a web semântica. O autor lembra”
que a idéia da web semântica foi levantada no famoso artigo The Semantic
“Web” de Tim Berners-Lee, James Hendler e Ora Lassila, no qual os autores
“falam de uma Internet na qual os computadores não apenas são capazes de
apresentar a informação contida nas páginas web, mas além disso, de
'compreendê-las.

" BERNERS-LEE, T.; HENDLER, 4; LASSILA, O. The Semantic Web: A new form of Web content that is
meaningiul to computers will unleash a revolution of new possibilities, American Scientific.com. may,
2001. Disponível em: hitp://www sciam.com/article.ctm?articlelD=00048144-10D2-1670-
B4ASBOIEC588EF21. Acesso em 07/11/2008.

Organização da Informação na web: das tags à web semântica


Ailton Feitosa
65

Na prática, isto significa que as máquinas — computadores pessoais : “soas. A organização de sítios e páginas com tal escalabilidade que permita
ou qualquer outro dispositivo conectado à Internet - poderão realizar, qua- “ a completa integração entre os recursos, mesmo quando tiverem sido de-
se sem necessidade de intervenção humana, uma infinidade de tarefas que “ senvolvidos em plataformas completamente diferentes — e isso refere-se
simplificam a vida das Pp pessoas. Assim, a web semântica “não é uma web : E não apenas a hardware, mas também a aplicativos —, habilitará os compu-
separada, mas uma extensão da atual, na qual a informação é dada com “ tadores a usarem as informações disponíveis não apenas com propósitos
um significado bem definido, melhor habilitando computadores e pessoas - “ de exibição, se não também com possibilidades de automação, integração
a trabalharem em cooperação” (BERNERS-LEE, 2001). Dessa maneira, a e reuso em diferentes sistemas (PALMER, 2001).
web tornar-se-á um ambiente com capacidade de processamento automáti- A web atual tem sido desenvolvida para o leitor humano (BERNERS-
co de informações, deixando de ser apenas um repositório de documentos LEE, 2001). Uma máquina não pode entender muito do conteúdo da web,
para pessoas (NAFRÍA, 2001). mas apenas oferecê-lo para que as pessoas o interpretem. Entretanto, a
No entanto, para se chegar a essa nova web, são necessárias muitas “ interpretação automática do conteúdo é vital para o desenvolvimento de
iniciativas que não são fáceis de serem realizadas. Entre essas iniciativas aplicações inteligentes para a Internet (NAFRÍA, 2001). Para Hyvônen
está o desenvolvimento de uma linguagem padrão, que perímita a constru- (2002), a Web Semântica, ou Internet de significados, é uma visão da pró-
ção de coleções de informações estruturadas, bem como de conjuntos de xima geração da web que poderá ser utilizada não apenas por humanos,
regras de inferências, de modo que os computadores possam utilizá-las mas também por máquinas. Assim, o autor prevê que, com a ajuda dos
para desenvolverem sua capacidade de localização automática de recursos padrões e ferramentas da web semântica, será possível a representação — de
(BERNERS-LEE, 2001; NAFRÍA, 2001). É necessário, portanto, adicio- : “uma maneira compreensível para os computadores — dos significados dos
nar-se lógica à web, por meio da utilização de uma linguagem que seja onteúdos da web; isso facilitará a implementação de novas aplicações e
capaz de expressar dados e regras para inferências sobre tais dados, forne- serviços inteligentes.
Segundo Quivey (2002), a idéia da Web Semântica tem sido desen-
cendo também as regras para a exportação para a web de qualquer sistema
de representação do conhecimento existente. volvida por pelo menos seis anos!* e, embora com desenvolvimento len-
A concepção da Web Semântica, que almeja tais objetivos, é uma to, o projeto tem tido significativo a expansão: diversas tecnologias es-
estrutura de representação de dados na World Wide Web, por meio de um ão sendo desenvolvidas com esse esforço. Pelo menos duas tecnologias
são chave para o sucesso da Web Semântica: a eXtensible Markup
esforço colaborativo liderado pelo W3C€, com a participação de pesquisa
dores e de empresas de desenvolvimento de software de todo o mundo. À . “Language (XML) e o Resource Description Framework (RDF) (QUIVEY,
idéia da Web Semântica é uma evolução do grupo de trabalho Metadata 002; BERNERS-LEE,2001), que são tecnologias promissoras e que atu-
Activity, vinculado ao W3C, cujos maiores objetivos eram o estudo e o : Imente têm encontrado grande aceitação na web. Então, a Web Semânti-
desenvolvimento de um framework para a representação de informação ca baseia-se principalmente em aplicações que utilizam XML como
compreensível por máquinas na web. O principal trabalho desenvolvido ecnologia de suporte à estruturação sintática e URIs para a denomina-
“ção dos recursos (W3C, 2003).
por esse grupo [oi o Resource Description Framework (RDI), que tem como
Conforme lembra Nafria (2001), a linguagem XML é bem aceita
propósito fornecer um sistema de ontologia de base para dar suporte à.
troca de conhecimentos na web (W3C, 20032). As funções do W3C 'pois permite aos usuários adicionarem uma estrutura arbitrária a seus
“documentos; entretanto, essa linguagem nada pode dizer a respeito do
Metadato Activity foram absorvidas pelo W3C Semantic Web Activity.
O principal objetivo no desenvolvimento da web semântica é o:
compartilhamento de informações, tanto por máquinas, quanto por pes- ? Aproximadamente dez anos, contando-se o ano de 2006.

Organização da Informação na web: das tags à web semântica


Organização da Informação na web: das tags à web semântica Ailton Feitosa
Ailton Feitosa
67
66

significado de tal estrutura. Por esse motivo, a tarefa de atribuir-se signi- capacidade estiverem disponíveis para interagirem. Ora Lassila (1997) tam-
ficado tem sido realizada com a linguagem RDF, uma linguagem de mar- - bém prevê que a web se transforme em aigo compreensível para as máqui-
cação em que é possível descrever-se a informação para processamento de “has, por meio de um mecanismo que permita uma descrição mais precisa
significado pelo computador. O terceiro elemento fundamental para cons- das coisas na web; isso, afirma o autor, poderia elevar o status da web de
trução dessa web do futuro são as ontologias. Conforme Berners-Lee legível-por-máquina para algo que poderíamos chamar de compreensível-
(2001), na filosofia, uma ontologia é uma teoria sobre a natureza da por-máquina.
existência, dos tipos de coisas que existem; então a ontologia, como dis- Em termos de aplicações, os exemplos a seguir mostram alguns be-
ciplina, estuda tais teorias. O autor lembra, ainda, que pesquisadores nas nefícios da web semântica:
áreas de Inteligência Artificial e de Web têm feito empréstimo desse ter- - se for corretamente desenvolvida a web semântica pode ajudar a
mo, dando-lhe a significação de: um documento ou arquivo que formal- evolução do conhecimento humano, facilitando a colaboração en-
mente define relações entre termos. Um exemplo típico de ontologia para tre equipes de pesquisadores em localidades remotas;
a web possui uma taxonomia e um conjunto de regras de inferência - como os agentes melhorarão sua eficácia em razão dos conteúdos
(BERNERS-LEE, 2001). com significado semântico, as buscas serão mais precisas e
Para Palmer (2001), a web semântica é uma malha de informação retornarão melhores resultados, combinando informações em di-
ligada de maneira que seja facilmente processável por máquinas, em uma ferentes páginas;
escala global e pode ser pensada como sendo uma forma eficiente de repre- - as escolas poderão integrar-se com sua comunidade: bibliotecas
sentar dados na web ou como uma base de dados globaimente vinculada. públicas, videotecas, museus, entre outras instituições;
Segundo Quivey (2002), com o advento da Web Semântica, as buscas na Berners-Lee (2001), postula que o primeiro passo para que se consi-
tornar-se-ão mais fáceis e mais rápidas porque os computadores poderão sa organizar a informação na web, de modo a torná-la inteligível para má-
realizá-las com a mínima intervenção humana. No entanto, para que isso uinas, é uma mudança no paradigma de como tal informação é armaze-
ocorra, é necessário que as páginas sejam escritas em uma linguagem clara, “ nada, de modo que os dados sejam processados direta ou indiretamente
de modo que os computadores possam compreender seu significado. Para por computadores. Para Daconta (2003), essa mudança de paradigma tem
a autora, com a linguagem certa e com o conjunto semântico apropriado, “evoluído em quatro estágios:
nossos computadores estarão aptos a decifrar e fazer inferências sobre o a) informações organizadas em forma de texto ou armazenadas ban-
material encontrado em uma página web. É importante destacar-se que o cos de dados (pré-XML) - nesse estágio inicial, em que a maioria
computador não “compreende” verdadeiramente qualquer tipo de infor- das informações é de propriedade de um aplicativo ou serviço; as-
mação em uma página web, mas pode, com o apoio das ontologias, mani-
sim, as “inteligências” concentram-se nas aplicações em não nos
pular os termos de uma maneira muito mais efetiva, permitindo que essa '
dados;
informação torne-se mais útil e significativa para um usuário humano
b) informações organizadas no padrão XML, em um domínio especií-
(BERNERS-LEE, 2001).
fico — nesse estágio, a informação registrada adquire independên-
Quivey (2002) destaca que o verdadeiro poder da web semântica |
será realizado quando forem criados programas que coletem conteúdo de :. cia dos aplicativos em um domínio específico do conhecimento; a
diversas fontes, processem essas informações e troquem os resultados com. - informação agora é “inteligente” o suficiente para que possa ser
outros programas; a efetividade desses programas crescerá compartilhada automaticamente de um aplicativo ou serviço para
exponencialmente, à medida que mais e mais programas com a mesma outro;

Organização da Informação na web: das tags à web semântica


Organização da Informação na web: das tags à web semântica Ailton Feitosa
Ailton Feitosa
59
68

c) taxonomias e documentos com vocabulários mistos — nesse está- “como argumenta Powers (2003), é necessária a utilização de uma lingua-
“gem de ontologia, que permita a descrição formal da semântica de classes
gio, a informação pode ser composta por diversos domínios e cui-
propriedades utilizadas nos documentos da web. Tal linguagem, lembra a
dadosamente classificada em uma taxonomia hierárquica; assim,
autora, deve ir além da semântica básica fornecida pelo RDF-Schema,
a descoberta dos dados é feita por meio da classificação; podem
Miler e Koivunen (2002, p. 27-33) consideram que os seguintes prin-
ser utilizados relacionamentos simples entre as categorias da
cípios fundamentam a web semântica:
taxonomia, de modo a permitir a correlação e a combinação de iar
D tudo pode ser representado por meio de URP's — é possível referenc
informações; a informação é “inteligente” o suficiente para ser des- pessoas, lugares e coisas do mundo físico na web semântica, com a
coberta e combinada com outras;
utilização de diversos identificadores unívocos;
d) ontologias e regras — nesse estágio novos dados ou informações e
2) recursos e links podem ter tipos — a web atual consiste de links
podem ser inferidos a partir de dados existentes, por meio de re- recursos destinados à interpretação humana e, ainda, não é ampla-
gras lógicas pré-existentes; em sua essência, a informação é descri- mente difundido o uso de meta dados para explicitar seu significa-
ta com relacionamentos concretos c com sofisticados formalismos do, bem como, suas relações com outros documentos, de modo
em que cálculos lógicos podem ser realizados a partir de uma “ál. que máquinas possam realizar inferências sobre o seu significado;
gebra semântica”; isso permite a combinação e a recombinação de tais relações podem ser, por exemplo: depende de, é uma versão
dados em um nível mais “atômico”, isto é, a informação é analisa- de, possui assunto, é autor de, enire outras;
partir de unidades menores para um contexto mais amplo;
da a
3) informação parcial é tolerada — a web atual sacrifica a integridade
nesse estágio os dados não existem individualmente, mas fazem dos links, em função de sua escalabilidade; de tal modo, páginas
parte de um sofisticado microcosmo; tal estruturação encontra podem estabelecer ligações com outras sem à necessidade de que
aplicações em diversos âmbitos do conhecimento, como, por exem- haja uma reciprocidade nessa ligação; de maneira similar, na web
plo na tradução automática do conteúdo de um documento de semântica, pode-se declarar qualquer coisa sobre qualquer coisa,
certo domínio para outro. Nesse nível de estruturação os dados sem que haja necessidade da criação de ligações entre os recursos
definem-se inteligentes, pois são independentes de aplicativos, são declarados;
classificados, sua composição é flexível e são parte de um sistema 4) a verdade absoluta não é necessária - nem toda informação na web
de informação mais amplo (uma ontologia). atual é verdadeira, e a web semântica não prevê mudanças nessa
Finalizando essa abordagem, os autores relembram que os benefíci-. orientação.
os da Web Semântica não estão destinados apenas para a World Wide Web | 5) a evolução é suportada — a web semântica utiliza convenções des-
mas, ao contrário, representam também um conjunto de tecnologias que: critivas que podem expandir-se como a compreensão humana se
funcionarão igualmente bem em intranets e que resolverão um grande ná-
expande; tais convenções permitem a combinação do trabalho in-
mero de problemas existentes nas atuais arquiteturas de tecnologias de
dependente e compartilhado entre diversas comunidades, mesmo
informação.
quando estas utilizam vocabulários diferentes.
Em termos de tecnologias, a web semântica será construída com base.
o) o projeto é minimalista — um dos objetivos para garantir o desen-
nas potencialidades da linguagem XML, da arquitetura RDF e do esquema
volvimento da web semântica é padronizar apenas o que for neces-
RDF-Schema, para a representação de dados por meio da descrição de es-
sário, favorecendo a implementação de aplicações flexíveis.
quemas de marcação personalizados e flexíveis. Além dessas tecnologias,:
Organização da Informação na web: das tags à web semântica
Organização da informação na web: das tags à web semântica Ailton Feitosa
Ailton Feitosa
A
70

4.2 Ontologias a) para Husserl — a ontologia é a ciência das essências e pode ser de
e
dois tipos: formal — que é o fundamento de todas as ciências
Desde o início dos anos 90, as ontologias tornaram-se um tópico dé interessa-se pelas essências e suas relações com outras essências;
pesquisa popular nas áreas de inteligência artificial, engenharia do conhe: ou material — conjunto de ontologias setoriais que sc preocupa
cimento, processamento da linguagem natural e representação do conheci. com fatos;
mento. À razão de tal popularidade é acreditar-se que, por seu intermédio b) para Hartmann — a ontologia presta-se ao reconhecimento daquilo
um entendimento comum e compartilhado sobre um determinado domí que é metafisicamente insolúvel; essa corrente examinava os diver-
nio de conhecimento poderá ser comunicado tanto entre pessoas como. sos momentos do ser, relacionando-os à existência ou à essência; à
entre computadores. realidade ou à idealidade; à possibilidade, realidade, causalidade
Originário da Filosofia, o termo Ontologia, em sentido estrito, pode. ou necessidade;
ser definido como estudo do ser e de suas propriedades fundamentais, o) para Heidegger — a ontologia é uma metafísica da existência e é
Etimologicamente o termo provém do grego: ontos (ser, ente) e logos (sa- baseada na fenomenologia; especifica as categorias fundamentais
ber, doutrina). Filosoficamente, há dois aspectos pelos quais se pode con- da existência, isto é, classifica os conceitos e examina as distinções
ceber ontologia: é
que sustentam cada fenômeno no mundo.
a) aspecto existencial — a ontologia é um saber sobre aquilo que é: O dicionário Dictionary.com'º fornece as seguintes definições para O
e explicita
fundamental ou irredutível, comum a todos os entes singulares; * termo ontologia: a) uma área da ciência da metafísica que investiga
b) aspecto essencial — busca determinar as leis, estruturas ou causas. a natureza, as propriedades essenciais e as relações entre os seres, como
do ser em si. tais, ou os princípios e causas do ser, b) uma especificação explícita e for-
A ontologia, vista na acepção filosófica, remonta aos trabalhos de: : mal de como representar objetos, conceitos e outras entidades existentes
concei-
Aristóteles — entre 384 e 322 a.C —, nos quais o pensador referia-se à natu- em uma área de interesse, bem como as relações entre tais objetos,
reza do ser, investigando sua essência última e à razão de ser, por trás da: tos e entidades; c) no campo da Ciência da Informação, a estruturação
de
natureza última como o ser é percebido. Não obstante a antecipação dos . hierárquica do conhecimento sobre coisas, pela sua subcategorização,
ou
princípios, por Aristóteles, o termo “ontologia” foi utilizado pela primeira: acordo com suas qualidades essenciais (ou pelo menos relevantes
que,
vez em 1613, por Rudolf Góckel, em sua obra Lexicon Philosophicum e: cognitivas). Como informação complementar, o Dictionary.com anota
aparentemente de modo independente por Jacob Lorhard, com sua obra, para os sistemas de Inteligência Artificial, o que “existe” é algo que pode
Theatrum Philosophicum (GUARINO; WELTY, 2001). Hyvônen (2002, p. ser representado. Assim, quando o conhecimento de dado domínio é repre-
está
114) afirma que, na perspectiva linguística, ontologia é vista como um sentado em uma linguagem declarativa, o conjunto de objetos que
método destinado a aprimorar a compreensão da linguagem pelos siste- sendo representado é denominado universo do discurso. Às definições
mas de processamento da linguagem natural. Dessa maneira, as teorias: associam os nomes das entidades em dado universo do discurso — por
ontológicas tentam representar o conhecimento humano de maneira
estruturada. É 1 Dictionary. com é um serviço de busca produzido pela empresa Lexico Publishing
Group, e baseia-se na
de diversos outros dicionários disponíveis na web. O serviço pode ser
Como disciplina, historicamente a ontologia foi cultivada desde o reunião de definições advindas
Heritage Dictionary of the
localizado em [http://www dictionary.com] é inclui as obras: The American
século VXII e, graças ao filósofo alemão Christian Woldd, o termo ga- English Language, da editora Houghton Mifilin Company, Webster's Revised
Unabridged Dictionary, da
editado pela Princeton University, The Free On-liné Dictionary of Computing,
nhou projeção. A partir do século XIX, três correntes tornaram-se impor- editora MICRA; WordNet,
de Denis Howe; entre outras.
tantes:
Organização da informação na web: das lags à web semântica
Organização da Informação na web: das tags à web semântica Ailton Feitosa
Ailton Feitosa
73
72

exemplo, classes, relações, funções ou outros objetos - com textos legíveis De acordo com Noy e McGuinness (2004), uma ontologia é uma
por humanos, que descrevem o que tais nomes significam e com axiomas - descrição formal e explícita de conceitos — classes - em um domínio do
formais, que restringem a interpretação e o uso desses termos | - discurso, das propriedades de cada conceito, descrevendo diversas carae-
(Dictionary.com, 2004). ; “terísticas é atributos de tal conceito — slots (também chamados de papéis
Do ponto de vista da Ciência da Computação, há diversas defini- ou propriedades, bem como das restrições nesses slots — também chama-
ções para as ontologias. Goméz-Pérez registra as visões de diversos autores das de restrições de papéis). Na concepção dessas autoras, O desenvolvi-
para o termo. À tabela 9 apresenta algumas dessas visões: mento de ontologias pode ser motivado para: a) compartilhar um enten-
dimento comum da estrutura da informação entre humanos e agentes
Tabela 9: Definições de ontologia inteligentes; b) permitir o reuso do domínio do conhecimento; c) tornar
Definição explícitos os pressupostos de um domínio; d) separar 0 conhecimento
Uma ontologia define os termos básicos e as relações “sobre o domínio do conhecimento operacional; e) analisar o conhecimen-
compreendendoo vocabulário de uma área de tópico, “o sobre o domínio, Para complementar essas idéias, cabe aqui apresen-
inaçã capo . . e
b tar a tipificação desenvolvida por Hyvonen (2002) para identificar as.
a combinação de lerimoseestaas
em comapara
relações definir para
as regras as extensões do vocabutário, Vo o
NECHES (1991) definição fornece também as linhas gerais paraa ontologias, quanto aos seus objetivos: a) de representação do conheci-
construção de uma ontologia: identificar os termos básicos mento - compreendem a representação de primitivas utilizadas para co-
e as relações entre eles; identificar as regras para : - : :
z de conhecimen-
a a cimento formalizado em paradigmas de representação
combiná-los; fornecer definições para tais termos e nhe p 8 P s
relações. 'to; b) gerais ou comuns — incluem vocabulário relativo a coisas, eventos,
é uma especificação explicita de uma
uma ontologia À - tempo, espaço, causalidade, comportamento, funções, etc: c) meta-
conceituação. Nesta definição: conceituação refere-sea “ ontologias — também chamadas de ontologias genéricas ou ontologias,
um modelo abstrato de algum fenômeno, sendo , - qro . e :
identificados os conceitos relevantes desse fenômeno: núcleo -— são reutilizáveis em diversos domínios; e d) entologias de domí-
explicita significa que o tipo de conceitos utilizados e as “ nio — são reutilizáveis em um dado domínio. Fornecem vocabulários so-
GRUBER (1993)
restrições a esse uso são explicitamente definidos; formal bre conceitos com um domínio e suas relações com as atividades que têm
e sobre teorias e princípios ciementares que que 8 gover
máquina; aocompartilhada
refere-se a ontologia
fato de que reflete uma por
dove deserqueIegivel
a noção 8 nesse domínio
lusar Í prncip
ontologia captura um conhecimento consensual, isto é, nam esse domínio.
não privativo de um indivíduo, mas aceito por um grupo. Do ponto de vista da representação do conhecimento, uma ontologia
BORST (1997) Ontologias são definidas como uma especificação formal * não deve ser concebida apenas como um vocabulário informal, ou mesmo
de uma conceiluação compartilhada. k d d
uma ontologia é um conjunto hierarquicamente como uma linguagem de termos estruturados — como um tesauro, por exem-

estruturado de termos para descrever um domínio que “plo -, mas requer uma possibilidade de interpretação algorítmica dos seus
SWARTOUT (1997) significados e, por conseguinte, uma representação em uma linguagem for-
pode ser usado como um esqueleio fundamental para
de conhecimentos “mal, cujo processamento dos significados pode ser realizado por máqui-
Uma base
uma ontologia fornece significado para a descrever ' J] Pp sm , P Da P 2a q
SERNARAS (1996) explicitamente uma conceituação atrás de um as. Dito de outro modo: uma ontologia requer a explicitação lógico-for-
conhecimento representado em uma base de mal de significados e palavras, que devem ser expressos por meio de
conhecimento é construtos matemáticos.
Fonte: Góômez-Pérez (1999) :
Certamente essa explicitação requer uma organização estrutural. A
depender do domínio do conhecimento, as ontologias podem variar em

Organização da Informação na web: das tags à web semântica co Organização da Informação na web: das tags à web semântica
Ailton Feitosa
ABlton Feitosa
74 75

termos estruturais, mas alguns construtos utilizados são independentes de - cias. Com a utilização desses componentes, as ontologias fornecem um
domínio. Entre eles, Hyvonen (2002, p. 122) cita: vocabulário comum para uma área e definem — com diferentes níveis de
a) classes — os conceitos genéricos de um vocabulário são definidos formalismo — o significado dos termos de tal vocabuláio, bem como as
como classes. Por exemplo, a classe Tigre representa a categoria ; relações entre eles.
genérica de espécies de tigres; Classes (conceitos) — são utilizados em sentido amplo e podem ser
b) relação de superclasse — as classes são organizadas em hierarquias abstratos ou concretos; elementares ou compostos; reais ou fictícios; uma

conceituais. Exemplificando, a classe Tigre é uma subclasse da classe - classe pode ser um objeto ou uma tarefa, uma função, uma ação, uma
dos carnívoros; estratégia, um processo de raciocínio;
c; propriedades de classe - classes podem ter propriedades, Relações — representam um tipo de interação entre classes de um

frequentemente denominadas slots (pistas). As propriedades de uma domínio; são formalmente definidas como qualquer subconjunto de um
produto de n conjuntos;
subclasse podem ser herdadas de sua superclasse, o que leva a uma .
Funções — são casos especiais de relações em que o enésimo elemen-
economia em termos de representação e que torna possível a reali-
to da relação é único para os n-1 elementos precedentes;
zação de inferências simples. Exemplificando: uma vez que carní- |
Axiomas — são usados para modelar sentenças que sempre são ver-
voros comem carne e possuem dentes afiados, então os tigres tam-
dadeiras;
bém, visto que são carnívoros; Instâncias — são usadas para representar elementos.
d) características de propriedade (facetas) — propriedades de classes Sejam quais forem os construtos ou componentes admitidos, os
podem, em si mesmas, possuir facetas que as restringem. Por exem- autores consultados oferecem recomendações importantes. A fim de ga-
plo: as facetas tipo de valor e cardinalidade podem ser associadas rantir sua efetividade na representação do conhecimento há, segundo
à propriedade pais, para denotar que é um tipo da classe Pessoa e Gomez-Pérez (1999), alguns princípios básicos que devem ser seguidos
que o número de valores deve ser de pelo menos 2; para a estruturação de ontologias. São eles: a) clareza e objetividade —
e) indivíduos — um objeto individual sobre o qual trata uma ontologia uma ontologia deve fornecer o significado dos termos definidos, forne-
é denominado de instância ou objeto. Cada objeto é uma instância - cendo definições objetivas e também documentação em linguagem natu-
de uma ou mais classes. Por exemplo: Garfield pode ser uma ins- . ral; b) completeza — uma definição expressa por condições necessárias e
tância da classe Gato e também da classe GatodeCartoon. A rela- suficientes é preferível a uma definição parcial; c) coerência - para permi-
ção de pertinência é freqiientemente denotada pela expressão “é tir inferências que sejam consistentes com as definições; d) maximização
da extensibilidade monotônica - novos termos gerais ou especializados
um”;
devem ser incluídos na ontologia de modo que não seja necessário reali-
) axiomas e restrições - uma ontologia baseada em lógica formal
zar a revisão das definições já existentes; e) comprometimento ontológico
pode ter axiomas e restrições adicionais ou regras de inferência.
mínimo - fazer a menor quantidade possível de declarações sobre o mun-
Axiomas e regras podem ser escritos por meio de termos, funções,
do que está sendo modelado, o que significa que a ontologia deve especi-
predicados, operadores, quantificadores, entre outros.
ficar, em um contexto tão pequeno quanto possível, os significados dos
seus termos, dando liberdade à ontologia para especializar-se e instanciá-
Para Gômez-Pérez (1999), tais construtos, ou componentes, como los; £) princípio da distinção ontológica — as classes em uma ontologia
denomina a autora, são cinco: classes, relações, funções, axiomas e instân- devem ser desmembradas; o critério utilizado para isolar o núcico de pro-

Organização da Informação na web: das tags à web semântica " Otganização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
76 mn

priedades considerado como invariante para uma instância de uma classe projetista toma tais decisões com base nas propriedades estruturais de
é chamado de critério de identidade; g) diversificação de hierarquias (me- uma classe. Como resultado, uma estrutura de classes e as relações entre
canismos de herança múltipla) — se conhecimento suficiente é representa- classes em uma ontologia é diferente da estrutura para um domínio simi-
do na ontologia, e tantos critérios de classificação quanto possível são lar em um programa orientado a objetos (NOY; MCGUINESS, 2004).
utilizados, é fácil entrar com novos conceitos (desde que eles possam ser Daconta (2003) partilha de tal orientação, argumentando que uma repre-
facilmente especificados a partir de conceitos e de critérios de classifica- sentação de classes e de relacionamentos entre classes, para possibilitar
ção pré-existentes) e também herdar propriedades a partir de diferentes inferências, requer formalismos rigorosos que estão muito além das con-
pontos de vista; h) modularidade — para minimizar o acoplamento entre venções utilizadas nas atuais linguagens de programação orientadas a
módulos; i) redução da distância semântica entre conceitos similares — objetos, como Java, C e C%, por exemplo. No entanto, tais formalismos
conceitos similares são agrupados e representados como subclasses de de hierarquias de classes, restrições de propriedades e relações entre clas-
uma classe e devem ser definidos utilizando-se as mesmas primitivas, ses podem facilmente ser representados por meio de ontologias. A essas
enquanto conceitos menos similares são representados mais apartados observações, é interessante acrescentar a classificação de Uschold &
na hierarquia; |) padronização — os nomes devem ser padronizados, quan- Gruninger (1996), que distinguem quatro tipos de ontologias, de acordo
do possível; com co grau de formalismo com que são construídas: a) altamente infor-
Na concepção de Noy e MeGuinness (2004), existem pelo menos mais — escritas em linguagem natural; b) semi-informais — expressas em
três recomendações importantes quanto à estruturação de uma ontologia: linguagem natural, mas de um modo restrito e estruturado, isto é, utili-
a) não há uma forma correta de se modelar um domínio do conhecimen- zando padrões; c) semi-formais — são definidas artificial e formalmente
to: entre diversas alternativas viáveis, a melhor solução sempre depende- em uma linguagem definida; d) rigorosamente formais - são definidas
rá das características da aplicação ou serviço que se pretende desenvol- em uma linguagem com semântica formal,
ver; b) o desenvolvimento de uma ontologia é necessariamente um pro- Em suma, depreende-se das idéias aqui discutidas, que uma teoria
cesso interativo; c) os conceitos em uma ontologia devem estar intima- ontológica define conceitos em um domínio do conhecimento, por meio
mente ligados a objetos físicos ou lógicos, e a suas inter-relações em um de um vocabulário; uma aplicação faz uso dos objetos, por meio de axi-
dado domínio do conhecimento. Tais conceitos provavelmente serão mais cmas e de regras lógicas; tais regras dizem como utilizar os conceitos
bem expressos por nomes ou verbos. Em resumo, uma ontologia refere-se referenciados, com vistas à solução de problemas em particular; há sem-
à descrição exata de coisas e seus relacionamentos. E, na web, uma pre uma estrutura que melhor representa o domínio do conhecimento,
ontologia refere-se à descrição exata de uma informação disponível na mas ta! estrutura depende dos objetivos do sistema e, por isso, deve obe-
rede e à descrição de seus relacionamentos com outras informações decer a certos princípios; existem níveis de formalismo a serem estabele-
(W3Schools, 2004). cidos, os quais terão interferência determinante na efetividade do siste-
Tal como à estrutura, deve-se dispensar atenção à metodologia de ma; registre-se, aqui, que tais níveis de formalismo também conformam-
desenvolvimento de um ontologia, para garantir sua efetividade na repre- se aos objetivos do sistema,
sentação do conhecimento. O desenvolvimento de uma ontologia é dife- A busca pela possibilidade de se reutilizar o conhecimento em dado
rente do planejamento de classes e relações na programação orientada a domínio do conhecimento é uma das forças motrizes das pesquisas na área
objetos. À programação orientada a objetos centra-se principalmente em de ontologias. Se um grupo de pesquisadores desenvolve uma ontologia
torno de métodos em classes - um programador projeta decisões basca- relativa a determinado domínio do conhecimento, outras pessoas poderão
das nas propriedades operacionais de uma classe. Em uma ontologia, o reutilizá-la mais tarde ou até mesmo integrá-la a outras ontologias para

Organização da informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
78 79

formar uma maior, que descreva mais profundamente certo domínio do “ ceito é similar ao que todas as linguagens de programação ou de marcação
conhecimento. Tornar explícitos os pressupostos de um domínio torna, utilizam e denominam como atributo identificador de um objeto, Dessa
também, possível modificar facilmente tais pressupostos, se o conheci- “maneira, o uso de URIs permite que uma linguagem faça referência a obje-
mento sobre o domínio muda, Além disso, tal explicitação é muito útil “tos definidos em outra linguagem.
para novos usuários, que devem compreender o que os termos de um do- A expressão URI pode ser definida de acordo com os seus constitu-
mínio significam (Daconta, 2003). “intes núcleos, da seguinte maneira (Berners-Lee, 19982):
Na atualidade, grande parte da informação produzida encontra-se ar-
mazenada na web. Esse fato toma a busca de uma interpretação comum a) Uniforme — a noção de uniformidade em um URI associa-se a três
entre humanos e computadores um dos objetivos primordiais no desenvol- princípios básicos: em primeiro lugar, deve ser possível a utilização
vimento de ontologias. Apenas para ilustrar tal afirmação, considere-se, por de diferentes tipos de identificadores de recursos no mesmo con-
exemplo, a aplicação de uma ontologia a um sistema web de comércio eletrô- texto, ainda que os mecanismos usados para O acesso a tais recur-
nico. Se os sites envolvidos em tal sistema compartilharem e publicarem os sos sejam diferentes; em segundo lugar, independentemente da for-
mesmos termos contidos em uma ontologia que todos utilizem, então agen-
ma como os identificadores são usados, deve ser possível a inter-
tes inteligentes serão capazes de extrair e agregar informações desses diferen-
pretação semântica de convenções sintáticas, mesmo gue sejam
tes sites e, assim, empregar tal informação para resolver situações que vão
usados diferentes tipos de identificadores de recursos; e em tercei-
desde apenas responder a questões de pesquisa de usuários, até aproveitar as
ro lugar, deve ser possível a reutilização dos identificadores em
informações coletadas como dados de entrada para outras aplicações (Noy e
McGuiness (2004). Tal nível de organização do conhecimento, inteligível
diferentes contextos o que, por conseguinte, permitirá a criação de
para humanos e máquinas, é a razão de ser da Web Semântica. novas aplicações ou protocolos.
b) Recurso — um recurso pode ser qualquer coisa que tenha identida-
de, como um arquivo eletrônico, uma imagem, um som, entre ou-
4.5 Infra-estrutura da Uleb Semântica tras entidades. Nesse contexto, mesmo entidades que não sejam
“recuperáveis” pela web, como por exemplo, seres humanos, em-
Para Tim Berners-Lee (1998), os princípios da universalidade do acesso presas ou o acervo de uma biblioteca, são definidos como recur-
sem restrição de plataformas de hardware ou de software, infra-estrutura sos. Um recurso, portanto, É o mapeamento conceitual para uma
de rede, idioma, cultura, localização geográfica ou física são os valores entidade ou conjunto de entidades, não necessariamente entidades
núcleo do projeto da web. Além desses princípios, o autor destaca, como que correspondem àquele mapeamento em alguma instância parti-
“matérias-primas” da web: a simplicidade e a modularidade; e como “respi- cular no tempo. Desta maneira, um recurso pode permanecer cons-
ração da web”: a descentralização e a tolerância. Para projetar tal infra- tante, mesmo quando seu conteúdo — a entidade à qual ele
estrutura, que permita essa arquitetura multiplataforma, o autor concebeu corresponde — muda com o tempo.
o identificador universal de recursos — Universal Resource Identifier, URP?
c) Identificador — um identificador é um objeto que pode atuar como
— como unidade fundamental de identificação de objetos na web. Esse con-
uma referência a algo que possua identidade. No caso de um URI,
o objeto é uma segiiência de caracteres com wma sintaxe restrita.
» Um Uniform Resource Identifier (URI) é um conjunto compacto de caracteres utilizado para a identificação
de um recurso abstrato ou físico; um URI fornece ao recurso um significado simples e Portanto, tendo identificado um recurso, um sistema pode utilizá-
extensível (BERNERS-LEE, 1998)

Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
8o 81

lo para realizar operações tais como: acesso, atualização, substi- . tante flexível, impossível a outros sistemas como tabelas e diagramas
tuição ou localização de atributos. : hierárquicos. Os círculos seriam, então, como os nós, e as setas como
“os links. Cada nó representa, portanto entidades como uma pequena
De acordo com Swartz (2002), um importante ponto a ser destaca- . nota, ou um sumário de um artigo e pode ser armazenado em forma
do é que um URI não é um conjunto de endereços dizendo ao computador : gráfica, textual, ou em ambas representa ou descreve uma pessoa ou
como obter um arquivo específico na web (embora ela também faça isso), cbjeto em particular. O autor sugere, desta maneira, exemplos de enti-
O autor lembra que um recurso é um nome para uma “coisa” que pode ou “dades representadas por nós: pessoas, módulos de software, grupos
não ser acessível por meio da Internet. Portanto, é possível atribuir-se um “de pessoas, projetos, conceitos, documentos, tipos de hardware, obje-
URI para qualquer coisa e qualquer coisa que possua um URI pode ser “tos gráficos específicos, entre outras. Assim, dadas duas entidades A e
considerada “na web”: um livro, um vôo de avião, e qualquer outra coisa B, os links (setas) entre uma e outra podem representar, por exemplo
em que se possa pensar, Segundo Swartz o URI é o fundamento da web: “que A: depende de B ; é parte de B; é feito de B; refere-se a B; usa B; ou
enquanto qualquer outra coisa na web pode ser substituída, o URI não, 'é um exemplo de B.
pois é ele que mantém o resto da web junto. Um URI pode ou não fornecer : Com essas concepções, ou autor desenvolveu um sistema já conheci-
um caminho para o computador obter mais informações acerca de um : do por todos, no qual qualquer tipo de informação pode ser armazenada e
recurso; isto é, embora a possibilidade de um URI fomecer informações “localizada por qualquer pessoa, mesmo que esta não saiba exatamente o
sobre outro URI seja importante para a web semântica, o autor Swartz. “que tenciona procurar. O sistema baseia-se, pois, na utilização de tipos
(2002) argumenta que um URI nada faz além de fornecer um identificador : genéricos de links entre os itens (dependência, por exemplo), e tipos de nós
para um recurso. (entidades: pessoas, coisas, documentos), sem a imposição de limites. O
Genericamente, um URI pode ser classificado como um localizador, objetivo é disponibilizar um lugar para cada informação que alguém quiser
um nome ou ambos. O termo Uniform Resource Locator (URL) refere-se “tornar pública, de modo que tal informação seja encontrada posteriormen-
a um subconjunto do URI, que identifica recursos por meio da represen- : “te. Associadas a essas características, o autor anteviu também que o siste-
tação do seu mecanismo de acesso principal: o seu endereço, ao invês de “ ima seria suportado por diversas plataformas, além de ser extensível a no-
identificá-lo pelo nome ou por outro atributo. Lembra Swariz (2002) vos formatos de dados.
que um URL é um tipo de URI que fornece um caminho para se obter
A ilustração 14 apresenta o modelo proposto por Berners-Lee em
informação sobre um recurso, ou talvez para se recuperar o próprio recur- :
:1989 para representar uma “web de objetos”, incluindo pessoas, organiza-
so, O termo Uniform Resource Name (URN) refere-se ao subconjunto do -.
'ções, tecnologias, documentos, tópicos, entre outras entidades. Assim, os
URI que é requerido para permanecer globalmente único e persistente,
Jinks tipificados, como por exemplo “wrote”, “unifies”, “includes” — escreveu,
mesmo quando o recurso deixar de existir ou estiver indisponível (Berners- -:
unifica, inclui -- são utilizados para a representação do conhecimento sobre
Lee, 1998a). ,
eus relacionamentos,
Em sua idéia original sobre o que virá a ser a web, Berners-Lee
A leitura do diagrama apresentado permite concluir que a idéia da
(19984) apresenta conceitos de nós e links que, no seu ponto de vista,
web é bem mais ampla do que apenas fornecer meios para a localização de
permitem a melhor descrição de sistemas complexos e que são a base
. páginas, mas que, desde a sua concepção, o autor pensava em fornecer
para o entendimento da função do URI, O autor compara esses con-
informações semânticas sobre os objetos. Por exemplo, é possível obser-
ceitos aos conceitos de círculos e setas, que deixam qualquer pessoa
livre para descrever as inter-relações dos objetos de uma maneira bas- | var-se que: Tim Berners-Lee escreveu um “documento” > que descreve

Organização da Informação na web: das tags à web semântica Organização da Informação na web: das lags à web semântica
Ailton Feitosa Aston Feitosa
83
82

também descre- 4.4 As gerações da web


uma “proposta” > que “unifica procedimentos”; mas que
inclui “infor-
ve “hipertexto” > que inclui “hipermídia”, mas que também
é capaz de Desde a sua concepção, a web passou por estágios evolutivos que
mação ligada”, e assim por diante. Registre-se, ainda, o modelo
ou idéias, esteja podem ser classificados em três gerações. O esquema dado na ilustração
representar qualquer tipo de objeto, como pessoas, coisas
15 mostra essa evolução:
ou não tal objeto armazenado fisicamente na web.
3º Geração
- sighificado separado da estrutura
- baseada em RDF(S), Topic Maps, DAML
+ OIL, SHOE, XOL

2º Geração
a IBM - estrutura separada da apresentação
Computer mm GroupTalk - baseada em XML, XSL
qontendno “aaa ".
e “A ” (e) “+ dorexample
Hyper
Cand , > — 1º Geração
- apresentação separada da localização
Pago eco Sono n1 Hiaramhica! » baseada em HTML, PDF, CSS
k syteths
"' / o Sea

forexample
forenample
A
e”
4 - 1
15: Gerações tecnológicas da World Wide web —
Aq t Ilustração
adaptado de Hyvônen (2002).
CERHDOE. :
Lied !
e
A ilustração mostra as tecnologias utilizadas na web em cada gera-
information
o !
a
ção. A primeira geração, baseada na linguagem HTML, tornou possível a
/ CERN
indudes Y

ng
dessribes
“exibição dos documentos independentemente de sua localização física; a
indudes 4
” .
; bes This .
' od,
“segunda geração tornou possível o uso de diferentes formas de apresenta-
d divison
'ção para a mesma estrutura de um documento, com base na linguagem
document ,
O

-—e”
' e. XML; a terceira geração, a da web semântica, consiste na separação do
group
significado de sua estrutura, isto é, estende a noção de “documento” com a
group
| retrs
indudes desoribes to
| possibilidade de “semântica legível por máquina”. Se a codificação semân-
Y
wmfe

ica é muito mais centrada no autor humano, o computador pode auto


N I o T T
Pai o | e Tim “ajudar-se, ajudando o homem a criar tais descrições. Nesta visão, a repre-
Um trreêdia
sentação explícita do conhecimento formará a base para o desenvolvimen-
Berners-Lee

“to de serviços e aplicações de web mais inteligentes (HYVÔNEN, 2002).


an quai te Ea

As informações existentes na web atualmente são apresentadas (usan-


Wide web, do tecnologias como HTML, PDF e XML, por exemplo) de tal maneira
Ilustração 14 - Modelo proposto para a World
segundo Berners-Lee «que possam ser lidas e compreendidas por pessoas. Entretanto, sem a in-
Fonte: (Brickley, 2007) erpretação de um leitor humano, essas tecnologias nada dizem a respeito
do significado ou do conteúdo de um documento armazenado na web. O

Organização da Informação na web: das tags à web semântica


Ailton Feitosa
Organização da Informação na web: das tags à web semântica
85
Ba

código, apresentado na ilustração 16, por exemplo, nada informa ao com- torresponde a um resumo do texto integral da lei; que o campo lei relaciona-se
putador sobre o conteúdo do parágrafo em questão: de algum modo com os termos norma, código, legislação, direitos.
cprebo<font Face-arial”> Na prática, a maioria dos sites disponíveis na Internet utiliza, ainda,
LEI Nº 3211,DE 23 DE OUTUBRO DE 2003 : apenas as tecnologias da primeira geração. Do ponto de vista da localização
EACC A AA J de documentos, as implicações desse uso são significativas, uma vez que
Hustração 16: o problema do significado com o uso da codificação HTML “tornam menos efetivas as operações de recuperação. Se, por um lado, a pu-
“& blicação se torna mais rápida apenas com o uso de textos integrais, por
A codificação apresentada na figura anterior apenas informa ao com-
“outro, a inexistência de metadados dificulta a representação € a organização
putador o que fazer em relação à forma do parágrafo, isto é: o tipo de letra:
“da informação, o que torna mais baixa a precisão, no momento da recupera-
que deve ser utilizado (arial); e o tipo de efeito aplicado a essa letra: negrito.
ão. De tal modo a interpretação do significado e da relevância das informa-
Quanto ao conteúdo do parágrafo, é necessária a interpretação humana “ções fica a cargo dos humanos.
para identificar que o texto refere-se a uma lei que foi publicada em uma:
No entanto, a Internet não é utilizada apenas por pessoas. É cada vez
certa data. Essa codificação, portanto, não permite ao computador realizar.
imaior o uso de robôs de busca, agentes de comércio eletrônico (shopbots),
inferências acerca do significado do texto em questão. De modo análogo, :
| rastejadores (web crawlers) e outros artefatos, para os quais não é fácil
com a utilização da tecnologia XML, é possível ao computador reconhecer.
à interpretar ou “entender” a informação não estruturada disponível na web
a estrutura de um certo registro em um documento, mas não dizer algo a
(HYVÔNEN, 2002). É com o pensamento nessas tecnologias, que os pes-
respeito do significado dessa estrutura (BERNERS-LEE, 2001). Assim, a
quisadores estão desenvolvendo os fundamentos da web semântica.
compreensão do seu significado é possível apenas para o leitor humano,
A Ilustração 17 mostra essa situação:
<aml> o à 444 ARTº geração: HTML € XHTML
<legislacao>
«lei>
<numero>3211</numero> A Hypertext Markup Language surgiu como uma derivação da lin-.
<data>23/10/2003</data> : .
<ementa>Dispõe sobre a estrutura orgânica da guagem Standard Generalized Markup Languege (SGML), linguagem ori-
Secretaria... .</ementa> 'ginária dos anos 70 e que sempre foi conhecida no meio informático pela
po sua potencialidade como linguagem de marcação de textos. À primeira ver-
</legislacao> CS “são da linguagem HTML foi elaborada por Tim Berners-Lee, com o objeti-
</xml>
“vo de suprir a web, uma vez que o seu projeto necessitava, para publicar
informação para a distribuição global, de uma linguagem universalmente
“compreensível, como um tipo de esperanto?!, que todos os computadores
O computador é capaz de compreender, por exemplo, que o valor 3271
pudessem potencialmente entender.
refere-se a um campo de dados, denominado mumero e que o valor 23/10/-
XHTML é um acrônimo para eXtensible Hypertext Markup Language.
2003 refere-se a outro campo de dados, denominado data. Com a tecnologia:
- Essa linguagem é uma evolução da linguagem HTML e consiste em uma
XML, a realização de inferências acerca desses campos é possível apenas para
humanos. Com as informações fornecidas no código da ilustração 17, o com-
putador não a date refere-se to diaemque
é capaz de saber por exemplo, que |" E a
língua universal (FERREIRA, 1986).
o e com
soa Lam oo
o documento foi aprovado em uma reunião de deputados; que a ementa:
Organização da Informação na weh: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa
Ailton Feitosa
87
B6
ção da infor-
“para prover a necessidade de uma metodologia para a descri
iniciativa para a imposição de regras semânticas às páginas escritas em
“mação publicada na Internet.
HTML, com a utilização do padrão de discrição da linguagem KML, de marcação
Como já mencionado, a idéia de linguagens padrão
(VALENTINE e MINNICK, 2001). Alguns dos benefícios esperados pela 80 quando , depois
“não é muito recente. Iniciou-se por volta da década de
linguagem incluem: redução dos custos de autoria; melhor. para Padroniza-
“de vários anos de trabalho, a Organização Internacional
utilização dessa
casamento entre aplicações de bancos de dados e workflow, solução modu- Language (SGML)
“ção (ISO), aprovou a Standard Generalized Markup
lar para o problema de os navegadores possuírem cada vez maior número “como um sistema — uma metalinguagem - para a criação
de novas lingua-
transparente, para ser
funcionalidades diferentes; solução para integrar, de modo gens de marcação. O problema da SGML era sua complexidade
documentos HTML com cutras aplicações KML (W3C, 2005). a, um grupo
“entendida pela grande maioria dos navegadores. Dessa maneir
“enxuta”,
de trabalho instituído pelo W3C2 criou uma linguagem mais
pudesse, a
sem todas as “firulas” da SGML, de modo que qualquer pessoa
44.2 A 2º geração: XML, DTD e XML Schema partir da XML, criar sua própria linguagem de marcação. Do
mesmo modo
documentos na
que a HTML criou uma forma para cada computador ler
de babel de
A linguagem eXtensible Markup Language (XML) é um padrão de Internet, à XML torna possível, independentemente da torre
criar uma espécie de
representação que permite a introdução de uma significativa quantidade sistemas de computadores incompatíveis entre si,
de metadados para descrever, inclusive com grande nível de detalhamento, esperanto, que todos podem ler e escrever (Bosak, 1999).
a dos forma-
o conteúdo temático de um documento. É, portanto, um mecanismo im- O autor argumenta, ainda, que diferentemente da maiori
fazer sentido para
portantíssimo para os sistemas de recuperação de informações, que permi- “= tos de dados para computadores, a XML também pode
que texto comum.
te a escolha mais diversificada quanto à forma (fichas, formulários con leitores humanos, uma vez que consiste em nada mais do
padrão UNICODE
nuos, tabelas, entre outros). | Uma das forças da unificação da XML é a confiança no
caracteres de quase
De acordo com Valentine e Mimnick (2001), a verdadeira finalidade de de codificação de textos, que suporta a utilização de
XML possibilita o
uma linguagem de marcação é descrever as partes de um documento sem se - * todos os principais idiomas do mundo. Dessa maneira, a
sistemas
preocupar com a apresentação ou com a exibição do documento. As autoras intercâmbio de informações não apenas entre diferentes
e de suas
argumentam que a marcação deve fornecer estrutura aos dados, permitindo: computacionais mas, sobretudo, além das fronteiras dos países
sua especificação
seu uso de diversas maneiras, desde a exibição em um telefone celular até o “ culturas. É natural, portanto, que desde a finalização de
pela ciência
armazenamento e recuperação em um banco de dados em linha. pelo W3C, o padrão tenha se espalhado “como fogo selvagem”
fábricas.
As autoras definem esses conjuntos de elementos XML, projetados e pela indústria, estendendo-se desde a medicina até o chão das
na web, manten do a
para descreverem um determinado tipo de informação, como vocabulários: Para que um documento XML possa interoperar
s, duas condições
XML; assim, uma grande quantidade de vocabulários XML já foi desen característica da universalidade de plataformas e sistema
Diz-se que um
volvida, como por exemplo: CML (Chemical Markup Language), para des devem ser atendidas: cle deve ser “válido” e “bem-formado”.
sintáticas especificadas
documento XML é válido, se ele obedece às restrições
crever informações relativas à química; OPX (Open Financial Exchange), Diz-se
para descrever informações financeiras. na estrutura da linguagem XML, conforme as especificações do W3C.
das regras de
é um conjunto de regras e convenções de sintaxe que podem :
que um documento XML é bem-formado, se a ele estão associa
XML de representar.
validação e restrições, de acordo com o objeto que se preten
ser utilizadas para a criação de conjuntos personalizados de elementos d
marcação, com vistas à descrição do conteúdo de um documento eletrôni- = Informações sobre os grupos de trabalho envolvidos com nas
especificações da linguagem XML podem
co (VALENTINE e MINNICK, 2001). Essa linguagem foi desenvolvida: ser encontradas em: http://w ww w3.0rg/K MLA,
a
Organização da informação na web: das tags à web semântic
Ailton Feitosa
Organização da Informação na web: das tags à web semântica
Ailton Feitosa
88 Bo

Conjuntos de regras de validação foram recomendados inicialmente pelo : te textual, legível por humanos; f) fornece uma sintaxe padrão simplificada, de
W3C como Document Type Definitions (DTD's) e essas DTD's proviam um .: modo a permitir a representação de dados ou meta dados; g) fornece princípi-
conjunto de regras sintáticas às quais o documento deveria seguir para que : os fundamentais que podem ser utilizados para a codificação de informação
fosse considerado válido. A desvantagem das DTD's é que permitem apenas : semântica — desses princípios utilizam-se a RDF, o RDF-Schema, entre outras
a verificação sintática dos documentos, não sendo dotadas de nenhum tipo : tecnologias da web semântica, O autor define XML não como uma linguagem
de controle semântico. Outro problema das DTD's é que a sua definição é e sim, mais propriamente, “como um conjunto de regras sintáticas para a
feita em XML, mas numa notação própria (LIMA, 2005). . criação de linguagens de marcação semanticamente mais ricas, em um domí-
Lima argumenta que, como substituição às DTD's, foi introduzido “ nio particular”. Em outras palavras, isso quer dizer que XML é um padrão que
o conceito de XML Schema, cuja principal contribuição foi a separação pode ser aplicado para a criação de outras linguagens, às quais o autor deno-
entre a descrição da estrutura do documento e a descrição dos mais de - mina de “aplicações de XML”, São exemplos: MathML, mkML. CML, VoxML,
vinte tipos de dados que podem ser utilizados para a sua marcação. Essa * MusicXML?, entre outras (HAROLD, 1999).
linguagem é suficiente para a troca de dados entre colaboradores que utili- A preocupação básica de uma linguagem de marcação é desenvolver
zam o mesmo vocabulário, mas sua semântica é limitada no que se refere « métodos para a adição de informação semântica sobre o conteúdo de um
ao processamento automatizado de novos vocabulários. documento, de modo a tornar tal conteúdo mais explícito. Esse procedimen-
“to tem sido efetuado manualmente, ao longo dos anos (Daconta, 2005, p.
- 32). Compartilhando dessa orientação, o tutorial do site W3Schools explicita
44.91 XML : que XML é uma ferramenta utilizada para transmitir informação em ambi-
entes que envolvem diversas plataformas em termos de hardware e de software.
Diversos autores argumentam que a linguagem XML é a pedra funda- - XML será tão importante no futuro da web como a HTML tem sido até
mental da web semântica e tem sido amplamente aconselhada a sua adoção “ hoje; além disso, será a ferramenta mais importante para todo tratamento,
como instrumento para o desenvolvimento de novas áreas de processamento manipulação e transmissão de dados, devido às seguintes características: a)
de informação. Tal recomendação deve-se à flexibilidade da linguagem, por “foi desenvolvida para descrever em formato de texto puro, de modo que
um lado, e às possibilidades de implementação de maior rigor sintático, por esses dados possam ser trocados entre sistemas de diferentes plataformas;
outro, dados os mecanismos e padrões fornecidos pelo XML-Schema : D) como as marcações não são predefinidas, o projetista pode desenvolver
(Daconta, 2003; Berners-Lee 2001, W3Schools, 2004, entre outros).
% InkML é um formato de dados baseado em XML, destinado à representação digital de marcações em que
Daconta (2003), por exemplo, discute que a XML é uma plataforma o dispositivo de entrada é uma caneta eletrônica. Informações mais detalhadas estão disponíveis em <http:/
importante no desenvolvimento da web semântica, entre outros motivos, por- Iw3 org/2002/mmilink>, MathME é uma especificação de baixo nível para realizar descrições matemáticas
com uma base para comunicações máquina-a-máquina e que fornece a estrutura básica para a inclusão de
que: a) cria documentos e dados independentes de aplicativos; b) possui uma expressões matemáticas em páginas da web. Para mais detalhes, recomenda-se uma visita a <http://
sintaxe padrão para meta dados; c) possui uma estrutura padrão, tanto para w3,orgiMath/>. VoxML é uma aplicação da emptesa Metorola para mensagens faladas, cuja intenção é
facilitar a interpretação pelas máquinas tanto de correio eleirônico de voz, como gravações de sistemas de
documentos quanto para dados; d) não é uma tecnologia nova?'; e) é indepen- auto-resposta. Detalhes adicionais podem ser obtidos no endereço <www w3,0rg/Voice/1999/VoxML pdf.
MusicXML é uma inicialiva em desenvolvimento pelo site Recordare.com e ctja intenção é promover a
dente de aplicativos, pois seu seus arquivos são criados em formato puramen- interopetabifidade entre diversos aplicativos utilizados para a gravação ou para a execução de músicas. À
MusicXML inclui todas as notações musicais como notas, ritmos, claves, letra da música, entre outras.
2 Como já discutido nesta obra, XML é um subconjunto da linguagem Siandardized Generalized Markup . Mais detalhes podem ser encontrados no site <htip:/Awww.recordare.com/>. A Chemical Markup Language
Language (SGML), que foi desenvolvida em 1969, por Charles Goldfarb, Ed Mosher e Ray Lorie. Assim, os (CML) foi desenvolvida por Peter Murray-Rust e é, provavelmente, uma das primeiras aplicações da
conceitos e os princípios fundamentais para a XME foram pfanejados por mais de tinta anos, sendo continuamente linguagem XML. O desenvolvimento da CML foi originalmente iniciado em SGML, mas gradualmente foi
aperfeiçoados, reiteradamente testatos e amplamente implementados (Daconta, 2003). O advento da web, e migrando para a XML; o objetivo da linguagem é a padronização de metadados sobre informações químicas
dos seus problemas na representação da informação, naturalmente impulsionaram o surgimento da XML. na web. Para mais detalhes, recomenda-se visitar o site < http://www .xml-oml org,

Organização da Informação na web: das tags à wob semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
91
90

seu próprio conjunto de marcações; €) as metodologias DTD ou XML-Schema De acordo com o W3Schools (2004), não há regras definidas para
s de
permitem a escritura de regras de sintaxe para um conjunto de marcaçõe a escolha quanto à representação por meio de atributos ou por meio
criado pelo usuário; d) um documento XML é auto-descritivo. mais facil-
elementos filhos. No entanto, apesar de os atributos serem
O código apresentado na tabela 18 exemplifica a simplicidade, a fle- ser evi-
mente manipuláveis em HTML, em documentos XML eles devem
xibilidade e a natureza auto-descritiva da linguagem XML. tados, para que a representação se torne mais explícita e, ainda, pelos
documento escrito em XML seguintes motivos: a) atributos não podem conter valores múltiplos; b)
Tabela 10: estrutura de um

Bloco de Código Função Uso atributos não são facilmente expansíveis, para mudanças futuras; c) atri-
mais
Linha de cabeçalho, define
butos não podem descrever estruturas de dados; d) atributos são
a versão da linguagem, bem
aplicati vos; e) a va-
como o conjunto de difíceis de serem manipulados automaticamente por
lidação da sintaxe de atributos por DTD's ou XML.-Schemas — que defi-
caracteres padrão que será . a
<?wml version="1,0"
utilizado no documentos obrigatório
encoding="1I50-8859-1"7>

nem os elementos permitidos em um documento XML — é mais difícil,


peste exemplo, o código
refere-se ao conjunto de
últi-
comparada com a validação de elementos filhos. Uma exceção a esta
caracteres latinos.
Elemento raiz do documento obrigatório

ma recomendação deve ser considerada, quando houver necessidade de se


<jei>
«pwnero>426</numero>

atribuir um identificador unívoco para um registro de dados, como visto


«data»
<dia>06</dia>
<mes>0d</mes>
«ano»1993</ano> na tabela 11.
sia
«fdatar identificador unívoco para um registro
<autor>Governo do Elementos filhos, definido Tabela 11: Utilização de atributo como
utilizados para a pelo :
Distrito Federal<s/autor>
descrição dos meta dados usuário
<ementarcria a
Defesa da informação representada Uso -de elementos filhos
Subsecretaria de
do Consumidor PROCON na <«cdeputado identificador="d001">
estrutura da Secretaria
<sexo>feminino</sexo>
de Governo do Distrito
Federal e dá outras <nome>Cecília</nome>
providências. <sobrenome>Meireles</sobrenome>
<fementa> <«fdeputado>
Indicacão de fim de obrigatório
cfjei> <deputado identificador="d002">
- arquiva
<sexo>masculino</sexo>
Fonte: adaptado de W3Schools (2004) <nome>Jorge</nome>
<sobrencme>Amado</sobrencme>
A depender da necessidade e da conveniência, os elementos defini-
</deputado>

dos pelo usuário podem possuir atributos. Assim, os dados podem ser
representados por meio de elementos filhos ou por meio de atributos, como Uma vez que os elementos em XML são flexíveis, é possível que
mes-
explicita a tabela 10: haja conflitos quando dois documentos diferentes utilizarem os
ele-
Tabela 10: Representação de dados por meio de elementos mos nomes para descreverem diferentes tipos de elementos. Se os
con-
filhos ou de atributos
mentos forem utilizados no mesmo documento, é certo que haverá
um
Uso de atributos Uso de elementos filhos
flitos de interpretação no momento da extração de informações por
da es-
aplicativo. Nos exemplos dados na tabela 12 têm-se, na coluna
<senador >
<senador sexo='masculino"> <sexo>masculino</sexo>
ações per-
querda, os elementos <autor> e <data>, representando inform
<nome>Rui</nome> <nome>Rui</nome>
os mes-
<sobrençme>Barbosa</sobrenome> <schbrenome>Barbosa</sobrenome>
así
tinentes a uma coleção de documentos. Na coluna da direita,
</senador> das leis
mos elementos podem representar informações relativas a uma
</senador >

Fonte: adaptado de W3Schoois (2004)


que integram a coleção. ,
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa
Ailton Feitosa
92 93

Tabela 12: uso de nomes iguais em elementos que representam “Anformações sobre'o"” Informações sobre um registro no
informações diferentes documento. documento
<d:legislacao xmins:d="http:/
Informações sobre o Informações sobre um registro www 3. org/TRihtmid!'> <r:tei xmins:r="Attp://wwunw.ci-df.
documento no documento <dititulo> gov.brilegislacao”>
Coletânea de Legislação «riautor> Augusto Ruschi<iriautor>
<legislacao> c1ei» Tematica sobre Meio «riementa>Define áreas de
Ambiente</d-titulo> preservação ambiental no DF<fr:
<titulo> <autor>Augusto
<d:autor>Câmara Legislativa
Legislação temática sobre Ruschi</autor> ementa>
do DF<id:autor> «r;data>12/01/]996</r:data>
meio-ambiente</titulo> <ementa>Define áreas de <«d:data>18/ago/2004</d:
<autor>Câmara Legislativa <frilei>
preservação ambiental nó data>
do Dr</autor> DF</ementa> <idilegislacao>
<«data>18/ago/2004</data> <data>12/01/1996</data> Ilustração 19: utilização de namespaces para qualificar os elementos
</legislacao> </lei> e atributos em um documento

Em suma, os namespaces são implementados pela adição de um


A resolução para os conflitos pode ser dada por meio da atribuição prefixo a cada elemento em um documento. Por sua vez, cada prefixo é
de prefixos que identifiquem univocamente cada elemento, como pode ser mapeado para um URI, por meio do atributo xmins («mins:prefixo). As-
visto na tabela 13, em que foram utilizados os prefixos d (para documen- sim, OS namespaces têm dois propósitos: a) promover a distinção entre
to) er (para registro). elementos e atributos que possuem o mesmo nome, mas que, por serem
Tabela
oriundos de vocabulários diferentes, possuem significados diferentes; b)
13: adição de prefixos para desambigúizar os elementos do código XML
“ agrupar todos os elementos e atributos de uma aplicação XML, de tal
Informações
documento
sobre o Informações sobre um registro sorte que qualquer software possa reconhecê-los (HAROLD; MEANS, 2002).
no documento
<d:legistacao>
<d:titulo> <r:lei>
Coletânea de Legislação <r:autor>Augusto 44,929 XMU-Schema
Temática sobre Meio Ruschic</r:name>
Ambiente</d:titulo> <r:ementa>Define áreas de
<«d:autor>Câmara
S U preservação ambiental no XMLSchema é uma linguagem de definição de tipos complexos que
permite a realização de restrições de vocabulário em documentos XML. O
Legislativa do DF</d:autor> DF</r:ementa>
<r:data>12/01/1996</r:data>
<d:data>18/ago/2004</d: data> <«fr:lei> papel de um XMLSchema é similar ao dos esquemas de especificação de
estruturas de dados - como nomes de campos e seus respectivos tipos — em
</d:legislacag>

Fonte: adaptado de W3Schools (2004) um banco de dados relacional. A linguagem, inicialmente proposta pela
Microsoft, ganhou status de recomendação do W53C em maio de 2001
Além dos prefixos, podem ser acrescentadas referências sobre o URI (DACONTA, 2003; W3SCHOOLS, 2004)
onde a determinação de tal prefixo é estabelecida. Então, ao invés de se Com discutido anteriormente, para garantir a integridade sintática e
utilizar apenas o prefixo, é possível se acrescentar o atributo gmlns, um semântica de um documento XML, utiliza-se uma DTD ou um XMLSchema.
namespace, que é também um identificador unívoco. Tal atributo integra a O propósito de um XMLSchema ou de uma DTD é a especificação da estru-
biblioteca de atributos reservados definida para a linguagem XML pelo tura de um documento em termos de elementos, atributos e tipos de dados
consórcio W35€. que ta! documento pode conter A diferença entre uma Document Type
Definition (DTD) e um XML Schema é que, embora uma DTD forneça
insumos para a validação básica de um documento em termos de estruturação

Organização da Informação na web: das tags à web semântica Organização da informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
94 95

de elementos, de ocorrência de restrições, de atributos permitidos, de tipos | Tabela 15: Declaração de atributos em uma DTD
de atributos e de valores padrão, não fornece um controle fino sobre o for-
Declaração de atributos de elementos em uma DTD Descrição
maio e os tipos de dados dos elementos e seus atributos. Como motivações
Fórmila gerai:
principais para a utilização de XMLSchemas, ao invés de DTDs, estão os <!ATTLIST nome-do-elemento nome-do-atributo tipo-do-atributo valor
seguintes fatores: a) DTDs são escritas com sintaxe própria, diferente da Qualquer tipo de texto, exceto carateres reservados:
CDATA “e as g"8r
XML; b) DTDs são muito limitadas com relação à capacidade de suporte a
l ; Lista de valores
tipos de dados — suportam apenas 10 de tipos de dados, enquanto um , Identificador do atributo À
: feat em)
XKMLSchema pode suportar 44 ou mais tipos, já que é possível a criação de IDREF Identificador de elemento relacionado
Lista de identificadores de elementos relacionados
tipos personalizados; c) XMLSchema pode restringir ou estender um tipo IDREFS
Nome válido em XML
NMTOKEN
de dados, por-meio da derivação das definições de um novo tipo com base NMTOKENS Lista de nomes válidos em XML
Entidade
em um tipo antigo; por meio da definição de um conjunto em que elementos ENTITY
a = entidades
ENTITYS
filhos podem ocorrer em gualquer ordem; por meio da definição de elemen- otação
Valor padrão dado a um atributo -
tos substituíveis, isto é, que possuem os mesmos tipos de dados. EEEADLT
indica a obrigatoriedade da inclusão do atributo no
As tabelas 14 e 15 apresentam, respectivamente, as estruturas sintá- REQUIRED elemento
Indica a não obrigatoriedade da inclusão do atributo no
ticas para a declaração de elementos e atributos em DTDs. elemento
HAMPLIED
HEIXED Indica que o valor do atributo é fixo
Tabela 14: Declarações de elementos em uma DTD
Fonte: Adaptado de Furgeri (2007).
Declarações de elementos em uma DTD Descrição
Fórmula geral:
<IELEMENT nome-do-elemento lista-de-elementos ou restrições> Um arquivo escrito em XMLSchema utiliza sintaxe XML — e, con-
<!ELEMENT nome-de-elemento EMPTY> Declara um elemento vazio [que não possui segiientemente, é extensível — para declarar um conjunto de tipos sim-
ples ou complexos. Um tipo é um modelo que pode possuir um valor —
subelementos)
<'ELEMENT nome-do-elemento (SPCDATA)> Decata um elemento que somente pode possuir

SELEMENT nome-do-elemento ANY)> Dectara um elemento que pode conler lexio ou até tipo simples - ou múltiplos valores — tipo complexo. Então, cada tipo
mesmo subelementos
Declara um elentento com lodos os seus
possui duas características-chaves: um nome e um conjunto de valores
subelementes, bem como a ordem de entrada
SELEMENT nome-do-elemento (subt, .. subnj> — desles; nessa declatação, é definida que cada permitidos. Por exemplo, para a escrita do elemento gutor, de modo
subelemento ocorrerá obrigatoriamente e apenas que seja considerado válido em um documento XML, é necessário que
para tal elemento se especifique um nome e um tipo de dados:
uma vez
<!ELEMENT nome-do-elemento (sub? subZaj> Declara que o elemento filho, seguido do sinal +,

«xsdrelement name="autor” type="xsd:string “> em um arquivo de es-


ocorrerá pelo menos uma vez
<ELEMENT nome-do-elsmento (subl*)> Declara que o elemento seguido do sinal * poderá
quema. Essa sintaxe garante a correção de uma declaração do tipo;
ocorrer uma ou mais vezes, ou não ocorrer
<ELEMENT nome-do-elemento (subt?) > Declara que 9 elemento seguido do sinal ? poderá

«ELEMENT nome-do elemento (sub! | sub?) >


ocorrer apenas urma vez, ou não ocorrer
Deciara que uma Isla subelementos opcionais,
<autor>Rui Barbosa</autor>, uma vez que especifica um nome válido
sendo que apenas um dejes será utilizado para um elemento (autor) e tipos de valores aceitáveis (síring — cadeia
Deciara que q elemento poderá possuir um dos dois
<IELEMENT nome-do-elemento (subi | sub2)*> — elementos, um ou vários de um deles, vários de de caracteres).
ambos, ou nenhum deles
Declara que o elemento poder possuir um dos dois Como arquivos XML que são, os XMLSchemas também aceitam
<!ELEMENT nome-do-elemento (subi | subz)+ > elementos, um ou vários de um dele S, vais
ambos; no entanto, a condição vazio não é
de sintaxes com uso de namespaces. Assim, usualmente, escreve-se
<xsdiidentificador>, onde xsd é um prefixo utilizado no lugar de um URI
permitida
SELEMENT nome-do-elemento (sub | sub23? > Declara que o slemento pode ser vazio ou conter e
apenas uma ocorrência de um dos dois elementos
que indica onde está localizado o vocabulário aceito no XMLSchema,
Fonte: Adaptado de Furgeri (2001). identificador é um atributo identificador de meta dado. A declaração do
Organização da informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
s6 97

namespace pode ser, por exemplo: <«xsd:schema xmins:xsd= “httpo//. Tabela 16: uso de um XMELSchema para a estruturação
sintática de um documento XML
www w3.0rg/2001/XMLSchema “>,
: Arquivo XML XME-Scheria
Nesse exemplo, é declarado um namespace para todos os elementos.
<?xmt versions "1,0" encoding="180-8859. — <7aml version="1.0"7>
permitidos em um documento válido. Assim, o prefixo xsd corresponde ao- vo
<lei>
<xsdischema xmins:xsd="Nlp:Hhrwy w3.org/2001/
XMLSchema”

URI <“Attp://uwy w3.0rg/2001/XMLSchema”>, que contém o vocabulá- «numera>-425</numero»


«dala=06/04/1993</dala»
xmins= "tp var cl dEgovbr>
<xsdelement name="ler"»
«autor"Governo ds Distrilo Federal<! <xsdcomplexType>
rio aceito. É importante que se destaque que o prefixo é meramente uma autor
<emenla>Cria a Subsecrelaria de
«xsdisequence>
<xsd:elemen! namer"numero”
Defesa do Consumidor type=" xsd.string't>
abreviação para O namespace que, na prática, é um URI. O prefixo xsd é PROCON na estrutura <«xsdielement name="data”
da Secretaria de type=" xsdistring>
um acrônimo para XML Schema Definition (W3SCHOOLS, 2004; Gavema do Distrito
Federal a dá oulras
+<xstislémenl name='autor”
types xsd'string'f-
providências «<xsd:etemenl names ementa”
DACONTA, 2003). <sementa> type=" xsd:string"t>
<igi> <iusd:sequence>
Em resumo, um esquema é uma descrição formal que compreende </xsdComplexType>
siesd element»
susdschema>
um documento válido, isto é, um XML Schema é um documento contendo
uma especificação formal do que é um documento XML válido. A lingua- No esquema à direita, o elemento lei é do tipo complexo, porque
gem XMI, Schema, do W3C, é um esquema escrito em particular, cuja contém outros elementos (numero, data, autor, ementa); esse documento
sintaxe é uma recomendação daquele Consórcio (HAROLD: MEANS, 2002; faz uma referência ao URI do consórcio W3C (http://www w3.org/2001/
W3SCHOOLS, 2004). :XMLSchema) em que se encontra a biblioteca de clementos válidos para
Assim, diferentemente das DTD's, os esquemas podem forçar garantir a integridade do próprio esquema. O esquema, por sua vez, desti-
regras específicas sobre os conteúdos dos elementos e de seus atribu- : na-se a garantir a integridade de qualquer documento XML que utilize a
tos, de tal maneira que além de tipos simples previstos pela linguagem estrutura definida (tabela 17).
— como síring, inteiro, decimal e datahora -, a linguagem de esquema Tabela 17: exemplo de estrutura de um XMLSchema
permite a criação de novos tipos, derivados dos antigos, o reuso des-
KML-Schema Função Uso
ses tipos por outros esquemas, bem como a possibilidade de se e
<?xml version="
-
1.0" encoding="|SO-8859-1'7>
Tinha de cabaçamo,
define a versão da Obrigatório
=

referenciar mais de um esquema no mesmo documento (HAROLD; <xsdischema


tinguagem
Declara o elemento raiz Obrigatório
Indica que 05 elementos
MEANS, 2002; W3SCHOOLS, 2004). Segundo o tutorial do site xmins:xsd="hitp:tihevrw
ww 3 orgi2001/XMLSchema”
a serem ulilizados no
Recomendado
documento são os
W5Schools, um KML Schema define os elementos que podem apate- definidos pelo WI

cer em um documento; define os atributos que podem aparecer em um xrdns="htp:


far cl di gov br'>
Indica que o namespace
http fvyrercl di gov br é Recomendado

documento; define que elementos são elementos filhos: define a or- o padrão

dem de precedência dos elementos filhos; define o número de elemen- <xsdielement name="lei">
sxsdiComplexType-
tos filhos; define se um elemento é vazio ou se pode conter texto; <xsdrsoquance»
<xsd element names nimero
="asdostingio. -
define os tipos de dados para elementos e atributos; define valores <xsdielemen dia
=" y t
Elementos definidos
pelo usuário, conforme a
.
Definido pelo

padrão para os elementos e atributos. —— mem amami


<xsdielement name=
pesada siena
attor necessidade de descrição
das informações
usuário

“xsd.element name='eimenta
O código apresentado na tabela 16 exemplifica a utilização de Inpe" xsdistring'?We
<ixsdsequence»
>=
um XMLSchema para a estruturação sintática de um documento XML. <ixsd'element>

<fxsd'schema>
Indicação de final do
arquivo de esquema
Obrigatório

Fonte: adaptado de WaSchoois (2004)

Organização da Informação na web: das lags à web semântica Organização da Informação na web: das lags à web semântica
Aion Feitosa Ailton Feitosa
99
98

: -a, complexContent Define extensões ou restrições para ur tipo complexo


A tabela 18 apresenta um exemplo de como uma chamada a esse
“. complexType Define um elemento do tipo complexo
esquema poderia ser feita em um arquivo XML, Documentation Subelemento de annotaton, define comentárias de texto em um esquema
Element Define um elemento
Tabela 18: referência a um XMLSchema em um arquivo XML “Extension Estende um elemento do tipo simples ou complexo
Group Define um grupo de elementos; é utilizado em declarações do tipo complexo
Referência a um XNLSchema importa esquemas de outros namespaces diferentes do namespace padrão utilizada em
<ºumi version="1.0" encoding="150-8859-1"2> é Import um documento XML.
<lei xmins="http://www.cl.df.gov.br" = Inelude Inclui diversos esquemas localizados ho namespace padrão utilizado em documento XiMt
xmins:xsi="http://www.w3 .0rg/2001/XMLSchema-instance! : Especifica o valor de um elemento ou atibuto como chave (única, não-nula e sempre
xsi:schemaLocation="http://www.ci.df.gov.br lei .xsd">
«hoy presente)
<numero>426</numero>
Especifica que o valor de um atributo ou elemento corresponde ao especificado em um
<data>06/04/1993</data> “: Keyref ,
<autor>Governo do Distrito Federal</autor> elemento definido como Key
<ementa>Cria a Subsecretaria de Defesa do Consumidor List Define um elemento do tipo simples como uma lista de valores
PROCON na estrutura da Secretaria de Governo : Notation Descreve o formato de informações não-XML no conteúdo do documento
do Distrito Federal e dá outras providências.
Redefine Redefine tipos simples, complexos, grupos e grupos de atributos de um esquema extermo
</ementa>
Restriction Define restições para elementos do tipo simpleType, simpleContente complexContent
</lei>
: Schema Define o elemento raiz de um esquema
: Sequenca Especifica que os subelementos devem aparecer em sequência e ocorrer nenhuma ou
o várias vezes
A declaração xmins="http://wwnw.cldf.gov.br” indica a qualquer : simpleContent Contém extensões cu restrições para efementos do tipo complexo e somente texto
aplicativo que for realizar uma validação no esquema que todos os elemen- : smpleType Define um elemento do tipa simples e especifica suas restrições
Union Define um tipo simples como uma coleção de valores a partir de fipos de dados simples
tos utilizados neste documento XML estão declarados nesse namespace. especificados
A declaração xmins:xsi=" http://www w3.0rg/2001/XMLSchema-instance”:: Unique Define que um elemento ou atributo deve ser único em dado escopo

indica que será utilizada uma instância de um esquema. A declaração Fonte: adaptado de W3C (2004a) e W3Schools (2004)
xsi:schemaLocation="http://wywy.cl df.gov.br lei xsd” indica o namespace
em que são declarados os elementos e o nome do esquema desse namespace:
que será utilizado, 4.4.3 A 3º geração: padrões e linguagens de
A tabela 19 indica os elementos que podem ser utilizados para a. especificação de ontologias (ADF, ADF Schema,
construção de XMLSchemas, de acordo com as especificações do W3C. DAML+HOIL OUL)
Tabela 19: Elementos definidos para um XMLSchema
Lima (2003) esclarece que, embora a web semântica inicialmente
Elemento Descrição estivesse sendo construída com base na flexibilidade obtida pela combina-
Define que elementos filhos podem ocorrer em qualguer ordem, sendo que cada filho
Al ocarrerá uma vez ou nenhuma
: ção entre XML e RDE, essas tecnologias não são suficientes para se obter
Annotation Define um elemento de maior nivel para comentários sobre o esquema uma estrutura de descrição do significado dos documentos na web. Na
amy Defina elementos não especificados no XML Schema (estende os elementos documento
XML) tabela 20, apresenta-se uma adaptação ao pensamento de Lima (2003)
enyatiribute M). atributos não especificados no XMLSchema (estende os atributos do documento sobre as diversas linguagens envolvidas na construção da web semântica
appinfo Subelemento de annotation, especifica a informação a ser usada na aplicação em suas inter-relações.
Attributo Define um atributo Qualquer que seja a linguagem utilizada na web semântica, seu obje-
aftributeGroup Define um grupo de atributos a ser usado em definições da fipo complexo
Choics Define elementos opcionais, isto é, permite que somente um dos elementos definedos como “ tivo é fornecer uma descrição para o conhecimento representado por meio
subelementos de <choice> seja utilizado no documento XML de ontologias.

Organização da Informação na web: das tags à web semântica


Organização da Informação na web: das tags à web semântica
Ailton Feitosa
Ailton Feitosa
100
toi

Tabela 20: Linguagens da web semântica e suas funções “Language (DAML)>, projeto iniciado em um encontro de especialistas em
agosto do ano 2000, em Boston, é uma dessas iniciativas. A versão mais
Linguagem Função na web semântica
XML fornecer sintaxe básica para a estruturação dos
: recente da linguagem é a DAML+OEL?”, uma combinação das linguagens
documentos, não há imposição de restrições semânticas “DAML e OIL, e fornece um conjunto de ferramentas com o qual é possível a
fornecer controfe sintático à linguagem XML, por meio de
XML Schema | restrições à estrutura, bem como da definição de tipos de -criação de ontologias e a marcação de informação, de modo a viabilizar a
dados para documentos XML
fornecer um modejo de dados para os objetos da web e
leitura e compreensão automática por máquinas (DAML, 2005).
RDF seus relacionamentos, propiciando uma semântica Face às restrições da arquitetura RDE, o W3€ propôs a especificação de
simples, com possibilidades de representação do próprio
tmogelo em XML mais um padrão de linguagem, de modo a permitir maior rigor semântico à
RDF Schema fornecer um vocabulário capaz de descrever os objetos da
web e suas relações hierárquicas de gênero -espécie
“representação do conteúdo das páginas web. Assim, a Web Oniolgy Language
fornecer vocabulário adicional capaz de descrever outros (OWL), uma evolução da combinação DAML+OIL, foi projetada para uso
DAML+OIL & tipos de relacion amentos entre os objetos da web, como
ME relacionamentos de disjunção, sardinalidade, igualdade, por aplicações que necessitam processar conteúdo de informação, ao invés de
enumeração; fornecem tipos de dados mais ricos que as apenas apresentar informações para humanos. De acordo com o W3€, a OWL
linguagens anteriores.
Fonte: adaptado de (LIMA, 2003)
facilita a maior interoperabilidade de conteúdo da web do que o suportado
: por XML, RDF e RDF Schema, fornecendo um vocabulário adicional e tam-
Em RDE, o significado é expresso como um conjunto de triplas, bém uma estrutura de semântica formal,
cada tripla correspondendo ao sujeito, ao verbo e ao objeto de uma sen-
tença simples. Essas triplas podem ser escritas em XML, e um documen-
4.4.3.1 ADF
to RDF pode fazer declarações a respeito de coisas particulares (pessoa),
que possuem suas propriedades (é irmã de), com certos valores (outra
pessoa). RDF, afirma LIMA (2005), diz respeito a expressões processáveis O RDF é um esforço para a criação de convenções que controlem como
por máquinas, pois fornece um mecanismo para a descrição de recursos, . a semântica, a sintaxe e a estrutura de metadados são formuladas em um
sem fazer nenhuma inferência sobre o domínio da aplicação. RDF oferece domínio, de modo que, quando tais estruturas forem misturadas com um
suporte básico para ontologias, mas é necessário maior rigor semântico. " segundo ou terceiro domínio, as declarações orginais mantenham sua clareza
Para descrever o vocabulário do RDF foi criado o padrão RDF Schema, e legibilidade. Como já discutido a linguagem XML é, por natureza, puramen-
que define propriedades que podem ser utilizadas para descreverem clas- te estrutural e sintática e descreve dados apenas no nível de objetos. Por esse
ses, propriedades e outros recursos (W3€, 2003). Então, a função do RDF'S motivo, o padrão RDF foi projetado para permitir que software inteligente,
é permitir a criação de vocabulários controlados, compartilháveis e exten- como um spider ou um agente inteligente, consiga descobrir, catalogar e enten-
síveis. Um esquema é um tipo de ontologia onde são definidos os termos der recursos em um site, uma vez que seus objetivos são: ter um modelo de
que serão usados nos documentos RDEF e o significado específico de cada dados simplificado; possuir semântica formal e provável inferência; utilizar
termo. São esses esquemas que expressam a semântica dos documentos “ um vocabulário extensível; utilizar sintaxe baseada em XML; dar suporte aos
RDF (LIMA, 2003).
= Embora o Progtama DAME não seja uma iniciativa do W3C, possui diversas interfaces com o consóteia, entre
O uso de ontologias fornece uma grande possibilidade de se descrever elas o fato de o próprio Tim Bemners-Les ter participado do seu desenvolvimento (QUELLE TOGBUSI, 2002).
obietos e suas relações com outros objetos. Entretanto, devido a restrições = O originária da cooperação de diversas instituições de pesquisa européias, a Ontology Interchange
Language (OIL), é uma proposta de representação e uma camada de inferência para ontologias, que
semânticas da arquitetura RDF, algumas iniciativas foram desenvolvidas com combina a modelagem de primitivas com semântica formal e serviços inteligentes fornecidos pela lógica
o objetivo de se solucionar tais problemas. A linguagem Darpa Agent Markup descritiva. A OIL é compatível com ADF Schema (RDFS), e inclui uma semântica precisa, para a
descrição do significado dos termos, bem como de informações implícitas (ONTOKNOWLEDGE, 2004).

Organização da informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
103
102

tipos de dados do XML Schema; permitir que qualquer pessoa possa fazer objeto sobre o qual se elabora alguma declaração. Em RDE, necessita-se
declarações acerca de qualquer recurso (W3C, 2001; STUCKENSCHMIDT. de um URI para a identificação unívoca do conceito sobre o qual se ela-
VAN HARMELEN, 2003; POWERS, 2003; W3C, 2004). Além dessas carac- : bora tal declaração; esse URI é também representativo de um recurso. O
terísticas, o RDF pode utilizar valores representados em conformidade com os : predicado, gramaticalmente, é a parte da sentença que modifica o sujeito
tipos de dados do XMLSchema, possibilitando, assim, o intecâmbio de da- e incluí uma frase verbal; em outras palavras, o predicado diz algo a
dos com outras aplicações XML. respeito do sujeito — no campo da lógica, um predicado é uma função de
Um documento RDF pode ser utilizado para criar descrições de meta -: um indivíduo (um tipo particular de sujeito) para valores verdade, com
dados relativas não apenas a informações internas ao documento, mas: base em certo número de argumentos. Em RDF, um predicado é uma
também sobre metadados externos ao seu conteúdo ou até mesmo ocultos : relação entre o sujeito e o objeto. Gramaticalmente, um objeto é um nome
- como por exemplo, autor, data de criação, tipo de arquivo —, sendo par- que sofre a ação expressa por um verbo — para a lógica um objeto é influ-
ticularmente útil na representação de conteúdo de arquivos de áudio c ima- enciado pelo predicado. Em RDF, um objeto pode ser também um recur-
gens (DACONTA, 2003, p. 85). Dessa maneira é possível a gravação de so, referenciado por um predicado ou por um valor literal (Daconta, 2003).
dados em formato “compreensível-por-máguina”, favorecendo operações:. A ilustração 20 apresenta a estrutura de uma Tripla RDF.
como intercâmbio, busca, catalogação, navegação e classificação, de ma-
neira mais eficiente e sofisticada (POWERS, 2003).
São conceitos básicos do RDF: modelo de dados gráfico; vocabulá- ca
ça A) qn tea
rio baseado em URI; tipos de dados; literais; sintaxe de serialização XML, : pues 4í »4 =UR

expressão de fatos simples; implicações. O modelo gráfico baseia-se nos : Sujeito |e = Sitmboto literal
conceitos de sujeito, predicado e objeto que, tomados juntos, formam uma <- |!
tripla. Um conjunto de tais triplas é denominado Grafo RDF. Cada tripla. Simbolo ———————— = Propriedade ou associação
RDF é uma declaração e pode ser pensada, também, em termos de objetos tieral

propriedades e valores de propriedades (HAROLD, 1999; W3C, 2004)


Ilustração 20: Tripla RDF (Daconta, 2003, p. 88)
Por exemplo, na declaração “A Lei nº 1/1917 é de autoria de Rui Barbosa”,
o recurso é a “Lei nº1/1917”, a propriedade é a relação de “autoria” e o.
Além do modelo lingiistico apresentado, é possível a construção de
valor de tal propriedade é “Rui Barbosa”.
Como mencionado, em termos semânticos, a estrutura de um do
declarações RDF pensando-se em recursos, propriedades e valores, de tal
cumento RDF é baseada no conceito de Triplas RDF, isto é, em três par- modo que a cada recurso pode ser atribuída certa propriedade, com certo
tes que compõem a informação e que são necessárias para a sua compre- valor, O objetivo da arquiterura RDF é que, utilizando-se qualquer das abor-
ensão como uma unidade do conhecimento. Essa estrutura é o que torna : dagens, seja possível a realização de declarações como, por exemplo, “Rui
possível a interpretação semântica de uma sentença, tanto por humanos: Barbosa é autor da Lei nº. 179”. Assim, no modelo lingúístico RDF, Kui
quanto por máquinas. Em outras palavras, a estrutura de triplas permite Barbosa é o sujeito, é autor o predicado e Lei nº 179 0 objeto, Certamente,
que a compreensão e a significação dadas por humanos para uma senten esse modo de interpretação, para tornar-se diretamente aplicável à termino-
ça sejam consistentemente interpretadas por máquinas (POWERS, 2003) logia gramatical da Língua Portuguesa deveria sofrer alterações. Apenas para
Como partes integrantes do discurso humano, em língua inglesa, esses se ilustrar essa necessidade, no exemplo dado, a análise da declaração deve-
elementos são denominados como sujeito, predicado e objeio. O sujeito, ria ser feita da seguinte maneira:
no contexto gramatical, corresponde a um nome ou frase nominal que: “Rui Barbosa” > sujeito — elemento da oração sobre o qual se emite
representa aquele que pratica uma ação — no campo da lógica, esse é o: uma informação;
Organização da Informação na web: das tags à web semântica
Organização da Informação na web: das tags à web semântica Ailton Feitosa
Ailton Feitosa
104 105

“é autor da Lei nº 179” > predicado — elemento da oração que in-: <leis:Rui Barbosa><leis:qutor><leis:lei nº 179>
forma algo a respeito do sujeito; Por certo, para tornar-se válida, essa declaração necessitaria ser inserida
O predicado, por sua vez, pode ser assim analisado: “em um documento semântica e sintaticamente estruturado, isto é, em um
“é“Sverbo de ligação — verbo que não possui um conteúdo signifi- * documento válido. Como a arquitetura RDF possui suas bases na estrutu-
cativo, isto é, não traz nenhuma informação a respeito do sujeito, mas que “ra da linguagem XML, pode ser utilizada para a descrição de conteúdo
serve como elemento de ligação entre o sujeito e o seu atributo (predicativo com a implementação de todos os recursos desta linguagem, o que vale
do sujeito); “inclusive para os namespaces. É possível também a combinação com ou-
“autor da Lei nº 179” > predicativo do sujeito — elemento que se “'tros padrões de metadados, como, por exemplo, o Dublin Core, de modo
refere ao sujeito mediante um verbo;
que o arquivo se torne compreensível para aplicativos que fazem uso des-
Em face do problema levantado nesse exemplo”, e devido à comple-.
“ses padrões, como os mecanismos de busca da web. A tabela 21 utiliza um
xidade gramatical da Língua Portuguesa, o modelo recurso-propriedade-.:
“exemplo proposto pot Harold e Means (2002) para elucidar a aplicação de
valor parece ser mais aplicável à documentação escrita em português. Des-
namespaces em um documento RDF
se modo, para o exemplo em questão, ter-se-ia:
“Rui Barbosa” 5 recurso; Tabela 21: Estrutura de um arquivo RDF
“é autor” > — propriedade; Bloco de código Função
“Leinº 179º 5 valor <7ml version="1.0" encodiny="T80-8459-1"2% Início do arquiva
coatalo
não raiz
É importante notar que toda declaração é feita em um documento, e
cricão do tipo de
que todo documento possui um endereço, isto é, uma localização identificada | <RDF>
<Bescription
o a que se
«e o arquivo e do
por meio de um URI, Para a sentença dada, então, é possível se utilizar a tipo de vocabulário
about="http://enar. cafeconleche, vrg/ezamples/impres
utilizado, segundo à
seguinte notação: sionists.cnl">
RDF
Ctitles Ob impr cnistas «/titler
<HRui Barbosa> <Hautor> <HLei nº 179> lJiatte Busty Harold «/creator»

Estendendo-se sua significação, pode-se pensar que a referida lei : s Co

possui uma página na Internet e, em consequência, um endereço; então, é


válida a declaração:
</RDE>
<HLei nº 179> <Htempagina> <http://www.cl.df.gov.br/legislacao/ | <painting>

leil79.htm> Gouh<ia
efdate> ão de min
O símbolo £, em cada declaração anterior, significa que o URI dos con- > u referente a
mon logl: to che lett, A chire sorks in ma ebra de arte
ceitos referenciados é o próprio documento RDF que os contém. Essa é uma her garden.

sintaxe abreviada para um URI absoluto, como per exemplo: <Attp:// </description>
<«fpainting>
wu. cl df gov.br/legislacao/ontolegis>. O mais usual — e recomendável — é a cfeata lego

substituição do símbolo É por um prefixo que represente o namespace em que Fonte: adaptado de (HAROLD; MEANS, 2002).
se localiza o documento RDF em questão. A formulação resultante é, então;
prefixo leis: <htip://wum.cl df gov. br/legislacao/ontolegis> Com a intenção de tornar o conteúdo conhecido para qualquer
Desse modo, as declarações sobre a autoria de uma lei podem ser as aplicativo que seja capaz de compreender padrões RDF e Dublin Core, os
seguintes: autores sugeriram utilizar no código o elemento Description, que pretence ao
vocabulário da arquitetura RDF e os elementos title, creator, description, e
“ O exemplo em questão foi fundamentado na obra Curso prático de gramática, de Terra (1991).

Organização da Informação na web: das tags à web semântica Organização da Intormação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
108 107

date, que pertencem ao vocabulário do Dublin Core. Para que um aplicativo. Para cada namespace, elementos ou atributos prefixados devem ser
— um mecanismo de busca, por exemplo — seja capaz de reconhecer a infor. registrados com a seguinte estrutura: prefixo:elemento (ou atributo). Para
mação, é necessário que os nomes dos elementos sejam preservados. No, se conectar um prefixo a uma URI, utiliza-se o atributo xmins, seguido do
entanto, ocorre uma sobreposição dos elementos title e description que des prefixo, da seguinte maneira: «mins:prefixo. Analisando-se o código apre-
crevem o documento com os elementos title e description que descrevem a, “sentado, tem-se: a) xmins:rdf é usado como atributo para conectar o ele-
obra de arte. Uma maneira de desambigiizar a descrição é utilizando. mento RDF, representado por rdf:RDF ao URI do namespace http://
namespaces para particionar os elementos em conjuntos diferentes de voca- = www.w3.org/TR/REC.-rdf-syntaxi, que contém o vocabulário padrão de-
bulários. Elementos que posstiem o mesmo nome, mas que apresentam URP's; “finido pelo consórcio W3C; b) rdf:Description representa o elemento
diferentes, são elementos distintos. Uma vez que URI's geralmente possueni:: . Description do vocabulário RDF definido pelo W3C; c) a«mins:dc é usado
caracteres especiais — como /, % e -, para citar alguns não aceitos na sintaxe: como atributo para conectar os elementos Dublin Core — title, creator,
XML para nomear elementos -, recomenda-se o uso de prefixos curtos para: description e date - com o vocabulário padrão definido no URI http://
a denominação dos namespaces. Assim, cada prefixo é associado a um URI. “purl.org/de/ e, embora tenha sido declarado no elemento rdf:Description
e, da mesma forma, nomes de elementos associados ao mesmo prefixo esta » por questão de conveniência —, poderia ter sido declarado no elemento
rão no mesmo namespace. Para o código proposto anteriormente, na tabela “taiz.
21, uma reescritura viável é exemplificada na tabela 22. Um exemplo de aplicação da sintaxe RDF a uma coleção de docu-
Tabela 22: inclusão de namespaces relativos a elementos Dublin Core mentos legais é apresentado na tabela 23.
em um arquivo RDF

Tabela 23: exemplo de aplicação da arquitetura RDF para um acervo legislativo


Bloco de código Função
<?xml version="[.0" encoding="150-8859-1'7> início do arquivo Bloco de Código Função
«catalog» Linha de cabeçalho, define a versão da
elemento raiz
linguagem, bem como o conjunto de
Descrição do tipo de <?xml version="1.0" enceding="150-8859-1"7= caracteres padrão que será ufilizado no
conteúdo a que se refere o doctimento; neste exemplo, o código refere-
<rdf:RDF xmins:rdf="http:/w
ww w3 org'TVREC-rdf-syntaxH"> arquivo e do lipo de se ao conjunto de caracteres latinos
«rdf:Descriplion xmins:de="httpifpurl.orgide” vocabulário tlilizado, indica que o conteúdo do documento é RDF.
about="Altp:/Myuny.cafeconlache.org/examplestiinpressionists.xm'> segundo à RDF, uso de um
O prefixo rdf:RDF é utilizado para indicar que
prelixo para representar o «sdE:RDF xmins:rdf="http:meyw
wa .org/1998/02/22 -rdf-
namespace do Dublin Core
os elementos e atributos RDF aceitos nesse
syntax-ns?*' documento provêm da biblioteca definida
«de:title> Obras impressionistas </title>
«de:creator> Elliolte Ausly Harold </creator> Deserição do dacumento pelo W3€ (xmins:rdf namespace)
«dedescripton> com elementos Dublin Core;
uso do prefixo de, para Indica que os elementos e atributos definidos
Contém uma lista de famosas obras impressionistas, organizadas por pintor e data.
desambigiizar esses xminsiei="http:/hvyew cl df.gov.brilegislacao”> para a descrição de documentos legais
«fdc:description>
elementos em relação aos provêm do URI referanciado
<deidate>22/08/2000</de:date> elementos que descrevam
«</rdfiDescriptlon>
as obras
<Huf-RDF> <rdfiDescription
O elemento rdf.Description utiliza o atributo
«painting» - rd about=“http://Mw.cl.di.gov.brlegislacao/leig26">
<tile>Mermory of the Garden at Etterefile>
rdf'about para descrever cada lei
«<arlist>Vincent Van Gogh<'arlist>
«<date> November, 1BB8</dala> descrição um registro <lei;numero>426</ei:numero>
<deseriplion> relerente à uma obra de arte <lei:data>05/04/1993</lei:data>
Tiro women look to lhe left, À third works in her garden. <!ej;autor> Governo do Distrito Federal</leiiautor> Os elementos numero, data, autor e ementa
«<fdescription> <ieiiementa>Cria a Subsecretaria de Defesa do são referenciados pelo prefixo [/ei],
</paiming> Consumidor PROCON na estrutura da Secretaria de indicando um repositório, como uma
fim do elemento raiz e do Governo do Distrito Federal e dá outras providências. ontologia, em que tais elementos são válidos.
«icatalog>
arquivo </leiiementa>
<«frdE Description>

à <IrdtRDF> Indicação de final de arquivo


Fonte: adaptado de (HAROLD; MEANS, 2002).

Organização da Informação na web: das tags à web semântica Organização da informação na Web; das tags à web semântica
Ailton Feitosa Ailton Feitosa
108 109

Retomando os conceitos de recurso, propriedades e valores, do exem-. outras palavras, como abordagem RDF é centrada na propriedade, e não
pio dado na tabela 23, é possível expressar informações por meio de decla:: na classe, é possível estender-se a descrição de recursos, sem a necessida-
rações como: “o recurso <htip cl df. ://wa
gov. br/egislacao/lei
m d26> pos de de se redefinir a descrição original da classe.
sui uma propriedade autor, cujo valor é Governo do Distrito Federal “; ou: Em suma, na especificação formal da arquitetura RDF, os recursos
“o recurso <http://unww.cl.df.gov.br'legislacao/lei426> possui uma proprie-. . podem ser divididos em grupos chamados classes. Os membros de uma
dade data, cujo valor é 06/04/1993 *, : “classe são denominados instâncias. As classes em si, são também recur-
À utilização desse tipo de construção, argumentam Harold & Means sos e podem ser descritas por meio de propriedades. Ao conjunto de ins-
(2002), além de facilitar a implementação de esquemas como DTD's e: tâncias de uma classe denomina-se extensão da classe. Uma classe pode
XML-Schema, possibilita maior flexibilidade, caso seja necessária a ser membro de sua própria extensão, isto é, pode ser uma instância de si
redefinição de um prefixo ou sua atribuição ao um URI diferente, posto: * própria (W3C, 2004b). Todas as classes em RDFSchema são agrupadas
que a declaração é feita apenas em um ponto do arquivo. Com essa: em uma classe principal denominada rdfs:Class. De tal maneira, se uma
estrutura, o arquivo poderá ser interpretado por qualquer aplicativo: “classe X é uma subclasse de Y, todas as instâncias de X serão também
que se utilize dos padrões Dublin Core ou RDF para a descrição de: “instâncias de Y € poderão ser declaradas com o uso da propriedade
conteúdo. rdfs:subClassOf. O termo superclasse é utilizado para designar uma clas-
“se superior em relação a suas subclasses. No exemplo dado, Y é superclasse
de X.
4.4.5.2 ADFS Coleções de recursos podem ser representadas em RDF pelo uso de
: contêineres, que podem ser de valores alternativos (rdf:A!t), de valores não
Propriedades RDF podem ser pensadas como atributos de recursos. “ ordenados (rdf:Bag) e de valores sequenciais (rdf-Seg). Exemplificando, o
e, nesse sentido, correspondem aos tradicionais pares atributo-valor utili- tipo de suporte de um documento pode ser representado por um contêiner
zados em XML. Tais propriedades também representam relacionamentos de valores alternativos, para a definição dos tipos: em papel, em cdrom ou
entre recursos. Como é uma linguagem de descrição de vocabulário, é pa-. em linha (tabela 24). Palavras-chaves relativas a um documento podem ser
pel do RDFSchema descrever tais propriedades e suas relações com propri-". . representadas em uma sequência alfabética ou definida pelo indexador,
edades de outros recursos, o que é feito por meio da definição de classes e : com o uso do contêiner rdf-Seg (tabela 25). Do mesmo modo, tais pala-
propriedades que podem ser utilizadas para descrever classes, propriedades | vras-chaves podem ser representadas por um contêiner rdf-Bag (tabela 26),
e outros recursos, que não determina uma ordem de descrição.
A linguagem de descrição de classes e propriedades em RDF asse.
melha-se a linguagens de programação orientadas a objetos, uma vez que : Tabela 24: contêiner para descrever recursos com valores alternativos

permite a definição de recursos como instâncias de classes ou como :


<rdi; Description
subclasses de classes. No entanto, enquanto em outras linguagens uma : rdicabovt="httpo www. cl.di.gov.brilegislacao/ieido 1 ">
classe é definida em função das propriedades que uma instância pode : «lelisuporte>
«rd Ait>
possuir (por exemplo, a classe livro possui um atributo autor que é um ' «rdfili>Papel</rdtii>
<«rdfili>CD-ROM</rdiili>
tipo de pessoa). Em RDF, a descrição de uma propriedade é feita em «rdfli>Em linha</rdfili>
termos de classes do recurso ao qual tal propriedade é aplicável (a propri- <frdti Att >
«flei:suporte>
edade autor possui um domínio documento e uma extensão pessoo) Em .:

Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
tio am

Tabela 25: contêiner para descrever recursos com valores não ordenados
Tabela 28: Propriedades RDF
Propriedade Descrição : Dominio Extensão
erdi: Description E . rditype indica que o recurso (sujeito) é uma inslência de uma classe tdfsiRescurce rdisiClass
rdfiabout="hitpo//www, ei: df gov. brilegisiacao/leioo +! a rdis:subClassOf indica que o recurso (sujeito) é uma subclasse de uma classe réfs:Class rdís:Class
<lei:palavrachave> : róis:subPreperiyOf Indica que o recurso (sujeilo) é uma subpropriedade de uma propriedade rdf.Property rdkProperty
«rdf:Seqg> as rdis:domein Indica o dominio da propriedade sujeito (ou de um recurso) rof: Property rdis:Class
«rdfili=Clinica</rdtdi> esco rdfs:cange Indica à extensão da propriedade dominio (ou dg um recurso) rot Property rdís:Class
rdfsitabet Fornece um rótulo legível por humanos para um recurso (sujeito) idis:Resource rdis:titeral
«rdidi>Direito a saúde=/rdfi EA
«rdfli>Hospital</rdfili> : rdfs:comment Fornece uma descrição para 6 recurso (sujeito) rdis:Resouce — rdisiLitera!
rdisimember Indica que um recurso é membro de oulro ráls:Resource — idissRescuce
<rdiili>Saúde</rdf:li>. IdisRescurce
rdefirst Indica que o recurso deve ser 9 prímeiro em uma lista ROF. rdliList
«frdf:Seq>
rdkzest Indica os recursos compreendidos em uma lista RDF, apresentados após o cdfiList dE List
“<Hei:palavrachave>:
primeiro recurso.
rdis:sesálso Propicia uma relação de temissiva (ver também) para o recurso em questão rdis:Resource rdis:Rescurce
rdisisDefnedBy Fornece uma definição para O recurso em questão rdis:Resourçe — rdis:Resousce
rdivalue Descreve valores estruturados «dis:Resouroe — rdis:Resquice
Tabela 26: contéiner para descrever recursos com valores sequenciais rdfiStalement— edfs:Resouice
rdfsubject Indica a sujeito em uma declaração RO
rdfpredicate Indica o predicado em uma declaração RDF rdfStatement sdig:Resouiçe
ratobject Indica o objeto em uma dectatação RDF rdf-Statement— «dis:Resource
erdt: Description
sdfiabout="hitpi//www. ol. diigov.brilegisiacaoileidor” >
“<td palavrachaves
«rdt:Bag>
«rdlili>Saiúde</rdfili> Tabela 29: Atributos RDF
«rdf:ti>Clinicas/rdf:li>
<rdfiti>Hospitai</rdf:li> . Elemento Descrição
«rdfiti>Direito a saúde</rdfili>
<«frdf:Bag> Rofiabout Especifica que recurso está sendo descrito
«ted: palaviachaves. Ref: Description Contêiner para a descrição de um recurso
Rdfresource Define um recurso para especificar uma propriedade
Rdfdatatype Define c tipo de dados de um elemento
Rabi Define um ID (atributo identificador) para um elemento
Rabi Define uma fista
Além de classes e de contêineres, a arquitetura RDF propicia diversas Ret.n Define um nó
propriedades e atributos que podem ser utilizadas para a descrição de re- Ref.nodelD Define 0 ID de um elemento nó
cursos. Às tabelas 27, 28 e 29 apresentam, respectivamente, as classes, Rat parseType Define como um elemento deve ser analisado sintalicamente (parsed)
RaERDE Declara o elemento raiz RDF em um documento
propriedades e atributos admitidos pela estruturas RDF e RDFS,

Tabela 27: classes RDF

Nome da classe — Descrição da classe De modo similar ao XMLSchema o RDFSchema foi concebido para
róFAl Descreve contêineres de valores alternalivos.
rdtBag, Descreve contêineres de valores não ordenados fornecer rigor sintático e semântico a um documento e funciona como uma
rofiList Descreve listas de valores
rof:Property Descreve propriedades RDF. E uma subclasse de rdis:Class. extensão para o RDF, fornecendo a arquitetura para a descrição de classes
rdiSeg Descreve contêineres de valores sequenciais e propriedades específicas para certa aplicação (tabela 30).
rdfStalement Ulitizada para realizar declarações RDF
rofixLLitoral É usada para descrever valores lilerais em XML. Pelo código da tabela 30, um mecanismo de inferência pode deduzir
rdfsClass £ a classe das classes em RDF. Uma classe rdfs:Class pode ser uma instância de rdfs:Class (uma instância de
sua própria classe) gue uma lei complementar é um tipo de norma: ou que uma norma pode
rdfs:Container Descreve contéineres RDF, É superclasse de rdf.Att, rdé Bag e rdí:tist
É utilizada para a celinição de tipos de dados em RDF. Cada instância de rdis:Datatype é uma subclasse de ser uma lei complementar ou uma lei ordinária. O mesmo exemplo pode
rofs:Dalalype
rdfs:Lileral
É utilizada para a descrição de valores literais, que padem serallabéticos ou numéricos. E uma subclasse de ser abreviado pelo uso da classe rdfs:Class, ao invés de rdf-Description e
rofs:Literal
rdis:Resource pela eliminação da informação rdf.type. O código resultante pode ser visto
Todas as coisas descritas em RDF são recursos e são instâncias da classe rdfs: resource. Todas as oulras
rofs:Rescurce
classes são subclasses desta classe, À classe rofs:resource é uma instância da classe rdfs:Class. na tabela 31

Organização da informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
112 113

Tabeia 30: exemplo de aplicação de RDFSchema


Essa representação torna o código mais facilmente legível para hu-
Código
<?xml version="1.0"7>
Descrição manos, mas em nada difere em termos de significação para um agente
indicação de inicio de arquivo
declaração de que o arquivo é do tipo inteligente; a diferença básica está na sintaxe, pela redução do número de
RDF:; o conteúdo de xmins:rdfindiça o
<rdERDF uso do vocabulário permitido pelo RDF; q linhas a serem interpretadas, e não no significado.
xmins:rdf= "http:/hwww w3.0rg/1999/02/22-rdf-syntax-nst” conteúdo de xmins:rdfs indica o uso do
xmins:rdis="ht 3. 0rg/2000/0
tp:/Ayw Irdi-schemag”
way vocabelário permitido pelo RDFSchema;
xmbibase= "hHtp:/Avww.cl.df.gov.brilegislacao'> xmibase, indica o UR! dos elementos
permitidos em uma estrutura definida
pelo autor do arquivo 4.4.3.3 OUL
srdf Description rdflD="norma">
<rdfiiype rdfresource="htp:/rmw 3. org/2C00/01rdt- descreve q elemento norma, como uma
schemafíllass "> classe RDF
<irdf, Description> Como já abordado no início deste capítulo, a Web Ontology
<rdf-Description rdfiD="eicomplementar'>
<rdiiype descreve o subelemento
Language (OWL) é uma linguagem de construção de ontologias e que pos-
rdfiresource="http:wyanywa, org/2000/0 tirdf-schemafiClass"/>
«rdis:subClassO! rdf.resource="inorma'f>
leicompiementar como uma subclasse sui suas bases na arquitetura RDF. A OWL destina-se ao processamento
RDF da classe norma
<Ardf-Description>
inteligente de informações na web e foi projetada para ser interpretada por
«rdê Description rdf ID="leiordinaria">
srdfiype
computadores. Em comparação com a RDF, pode-se dizer que as lingua-
descreve o subelemento leiordinaria
rdfiresource="hitp:/Avww w3.0rg/2000/04/rdf-schemanCiass'> como uma subclasse RDF da classe gens são muito parecidas, com a diferença de que a OWL é bem mais
<rdfs:subClassOf rdfiresource="Bnorma'/> norma
«irdf.Description> robusta em termos de interpretabilidade por máquinas do que RDF, por
<irdtiRDF> indica o final de arquivo causa do seu vocabulário mais extenso W3Schools (2004).
A OWL possui três sublinguagens, cada uma sendo uma extensão de
adaptado de W3Schools (2004)
sua predecessora mais simples:
Tabela 31: exemplo de aplicação de RDFSchema (simplificado) a) OWL Lite — fornece suporte para aqueles usuários que necessitam
Código Descrição
primeiramente de uma hierarquia de classificação e de restrições
<?xml version="1.0"2> indicação de inicio de arquivo
simples;
<rdf:RDF xmins;rdf- declaração de que o arquivo é do tipo RDF, o b) OWL DL - destina-se àqueles usuários que querem o máximo de
“Rttp:/any W3.org/1999/02/22-rdf- conteúdo de xmins:rdf indica o uso do vocabulário
syntax-nsf” permitido pelo RDF; o conteúdo de xmins:rdts expressividade enquanto retendo completeza computacional (será
xmins:rdfs="http:/fwyny w3 org/2000/01/r indica o uso do vocabulário permitido pelo
df-schemad” RODE Schema; xmi:base, indica o URI dos
garantido que todas as conclusões serão computadas) e
xml:base= elementos permitidos em uma estrutura definida
“http:/remcl df. gov briegislacao"> pelo autor do arquivo
confiabilidade nas decisões. A OWL DL inclui todos os construtos
srdfs:Class rdfJD=“norma" /> descreve o elemento norma, como uma classe da OWL, mas eles podem ser utilizados somente sob certas res-
RDE
<rdís:Class rdf;|D="leicomplementar"> trições (por exemplo, embora uma classe possa ser uma subclasse
«rdfs:subClassOf descreve o subelemento leicomplementar como
rdf.resource="Fnorma"/> Uma subclasse RDF da classe norma de diversas classes, uma classe não pode ser uma instância de
</rdfs:Class>
uma outra classe). O nome DL corresponde a description logics,
<rdfs:Class rdf |D="leiardinaria">
<rdfs:subClassOf descreve o subelemento iejordinaria como uma um campo de pesquisa que tem estudado as especificações for-
tdfresource="Bnorma"/> subclasse RDF da classe norma
«frdfs:Class> mais da OWL.
<Hdf.RDF>
c) OWL Full - é útil para usuários que querem o máximo de
indica o final de arquivo
expressividade c liberdade sintática em relação ao RDE, sem garan-
Fente: adaptado de W3Schools (2004) tias computacionais. Por exemplo, na OWL Full, uma classe pode

Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Aliton Feitosa
us
1i4

ser tratada simultaneamente como uma coleção de indivíduos e ' sintaxe que utiliza RDF e RDFSchema. A indicação do tipo de sintaxe que
como o próprio indivíduo. OWL Full permite a uma ontologia será usada em um documento é especificada pelo namespace referenciado,
aumentar o significado de um vocabulário pré-definido, seja ele - bem como pelo prefixo usado — a convenção é o uso do prefixo owlx para
a sintaxe XML e do prefixo owl, para a sintaxe XML/RDF. A tabela 37
RDF ou OWL.
indica essas diferentes formas.
A tabela 32 apresenta a estrutura básica de um documento escrito Tabela 33: Namespaces e prefixos OWE
em OWL, que deve possuir: a) uma marcação de início de arquivo, com
Prefixo. Namespace Descrição
a indicação de que é um tipo de XML; b) um cabeçalho de indicação do “Attp:/Avwayw3. org/2003/05/041]-
owix indicação da sintaxe XML
xml”
esquema ou dos esquemas utilizados para a validação sintático-semân- owt “htip:/Marvn 3. 0rg/2002/07/0wl" indicação da sintaxe XML/RDE
tica — em geral são usdados esquemas RDES e XMLS, além do próprio
RDF; c) um corpo, iniciado pelo elemento raiz <ontology>, que indica a
Do mesmo modo que em RDF, a linguagem OWL utiliza estruturas
localização da ontologia principal, definida pelo usuário - que do pon-
to de vista terminológico, pode sc pensada como um arquivo em que
de classes para a organização dos recursos. Assim, cada classe pode forne-
cer um mecanismo de abstração para o agtupamento de recursos e está
estão definidas as relações conceituais num sistema de conceitos; d)
indicação de final de arquivo, dada pelo fechamento do elemento </ associada a um conjunto de objetos individuais, a que se denomina exten-
são da classe. Cada objeto individual em uma classe é denominado instân-
ontology>.
cia de tal classe e possui um significado intensional, Devido a essa concep-
Tabela 32: Estrutura básica de um documento OWL (sintaxe XML) ção, todos os recursos em um documento OWL são descritos como clas-
Código Descrição
ses, subclasses ou propriedades de classes e subclasses. Isso garante, tam-
<?xml version="1,0"7> indicação de início de arquivo bém, à linguagem, a possibilidade de representar significações com base
<sIDOCTYPE Ontology [ indicação de que o arquivo é
<IENTITY xsd uma ontologia que utiliza um em elementos que atuam como funções em algoritmos e que permitem a
“httpitAme
wa. org/2001/XMLSchemag > vocabulário XML Schema
J- definido pela W43C realização de inferências por agentes inteligentes.
elemento raiz, marca o início
das declarações sobre as
A ilustração 21 (p. 114) apresenta a indicação do conjunto de ele-
<«owbx:Ontology
classes; “owixiname=...”
referencia uma ontologia
mentos utilizados na linguagem OWL. Como se pode observar pela ilus-
owix:name="http:/Mmny
cLdf. gov. brileis”
xmins:owix="http:/Mma
WS, org/2003/05/0Wi-ximl">
definida pelo autor, de onde
serão validados os nomes dos
tração a OWL possui grande quantidade de elementos, cuja característica
eiementos; xmins:owix faz principal é serem destinados ao estabelecimento de relações entre classes e
referência ao conjunto de
elementos definidos pelo W3C subclasses, por meio de propriedades e restrições de propriedades. Entre
para a linguagem OW.
cabeçalhos de elementos, bem como números de declarações a respeito das esses elementos há um conjunto importado das arquiteturas RDF e RDFS,
a saber: Class, subClassOf, Property subPropertyOf, domain, range e Indi-
classes, e individuos classes e propriedades

<fowix: Ontology>
indicação de final de arquivo. vidual,
O elemento Class define um grupo de objetos individuais que possu-
Fonte: Adaptado de (W3C,2003c) em características em comum. Classes podem ser organizadas hierarquica-
mente por meio do uso do elemento subCiassOf. Com o elemento
Um documento OWL pode ser escrito com o uso de uma sintaxe rdfs:subClassOf pode-se criar hierarquias para a escrita de uma ou mais
puramente baseada em XML, como apresentado na tabela 32, ou em uma declarações de que uma classe é subclasse de outra. Isso pode permitir

Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
116 17

construções como: uma lei é uma subclasse de norma. De tal modo, um Os elementos de comparação são: eguivalentClass, equivalentProperty,
agente inteligente pode deduzir que se um objeto é uma lei, então é uma sameAs, differentFrom e AUDifferent. Duas classes são ditas equivalentes se
norma. O elemento rdf:Property pode ser utilizado para estabelecer relacio- possuem as mesmas instâncias. O elemento equivalentClass pode ser utili-
namentos entre indivíduos ou entre indivíduos e valores de dados. Ex.: Na zado pata criar classes sinônimas. Por exemplo, a classe Deputado porde ser
declaração uma lei possui autor, os indivíduos lei e autor podem ser liga- 'definida como eguivalentCiass em relação a Parlamentar, dessa forma qual.
dos por uma propriedade temautor. O elemento rdfs:subPropertyOf é uti. quer agente inteligente poderá concluir que um Deputado é também um Par-
lizado para indicar que um indivíduo pertence a uma classe de um domí.. lamentar e vice-versa, Propriedades equivalentes são utilizadas para relacio-
nio, pelo fato de possuir uma propriedade que se inscreve em tal classe, Q ' nar um indivíduo com outro na mesma classe. Dito de outro modo, o ele-
elemento rdfs:range limita os valores de uma propriedade em relação a mento equivalentProperty pode ser utilizado para declarar propriedades si-
certo domínio. O último elemento do conjunto, Individual, refere-se a um - “nônimas. O elemento sameAs é usado quando se deseja especificar que dois
objeto individual como uma instância de uma classe e suas propriedades indivíduos devem ser tratados como um só. Por exemplo, o indivíduo <Rui
são utilizadas para estabelecer suas relações com outros indivíduos da “ “ Barbosa> é o mesmo que <SenadorRui>. O elemento differentFrom é usado
mesma classe. - para definir que um indivíduo é diferente de outros indivíduos. AliDifferent
“indica que os indivíduos de uma lista são mutuamente diferentes, quando
tais indivíduos são comparados entre si.
Entre os elementos que definem propriedades de características, es-
Iistarmação de
preenchimento sstmgs tabelecendo comparações entre elas ou restrições, estão: inverseOf,
Combinações bogicanas
de expressões de classe TransitiveProperty, — SymmetricProperty, FunctionalProperty,
Informação de cabeçalho
e InverseFunctionalProperty, alValuesFrom e someValuesFrom. O elemen-
to inverseOf indica que uma propriedade é o inverso de outra. Por exem-
Fropriadades de
RDI | “ pio, se a propriedade autorde é inversa à propriedade foiescritapor, diante
Caracteristicas
da declaração <Jorge Amado> autorde <Lei nº 1> um agente pode deduzir
que <Lei nº 1> foiescritapor <Jorge Amado>. TransitiveProperty é utilizada
Reskyicénes de
Cardunalidade *
Laet
para indicar a associtividade entre três ou mais propriedades. Por exemplo,
aldade e desigualdade “ se um par (x,y) é uma instância de P, e o par (y,Z) é uma instância de P, então
O arbitrária
o par (x,7) é, também, uma instância de P. SymmetricProperty é utilizada
intesecuvad! — Interseeção de e para indicar a comutação entre duas propriedades. Por exemplo, se o (x,y)
Tm “Elementos OW
DT
Nm rledados de
é uma instância de P, então o par (y,x) é também uma instância de P.
Proprlndades de reto au
| nestrição
q EE
FunctionalProperty indica um valor único para uma propriedade. Uma pro-
priedade declarada como FunctionalProperty não pode ter mais de um va-
lor para cada indivíduo em uma classe. Entretanto, pode ter valores nulos
to dee
dc exiomas |
Controle de vorsões, para um indivíduo. InverseFunctionalProperty indica um valor unívoco
Tipos de dados
para uma propriedade, isto é, se uma propriedade como possuiCPF for
declarada do tipo InverseFunctionalProperty, não poderá haver duas ins-
tâncias individuais que possuam CPFs idênticos. O elemento allValuesFrom
Husiração 21: Elementos da linguagem OWL indica restrição de valores de propriedades em relação a uma classe, isto é,
Organização da Informação na web: das tags à web semântica
Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
1148 tg

essa propriedade, em uma classe particular, possui uma extensão restrita. 'e Mulher podem ser declarados como classes distintas entre si. Ássim, um
Dito de outro modo, todos os valores admitidos para essa propriedade. mecanismo de inferência pode identificar que se um indivíduo é uma ins-
vêm de uma classe definida. Diferentemente de allValuesFrom, uma pro tância de uma classe, não poderá ser instância da outra. Em outras pala-
ptiedade definida como someValuesFrom não restringe todos os valores: “yras, se Cecilia Meireles é uma instância de Mulher, então não é uma ins-
admissíveis a uma mesma classe. Isto significa que alguns dos valores ado ância de Homem.
mitidos podem advir de uma classe determinada. co A ilustração 22 apresenta uma esquematização dos elementos OWL
Os elementos de restrição de cardinalidade da linguagem são; segundo os aspectos sintáticos. O elemento, raiz é o elemento ontology, ao
minCardinality, maxCardinality e cardinality. O elemento minCardinality. “qual estão subordinados outros grupos de elementos que compõem a es-
indica os valores mínimos (O ou 1) que podem ser assumidos por uma “rutura da linguagem. Os elementos de cabeçalho são aqueles utilizados
propriedade. Em outras palavras, indica se o valor de uma propriedade é “nara descrever o documento OWL em relação a características como ver-
no mínimo O ou no mínimo 1. O elemento maxCardinality indica os valé «são, compatibilidade com outras tecnologias, bibliotecas que estão sendo
res máximos (0 ou 1) que podem ser assumidos por uma propriedade. Em. “importadas ou outros comentários que se julgue necessários ao arquivo.
outras palavras, indica se o valor de uma propriedade é no máximo O o
no máximo 1. Finalmente, cardinality indica um valor exato que pode set.
assumido por uma propriedade. Nas versões OWL DL e OWL Full, esses.
Imports

elementos são expandidos, e permitem o uso de números inteiros positivos Anmotatior


BataProperivvatve | Individual [axioma] Differentindividuals
para a indicação de relações de cardinalidade. Enquanto em OWL Lite as OlmectPrapertyValos
minCardinalty
cardinalidades podem ser indicadas por ao menos, no máximo e exatas DataTyperraperty EquivalentProperties
cardinality
ObjectPropertytD masfardinality
mente Q ou 1, nas versões DL e Full, outros valores podem ser indicados, DstaRestriction
alvaluesT rom
some Vattars fun
Além desses elementos, outros elementos que podem ser destacados DisjaintClasses [D,F]
chasVatete [0,E]
no escopo da linguagem OWL são aqueles que definem relações de
intersettiengl
label annotation Complemento!
Descanso tatieoo Àp Ato tao,
intersecção (intersectionOP), enumeração (oneOf), valoração (hasValue), Class Description “Uiminnor

disjunção (disjointWith) e união (unionOf. A formulação de declarações


Qnedr

Incompatiblewith Class IO
minCardinatity
que denotam a intersecção entre determinadas classes é feita com o eleme BackwardCompatiblewWith
fearainatiay

to intersectionOf é indica que certas instâncias de uma classe estão em | ObjectResqreison -

como unionOf, PriocVersion ev tus


outra e vice-versa. Combinações entre elementos + dhasValazo (0,F]
ceciaito A Sto |
complementOf e intersectionOf podem ser utilizadas, nas linguagems OWL Version a:
Samelsdividual JuividuattO
DF e OWL Full, para a construção de frases booleanas. O elemento oneO).
pode ser utilizado para descrever uma classe por meio da enumeração dos s SuEa
Supéi
br)FP O
rs
m |ubClassOf (D,F] SuperPropent
dom

seus indivíduos e indica que os membros de uma classe são exatamente O


ObjectProperty | See
1 Class 1D
anger
Cass tp qu FquivalentClasses edil descriptioa
conjunto de indivíduos enumerados, nem mais, nem menos. O elemento description JD.FE)

hasValue pode ser utilizado para declarar um valor específico para umã
Data Iypeêraperty 3
. SubPropertyor AESA —
sperPrapery perty £ objeciProperty Jo

propriedade. Por exemplo, hasValue pode ser usado para indicar que, para
; domain | DatatypeProperty
OregfldMa] cane, Amuatation
um indivíduo da classe Automovel, o valor esperado para o valor da pro:
EnumeratedCiass
É Individual

priedade propulsão é “a motor”. Classes podem ser declaradas distintas


umas das outras por meio do elemento disjointWith. Por exemplo, Homem Hustração 22: Conjunto de elementos da linguagem OWL
Fonte: (W3c, 2003c)

Organização da informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa
Ailton Feitosa
120 121

4.5 Resumo do Capítulo *” Uma ontologia é uma especificação explícita de uma conceituação.
Nessa definição: conceituação refere-se a um modelo abstrato de
“ Desde a sua concepção, a web passou por estágios evolutivos que. algum fenômeno, sendo identificados os conceitos relevantes des-
podem ser classificados em três gerações. A primeira geração, base: . se fenômeno; explícita significa que o tipo de conceitos utilizados
ada na linguagem HTML, tornou possível a exibição dos docu-. e as restrições a esse uso são explicitamente definidos; formal refe-
mentos independentemente de sua localização física; a segunda; tre-se ao fato de que a ontologia deve ser legível por máquina; com-
geração tornou possível o uso de diferentes formas de apresenta-: partilhada reflete a noção de que uma ontologia captura um co-
ção para a mesma estrutura de um documento, com base na lin- nhecimento consensual, isto é, não privativo de um indivíduo, mas
guagem XML; a terceira geração, a da web semântica, consiste na: aceito por um grupo (GRUBER, 1993, apud GOMÉZ-PÉREZ,
separação do significado de sua estrutura, isto é, estende a noção 2000).
de “documento” com a possibilidade de “semântica legível por: Do ponto de vista da representação do conhecimento, uma
máquina”. ontologia não deve ser concebida apenas como um vocabulário
A idéia da web semântica não é nova: a verdadeira Internet revolu-. informal, ou mesmo como uma linguagem de termos estruturados
cionária, pensada em 1989 por Berners-Lee e retomada em 2001, —- como um tesauro, por exemplo —, mas requer uma possibilidade
no artigo The Semantic Web, ainda está por chegar; de interpretação algorítmica dos seus significados e, por conse-
A Web Semântica é uma estrutura de representação de dados na guinte, uma representação em uma linguagem formal, cujo
World Wide Web, por meio de um esforço colaborativo liderado: processamento dos significados pode ser realizado por máquinas;
pelo W3€C, com a participação de pesquisadores e de empresas de. Na gênese das linguagens de marcação e de especificação de
desenvolvimento de software de todo o mtindo; ontologias para a Web Semântica encontra-se a XML, que fornece
O principal objetivo da Web Semântica é habilitar os computado-. uma sintaxe básica para a estruturação de documentos, mas não
res a usarem as informações disponíveis não apenas com propósi- possui elementos que lhe permitam impor restrições semânticas
tos de exibição, se não, também, com possibilidades de automação ao significado de tais elementos. Fundados nessa linguagem estão
integração e reuso em diferentes sistemas. Tais informações deve os padrões XML-Schema, RDE, RDF-Schema, DAML+OIL, OWL,
rão ser organizadas por meio de uma linguagem com característi- entre outros. XML-Schema impõe restrições sintáticas à estrutura
cas tais que permita o estabelecimento de regras de inferência, for-:. de documentos escritos em XML. RDF é um modelo de dados
necendo também as regras para extração de conhecimento por sis-: para objetos ou “recursos” e tal modelo pode ser representado uti-
temas inteligentes; trata-se de uma Internet de significados; lizando-se a sintaxe da XML. RDF-Schema é um vocabulário para
As ontologias, apoiadas na concepção de Uniform Resource: a descrição de propriedades e classes de um modelo RDE, com a
Identifier (URI), são o elemento basilar na construção da Web Se- utilização de elementos semânticos para a generalização de tais
mântica, pois acredita-se que favorecerão um entendimento comum propriedades e classes. Complementando todas essas tecnologias,
e compartilhado sobre um determinado domínio de conhecimen- a OWL fornece mais vocabulário para a descrição de propriedades
to, tanto entre pessoas como entre computadores; e classes, por meio de: a) relações entre classes — por exemplo:
disjunção; b) cardinalidade — por exemplo: univocidade; cJigualdade;

Organização da Informação na web: das tags à web semântica Organização da Informação na web: das lags à web semântica
Ailton Feitosa Ailton Feitosa
322 123

d) maior riqueza de propriedades para a especificação de tipos de.


dados; e) propriedades relativas a características — por exemplo;
simetria; e) enumeração de classes (W3C, 2003). Esses são, tam-:
bém, os objetivos da linguagem DAML+OIL (QUELLETOGBUIJI,
2002); 5 Considerações Finais
” Esses padrões aplicam-se à representação semântica de diferentes
domínios do conhecimento, em diferentes idiomas e culturas.

Ao longo dos anos, os métodos e as técnicas de organização da in-


formação na web foram se alterando, de tal maneira a evoluírem da primei-
ra à terceira geração. À primeira geração revolucionou as formas de comu-
nicação, permitindo o acesso remoto a documentos, independentemente
de localização, de sistema operacional e de plataforma de hardware. A se-
gunda geração propiciou a flexibilidade na apresentação de conteúdos, uma
vez que favoreceu a separação entre metodologias de formatação e de
armazenamento de informações. A partir desse paradigma, tornou-se pos-
sível apresentar o mesmo conteúdo em diversos formatos e suportes. À
segunda geração da web, por meio da linguagem XML, revolucionou tam-
bém as formas de integração entre os diversos sistemas de bancos de da-
dos. À terceira geração, iniciada há quase uma década, mas ainda em fase
de desenvolvimento, espera apresentar sua parcela de contribuição nessa
sucessão de revoluções: a extração automática do conteúdo semântico da
informação contida nas páginas da web.
Como sustentáculo desses modelos e tecnologias utilizados na web,
antigos e, por que não dizer, novos conceitos originários da Ciência da
Informação, patenteiam sua contribuição incontestável. Modelos clássicos
de organização da informação como os sistemas de classificação, as lin-
guagens documentárias € os sistemas de indexação manual, semi-automá-
tica e automática, desempenham importantes contribuições em diferentes
iniciativas que, em seu âmago, empenham-se sempre na mestma direção: a
melhoria dos processos de busca e recuperação na Internet. Não é divergen-
te o objetivo de metodologias mais recentes como, por exemplo, os proje-
tos Dublin Core, TEI, GILS, para citar alguns entre os conjuntos de
metadados pesquisados a partir de anos recentes. As taxonomias também
têm sido incluídas no catálogo de esforços aqui enumeráveis.

Organização da informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
124 125

Ao lado desses padrões e metodologias, as ontologias procuram es-.


tabelecer relações entre conceitos, objetos e classes de objetos, tomando:
suas propriedades constitutivas para análise. As ontologias da Web Se-
mântica procuram, assim, representar e descrever o conhecimento de certo
domínio por meio da expressão formal dos relacionamentos entre os con- :
ceitos específicos daquele campo científico, profissional ou técnico. Essa :
Bibliografia
formalização, que utiliza modelos como RDF, RDE-Schema, DAML+OIL,
OWL, entre outros, pretende o alcance da capacidade de fornecer a um :
agente inteligente a instrução necessária para estabelecer comparações en- BAEZA-YATES, R.: RIBEIRO NETO, B. Modern Information Retrieval. New
tre os conceitos, de tal modo que, partindo dessas comparações, um meca- * York: Addison-Wesley, 1999. 513 p.
nismo possa realizar inferências sobre tais conceitos. Em outros termos; BAX, M. P., CAMPOS, F. Como as Máquinas de Busca Indexam Páginas HTML,
buscam-se métodos de se fornecer os instrumentos para que os agentes: na Web In: Congresso Brasileiro de Biblioteconomia e Documentação, 2000, Rio
inteligentes consigam extrair conhecimento da informação publicada. Grande do Sul,
Muitos passos ainda serão necessários até que a humanidade consi- BERNERS-LEE, T. Information Management:A proposal. CERN; 1989. Disponível
ga trilhar os caminhos aqui mencionados. Apresentando os conceitos aqui. em: <http://wwmaw3.org/History/1989/proposal,html>, Acesso em: 07 mai, 2003,
revistos, esta obra pretendeu, assim, oferecer seu estímulo como sendo um BERNERS-LEE, TF. Semantic Web road map. 1998b. Disponível em: <http://
pequeno impulso nervoso a sugerir que os músculos iniciem sua jornada... www w3.org/Designlssues/Semantic.html>. Acesso em: 09 mai. 2003,
na direção dos trilhos da Web Semântica. BERNERS-LEE, T. Uniform Resource Identifiers (URI): Generic Syntax. 1998a.
- Disponível em: <http://www.ietf.org/rfc/rfc2396.txt>. Acesso em: 06 mai. 2003.
'* BERNERS-LEE, T. Web Architecture from 50,000 feet. 1999. Disponível em:
<http://wwrww3.org/Designlssues/ Architecture .html>. Acesso em: 05 mai, 2003.
BERNERS-LEE, T.; HENDLER, |.; LASSILA; O. The Semantic Web. Scientific
American.com. 2001. Disponível em: <http://www.sciam.com/
article.ciím?articlelD=00048144-10D2-1€70-
- 84A9809EC588EF2! &pageNumber=2&catID=2>. Acesso em: 06 mai. 2003.
BOSAK, J.; BRAY, T. KML and the Second-Generation Web, Sctentific American,
New York. May, 1999. Disponível em: «<http://www.sciam.com/
article.cfm?articleID=0008C786-91DB-1CD6-B4A8809EC588EEDF>. Acesso em:
12 mai. 2005,

BOWMAN, J. K. Search Engine optimization and web site promotion, 2004,


- Disponível em: <http://spider-food.net/>. Acesso em: 16 dez. 2004.
* BRICKLEY, D. Semantic Web history: nodes and arcs 1989-1999, The www
proposal and RDF. 2001. Disponível em: <http://www.w3.0rg/1999/11/11-
: WWWProposal>. Acesso em: 09 mai. 2003.
CARNEIRO, M. V. Diretrizes para uma política de indexação. Belo Horizonte:
Revista da Escola de Bilbioteconomia. UFMG, 14(2):221-241 set. 1985.
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
126 127

CAVALCANTI, €. R., Indexação. In: Estudos avançados em biblioteconomia e HAROLD, E. R.; MEANS, WS. XML in q Nutshell, 2nd Edition. Gravenstein
Ciência da Informação, volume 1. Brasília: ABDF, 1982. : Highway North, Sebastopol, CA: O'Reilly & Associates Inc. 2002,

CENDÓN, B. V. Ferramentas de busca na Web. Ciência da Informação, Brasília HYVÔNEN, E. The Semantic Web — The new Internet of Meanings. In: HY VÔNEN,
v. 30,n. 1, p. 39-49, jan./abr, 2001. Eero (editor). Semantic Web Kick-Off in Finland: vision, technologies, research
and applications. Helsinki, Finland: HIT Publications. 2002. Disponível em: <http:/
COMITÊ GESTOR DA INTERNET NO BRASIL. Indicadores - Crescimento da
Awuna.cs.helsinki.fi/u/cahyvone/stes/semanticweb/kick-off/index .html>. Acesso
Internet. Disponível em: <http://www.cg.org.br/indicadores/brasil-
em: 26 mai, 2003.
mundo.htmmundo>. Acesso em: 22 ago. 2004.
KARTOO. Sistema de ajuda do site. Disponível em: <http://wwrw.kartoo.net/a/
DACONTA, M. The Semantic Web. A guide to the future of XML, Web Services,
en/aide01 .html>, Acesso em: 05 out. 2004.
and Knowledge Management. Indianapolis, Indiana: Wiley Publishing Inc. 2003, -
DAY, M.. Metada Formats. In: DESIRE Information Gateways Handbook. 2000 LANCASTER, F. W. Indexação e resumos: teoria e prática. Brasília: Briquet de
Lemos Livros, 1993. 347 p.
Disponível em: <http://www.desire.org/handbook/2-3.html>. Acesso em: 16 dez,
2004. LASSILA, O. Introduction to RDF metadata. 13/11/1997, Disponível em: <http:/
DEMPSEY, L.; HEERY, R, Metadata: a current view of practice and issues, Bath forrwy3.org/TR/NOTE-rdf-simple-intro>. Acesso em: 15 mai. 2003.
United Kingdom: UKOLN - The UK Office for Library and Information . LIMA, F. Modelagem Semântica de Aplicações na WWW. 2003, Tese (Doutorado
Networking, University of Bath, 2000. Disponível em: < http://wwrwukoln.ac.uk/:. em informática) - Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro,
metadata/publications/jdmetadata/>. Acesso em: 24 dez. 2004. Brasil.
DICTIONARY.COM. 2004, Disponível em: <http://www.dictionary.com>. MAEDCHE, A. Development and applications of ontologies. Institute AIFB,
DOGPILE, About DogPile. Disponível em: <http://www dogpile.com/info.dogpl/: Knowledge Management Group, University of Karlsruhe, Germany. 2000.
search/help/about.htm>. Acesso em: 05 out. 2004. : Disponível no endereço <http://events.aifb uni-karisruhe.de/ontologytutorial/
fgmi2000/tutorial fgmi.pdf>. Acesso em: 08 abr. 2003.
FERREIRA, A, B. de H, Novo Dicionário da Língua Portuguesa. Rio de Janeiro
Editora Nova Fronteira, 1980. MARCO, D. Building and Managing the Metadata Repository: A Full Lifecycle
Guide. New York: John Wiley & Sons, Inc. 2000.
FURGERI, Sérgio. Ensino didático da linguagem XML. São Paulo: Érica, 2001.
MILLER, E.:; KOIVUNEN, M. W3C Semantic Web Activity. In HYVÔNEN, Eero
GOMÉZ-PÉREZ, A. Ontological Engineering: a state of the art. Expert Update
(editor) Semantic Web Kick-Off in Finland. Vision, technologies, research and
1999. Expert Update. Ontono 2(3): 38-43. Disponível em: <http://:
applications. Helsinki, Finland: HIIT Publications. 2002. Disponível em: [http://
citeseer.ist.psu.edu/cache/papers/cs/22343/
wunm.cs.helsinki.fi/u/eahyvone/stes/semanticweb/Kkick-off/index.html]. Acesso em:
http:zSzzSzwww.csc.livac.ukzSz-franszSzExpertUpdatezSzontologies.pdf/:
26 mai, 2005.
ontological-engincering-a-state.pdf>. Acesso em: 17 jul, 2004.
MOLE — Text Analysis Group. Boolean Retrieval. 1999a, Disponível em: <http:/
GUARINO, N.; WELFY, C. Supporting ontological analyses of taxonomic.
relationships. Data & Knowledge Engineering, v. 39, 2001. p. 51-74. Disponível fisp.imm.dtu.dlk/thor/projects/multimedia/textmining/node2 .html>. Acesso em:
09 set. 2005.
em: http://www loa-cnr.it/Papers/dke2001 pdf. Acesso em: 21 nov. 2004,
GUINCHAT, C, MENOU, M. Introdução geral às ciências e técnicos da informação : - MOLE -. Text Analysis Group. Probabilistic Retrieval. 1999c. Disponível em:
e documentação. Brasília: IBICT, 1994. 540p. : <http://isp.imm.dtu.dk/thor/projects/multimedia/textmining/node?
.htmil>, Acesso
em: 09 set. 2003.
HARMAN, Donna. Automatic Indexing. In: Challenges in Indexing Electronic;
Text and Images. Medford, New Jersey: Asis, 1994, p.247-264 MOLE — Text Analysis Group. Vector Space Model. 1999b. Disponível em: <http:/
/'isp.imm.dtu.dk/thor/projects/multimedia/textmining/node2 .htmi>, Acesso em:
HAROLD, E. R. XML bible. Foster City, CA: IDG Books Worldwide, Inc. 1999. 09 set. 2003.

Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semêntica
Ailton Feitosa Ailton Feitosa
128 129

NAFRÍA, I. El futuro de Internet tiene nombre: la web semântica. 23/05/2001, A19C-37BF727DBBB!|&XSLTRANSID DEFAULTPAGE>. Acesso em: 05 out.
Disponível no site Baguía.com: http://www. baquia.com/com/200105237:. 2004.
art00008.html, Acesso em: 07 nov. 2003.
QUIVEY, M. A. The Semantic Web The Future of Our Online Experience. EDL547
NAKAYAMA, H. Anúlise Temática da Informação. Nota de aula da disciplina. New Technology Research Paper. MTL Program — University of Hlinois. 22/04/
Análise Temática, do curso de Doutorado, Departamento de Ciência da Informação . 2002. Disponível em: <http://students.uis.edu/mquiv01 s/Semanticweb.html>.
e Documentação, Universidade de Brasília, 29/03/2001. Acesso em: 12 mai. 20053.
NISO Press, ANSE/NISO £39.85-2001 — The Dublin Core Metadata Element Set: REGISTRO.BR. Domínios Registrados por DPN. Disponível em: <http://
Bethesda, Maryland, USA: NISO Press, 2001. Disponível em: <http://: registro.br/estatisticas.htmi>. Acesso em: 22 ago. 2005.
www.niso.org/standards/resources/Z39-85,pdf>. Acesso em: 24 dez. 2004.
ROBREDO, J. A indexação automática de textos: o presente já entrou no futuro.
NISO Press. Understanding Metadata. Bethesda, Maryland, USA: NISO Press; In: MACHADO, U. D. (editor). Estudos avançados em Biblioteconomia e Ciência
2004. Disponível em: < http://www.niso.org/standards/resources/ da Informação. Volume I. Brasília: ABDF, 1982.
UnderstandingMetadata.pdf>. Acesso em: 24 dez. 2004. .
ROBREDO, J.; CUNHA, M. B. Documentação de hoje e de amanhã: uma
NOY, N.; MCGUINNESS, D. Ontology Development 101: A Guide to Creating
abordagem informatizada da biblioteconomia e dos sistemas de informação. São
Your First Ontology. Stanford University, 2004. Disponível em: [http://. Paulo: Global, 1980.
protege.stanford.edu/publications/ontology. development/ontology t01.pdf]
SCIRUS. About Scirus. Disponível em: <http://www.scirus.com/srsapp/aboutus/
NUA - INTERNET SURVEYS. Ecommerce 1998-2005. Disponível em: <http://.
>. Acesso em: 05 out. 2004.
www-nua.com/surveys/analysis/graphs, charts/comparisons/ecommerce us.html>.
Acesso em: 22 ago. 2003. 2003b. SEMANTIC web primer. 2002. Disponível em: http://uwimp.com/co.htm. Acesso
em: 15 mai. 2005.
NUA - INTERNET SURVEYS. How Many Online? Disponível em: <http://:
www.nua.com/surveys/how
many online/index.html>. Acesso em: 22 ago. 2003, SEOCONSULTANTS.COM. History of Search Engines and Directories - Search
2003a. Engine History, 2004. Disponível em: <http://wwrw seoconsultants.com/search-
NUTCH. Sobre. Disponível em: <http://wwwnuteh.org/does/pt/>. Acesso em:. engines/history/>. Acesso em: 19 jul. 2004.
19 set, 2004. SEOCONSULTANTS.COM. Meta Tags - Metadata Elements. 2004a. Disponível
ONTOKNOWLEDGE. Welcome to OIL. Diponível em: <http:// em: <http://www.scoconsultants.com/meta-tags/>. Acesso em 26 dez. 2004.
www ontoknowledge org/oil/>, Acesso em: 12 nov, 2004. SERVER WATCH. December 2004 Neteraft Survey Highlights. Disponível em:
OQUELLET, R.; OGBUJE, U. Introduction to DAME: Part I. Publicado em 30/01/: <http://wrwrw.serverwatch.com/stats/neteraft/article.php/344445 1>, Acesso em:
2002, Disponível em: <http://wwrwml.com/pub/a/2002/01/30/damll
.html>; 12 dez. 2004.
Acesso em: 12 nov, 2004. STUCKENSCHMIDT, H.; VAN HARMELEN, E Information Sharing on the
PALMER, S. B. The Semantic web: an introduction. 2001, Disponível em: <http:/, Semantic Web. 2003. Copiado da Internet por meio do aplicativo E-mule <hitp:/
'infomesh.net/2001/swintro/>, Acesso em: 17 mai. 2003. / wwrw.emule-project.net>. Acesso em: 15 nov. 2004, (manuscrito)
PIEDADE, M. A, R. Introdução à teoria da classificação. Rio de Janeiro: SULLIVAN, D. Major Search Engines and Directories. Publicado em 28 abr. 2004.
Interciência, 1977. 190 p. Disponível no site Search Engine Watch <http://searchenginewatch.com/links/
article.php/2156221>. Acesso em: 13 set. 2004.(b)
POWERS, S, Paractica! RDF. Sebastopol, CA: O Reilly & Associates Inc. 2003.
350 p. SULLIVAN, D. Score Media Metrix Search Engine Ratings. Publicado em 23 jul,
2004. Disponível em: <http://scarchenginewatch.com/reports/article.php/
PROFUSION. Help. Disponível em: <http://www.profusion.com/.
2156431>, Acesso em: 20 set. 2004. (a)
utiLasp?TID=XSLTRANSID HELP&cobid-ess&sid=[90745228-FOB1-4F40-

Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
to
130 131

SULLIVAN, D. Who Powers Whom? Search Providers Chart. Publicado em 23:


WALL, A. Keyword Phrases and the Meta Keywords Tag. 2004a. Disponível em:
jul, 2004. Disponível no site Search Engine Watch <http://searchenginewatch.com/ <http://wwrw.search-marketing.info/search-engine-history/index.htim>, Acesso em:
reports/article.php/2156401>, Acesso em: 20 set. 2004.(c)
26 dez. 2004.
SWARTZ, A. The Semantic Web In Breadth. 2002. Disponível em: <http://
' WALL, Aaron. History of Search Engines & Web History. 2004, Disponível em:
logicerror.com/semanticWeb-long>. Acesso em: 16 mai. 2003.
<http://urwrw.search-marketing.info/scarch-engine-history/index.htm>, Acesso em:
TAYLOR, €. An Introduction to metadata. 2003. Disponível em: <http:// 19 set. 2004.
www.library.ug.edu.au/iad/ctmeta4.html>, Acesso em: 16 dez. 2004.
WILLEY, ]. A kistory of search engines. Disponível em: <http://wwnw-wiley.com/
USCHOLD, M; GRUNINGER, M. Ontologies: principles, methods and; legacy/compbooks/sonnenreich/history.html>. Acesso em: 19 set, 2004.
applications. Edinburg: The University of Edinburg, 1996. Disponível em: <hittp:/
“YAHOO. How do 1 improve the ranking of my web site in the search results?
/wwrw.aiai.ed.ac.uk/project/pub/documents/1996/ 96-ker-intro-ontologies.pss.
2004. Disponível em < http://help.yahoo.com/help/us/ysearch/ranking/ranking-
Acesso em: 15 jul. 2004, 02.html>. Acesso em 26 dez. 2004.
VALENTINE, €; WINNICK, C. XHTML. Rio de Janeiro: Campus, 2001.
VIVÍSSIMO. Help. Disponível em: <http://vivisimo.com/help.html>. Acesso em;
05 out, 2004.
WS5C Resource Description Framework (RDF): Concepts and Abstract Syniax,
2004. Disponível em: < http://www. w3.0rg/TR/2004/REC-rdf-concepts-20040210/
> Acesso em: 21 dez. 2004,
W5C. HTML 4.01 Specification. 24/12/99. Disponível em: http://www w3.org/
TR/REC-html40/cover htmléminitoc. Acesso em: 10 nov. 2003.
WS5C. HyperText Markup Language (HTML) Home Page. 11 abr 2003. Disponível '
em: http://www w3.org/MarkUpr. Acesso em: 10 nov. 2003.
W5€, OWL Web Ontology Language - XML Presentation Syntax. 2003c. Disponível
em: <http://www w5.org/TR/owl-xmisyntax/fsubsec-struc>. Acesso em 27 set.
2004.

W5C, RDF Vocabulary Description Language 1.0: RDF Schema. 2004b. Disponível
em: <http://wwrww3.org/TR/rdE-schema/ich, introduction>. Acesso em: 21 dez,
2004.

WS3C, Resource Description Framework. 20034. Disponível em: <http://'


www w3.0rg/RDF/>, Acesso em: 05 mai. 2003.
W5C. Semantic Web. 2003b, Disponível em: <http://swww.w3.0rg/2001/sw/>.
Acesso em: 05 mai. 2003,
W5C. XML Schema Part O: Primer Second Edition. 2004a. Disponível em: <http:/
fwrwwow3 org/TR$xmischema-0/>. Acesso em: 30 dez, 2004.
W3SCHOOLS. Rdf Tutorial, Disponível em: <http://www.w3schools.com>.
Acesso em: 18 nov. 2004,

Organização da Informação na web: das tags à web semântica


Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
OpGaniZAÇÃO BA INFORMAÇÃO HA WEB: DAS TAGS À
WEB stMÂNTICA foi composto em ti-
pelogia Life, corpo 10,5pt e
impresso em papel Paperfect
75g nas oficinas da tHEsAU-
RUS EDITORA DE BRASÍLIA. Ácabou-
se de imprimir em agosto de
2006, oitavo mês do sexto ano
do Terceiro Milênio.

Você também pode gostar