Escolar Documentos
Profissional Documentos
Cultura Documentos
ÁAiLTON FEITOSA
e
É :
ç u
o
É
E:
x
E : :
Estudos Avançados em Ciência da Informação - V. 2
|
é
O Ailton Feitosa — 2006
Érie
O Ciência da Ficha Técnica
Informação e da
«1 Comunicação Revisão: O autor
. e, Projeto gráfico: Cláudia Gomes
Presidente Editorial Capa: Victor Tagore
Antonio Miranda - UnB
1. Organização da infor-
mação. 2. Indexação na web.
3. Recuperação na web. |. Tf-
tulo
CDU: 007
CDD: 001.5
ISBN: - 85-7062-568-5
THESAURUS EDITORA DE BRASÍLIALTDA. SIG Quadra 8, lote 2356 - CEP 70810-480 - Brasília, DF. Fane:
(061%) 3344-3738 — Fax: (081) 3344-2353, www.thesaurus. com.br, e-mail: editor E thesaurus. com.br — Contato ações inacabadas, opacificadas ao longo do tempo.
com o autor: mamede Sunb.br
ÉÉ
, KIWC Keyword in Context
LDAP Lightweight Directory Access Protocol
MIDI Musical Instruments Digital Interface
NISO National Information Standards Organization
OIL Ontology Inference Layer
OWL Web Ontology Language
PDF Portable Document Format
RDF Resource Description Framework
Í RDF'S Resource Description Framework Schema
É
RFC Requests for Comments
SGML Standardized Markup Language
TEI Text Enconding Iniciative
URI Universal Resource Identifier
URL Universal Resource Locator
ao URN Nome Uniforme de Recurso
W3C World Wide Web Consortium
WEB World Wide Web
WS Web Semântica
Organização da Informação na web; das tags à web semântica E Organização da Informação na web: das tags à web semântica
Ailton Feitosa : Ailton Feitosa
19
a
1 Introdução
Ea
O advento do serviço World Wide Web na Internet proporcionou
de com-
grande crescimento na quantidade de informações, de usuários e
EuÊ
putadores ligados à rede. De acordo com dados das instituições de pesqui-
DO ana broa
mundo, dados
sa NUA Internet Surveys! e Nielsen NetRatirgs?, em todo o
pessoas com
do ano de 2003 apontavam para cerca de 605,60 milhões de
É
cerca de 14,5
acesso à Internet (tabela 1) e, no Brasil, em julho de 2003,
até
milhões. Segundo estimativas da NUA, somente nos Estados Unidos,
atingin-
o final de 2003, foram realizados negócios entre empresas na rede
Gestor
do a soma de 1,3 trilhão de dólares (ilustração 1). Dados do Comitê
E
de 2004,
da Internet no Brasil (2004), indicavam a existência, em janeiro
distri-
de mais de 223 milhões de servidores de Internet em todo o mundo,
a Aard
as posições
buídos entre trinta países. A tabela 2 apresenta as dez primeir
dessas esta-
nessa classificação, destacando o Brasil em 8º lugar. Ao lado
o.br
tísticas, o Serviço de Domínios para a Iniernet no Brasil - Registr
pan
:
de 509 mil
(http://registro.br) contabilizava, em dezembro de 2003, mais
de mais
domínios em todo o país, número que está hoje (2006), na ordem
de sites
de 859 mil (ilustração 2). Em todo o mundo são quase 57 milhões
ando as informa -
publicados na web (SERVER WATCH, 2004). Atualiz
m para
dd ções para o ano de 2005, pesquisas do site ClickZnetworik? aponta
número
um número de 1,08 bilhão de usuários, sendo 22,32 milhões o
à
12,52 milhões
global de brasileiros com acesso à rede, dos quais cerca de
o número de
são usuários ativos. A previsão para o ano de 2010 é de que
usuários da Internet em todo o mundo salte para 1,8 bilhão.
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
R
Tabela 1: Quantidade de usuários conectados à internet
em todo o mundo em 2903 Domínios Registrados por DPN - 1101/2006 07:00:00
eee am
4 »PN QUANTIDADE 8
co DEH QUANTIDADE
Totalmundial 605600
Profissionais Liberais
É o Entidades 1253 0.18
Afica BM 340 0.04 ADH.BR
E AGR. BR 0.68
Asia/Pacifico 187 24 54 6.01 ADV.BR s847
a AM.BR 189 0.17
“Eloa ago —
= ART.BR 2581 0.30 HRQ.BR
-cuopa AM S1.41 ATO.BR 133 0.02
it com. BR 785676 219 9.03
-CrienteMédio 51 CO0P.BR 293 0.03 BIO.BR
Go
0.06 EMD.BR 10 0.00
c A
: ESP.BR s17 a38 0.05
Canadá EUA 8267 | : ETC.BR 367 0.04 CiH.BR
Amérialalina 335 :84 0.02 CHG.BR 15 0.00
e FAR.BR cmr.BR 964 0.11
FE a FM.BR 133 0.02
Fonte: NUA (2008, b). 0.0? ECH.BR i2s 0.91
á 712.BR 607
ac o.io ENG.BR 2652 0.31
dos GOV.BR
US ECOMMERCE 1998 - 2003 0.05 EFI.BR 2589 o.30
E IMB.BR 452
5125 0.60 FHD. BR as 0.01
E bush .
fo IHD.DR FOT.BR s88 0.08
o Lu
E Bualenao i IHP.9R 2403 8.28
veombmer 0.90 EST.BR 97 am
MIL.BR 22 16 0.00
sao NET. BR 631 0.07 G6F,BR
sem JOR.BR s19 0.06
DRG.BR 23615 2.75 0.01
244 0.03 LEL .BR 107
a PSI.BR 106 0.01
g om 58 o.01 MAT.BR
REC.BR a067 o.24
qm 2012 0.23 MED .BR
SEv.BR 1043 6.12
o do THP.BR 36 0.00 MUS.BR
z mo 0.26 HOT.BR m 0,01
TUR.BR 2193 65 0.01
E TY.BR 180 0.02 WIR.BR
g mo 828617 96.41 DPO.BR 758 0.09
0.09
E PPS.BR 718
ERS.BR 2421 o.28
so Universidades 9380 0.05
amo 9.14 PSC.BR
BR ilas
1407 0.13 gsL.BR ss q.oi
00 3
Go EDU. BR SLE.DR 14 0.00
.
ePo ess ts 2000 out 2002 2003 ds 2391 0.27
Nustraçã
ção 1: Volume de negócios realizados na internet no o der or
VET.BR
à
293 gas
2.03
Ê e Pessoas Físicas
1998-2008. a8430 96
período de 3146 0.37 ZLG.BR
di ú HOM. BR
Fonte: NUA (2008, bj.
x a. ami
Organização da tnformação na web: das tags à web semântica
-
Organização da Informação na web: : d das t à EE
:
ags à web semántica
anti : Ailion Feitosa
Aiton Feitosa
14 15
— — primários — documentos originais elaborados pelo autor; os documentos a serem tratados; e outra na qual são apresentados os
produtos documentários, que resultam desse processamento: referên-
— secundários — documentos que descrevem documentos pri-
o cias bibliográficas, descrições de documentos, índices, instrumentos
mários, como por exemplo as bibliografias, os catálogos e os
“o de pesquisa, documentos secundários e terciários. Os produtos
resumos; documentários são utilizados em atividades de pesquisa e, novamen-
— —terciários - documentos elaborados a partir de documentos “te, transformados em documentos que realimentam o sistema (ilustra-
primários ou secundários e que reúnem, condensam e elabo- “o ção 3).
ram a informação original na forma mais adequada às neces-
sidades de um usuário ou grupo de usuários. Ciclo Documentário
- conteúdo — o conteúdo pode ser avaliado a partir da identificação Entrada de Atividades de Produtos
do assunto, da forma de apresentação, da exaustividade da análi- Documentos > Processamento » Documentários
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Aiiton Feitosa Ailton Feitosa
20 21
Súuloa RUC
logação e a análise temática da informação. A catalogação ou descrição
bibliográfica éé uma forma de referência que destina-se a fornecer uma des-
[00
Depósito Legal, : JJ
Catálogos
Indices; Pubbicação Primária
Colêgias Inuisiveis;
(listas de Discussão, exição precisa documento, identificando-o materialmente, de forma única e
Bibliografias tómimas de debales chots,
e) ão ambígua, de modo a permitir sua identificação, localização e represen- |
IoCosas > | < l tação em catálogos ou em outros instrumentos que facilitem a sua locali- |
DD
vários descritores, que podem ter ligações entre si, para descrever o conteú-
“do do documento. De certo modo, uma lista de termos pode ser vista
DLSED >
técni-
portante para o contexto desta obra é, sem dúvida,a indexação, da qual to preciso (CARNEIRO, 1985). Para a consecução desse objetivo, a
tnor-
pode depender em grande medida a qualidade dos resultados advindos de ca de indexação necessita da utilização de instrumentos normativos
natural e
uma operação de busca e recuperação. Por esse motivo, a operação de mas), bem como de instrumentos linguísticos como a linguagem
indexação será abordada em uma seção específica deste capítulo. “as linguagens documentárias.
A linguagem natural é formada pela reunião de sinais utilizados e
' reconhecidos facilmente pelo homem. Quando empregada na indexação
2.3.1 Indexação denominada “livre”, utiliza termos como se apresentam nos documentos.
e
“A linguagem documentária compreende o conjunto de regras, símbolos
“ termos previamente estabelecidos, formando uma linguag em artificial para
Embora fontes de informação contendo texto-completo tenham sido
escassas por algum tempo, a partir de meados da década de 80 essas fontes a indicação do conteúdo temático dos documentos. É, por conseguinte,
como
começaram a proliferar-se, uma vez que os preços dos computadores come- uma metalinguagem, que utiliza uma construção simbólica, concebida
instrumento para conversão de uma linguagem em outra.
çaram a cair e que sua capacidade de armazenamento começa a tornar-se
cada vez maior, de modo que bases de dados de textos-completos A técnica da indexação necessita do uso de uma linguagem de
gem
correspondem a um segmento cada vez mais crescente no mercado (atual- “ indexação, que compreende a especialização de uma lingua
mente, é notório como a disponibilidade de tais fontes cresceu documentária. A linguagem de indexação é uma “linguagem artificial utili-
“ zada para o registro ou indicação dos temas contidos nos documentos,
me
exponencialmente). Certamente, a vantagem de se acessar documentos com-
pletos, ao invés de apenas referências a esses documentos, é indiscutível. “dotada de vocabulário controlado e regida por uma sintaxe própria”
uti-
Entretanto, se por um lado o armazenamento de mais e mais documentos “ (CAVALCANTI, 1982). Um vocabulário controlado relaciona termos
desse tipo é vantajoso, por outro traz uma série de dificuldades para a lizados em sistemas de indexação, com vistas à uniformidade de armazena-
recuperação da informação. Os aspectos intelectuais da recuperação têm a gem, bem como à facilidade de recuperação. A sintaxe compreende um
sido reduzidos à utilização de palavras-chaves, bem como de frases chaves, conjunto de regras necessárias à tarefa de combinação dos elementos do
combinadas à utilização de operadores booleanos ou de proximidade, que vocabulário.
são recursos menos efetivos em se tratando de recuperação em textos-com-
pletos. Técnicas de indexação automáticas ou semi-automáticas, normal-
2.3.1.1 Tipos de índices
mente bascadas em processos estatísticos, linguísticos ou baseados na In-
teligência Artificial, têm sido pesquisadas e utilizadas especialmente para
aqueles textos completos que não foram submetidos a processos de Os produtos orginários da operação de indexação são os índices. A
indexação manual ou de resumo. principal função da elaboração desses índices, que são instrumentos utili-
Definida por Robredo (1982) como “operação de representar o con- zados para a representação do conteúdo de documentos primários, é facili-
teúdo dos documentos, qualquer que seja o método utilizado”, a indexação tar a recuperação de informações relativas ao documento indexado ou re-
utiliza-se de instrumentos para o tratamento da informação, de modo a “sumido. Índices, bem como resumos, geralmente são incluídos em bases
obterem-se termos que representem corretamente os conceitos contidos em de dados que podem ser impressas, armazendas em fichas, ou em formato
determinado documento. Assim, o principal propósito de um serviço de eletrônico (LANCASTER, 1993) ou, ainda, como assinala Harman (1994),
que
indexação é assegurar da forma mais eficiente e econômica possível, que em um arquivo invertido ou em outra estrutura de dados, de modo
s,
qualquer documento ou informação seja fornecido ao usuário no momen- pesquisas possam ser realizadas no índice, utilizando operadores booleano
ou algoritmos baseados no peso dos termos, para se obter resultados orde- ou um parágrafo. A decisão depende, em parte, da natureza do objeto a ser
nados de acordo com critérios estatísticos. A tabela 4 apresenta alguns “indexado. Por exemplo, quando se trata de uma pesquisa em registros bibli-
desses tipos de índices. *ográficos, o registro é claramente definido como um dos registros do catálo-
go bibliográfico, Quando se trata de uma aplicação em artigos de jornal, o
Tabela 4: Tipos de índice e suas características registro poderá ser cada artigo. Dessa forma, a escolha do tamanho do regis-
pareça vaga,
tro, emb ora inicialmente pareç 8 pode basear-se no tamanho do docu-
ipo dede índice
Tipo indi Caracteristicas
: . : i ápi is), a autora
ARWIK (aulhor and key-mord in context) Índice automático que relaciona autores e palavras-chaves . - mento - para documentos muito gr andes (de 100 páginas ou mais),
Alfabético Termos em ordem aliabélica : recomenda a divisão do registro por páginas ou por seções do documento.
Analítico teta a rolerência bbllogáfica e um resumo ou anéis do o Importa aqui destacar que a escolha do tamanho do registro não é tão
Assindêtico não incorpora reierências cruzadas . inã mas, principalmente, para a rea-
Coordenado ou correlativo esa de combinação dos descritores para a obtenção da o importante para à exibição dos resultados, it P o forne ce a texto
indicação de assuntos específicos - lização da pesquisa. Assim, um. registro muito peque p :
Correnta publicado periodicamente, com afinalidade de atualizar “para os algoritmos de pesquisa, o que fornece resultados pobres; um registro
informações constantes de determinados documentos : q. 1. ância
encontra- d
Cumulativo de publicações seriadas, reúne numa só lista as
indice “muito grande, entretanto, pode diluir a importência das palavras
entradas relativas a vários fasciculas au volumes ú Bnçi ias. A segunda decisão ch
isão chave para quaisIquer siste-
De citações ioçã das referências
associação jas oicitadas por autor em um artigo A, : das e causar falsas ocorrênc su Jo, p .
com as referências feitas posteriormente ao próprio artigo À “ma de indexação é a escolha do que constitui uma palavra e, por conseguin-
; uso de Huncamento na indexação automálica, para a produção Nos sistemas de indexação ç
KLIO (key leitor in context) cie indices dc. “te, quais. dessas palavras devem ser indexadas.
: i
KIWWAC (key word and context) índice obtido pela permutação
das palavras de um título “manual, a escolha é facilmente feita por um indexador humano. Para a
AWIT (key word in tíllo) Espécie de índice KWIG
7
baseado em permutação selecionada ão : a
indexação Ati
automática,
.
entretanto,
A a Ç ã
definir ir que que p pontuação
é necessario deve
as palavras significativas aparecem na devida ordem alfabética,
MOC (hey mora outof context) seguidas pelo tíkio completo, dentro porém, de um J ser utilizada como separador entre as palavras e definir que palavras indexar.
cletermihado espaço linear
KWOT (key word out of tie) as palavras significativas do titulo são extraídas 6 colocadas o: Essa separação normalmente é feita com todos os espaços em branco
emordmalstéita É etodas as pontuações, embora haja exceções, dependendo da aplicação e
- o arranjo deste índice é feito pelas classes gerais da CDU e dois a. . = d b
KWUC (key word and UDC) subdivisões dessas classes em ordem alfabética das palavras- : : do software utilizado. Tratando-se da informação armazenada na web,
chaves dos títulos que constam de cada classe * todos os serviços de busca utilizada essa definição. Definidos os limites
Fonte: adaptado de Cavalcanti, 1982 das palavras, outro problema a ser resolvido é a indexação de números,
uma vez que o conjunto de números únicos é infinito. Não indexar núme-
ad
Organização da Informação na web. das tags à web semântica : o Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ro Ailton Feitosa
27
— a pontuação deve ser estudada e potenciais problemas identifica- Outros sistemas utilizam a sufixação ou derivação para substituir
os para
dos; todas as palavras indexadas com suas raízes. Os algoritmos utilizad
cação
— deve-se estudar o uso de letras maiúsculas e minúsculas; uma téc- realizar essa tarefa normalmente possuem três partes: uma especifi
exceções e uma
nica usual, relata a autora, é a conversão dos caracteres maiúscu- “ou qualificação da terminação da palavra; uma lista de
los para minúsculos durante a indexação, o que pode, entretanto, . ação necessária, A utilização de sistemas de sufixação ou derivação deve-se
e
acarretar problemas para a recuperação de nomes próprios: a dois fatores primordiais: a redução do tamanho do índice armazenado
— a indexação de números depende profundamente da aplicação; o aumento da performance, devido ao uso de variantes das palavras.
datas, rótulos de seções e números combinados com letras podem Outra técnica conhecida e utilizada por diversos sistemas comerciais
ser indexados; outros tipos de números não devem ser indexados; de indexação é a da atribuição de pesos aos termos, que fornece a possibi-
— quanto à indexação de caracteres individuais, pode-se verificar o alfa- lidade de ordenar os documentos com base no número de termos que
beto, anotando-se as letras que possuem um significado particular correspondem à pesquisa do usuário e às ocorrências desses termos nos
documentos. Essa técnica utiliza ordenações estatísticas complexas e pode
para a aplicação; após essa operação, tais letras podem ser indexadas.
ser utilizada quando se desejar aumentar a precisão em uma busca com
iados
três ou tnais termos. A técnica consiste em se atribuir pesos diferenc
Com relação ao tratamento automatizado para a indexação automá-
para os termos, de modo que mesmo quando não contiverem um dos ter-
tica, diversas técnicas têm sido desenvolvidas, algumas com aplicações in-
mos pesquisados, sejam retornados documentos que possuem os outros
teressantes, tanto no âmbito de pequenas coleções, como para grandes
dois termos fornecidos na busca. Alguns sistemas de medida que podem
acervos, como é o caso da técnica baseada na ocorrência dos termos. Ci-
ser utilizados por essa técnica baseiam-se no Inverted Document Frequency
tam-se ainda outras técnicas como: indexação de palavras não significati-
(IDF), que mede a escassez de um termo no texto. Outros utilizam algum
vas; uso de sufixos; e extensão da busca — esta última, segundo Harman
tipo de função de medida da frequência do termo no texto.
(1994), muito bem sucedida em pequenas coleções.
Independentemente de todas essas técnicas e metodologias, um dos
À técnica de indexação de palavras não significativas baseia-se na
maiores problemas encontrados nos sistemas de recuperação da informa-
construção de listas de termos não que não possuem maior relevância ao ter-
ção é que documentos relevantes são perdidos porque não contêm os
campo daquele assunto específico. Como a construção desse tipo de listas, a
mos da busca. Para grandes coleções de textos-completos, uma estratégi
entretanto, pode ser uma tarefa difícil do ponto de vista da escolha, mui-
viável pode ser o uso de um mecanismo de expansão de busca. Um método
tos sistemas utilizam trabalhos desenvolvidos no passado por pesquisado-
“de expansão de uma busca pode ser o uso de uma linguagem documentária,
res. Assim, palavras que ocorrem com fregiiência muito elevada nos textos
como um tesauro ou uma terminologia, como instrumento de controle de
são integradas a essas listas. Uma técnica mais apropriada é a produção de
vocabulário incorporado automaticamente ao sistema. Tratando-se de
uma lista de termos não-significativos baseada no próprio corpus do texto
indexação automática, no entanto, embora haja pesquisas que se preocu-
a ser indexado, com base na fregiiência com que determinadas palavras
pem em desenvolver metodologias para a construção automática de tesauros,
ocorrem naquele texto, conforme, por exemplo, a sua classe gramatical ou
essa é uma tarefa difícil e extremamente dependente do domínio do conhe-
outro critério definido por especialistas. Assim, palavras como aquelas
cimento a que se refere o sistema de busca. Por esse motivo, o uso de um
pertencentes às classes dos artigos, das conjunções e das preposições, por
gerenciador eletrônico de tesauros pode ser uma alternativa mais viável no
exemplo são removidas do documento matriz. Então o documento somen-
que ser refere à obtenção de resultados mais precisos.
te será indexado pelas palavras cujo conteúdo é significativo.
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
28
2.3.2 Recuperação da informação Segundo Piedade (1977), os dois fatores que mais influenciam a
E revocação e a precisão, são a exaustividade — isto é, a extensão ou número
De acordo com Lancaster (1993), para qualquer necessidade especi- “de conceitos escolhidos para se representar o conteúdo de determinado
fica de informação, haverá sempre muito mais itens que não possuem rele- “= documento; e a especificidade — isto é, a exatidão com que os termos esco-
de
vância ou pertinência ao assunto pesquisado pelo consulente (itens inú- “Ihidos descrevem o conteúdo do documento em questão. A escolha
teis) do que itens que possuam relevância ou pertinência às necessidades muitos termos para a representação do conteúdo de uma base de docu-
desse usuário (itens úteis). Portanto, a principal função de um sistema de mentos, isto é, alta exaustividade, poderá aumentar a revocação — mais
recuperação de informações é permitir que o usuário localize o maior nú- itens serão recuperados —, mas alguns documentos recuperados tratarão
mero possível de itens relevantes. apenas superficialmente sobre o assunto e, nesse caso, a precisão será bai-
À relação entre o total de itens úteis para o ustiário e o total de itens xa. Por outro lado a escolha de poucos termos, mas exatos, para à repre-
sentação do conteúdo de uma base de documentos, “isto é, alta
JTecuperados é denominada coeficiente de precisão. Essa relação pode ser
representada pela fórmula: especificidade, poderá aumentar a precisão — apenas itens que coincidam
cp = niu/nt exatamente com o termo de busca serão recuperados -, sendo recuperado
onde pequeno o número de itens que tratarão sobre o assunto em profundidade.
cp = coeficiente de precisão Em resumo, o aumento da exaustividade aumenta a revocação é diminui a
niu = número de itens úteis precisão. Por outro lado, o aumento da especificidade diminui a revocação
nt = número total de itens recuperados é e aumenta a precisão.
A relação entre o total itens úteis encontrados pelo o usuário em Quanto mais específica for a indexação, mais precisas serão as res-
uma determinada busca e a quantidade total de itens úteis sabidamente postas e menor será a revocação (CARNEIRO, 1985). Tomando esse pon-
disponíveis na base de dados é denominada coeficiente de revocação. Essa to de vista, e lembrando que a revocação, que é definida por Lancaster
relação pode ser representada pela fórmula: (1993, p. 4), como “a capacidade de recuperar documentos úteis” tem me-
ir = niu/ntu nor importância em um sistema de indexação automática, então, o ideal é
onde que se aumente o nível de precisão, que o autor define como “a capacidade
ir = índice de revocação de evitar documentos inúteis”, por meio do aumento da especificidade da
niu = número de itens úteis indexação. Lancaster (1993) argumenta, aínda, que quanto maior for o
ntu = número total de itens úteis acervo da base de dados, menos aceitável será uma baixa precisão, isto é,
O indice de revocação e o coeficiente de precisão são grandezas em bases de dados muito grandes, torna-se progressivamente mais difícil
inversamente proporcionais. Portanto, quanto menor for o índice de alcançar um nível de revocação aceitável, com um nível de precisão
revocação, mais preciso será o resultado da pesquisa, isto é, maior será a satisfatório. Com o advento dos serviços de busca na web e tendo em vista
a grande quantidade de informações disponíveis na rede, esses conceitos,
quantidade de itens úteis recuperados. É importante destacar-se, tam-
embora ainda muito relevantes do ponto de vista da organização da infor-
bém, que resultados satisfatórios na recuperação dependem diretamente
mação, ganham menor aplicabilidade no momento da recuperação, uma
da qualidade com que a indexação foi realizada isto é, da política de
vez que é impossível a definição do número de total de itens úteis disponí-
indexação utilizada, das regras usadas para a redação do resumo, da qua-
lidade do vocabulário controlado, da qualidade das estratégias de busca, veis na web.
entre outros fatores.
Organização da Inormação na web: das tags à web semântica or Organização da Informação na web: das tags à wob semântica
Ailton Feitosa ' Ailton Feitosa
so 31
2.5.2.1 Modelos de Recuperação da Informação . “gúmero total de palavras em um documento são removidas, com
uma lista
| de termos não significativos (MOLE, 19990).
Os modelos de recuperação mais comuns são o booleano, o vetorial, o A ponderação de termos tem sido explicada pelo controle da
o probabilístico e o de atribuição de pesos. De acordo com a definição do — exaustividade ou especificidade na busca, onde a exaustividade está relaci-
19990).
MOLE Text Analysis Group (1999), o método de recuperação booleana é o “ onada com a revocação e a especificidade com a precisão (MOLE,
mais simples dos métodos de recuperação e, como diz o seu nome, bascia- A ponderação de termos para o modelo de vetor de espaço tem sitointeira-
se no uso de operadores booleanos. Assim, os termos em uma busca são “mente baseada em estatísticas de termos simples. Segundo os autores, há
cia
ligados por meio dos conectores e, ou e não. O método bocleano é o três principais fatores de ponderação dos termos: a) fator de freqiiên
fregiientemente utilizado em mecanismos de busca na Internet, uma vez “dos termos; b) fator da frequência da coleção; c) fator da extensão da nor-
que é rápido e que pode ser utilizado em linha. No entanto, para maior | “ malização. Esses fatores são combinados para, juntos, definirem o peso
eficiência, esse método requer que o usuário tenha pelo menos algum co- “vyesultante para o termo.
nhecimento acerca do tópico de pesquisa desejado,
Atualmente, a recuperação baseada no método booleano tem sido
combinada com o método de navegação por conteúdo, utilizando-se redes 2.4 Resumo do capítulo
de conceitos, nas quais termos compartilhados de documentos obtidos
previamente são utilizados para refinar ou expandir a busca. Em diversos “ É impossível a abordagem do tratamento da informação na web
sistemas, os operadores booleanos têm sido substituídos por operadores sem uma reflexão sobre como alguns conceitos e processos da Ci-
fuzzy* (MOLE, 19998). ência da Informação tais como a classificação, a indexação, e a
Ê O modelo de vetor-espaço pode ser dividido em três estágios: a) recuperação da informação, relacionam-se com o conceito de do-
indexação do documento, na qual os termos chaves são extraídos do docu-
cumentos;
mento; b) extensão dos termos indexados para melhorar a recuperação
“” Um documento é um objeto que fornece um dado ou uma infor-
dos documentos relevantes para o usuário; c) classificação do documento
mação e pode sex diferenciado entre outros documentos, de acordo
com relação à busca, de acordo com uma medida de similaridade (MOLE,
com suas características físicas (por exemplo: material, natureza,
1999b).
tamanho, peso, forma de produção, suporte) ou intelectuais (por
A indexação probabilística é baseada no pressuposto de que existe
algum nível de diferença na distribuição do conteúdo de termos-significati- exemplo: objetivo, conteúdo, assunto, tipo de autor, fonte, forma
vos e de termos não-significativos. Recentemente, um método de indexação de difusão, originalidade);
automática que utiliza um agrupamento serial de palavras tem sido intro- “A informação disponível na web é passível de tratamento intelec-
duzido. O valor de tal agrupamento é um indicador se o termo é ou não tual utilizando os mesmos processos do ciclo documentário tradi-
significativo. Essa indexação pode ser bascada na frequência do termo, cional: em uma extermidade do sistema entram documentos a se-
isto é, os termos que têm alta ou baixa fregiência em um documento são rem processados e na outra extremidade resultam os produtos
considerados não significativos. Desse modo, em geral, de 40 a 50% do documentários como, por exemplo, referências bibliográficas, des-
crições de documentos, índices, instrumentos de pesquisa, docu-
* Um modelo baseado na teoria do conjunto fuzzy permite a interpretação de uma busca do usuário, com mentos secundários e ferciários;
a ulitização de um descritor lingúístico para cada termo (MOLE, 1999a)
Organização da Informação na web: das tags à web semântica ização da Informação na web: das lags à web semântica
Allton Feitosa Omganiaçã : Aliton Feitosa
32
33
” À grande maioria dos documentos de completos publicados na
web não foi submetida a processos de indexação manual ou de
resumo, o que exige esforços na busca por técnicas de indexação
automáticas ou semi-automáticas - normalmente baseadas em pro-
cessos estatísticos, lingiísticos ou com o suporte de conceitos de
Inteligência Artificial — que ofereçam maior precisão no momento
3 Serviços de Indexação e
da sua recuperação;
Entre as técnicas usadas, citam-se: listas de termos não significati- Recuperação na web
vos; sufixação; derivação; atribuição de pesos diferenciados aos
termos, incluindo o método Inverted Document Frequency (IDF),
que mede a escassez de um termo no texto; uso de linguagens
documentárias como tesauros e bancos de dados terminológicos;
Entre os modelos de recuperação mais importantes estão o 3.1 Breve História dos serviços de busca na UJEB
booleano, o vetorial, o probabilístico e o de operadores fuzzy;
Pesquisadores ligados a instituições acadêmicas ou provedoras de
Desde o início da Internet sempre houve preocupações de se
soluções comerciais, na busca de melhorar a organização da infor- “ disponibilizar serviços que garantissem a recuperação dos documentos
mação na web, têm utilizado e aprimorado diversos modelos de- - publicados. Entre as ferramentas mais antigas citam-se o Archie, o
senvolvidos no passado para indexação automática é para recupe- “Veronica, o Jughead e o Gopher (CENDÓN, 2001). O advento da World
ração da informação, “Wide Web trouxe consigo o crescimento exponencial da quantidade de
“documentos registrados na Internet, o que motivou a implementação de
“outros serviços de organização e de recuperação de informações. Nessa
“área, alguns dos pioneiros da web foram o AltaVista, o Yahoo!, o Open
“Directory, a Virtual Libray, o Excite, o Lycos, entre outros serviços. Atu-
“almente (2006) há centenas de serviços dessa natureza, categorizados,
. conforme as suas características tecnológicas, em diretórios de pesqui-
sa e mecanismos de busca, Ambos os termos referem-se às ferramentas
“utilizadas para recuperação de informação na Internet, mas que funcio-
“ nam de maneira diferente. Os mecanismos de busca criam seus índices
automaticamente e percorrem continuamente a Web -- utilizando software
“conhecido como robot, crawler ou spider —, visitando sites e indexando
suas páginas. No momento da recuperação, as pesquisas são feitas uti-
lizando-se essas informações colhidas. Os diretórios, por seu turno, cons-
-troem seus índices por meio de descrições de páginas fornecidas pelas
“ pessoas no momento de submetê-las a um cadastro. As pesquisas ba-
-seiam-se nas informações fornecidas, que podem ou não refletir o con-
Organização da Informação na web: das tags à web semântica
Ailion Feitosa
Organização da Informação na web: das iags à web semântica
34 35
teúdo real das páginas. Assim, a indexação dos mecanismos de busca é “manos: no âmbito da Internet, o autor define o termo para referir-se a pro:
feita de maneira diferente daquela dos diretórios e os fatores importan- E gramas que exploram a rede em busca de qualquer tipo de informação, e
tes para o julgamento da relevância das páginas também diferem (BAX; que usualmente compilam uma grande base de dados para pesquisas futu-
CAMPOS, 2000). Algumas dessas diferenças e características são dis- “tas. Essa categoria de robôs é geralmente denominada spider”.
cutidas, a seguir, neste capítulo. Em outubro de 1993, Martin Koster criou-o sistema Archie-Like
Os diretórios foram a primeira solução proposta para a organização Indexing of the Web (Aliweb), que permitia aos usuários submeterem páginas
de conhecimento na web e surgiram com uma intenção de se coletar manu- para serem indexadas de acordo com sua própria descrição. Em dezembro do
almente, ou por meio de indicações de usuários, a maior quantidade de : mesmo ano, duas outras iniciativas foram implementadas: o JumpStation,
informações possível, contando-se a grande variedade dos assuntos dispo- “que coletava informações do título e do cabeçalho das páginas, o o WWW
níveis na Internet. = Worm, que indexava títulos e URLS. Essas duas ferramentas possuiam o mes-
Segundo Wall (2004), o primeiro mecanismo de buscas a ser "mo problema estrutural: ao invés de estabelecerem um sistema de classificação
disponibilizado na Internet foi o Archie, criado em 1990 pelo estudante = dos resultados, listavam-nos na ordem em que os encontravam.
Alan Emtage, na Universidade McGill em Montreal. A intenção original Em fevereiro de 1993 estudantes da universidade de Stanford inicia-
era a utilização do nome “archives”, o que não foi possível pelas restrições ram as atividades do projeto Architext, que veio a tornar-se Excite em me-
do sistema operacional Unix, que exigia nomes mais curtos. Basicamente, ados daquele ano. O software de busca, que previa a utilização de análise
o Archie era composto por um banco de dados contendo nomes de arqui- estatística de palavras para tornar a localização mais eficiente, foi Hberado
vos na web e um sistema de busca para a localização e recuperação de - para a utilização em outros sites.
nomes de arquivos coincidentes com uma pesquisa do usuário. Em 1991, Wall (2004) relata que todos esses serviços possuíam deficiências, por.
o '
Mark McCahill, da Universidade de Minnesota, desenvolveu o Gopher, como “ que seus spíders não eram suficientemente inteligentes para compreenderem
uma alternativa para o Archie e em 1993 um grupo de consultoria e pes- significado dos links encontrados, resultando a necessidade de que o usuário
quisas da Universidade de Nevada desenvolveu o Very Easy Rodent-Oriented tivesse plena certeza dos termos de busca a serem utilizados, sob pena de não
Netwide Index to Computerized Archives (VERONICA), que tinha o mes- . conseguir localizar nenhuma informação relativa ao assunto em questão. Em
mo propósito do Archie, mas que trabalhava com arquivos de texto plano. o “Janeiro de 1994 surge o diretório ElNet Galaxy, que possuía características
Na mesma época surgiu também o Jughead. “similares aos diretórios atuais e que contava também com recursos de Gopher
Com o advento da web, Matthew Gray introduziu o seu sistema World “e Telnet. Em seguida, em abril do mesmo ano, surge o Yahoo, criado por
Wide Web Wanderer, mais tarde conhecido como Wandex, que inicialmen- David Filo e Jerry Yang, como uma coleção de suas páginas favoritas. Filo e
te tinha apenas a intenção de medir o crescimento da web por meio da “Yang logo tiveram que reorganizá-lo para tornar-se um diretório dotado de um
contagem dos servidores web ativos. Logo foi agregada ao sistema a capa- “ mecanismo de busca local, uma vez que a quantidade de páginas referenciadas
cidade de capturar URL's e ele fazia varreduras diárias, chegando a acessar : “cresceu rapidamente. Diferenciaram-se também das outras iniciativas, intro-
a mesma página centenas de vezes no mesmo dia. Segundo Wall (2004), “ duzindo uma descrição para cada um dos links referenciados.
essa foi a primeira iniciativa do uso de tecnologias que originaram os ter- Em abril de 1994, Brian Pinkerton, da Universidade de Washing-
mos spiders (aranhas), crawlers (rastejadores) ou bots (robôs), para desig- “ ton apresentou o WebCrawler que, segundo Wall (2004) e Willey (2004),
nar qualquer tipo de mecanismos de coleta automática de dados na Internet.
que
Para Willey (2004), robôs de computador são programas capazes de execu- sa Wiley (2004) utiliza também o conceito de chatierbo!, para referir-se a programas de computador
possuem capacidade de realizar algum tipo de diálogo interativo ou de prestar algum tipo de informação
tar tarefas repetitivas em velocidades que seriam impossíveis para os hu- básica para a usuário, de modo intuitivo e repetitivo.
Organização da iniormação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Allton Feitosa Ailton Feitosa
36 : 37
foi o primeiro crawler (rastejador) com capacidade para indexar textos Em 1997 foram lançados o Ask Jeeves e o Northern Light. Segun-
completos de páginas inteiras. Antes dele, um usuário podia pesquisar : do Wall (2004), 1998 foi o último ano de lançamento de
apenas nas URL's ou em descrições de páginas fornecidas pelos seus au- - upermecanismos, como o Google, que introduziu a característica de clas-
tores. Logo o WebCrawler tornou-se tão popular que às vezes era impos- | sificação dos resultados com base nas ligações com outras páginas. Des-
sível acessá-lo, devido à grande quantidade de usuários conectados — cer- “de então, tornou-se tão popular que mesmo grandes serviços de busca
ca de quinze mil acessos diários. Passado algum tempo, o provedor de como a AOL e o Yahoo passaram a receber resultados a partir de sua
serviços de Internet americano, American On-Line (AOL), adquiriu o - : base de dados. No mesmo ano foram lançados o MSN, o DirectHit e o
WebCrawler e passou a executá-lo em sua própria rede. Em 1997, o Exci- “ Open Directory.
te comprou o WebCrawler da AQL e passou a oferecer sua base de dados | . Em 2000 foi lançado o Teoma, que utiliza a classificação por clusters
para que aquela empresa mantivesse o seu serviço de busca, o NetFind. para organizar sites, de acordo com a popularidade específica do assunto.
Em seguida ao lançamento do WebCrawler vieram o Lycos, o Infoseck e Em 2001, o Ask Jeeves comprou o Teoma, para substituir seu antigo Direct
e OpenText. . Hit. Nos últimos anos, na árida corrida pelos melhores resultados finan-
O Lycos foi desenvolvido na Universidade Carnegie Mellon, sob a éeiros, algumas empresas foram fundindo-se ou sendo vendidas. Tal é o
coordenação de Michael Mauldin e foi publicado com cerca de 54 mil do- - “caso do LookSmart, que adquiriu o WiseNut em março de 2002; e do
cumentos. Trazia como principais características a recuperação categorizada Overture, que em 2003 adquiriu o AlTheWeb eo Altavista. Em o o
por relevância; a iocalização baseada em prefixos ou na proximidade de Yahoo! adquiriu o Overture e deixou de utilizar o mecanismo de busca co
palavras; e o tamanho do seu catálogo — após um mês do seu lançamento Google, em favor de seu próprio mecanismo de busca, A empresa inves n
o Lycos já contava com cerca de 394 mil páginas indexadas; seis meses “também em um novo banco de dados que substituiu tanto a base do
depois, com aproximadamente 1,5 milhão; um ano e meio depois, com AltaVista, como a do AUTheWeb. buídas da filosofia
mais de 60 milhões de páginas, mais do que qualquer outro mecanismo de No tocante à busca na web, muitas iniciativas m uidas 4 car O
busca da época. do software livre sempre foram implementadas; mas há que se les ac
Em 1995 o Alta Vista foi publicado, introduzindo novas caracterís- . Nutch.Org, que constitui-se um esforço para implementar um sistema de
ticas como a maior largura de banda para a época; técnicas de pesquisa “localização na web com código-fonte aberto e com estratégia de desenvol.
avançada; técnicas de pesquisa em linguagem natural; permissão para que vimento comunitário. Os argumentos da organização em favor da disponi-
usuários adicionassem ou excluíssem suas URL's em 24 horas; pesquisa de lidade de um buscador com código fonte aberto enfatizam o risco de as
âtuais empresas tornarem-se monopólios. Certamente, apenas uma empre-
links que apontavam para uma dada página; e dicas de pesquisa. Em 1996
vieram o diretório Looksmart e o mecanismo de busca HotBot, este último sa, ou um pequeno grupo, controlando praticamente todo o sistema de
de propriedade da empresa Inktomi Corporation. Essa empresa foi funda- localização e recuperação na web pode representar um sério risco à dissemi-
da por Eric Brewer, professor assistente da Universidade da Califórnia em ' nação democrática da informação. Nesse sentido, o Nutch pretende ser
Berckeley, e pelo doutorando em Ciência da Computação, Paul Gauthier. ima alternativa transparente aos sistemas comerciais de localização na web,
Segundo Willey (2004), o nome deve ser pronunciado “ink-to-me” e trata- ropiciando maior confiabilidade aos resultados gerados, quanto a não
rem secretamente direcionados - se houver orientação, ela será pública.
se de uma apologia a uma aranha mitológica — unktomi ou iktomi — que
Outro argumento da instituição é o de que todos os principais sistemas de
vive nas planícies indígenas americanas e que é por eles muito conhecida,
localização existentes têm fórmulas de classificação próprias e não têm
pois acreditam que traz cultura para o povo.
interesse em explicar porque foi dada uma posição a um determinado re-
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
ABlton Feitosa Ailton Feitosa
39
38
sultado. Além disso, como são entidades que visam lucro, alguns sistemas
de localização determinam o posicionamento dos resultados principalmente
com base no pagamento (NUTCH, 2004).
Segundo texto de apresentação do seu web site, o Nutch espera
permitir que qualquer pessoa possa facilmente colaborar para o desen-
volvimento de um sistema de localização na web, com tecnologia de
ponta conhecida em nível mundial, e com custos reduzidos. Tal sistema
tem como objetivos: a localização mensal de bilhões de páginas; a ma-
nutenção de um índice atualizado dessas páginas; a realização de pelo
Others: 1.14 a —— — Excite: 4,3%
“menos mil pesquisas por segundo nesse índice; o provimento de resul- : D.8Vo —
A |
-— Ask: 1.89%
0,8% InfoSpace: 1.3%
tados de alta qualidade; operação com o menor custo possível (NUTCH, Lycos:
Certamente, a mesma busca feita em diferentes mecanismos poderá tra- O Vivísimo foi fundado por uma equipe de cientistas do Departa-
zer resultados completamente diversos, recuperando informações extremamente mento de Ciência da Computação, na Universidade Carnegie Mellon, dan-
pobres em um sistema e verdadeiras minas de ouro em outro — o uso de opera- “do continuidade a uma pesquisa originalmente subvencionada pela National
dores booleanos, por exemplo, pode representar uma grande diferença nos * Science Foundation. Em junho de 2000, após a universidade haver libera-
resultados de uma pesquisa, Como uma tentativa de solução para tal proble- do os direitos da propriedade intelectual aos idealizadores do projeto, o
ma, surgiram as ferramentas de meta-busca. A primeira delas, segundo Willey o Erupo fundou uma organização comercial,
(2004), foi o MetaCrawler, que fazia pesquisa no Lycos, no AltaVista, no O sistema, que é uma combinação de conhecimentos das áreas de
Yahoo!, no Excite, no WebCrawler e no Infoseek simultaneamente. O : inteligência artificial, recuperação da informação, cognição e matemática,
MetaCrawler foi desenvolvido em 1995, por Eric Selburg, um estudante de | baseia-se, principalmente, na tecnologia de clustering que, por sua vez, fun-
mestrado na Universidade de Washington — a mesma origem do WebCrawler, * damenta- se no agrupamento de documentos de acordo com suas descri-
alguns anos antes -, sob a orientação de Oten Etzioni. O MetaCrawler baseia- “ções. Neste caso, as descrições são obtidas pela metabusca de URL', títu-
se na reformatação dos resultados obtidos em outros mecanismos, apresenta- Jos e resumos em outros serviços de busca direta, seguida do reagrupamento
do-os para o usuário final em uma página concisa. Além dessa iniciativa, ou-
tros metabuscadores que se destacam no mercado de busca na Internet são o | vez que o sistema não possui crawler o ouu spider e« nem indexa os sites pro-
Mamma, o Dogpile, o Vivíssimo, o Kartoo e o ProFusion. -priamente ditos.
Criado em 1996, como resultado de uma dissertação de mestrado, o A técnica de clustering difere de outras como aclassificação, a constru-
Mamma foi um dos primeiros serviços de busca a introduzirem o conceito
ção de taxonomia, e a marcação de meta dados, uma vez que é totalmente
de metabusca na Internet. Devido à qualidade dos seus resultados, bem “automatizada, dispensando a intervenção humana. De acordo com informa-
como aos benefícios da metabusca, o serviço cresceu rapidamente e, rece- “ções obtidas no site do serviço, o maior desafio da técnica de clustering tem
beu em fevereiro de 2004, uma menção honrosa na categoria de melhor “sido o de buscar e organizar rapidamente os grupos de conhecimento relati-
serviço de metabusca, conferida pelos assinantes do site Search Engine “vos à pesquisa do usuário. Tal iniciativa apóia-se no uso de um algoritmo
Watch, organizado pelo consultor Danny Sullivan, especialista em meca- ' heurístico que tem propiciado, segundo o site, bons resultados para páginas
nismos de busca. “da web em geral; resumos de patentes; publicações acadêmicas e escolares;
O metabuscador Dogpile foi lançado em janeiro de 1996 e rapida- a anais de encontros; entre outros tipos de informação (VIVISSIMO, 2004).
mente tornou-se um dos serviços mais usados na web. No ano 2000 foi (o KartOOé um serviço de metabusca de informação na web que
adquirido pela companhia InfoSpace. Atualmente (2006) o Dogpile per- trouxe uma maneira inovadora de apresentação dos resultados: trata-se da
mite a localização de informações principalmente no Google, no Yahoo, “ representação dos seus resultados na forma de mapas interativos. Os sítios
no Ask Jecves, no About, no FindWhat e no LookSmart, entre outros. De encontrados são representados por círculos maiores ou menores, de acor-
acordo com o site do serviço, o uso do mascote de um cachorro como do com a sua pertinência ao assunto. Entre as principais características de
marca, é uma apologia à idéia de tempos antigos em que os cães recolhiam - sua estratégia de recuperação, estão a capacidade de realizar buscas por
o jornal da manhã e entregavam a informação nas mãos dos seus donos : palavras no endereço da página; a capacidade de realizar buscas avança-
(DOGPILE, 2004). das; e a capacidade de realizar buscas em linguagem natural, inclusive com
o uso de pontos de interrogação colocados no final da sentença (KARTOO,
2004). A ilustração 7 mostra os resultados de uma pesquisa pelo termo
8 Para maiores detalhes, recomenda-se a leitura do seguinte artigo: SULLIVAN, Danny, SHERMAN, Chris.
4th Annual! Search Engine Watch Awards. Publicado em 06/02/2004, Disponível em:
legislação utilizando-se esse serviço. Destaca-se como uma das principais
<http://
searchenginewatch.com/awards/article.php/330984 !meta>, Acesso em 02/05/2008.
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
42 43
características do serviço, o fato de que, mesmo que o termo seja digitado exem-
“ estabelecer maior rigor e riqueza ao controle terminológico. Um dos
em português, o painel esquerdo da tela apresenta uma lista de termos
a “pos significativos é o serviço Scirus, especializado em pesquisas científi-
relacionados, nos idiomas francês e inglês. cas. O sistema apresenta recursos tradicionais, como a área de busca por
“termos livres e a classificação dos resultados com base na ocorrência dos
exi-
“termos exatamente como foram digitados. Os resultados, portanto,
bem ocorrências literais do termo pesquisado nas páginas. Adicionalmen-
E te, no entanto, o serviço oferece um painel de termos sugeridos, que pode-
sado. A
E riam guardar algum tipo de relação semântica com o termo pesqui
a .
É ilustração 8 apresenta os resultados de uma pesquisa pelo termo “crianç
& in-
Observe-se que, no painel central, são retornados resultados literais
“ dependentemente de o termo haver sido digitado em caixa alta ou baixa,
'serão exibidos resultados com todas as letras em minúsculas, todas as
são
““tetras maiúsculas ou apenas com a inicial maiúscula. No painel direito,
sugerin do que al-
- apresentados termos alternativos, inclusive em inglês,
“-gum tipo de controle terminológico está sendo realizado no sistema.
Pod ig ay Qua SS Sb
E Gorgles [OTA 5) fr Bona
E
let qto cobre a pino — Eos queria E
cor qse Sto, ENPERA Ehinta
O ProFusion organiza as fontes de informação em grupos ou catego- Sist hrs teleganer | date
rias hierarquizados verticalmente, por assuntos. Os assuntos são organiza- à Ermadakected resulta Refine your search
usitigethoss heyeords
tata da Celane ds. Stan um tas Pesqules:
dos por colunas, sendo que a primeira, à esquerda, refere-se aos assuntos
amplos e as demais, à direita, aos assuntos específicos de maior proemi- ento/Brasil FAVA Ca
em the implenientato! .
astuto da Grlarmie da sedolescrnte CEU AS
nência dentro de dado assunto amplo. O sistema permite ainda ao usuário dal
mente duplicados; links mortos; tempo que durou a busca, entre outras
lustração 8: Iniciativas de controie terminológico no serviço
(PROFUSION, 2004). de busca Scirus.com
Com o objetivo de aprimorar os resultados na pesquisas realizadas
O'Scirusé um dos melhores serviços de busca, em se tratando de
na web, diversos serviços de busca têm utilizado recursos que procuram
assuntos científicos — foi considerado o melhor serviço de busca especi-
Organização da informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
44 45
alizada pelos usuários do site Search Engine Watchº. Utilizando tecnologia ' dinâmico. O sistema não utiliza meta marcações, pois são vulneráveis à
de ponta, o serviço busca aproximadamente 167 milhões de páginas que intervenção dos autores das páginas em busca de melhores classificações
tratam exclusivamente sobre ciências, permitindo aos usuários a localiza- “nos sistemas de busca.
ção de artigos ou páginas científicas, escolares, técnicas e médicas; bem Em relação à natureza dos domínios, o sistema indexa: 58,5 milhões
como de relatórios e manuscritos de artigos e jornais não catalogados por de sites edu; 18 milhões de sites .org; 6,8 milhões de sites ac.uk (acadêmi-
outros mecanismos de busca. O nome é uma homenagem a Scirus, um cos no Reino Unido); sites; 18,6 milhões de sites .com; 5 milhões de sites
profeta da mitologia grega, e é justificado, segundo os idealizadores do * gov; mais de 45 milhões de sites especializados em ciência, tecnologia e
projeto, pois assim como os visionários e profetas têm a capacidade de “medicina. Além de páginas da web o sistema indexa periódicos, incluindo:
julgar os símbolos e sinais do que está por vir, também a ciência é uma “14,6 milhões de citações na MEDLINE", 5,5 milhões de artigos com texto
disciplina visionária, que trabalha continuamente com novas idéias. O sis- “integral no ScienceDirect", 1,2 milhões de patentes a partir da USPTO”,
tema, então, pretende ser uma ferramenta pró-ativa para dar suporte aos 261 mil e-prints no ArXivorg, 5.352 artigos com texto integral na BioMed
atuais visionários: os cientistas (SICRUS, 2004). “ Central!*, 10.600 relatórios técnicos da NASA; e 7.672 artigos de texto
O fato de as páginas indexadas possuírem apenas conteúdo científi- “integral do projeto Euclid'* (SCIRUS, 2004).
co, representa um diferencial muito interessante para o usuário, uma vez Na mesma direção do aprimoramento das técnicas de busca na
que os termos pesquisados apenas apontarão para conteúdos pertinentes à “Internet, outro exemplo relevante é a introdução, em meados de 2003, do
língua científica especializada, filtrando outras acepções pertinentes à lin- operador semântico no serviço Google. Como esse operador ainda não
gua geral; além disso, o sistema indexa os sites mais profundamente do está disponível para o idioma português, as ilustrações 9 e 10 apresentam
que em apenas dois níveis, descobrindo maior quantidade de informações “os resultados de uma pesquisa pelo termo “Laws”, utilizando o operador
relevantes. Em relação aos delimitadores de pesquisa, o usuário poderá “semântico “=”. Gomo se pode observar na ilustração nº 10, o sistema retorna
especificar sua busca por áreas, como saúde, física e ciências sociais: por “resultados que contenham tanto sinônimos, quanto outros termos relacio-":
nome de autor, periódico ou artigo; por intervalo de data; por natureza do nados ao termo pesquisado, como por exemplo: Law, Statutes, Code, Act, “
acervo: conferências, resumos ou patentes: é possível também a
personalização e a gravação das pesquisas.
Os resultados são classificados por relevância e por data. A relevân- Co MEDLINE — base de dados compilada pela Biblioteca Nacional de Medicina dos Estados Unidos. Para mais
cia é obtida com base na localização e na frequência dos termos na página informações, recomenda-se uma visita ao sítio da instituição disponível em: http://aww.nimnih.gow/.
* SelenceDirect - serviço implementado a partir de 1997 pela empresa de consultoria em informação
— classificação estática, correspondente à primeira metade do algoritmo de Elsevier, a ScienceDirect autodenomina-se como a maior coleção eletrônica de bibliografias e textos
integrais nas áreas de ciência, tecnologia e medicina.. Mais detalhes poderão ser obtidos em: http:
busca; bem como pelo cálculo do número de ligações para uma página,
www. info scienceditect.com/licensing options/index.shimi,
isto é, quanto mais ligações para uma página, maior sua relevância no 2 USPTO - escritório de Marcas Registradas e Patentes do Estados Unidos. Para mais informações,
contexto — classificação dinâmica, correspondente à segunda metade do recomenda-se uma visita ao sítio da instituição disponível em: http://www uspto.govl,
8 ArXivorg — iniciado em 1991, o serviço compreende um arquivo totalmente automatizado de artigos
algoritmo de busca. O peso final é dado pela soma dos valores estático e científicos eletrônicos. O acervo cobre principalmente a área do física e suas disciplinas correlatas:
matemática, ciências não-lineares, lingúlstica computacional e neurociência. Para mais informações,
recomenda-se uma visita ao sítto da instituição disponivei em: http:/wum.arxiv.org/.
“4 BioMed Central - editora independente que fornece acesso livre e imediato a documetntos relativos a
pesquisas médicas. Mais informações podem ser obtidas no sítio da instiluição, disponível em: http:/
www. biomedcentral.com/into/,
* Para mais detalhes, recomenda-se a leitura do seguinte artigo: SULLIVAN, Danny. 2002 Search Engine is Projeto Euclid — Iniciativa da biblioteca da Universidade de Cornell, com o objetivo de promover a
Watch Awards. Publicado em 28/01/2003. Disponível em: <http://searchenginewatch.com/awards! cominicação acadêmica nas áreas de matemática teoria e aplicada e de estatística. Para mais informações,
atticle,pho/2155921 Especialiy>. Acesso em 02/05/2008. recomenda-se uma visita ao sítio institucional, dispnível em: http:/ptojecteuclid.org/DienstUIA.O/Home.
Organização da Informação na web: das tags à we semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
46 47
Ilustração 10; Resultados de uma pesquisa semântica no Google cação de uma página web nos diversos mecanismos de busca — O pró-
prio texto de ajuda do serviço Yahoo! recomenda que se utilizem as tags
No campo das inovações de serviços, em 2003 o Google lançou o description e keywords para a otimização dos resultados da busca
AdSense , um programa de anúncios
únci i com
baseado em contexto, que permite (YAHOO!, 2004). A tabela 4 contém uma lista das principais meia-tags
que pessoas consigam obter rendimentos apenas pela colocação de anúnci- usadas para promover a classificação de uma página da web junto a um
os relevantes em suas páginas; nos últimos anos, (2003-2004), o Google mecanismo de buscas, e foi adaptada de Bowman (2004) com comple-
iniciou um Investimento pesado na introdução dos citados elementos se- mentos de SeoConsultants.com (2004).
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semántica
Ailton Feitosa Ailton Feitosa
48 49
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Aiton Feitosa
51
Outro elemento que pode facilitar a indexação pelos mecanismos de informação. De uma maneira mais simples,é possível se dizer, também,
busca é o elemento link. Esse elemento possui diversos atributos que po- que meta dado é “dado sobre dado”. O conceito de meta dado está associ-
dem fornecer uma indicação de ordenação do documento em relação a ado, ainda, a conhecimento — contido ém pessoas ou mídias - dentro e
outros documentos em um site. Cria-se, assim, uma sequência de páginas “fora de uma organização, incluindo informação sobre dados físicos, pro-
que pode ser útil À indexação automatizada. A tabela 5 fornece algumas cessos técnicos é de negócios, regras e restrições sobre os dados e estrutu-
indicações de uso do elemento link, com vistas à indexação. ras de dados usados por uma corporação. Assim, falar sobre meta dados é,
Devido ao fato de que-a meto tag keywords atualmente (2006) pos- também, falar sobre conhecimento (MARCO, 2000).
sui pouco peso na classificação dos resultados dos mecanismos de busca, Embora possa parecer que os conceitos de meta dado e de repositório
Wall (2004a) sugere que as palavras-chaves escolhidas para a representa- de dados são conceitos recentes, eles têm suas otigens no início dos anos
ção de conteúdo dos documentos de um site sejam colocadas em partes 70. Nessa época, os primeiros repositórios de dados comerciais eram deno-
estratégicas, como: título; texto de links internos; cabeçalhos <h1>, sendo minados, dicionários de dados e tinham mais enfoque nos dados, do que
usado um por página; sub-cabeçalhos <h2> e <h5>; meta description; tex- no conhecimento. A preocupação comum na época era, então, propiciar
tos de links de barras de navegação; links externos, quando possível. O um repositório centralizado de informações sobre os dados em si — como
autor sugere, ainda, a utilização de negritos e listas com marcadores para O suas definições, relações, origem, domínio, uso e formato —, com vistas a
| destaque de palavras importantes, além da descrição, com palavras-cha- “ subsidiar o trabalho dos administradores de bancos de dados, cujas fun-
ves, de todas as tags <alt> que ocorrerem na página. Uma outra técnica ções principais eram o planejamento, controle, avaliação, armazenamento
importante, lembra o autor, é a promoção de uma política de hiperlinks, e uso de tais dados. Dessa maneira, utilizando um dicionário de dados, o
isto é, o estabelecimento do maior número possível de hiperligações de administrador de banco de dados estava apto a especificar requisitos, mo-
outros sites para o site que se pretende promover junto aos mecanismos de “delar dados corporativos e prestar suporte às bases de dados. A partir dos
| busca. Essa estratégia justifica-se porque os principais mecanismos de bus- anos 90, o conceito de meta dados foi se alterando e, atualmente, o desafio
| ca, a exemplo do Google, orientam suas buscas por meio da análise de com que se deparam os especialistas em informação é a habilidade para
Uhiperlinks. diferenciarem repositórios de meta dados de dicionários de dados. Os
repositórios de meta dados realizam todas as funções de um dicionário de
dados, mas possuem um escopo mais amplo, determinado, entre outros
3.3 Padrões de meta dados: tendências da fatores, por necessidades que emergiram a partir dos anos 90: 05 sistemas
organização na web tornaram-se mais flexíveis e não integrados; criaram-se os conceitos de ar-
mazéns de dados e mercados de dados; com o advento dos negócios reali-
zados em linha, muitas necessidades de informação dos usuários ficaram
A palavra meta dados origina-se do prefixo grego metá, que significa
ainda sem ser preenchidas; com a popularização dos negócios realizados
mudança, posterioridade, além, transcendência e reflexão crítica sobre al-
“ em linha, aumentou, propotcionalmente, a necessidade de se implementar
guma coisa. À palavra dado, no sentido informático, refere-se a informa-
maior nível de segurança e de confiança aos dados envolvidos nas transa-
ção em forma codificada (FERREIRA, 1986). Assim, juntando-se os ter- “ções (MARCO, 2000).
mos, pode-se chegar a uma noção de transcendência sobre a informação, No sentido do saber biblioteconômico, meta dado pode ser considera-
ou de uma possível descrição da informação que os dados representam.
do como dado estruturado, que compartilha diversas características similares
Nessa perspectiva, meta dado é todo dado físico, isto é, contido em algum
para a catalogação, e que descreve as características de um determinado recur-
software ou qualquer tipo de mídia,e que fornece informação sobre outra
Organização da Informação na web: das tags à web semântica
Organização da informação na web: das tags à web semântica Aitton Feitosa
Aiiton Feitosa
52 53
so informacional, Portanto, um registro de meta dados consiste em um núme- “- na-se mais fácil a extração de conteúdo de uma base de dados de descrição
ro pré-definido de elementos que representam atributos específicos de um ob- “de recursos, do que de arquivos textuais em formato HTML; d) meta dados
jeto, sendo que a cada elemento pode estar associado um ou mais valores . administrativos podem ser utilizados para facilitar o gerenciamento do siste-
(TAYLOR, 2003). A cada elemento de um registro de meta dados estão asso- “ma de informação, uma vez que ajudam a avaliar quando os recursos devem
ciadas propriedades como nome, domínio, tipo, tamanho, formato, responsa- = ser revistos ou removidos da base de dados (DAY, 2000).
bilidade e, no caso de sistemas informatizados, origem. A propriedade nome Na área de Ciência da Informação há diversos esquemas de meta
identifica univocamente o elemento. O domínio especifica o conjunto de valo- : dados, citando-se, entre as iniciativas mais populares, o Dublin Core, o
res que o elemento de dado pode assumir; por exemplo, ao domínio do idio- C AACR? (Anglo-American Cataloging Rules) e o GILS (Government
ma de um documento poderiam estar associados os códigos de idiomas. A “lnformation Locator Service). Obviamente, segundo as características da
propriedade tipo refere-se ao tipo de conteúdo que se poderá armazenar no ““&rea de conhecimento em questão e do sistema de informações, os meta
elemento de dados, como por exemplo, valores textuais, numéricos, datas, “ dados podem variar significativamente. Não obstante essa possibilidade
entre outros. A propriedade tamanho refere-se ao número máximo de caracteres “ de variação, para Taylor (2003), cada esquema deverá possuir pelo menos
que poderão ser armazenados no elemento. O formaio refere-se à forma com - “três características: número limitado de elementos; o nome de cada elemen-
que a informação deverá ser representada, e define as posições de determina- º to; o significado de cada elemento. Em relação ao agrupamento dos ele-
dos símbolos como traços, pontes, barras, entre outros; nos sistemas mentos de meta dados de um rectirso informacional, Day (2000) sugere
informatizados, os formatos são também conhecidos como máscaras. A ori- “uma classificação, segundo o uso, em: a) dados descritivos — são aqueles
gem determina se os valores a serem armazenados no elemento de dados serão que contêm informação passível de utilização por sistemas de busca, como:
digitados pelo usuário, utilizando um formulário de entrada de dados, ou se título; título abreviado; título alternativo (em outro idioma, por exemplo);
serão calculados ou gerados automaticamente pelo sistema. A tabela 6 repre- subtítulo; descrição; URI; autor; idioma; codificação do conjunto de
senta um exemplo de um registro de meta dados: , caracteres: organização (de criação e de hospedagem do documento); for-
matos de arquivo (por exemplo, texto, imagem, áudio, vídeo), meio físico,
Tabela 6: Exemplo de registro de meta dados propriedade intelectual ou copyright, disponibilidade (por exemplo, indi-
Nome do Elemento Valor cação se O acesso à informação é gratuito ou sujeito a registro); software
Tiluio Catálogo da web : requerido para acesso (navegadores específicos, software de MIDI); e pú-
Criador Dagnija MoAuifle
Editor Bibioieca da Universidade de Queensland blico alvo; b) dados do assunto — são aqueles que descrevem o conteúdo
Identificador http:tunay library ug.ede au/lad/mainmenu.
html
Formato Texlo/html do documento, como: palavras-chaves; código de classificação; sistema de
Relação Web site da biblioteca classificação; e termos do tesauro ou cabeçalho de assuntos; c) dados ad-
Fonte: Adaptado de (TAYLOR, 2003) - ministrativos — são aqueles que facilitam a organização e a administração
“« do sistema de informações, como, por exemplo: responsável pela manu-
O uso de meta dados apresenta muitos benefícios, corno por exemplo: tenção do documento; data de adição do documento ao sistema; data da
a) meta dados são estruturados e, desse modo, podem formar a base para o última modificação; data de expiração (por exemplo, de um anúncio de
desenvolvimento de sistemas de busca mais avançados; b) meta dados po- conferência): catalogador do documento; origem do registro; e proprietá-
dem ser convertidos para outros formatos, de modo que possam intercperar rio dos direitos. Day (2000) considera que, embora essa lista de elementos
com diferentes protocolos de busca e recuperação; c) em relação a documen- não seja exaustiva, cla contém aqueles que, em sua avaliação, são funda-
tos publicados na Internet, pensando-se
em recuperação automatizada, tor- mentais para a organização da informação.
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
55
54
A escolha de um formato de meta dados é uma das decisões mais “artes, ciências, educação e negócios, além dos setores do governo. Devido
importantes no desenvolvimento de sistemas de informação, e é essencial à proliferação dos documentos eletrônicos em face da impossibilidade de
que ta! formato permita a integração com o software que forma a base do “os bibliotecários e especialistas em informação realizarem a catalogação
sistema. É também importante que o formato contenha todos os campos “de todos os documentos, pensou-se, inicialmente, em um conjunto de
considerados apropriados à descrição dos dados do sistema. Como já men- “treze elementos que permitissem aos próprios autores e administradores
cionado, o formato Dublin Core é, na atualidade (2006), um dos mais “de sites fazerem essa marcação, a partir da utilização de regras simples
importantes meios de descrição de recursos na Internet e é um exemplo das , “= (ilustração 12). Assim, a tarefa tornar-se-ia factível, mesmo para aqueles
iniciativas que se propõem a definir um core (núcleo) de meta dados, isto “que não dominassem os princípios de catalogação e classificação. Poste-
é, um conjunto de dados essenciais que possam ser utilizados como pa- riormente, o número de elementos foi elevado para quinze — título, cria-
drão para a descrição de recursos na web. Ao lado do formato Dublin “dor, assunto, descrição, editor, colaborador'*, data, tipo, formato,
Core, outra iniciativa que merece destaque no âmbito é o Resource identificador, fonte, idioma, relação, cobertura e direitos. Embora o pa-
Description Framework (RDF), A arquitetura RDF é discutida em maior drão tenha sido concebido originalmente para a descrição de documen-
profundidade no capítulo Web Semântica. “tos da web, o Dublin Core tem sido utilizado com outros tipos de mate-
O esquema Dublin Core caracteriza-se pela sua utilidade e flexibili- “riais e aplicações (NISO Press, 2001; NISO Press, 2004).
REA LA is
dade na representação de dados. A semântica dos elementos foi projetada "Arquivo Edita Exbr Favoitos Feramentas Aldo
para ser claramente compreendida por um grande número de pessoas, sem ndeieço [ET hitp:/ fdubincose org?
A Dublin Core Metadata Initiative (DCMD (ilustração 11) iniciou- Contart PÉ status
of Delipesabios
Dem News The Dublin Cure Metadata Euaative s an opeu forum engaged
se em 1995, com um workshop realizado em Dublin, no estado de Ohio Documents in the development of uteroperable oulme metadata standards
imipistrative
Heotinas ani that support a broad range of pupases and business inoteis
nos Estados Unidos, que congregou bibliotecários, pesquisadores especi- Frasentations. DOMI's actiaties iiclule consensas-duven wurkiig groups, Hetadata
standards hatson, and Agente
alistas em biblioteconomia e em bibliotecas digitais, provedores de con- Projects glolcad workshops, conferences.
edncatimmal effoats to propuere wilespread acceptaner of dente
Resources Architecture
metadata stazulards and practices
teúdos e especialistas em técnicas de marcação de textos. Como o evento, Tosiz sou Sofrmare Citation
wjnrishops General dutenncenents Coleetion Deselooment
patrocinado pelo Online Computer Library Center (OCLC) e pelo National Ectucatiem =]
tandar ds Bubative armonnçes
Center for Supercomputing Applications (NCSA), teve lugar em Dublin, o 'g) “ à Internet
conjunto de elementos sugeridos recebeu o nome de Dublin Core. O obje- EMinica [E 21/48 O 9 6 Sg 8 BS AO. | Jan [ED [BON ri ram
tivo desse workshop era promover a melhoria dos padrões de descoberta Ilustração 11: Site do padrão Dublin Core na internet
Fonte: <hitp:/dublincore.org>
da informação na web. A proposta original, inicialmente reunindo inte-
resses de um pequeno grupo, rapidamente atraiu atenções, em escala glo- — embora
1 OQ elemento contributor foi traduzido aqui como colaborador— apenas por uma questão de estilo
bal, de uma grande variedade de fornecedores de informação nas áreas de haja registro do termo contribuidor no idioma português brasileiro na obta de Houaiss (2001).
aays that Honer Siupson io the Creator, where the element nezéd “a estruturas de meta dados, e uma vez que as tecnologias incluídas nessa
banda extraem informação com base exclusivamente nos documentos, ter-
Creator is defineg in the D£ element set. In the more general fora,
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
5B 58
my ; Campos e subcampas,
características dessa banda estão lí do avanço dos algoritmos associ- Estrutura Não estruturados Pares de aiributos-valores qualificadores, marcação
ados de d b : o igadas
e descoberta da informação não mais de localização. Destacam-se htip com interface proporcionada por
estruurada
.
ia . Protocolos de nao pa formulério:protocolos da sorvigo de diretórios Z39.50. Navegadoros e
des dessa banda: TEI (Text Encoding Initiative), ICPSR (Unter-
como padrô .
ou pa
Political and Social Research), USMARC e EAD
(o va io Consortium for Description); associados lormulíio na Raçã
ncoded Archival o
= Status Proprietário Padrões emergentes para Internet Padronização de
escription); domínios especificos
- .
|nm io TEL tag AACRZ
dei . : (Chapter 9)
Fonte: (DEMPSEY: HEERY, 2000)
glsteStento <ltle»
prison - Memo O
a : | See Chapter 21 i
“DF º : feng” ct tem otima
resp» «names -
em
f <biblFuth> <pubticationStml> cdates
»
048
publicationStml> «pusPlace
Tiga TT indexando suas páginas. No momento da recuperação, as pesqui-
e <seriesStmi> pr”
cbiblFul> caotesSimi> <noles
9.
19.280
sas são feitas utilizando-se essas informações colhidas;
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
so 61
dastro. Os diretórios foram a primeira solução proposta para a or- ” Dempsey e Heery (2000) analisaram diversos formatos de meta
ganização de informações na web e surgiram com uma intenção de dados e os sistematizaram, de acordo com sua complexidade, em
se coletar manualmente, ou por meio de indicações de usuários, a três bandas. A banda 1 corresponde aos sistemas de indexação
maior quantidade possível de documentos disponíveis na Internet; automática de texto integral, que é realizada pelos serviços de bus-
A mesma busca feita em diferentes mecanismos poderá trazer re- ca da Internet. A banda 2 compreende serviços que se basciam em
sultados completamente diversos, recuperando informações extre- padrões para a busca em sites organizados por diretórios. Os for-
mamente pobres em um sistema e verdadeiras minas de ouro em matos incluem recursos de descrição construídos manualmente e
outro. Como uma tentativa de solução para tal problema, surgi- são um pouco mais complexos do que os formatos originados pela
ram as ferramentas de meta-busca, que baseiam-se na reformatação “indexação automática. À banda 3 inclui formatos mais complexos
dos resultados obtidos em outros mecanismos, apresentado-os para que requerem os conhecimentos de especialistas para serem cria-
o usuário final em uma página concisa; dos e mantidos. Entre esses formatos estão o MARC e o TEL, À
No tocante à busca na web, muitas iniciativas imbuídas da filoso- descrição dos registros é realizada intelectualmente e requer conhe-
fia do software livre sempre foram implementadas; mas há que se cimentos não apenas sobre o formato, como, também, sobre as
destacar o Nutch, Org, que constitui-se um esforço para implementar tradicionais regras de classificação.
um sistema de localização na web com código-fonte aberto e com
estratégia de desenvolvimento comunitário;
Novas metodologias de recuperação têm surgido, como por exemplo:
o uso de conhecimentos das áreas de inteligência artificial, cognição e
matemática; a tecnologia de clustering, que fundamenta-se no agrupa-
mento de documentos de acordo com suas descrições; o controle
terminológico de termos semanticamente relacionados, como sinôni-
mos e equivalentes em línguas estrangeiras, entre outros;
Também novas formas de apresentação têm surgido, como os
mapas interativos e conceituais:
Do ponto de vista da autoria de páginas HTML, as primeiras
tecnologias utilizadas para facilitar a localização pelos sistemas de
busca foram as tags <meta> e <link>. No entanto, abusos cometi-
dos por webmasters motivaram a busca pelo estabelecimento de
novos padrões de metadados para a representação, bem como de
novas modalidades de indexação:
Entre os padrões de metadados mais importantes e originários da
área de Ciência da Informação, citam-se: Dublin Core, TEI, AACR2,
MARC e GILS;
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
63
4 Uleb Semântica
" BERNERS-LEE, T.; HENDLER, 4; LASSILA, O. The Semantic Web: A new form of Web content that is
meaningiul to computers will unleash a revolution of new possibilities, American Scientific.com. may,
2001. Disponível em: hitp://www sciam.com/article.ctm?articlelD=00048144-10D2-1670-
B4ASBOIEC588EF21. Acesso em 07/11/2008.
Na prática, isto significa que as máquinas — computadores pessoais : “soas. A organização de sítios e páginas com tal escalabilidade que permita
ou qualquer outro dispositivo conectado à Internet - poderão realizar, qua- “ a completa integração entre os recursos, mesmo quando tiverem sido de-
se sem necessidade de intervenção humana, uma infinidade de tarefas que “ senvolvidos em plataformas completamente diferentes — e isso refere-se
simplificam a vida das Pp pessoas. Assim, a web semântica “não é uma web : E não apenas a hardware, mas também a aplicativos —, habilitará os compu-
separada, mas uma extensão da atual, na qual a informação é dada com “ tadores a usarem as informações disponíveis não apenas com propósitos
um significado bem definido, melhor habilitando computadores e pessoas - “ de exibição, se não também com possibilidades de automação, integração
a trabalharem em cooperação” (BERNERS-LEE, 2001). Dessa maneira, a e reuso em diferentes sistemas (PALMER, 2001).
web tornar-se-á um ambiente com capacidade de processamento automáti- A web atual tem sido desenvolvida para o leitor humano (BERNERS-
co de informações, deixando de ser apenas um repositório de documentos LEE, 2001). Uma máquina não pode entender muito do conteúdo da web,
para pessoas (NAFRÍA, 2001). mas apenas oferecê-lo para que as pessoas o interpretem. Entretanto, a
No entanto, para se chegar a essa nova web, são necessárias muitas “ interpretação automática do conteúdo é vital para o desenvolvimento de
iniciativas que não são fáceis de serem realizadas. Entre essas iniciativas aplicações inteligentes para a Internet (NAFRÍA, 2001). Para Hyvônen
está o desenvolvimento de uma linguagem padrão, que perímita a constru- (2002), a Web Semântica, ou Internet de significados, é uma visão da pró-
ção de coleções de informações estruturadas, bem como de conjuntos de xima geração da web que poderá ser utilizada não apenas por humanos,
regras de inferências, de modo que os computadores possam utilizá-las mas também por máquinas. Assim, o autor prevê que, com a ajuda dos
para desenvolverem sua capacidade de localização automática de recursos padrões e ferramentas da web semântica, será possível a representação — de
(BERNERS-LEE, 2001; NAFRÍA, 2001). É necessário, portanto, adicio- : “uma maneira compreensível para os computadores — dos significados dos
nar-se lógica à web, por meio da utilização de uma linguagem que seja onteúdos da web; isso facilitará a implementação de novas aplicações e
capaz de expressar dados e regras para inferências sobre tais dados, forne- serviços inteligentes.
Segundo Quivey (2002), a idéia da Web Semântica tem sido desen-
cendo também as regras para a exportação para a web de qualquer sistema
de representação do conhecimento existente. volvida por pelo menos seis anos!* e, embora com desenvolvimento len-
A concepção da Web Semântica, que almeja tais objetivos, é uma to, o projeto tem tido significativo a expansão: diversas tecnologias es-
estrutura de representação de dados na World Wide Web, por meio de um ão sendo desenvolvidas com esse esforço. Pelo menos duas tecnologias
são chave para o sucesso da Web Semântica: a eXtensible Markup
esforço colaborativo liderado pelo W3C€, com a participação de pesquisa
dores e de empresas de desenvolvimento de software de todo o mundo. À . “Language (XML) e o Resource Description Framework (RDF) (QUIVEY,
idéia da Web Semântica é uma evolução do grupo de trabalho Metadata 002; BERNERS-LEE,2001), que são tecnologias promissoras e que atu-
Activity, vinculado ao W3C, cujos maiores objetivos eram o estudo e o : Imente têm encontrado grande aceitação na web. Então, a Web Semânti-
desenvolvimento de um framework para a representação de informação ca baseia-se principalmente em aplicações que utilizam XML como
compreensível por máquinas na web. O principal trabalho desenvolvido ecnologia de suporte à estruturação sintática e URIs para a denomina-
“ção dos recursos (W3C, 2003).
por esse grupo [oi o Resource Description Framework (RDI), que tem como
Conforme lembra Nafria (2001), a linguagem XML é bem aceita
propósito fornecer um sistema de ontologia de base para dar suporte à.
troca de conhecimentos na web (W3C, 20032). As funções do W3C 'pois permite aos usuários adicionarem uma estrutura arbitrária a seus
“documentos; entretanto, essa linguagem nada pode dizer a respeito do
Metadato Activity foram absorvidas pelo W3C Semantic Web Activity.
O principal objetivo no desenvolvimento da web semântica é o:
compartilhamento de informações, tanto por máquinas, quanto por pes- ? Aproximadamente dez anos, contando-se o ano de 2006.
significado de tal estrutura. Por esse motivo, a tarefa de atribuir-se signi- capacidade estiverem disponíveis para interagirem. Ora Lassila (1997) tam-
ficado tem sido realizada com a linguagem RDF, uma linguagem de mar- - bém prevê que a web se transforme em aigo compreensível para as máqui-
cação em que é possível descrever-se a informação para processamento de “has, por meio de um mecanismo que permita uma descrição mais precisa
significado pelo computador. O terceiro elemento fundamental para cons- das coisas na web; isso, afirma o autor, poderia elevar o status da web de
trução dessa web do futuro são as ontologias. Conforme Berners-Lee legível-por-máquina para algo que poderíamos chamar de compreensível-
(2001), na filosofia, uma ontologia é uma teoria sobre a natureza da por-máquina.
existência, dos tipos de coisas que existem; então a ontologia, como dis- Em termos de aplicações, os exemplos a seguir mostram alguns be-
ciplina, estuda tais teorias. O autor lembra, ainda, que pesquisadores nas nefícios da web semântica:
áreas de Inteligência Artificial e de Web têm feito empréstimo desse ter- - se for corretamente desenvolvida a web semântica pode ajudar a
mo, dando-lhe a significação de: um documento ou arquivo que formal- evolução do conhecimento humano, facilitando a colaboração en-
mente define relações entre termos. Um exemplo típico de ontologia para tre equipes de pesquisadores em localidades remotas;
a web possui uma taxonomia e um conjunto de regras de inferência - como os agentes melhorarão sua eficácia em razão dos conteúdos
(BERNERS-LEE, 2001). com significado semântico, as buscas serão mais precisas e
Para Palmer (2001), a web semântica é uma malha de informação retornarão melhores resultados, combinando informações em di-
ligada de maneira que seja facilmente processável por máquinas, em uma ferentes páginas;
escala global e pode ser pensada como sendo uma forma eficiente de repre- - as escolas poderão integrar-se com sua comunidade: bibliotecas
sentar dados na web ou como uma base de dados globaimente vinculada. públicas, videotecas, museus, entre outras instituições;
Segundo Quivey (2002), com o advento da Web Semântica, as buscas na Berners-Lee (2001), postula que o primeiro passo para que se consi-
tornar-se-ão mais fáceis e mais rápidas porque os computadores poderão sa organizar a informação na web, de modo a torná-la inteligível para má-
realizá-las com a mínima intervenção humana. No entanto, para que isso uinas, é uma mudança no paradigma de como tal informação é armaze-
ocorra, é necessário que as páginas sejam escritas em uma linguagem clara, “ nada, de modo que os dados sejam processados direta ou indiretamente
de modo que os computadores possam compreender seu significado. Para por computadores. Para Daconta (2003), essa mudança de paradigma tem
a autora, com a linguagem certa e com o conjunto semântico apropriado, “evoluído em quatro estágios:
nossos computadores estarão aptos a decifrar e fazer inferências sobre o a) informações organizadas em forma de texto ou armazenadas ban-
material encontrado em uma página web. É importante destacar-se que o cos de dados (pré-XML) - nesse estágio inicial, em que a maioria
computador não “compreende” verdadeiramente qualquer tipo de infor- das informações é de propriedade de um aplicativo ou serviço; as-
mação em uma página web, mas pode, com o apoio das ontologias, mani-
sim, as “inteligências” concentram-se nas aplicações em não nos
pular os termos de uma maneira muito mais efetiva, permitindo que essa '
dados;
informação torne-se mais útil e significativa para um usuário humano
b) informações organizadas no padrão XML, em um domínio especií-
(BERNERS-LEE, 2001).
fico — nesse estágio, a informação registrada adquire independên-
Quivey (2002) destaca que o verdadeiro poder da web semântica |
será realizado quando forem criados programas que coletem conteúdo de :. cia dos aplicativos em um domínio específico do conhecimento; a
diversas fontes, processem essas informações e troquem os resultados com. - informação agora é “inteligente” o suficiente para que possa ser
outros programas; a efetividade desses programas crescerá compartilhada automaticamente de um aplicativo ou serviço para
exponencialmente, à medida que mais e mais programas com a mesma outro;
c) taxonomias e documentos com vocabulários mistos — nesse está- “como argumenta Powers (2003), é necessária a utilização de uma lingua-
“gem de ontologia, que permita a descrição formal da semântica de classes
gio, a informação pode ser composta por diversos domínios e cui-
propriedades utilizadas nos documentos da web. Tal linguagem, lembra a
dadosamente classificada em uma taxonomia hierárquica; assim,
autora, deve ir além da semântica básica fornecida pelo RDF-Schema,
a descoberta dos dados é feita por meio da classificação; podem
Miler e Koivunen (2002, p. 27-33) consideram que os seguintes prin-
ser utilizados relacionamentos simples entre as categorias da
cípios fundamentam a web semântica:
taxonomia, de modo a permitir a correlação e a combinação de iar
D tudo pode ser representado por meio de URP's — é possível referenc
informações; a informação é “inteligente” o suficiente para ser des- pessoas, lugares e coisas do mundo físico na web semântica, com a
coberta e combinada com outras;
utilização de diversos identificadores unívocos;
d) ontologias e regras — nesse estágio novos dados ou informações e
2) recursos e links podem ter tipos — a web atual consiste de links
podem ser inferidos a partir de dados existentes, por meio de re- recursos destinados à interpretação humana e, ainda, não é ampla-
gras lógicas pré-existentes; em sua essência, a informação é descri- mente difundido o uso de meta dados para explicitar seu significa-
ta com relacionamentos concretos c com sofisticados formalismos do, bem como, suas relações com outros documentos, de modo
em que cálculos lógicos podem ser realizados a partir de uma “ál. que máquinas possam realizar inferências sobre o seu significado;
gebra semântica”; isso permite a combinação e a recombinação de tais relações podem ser, por exemplo: depende de, é uma versão
dados em um nível mais “atômico”, isto é, a informação é analisa- de, possui assunto, é autor de, enire outras;
partir de unidades menores para um contexto mais amplo;
da a
3) informação parcial é tolerada — a web atual sacrifica a integridade
nesse estágio os dados não existem individualmente, mas fazem dos links, em função de sua escalabilidade; de tal modo, páginas
parte de um sofisticado microcosmo; tal estruturação encontra podem estabelecer ligações com outras sem à necessidade de que
aplicações em diversos âmbitos do conhecimento, como, por exem- haja uma reciprocidade nessa ligação; de maneira similar, na web
plo na tradução automática do conteúdo de um documento de semântica, pode-se declarar qualquer coisa sobre qualquer coisa,
certo domínio para outro. Nesse nível de estruturação os dados sem que haja necessidade da criação de ligações entre os recursos
definem-se inteligentes, pois são independentes de aplicativos, são declarados;
classificados, sua composição é flexível e são parte de um sistema 4) a verdade absoluta não é necessária - nem toda informação na web
de informação mais amplo (uma ontologia). atual é verdadeira, e a web semântica não prevê mudanças nessa
Finalizando essa abordagem, os autores relembram que os benefíci-. orientação.
os da Web Semântica não estão destinados apenas para a World Wide Web | 5) a evolução é suportada — a web semântica utiliza convenções des-
mas, ao contrário, representam também um conjunto de tecnologias que: critivas que podem expandir-se como a compreensão humana se
funcionarão igualmente bem em intranets e que resolverão um grande ná-
expande; tais convenções permitem a combinação do trabalho in-
mero de problemas existentes nas atuais arquiteturas de tecnologias de
dependente e compartilhado entre diversas comunidades, mesmo
informação.
quando estas utilizam vocabulários diferentes.
Em termos de tecnologias, a web semântica será construída com base.
o) o projeto é minimalista — um dos objetivos para garantir o desen-
nas potencialidades da linguagem XML, da arquitetura RDF e do esquema
volvimento da web semântica é padronizar apenas o que for neces-
RDF-Schema, para a representação de dados por meio da descrição de es-
sário, favorecendo a implementação de aplicações flexíveis.
quemas de marcação personalizados e flexíveis. Além dessas tecnologias,:
Organização da Informação na web: das tags à web semântica
Organização da informação na web: das tags à web semântica Ailton Feitosa
Ailton Feitosa
A
70
4.2 Ontologias a) para Husserl — a ontologia é a ciência das essências e pode ser de
e
dois tipos: formal — que é o fundamento de todas as ciências
Desde o início dos anos 90, as ontologias tornaram-se um tópico dé interessa-se pelas essências e suas relações com outras essências;
pesquisa popular nas áreas de inteligência artificial, engenharia do conhe: ou material — conjunto de ontologias setoriais que sc preocupa
cimento, processamento da linguagem natural e representação do conheci. com fatos;
mento. À razão de tal popularidade é acreditar-se que, por seu intermédio b) para Hartmann — a ontologia presta-se ao reconhecimento daquilo
um entendimento comum e compartilhado sobre um determinado domí que é metafisicamente insolúvel; essa corrente examinava os diver-
nio de conhecimento poderá ser comunicado tanto entre pessoas como. sos momentos do ser, relacionando-os à existência ou à essência; à
entre computadores. realidade ou à idealidade; à possibilidade, realidade, causalidade
Originário da Filosofia, o termo Ontologia, em sentido estrito, pode. ou necessidade;
ser definido como estudo do ser e de suas propriedades fundamentais, o) para Heidegger — a ontologia é uma metafísica da existência e é
Etimologicamente o termo provém do grego: ontos (ser, ente) e logos (sa- baseada na fenomenologia; especifica as categorias fundamentais
ber, doutrina). Filosoficamente, há dois aspectos pelos quais se pode con- da existência, isto é, classifica os conceitos e examina as distinções
ceber ontologia: é
que sustentam cada fenômeno no mundo.
a) aspecto existencial — a ontologia é um saber sobre aquilo que é: O dicionário Dictionary.com'º fornece as seguintes definições para O
e explicita
fundamental ou irredutível, comum a todos os entes singulares; * termo ontologia: a) uma área da ciência da metafísica que investiga
b) aspecto essencial — busca determinar as leis, estruturas ou causas. a natureza, as propriedades essenciais e as relações entre os seres, como
do ser em si. tais, ou os princípios e causas do ser, b) uma especificação explícita e for-
A ontologia, vista na acepção filosófica, remonta aos trabalhos de: : mal de como representar objetos, conceitos e outras entidades existentes
concei-
Aristóteles — entre 384 e 322 a.C —, nos quais o pensador referia-se à natu- em uma área de interesse, bem como as relações entre tais objetos,
reza do ser, investigando sua essência última e à razão de ser, por trás da: tos e entidades; c) no campo da Ciência da Informação, a estruturação
de
natureza última como o ser é percebido. Não obstante a antecipação dos . hierárquica do conhecimento sobre coisas, pela sua subcategorização,
ou
princípios, por Aristóteles, o termo “ontologia” foi utilizado pela primeira: acordo com suas qualidades essenciais (ou pelo menos relevantes
que,
vez em 1613, por Rudolf Góckel, em sua obra Lexicon Philosophicum e: cognitivas). Como informação complementar, o Dictionary.com anota
aparentemente de modo independente por Jacob Lorhard, com sua obra, para os sistemas de Inteligência Artificial, o que “existe” é algo que pode
Theatrum Philosophicum (GUARINO; WELTY, 2001). Hyvônen (2002, p. ser representado. Assim, quando o conhecimento de dado domínio é repre-
está
114) afirma que, na perspectiva linguística, ontologia é vista como um sentado em uma linguagem declarativa, o conjunto de objetos que
método destinado a aprimorar a compreensão da linguagem pelos siste- sendo representado é denominado universo do discurso. Às definições
mas de processamento da linguagem natural. Dessa maneira, as teorias: associam os nomes das entidades em dado universo do discurso — por
ontológicas tentam representar o conhecimento humano de maneira
estruturada. É 1 Dictionary. com é um serviço de busca produzido pela empresa Lexico Publishing
Group, e baseia-se na
de diversos outros dicionários disponíveis na web. O serviço pode ser
Como disciplina, historicamente a ontologia foi cultivada desde o reunião de definições advindas
Heritage Dictionary of the
localizado em [http://www dictionary.com] é inclui as obras: The American
século VXII e, graças ao filósofo alemão Christian Woldd, o termo ga- English Language, da editora Houghton Mifilin Company, Webster's Revised
Unabridged Dictionary, da
editado pela Princeton University, The Free On-liné Dictionary of Computing,
nhou projeção. A partir do século XIX, três correntes tornaram-se impor- editora MICRA; WordNet,
de Denis Howe; entre outras.
tantes:
Organização da informação na web: das lags à web semântica
Organização da Informação na web: das tags à web semântica Ailton Feitosa
Ailton Feitosa
73
72
exemplo, classes, relações, funções ou outros objetos - com textos legíveis De acordo com Noy e McGuinness (2004), uma ontologia é uma
por humanos, que descrevem o que tais nomes significam e com axiomas - descrição formal e explícita de conceitos — classes - em um domínio do
formais, que restringem a interpretação e o uso desses termos | - discurso, das propriedades de cada conceito, descrevendo diversas carae-
(Dictionary.com, 2004). ; “terísticas é atributos de tal conceito — slots (também chamados de papéis
Do ponto de vista da Ciência da Computação, há diversas defini- ou propriedades, bem como das restrições nesses slots — também chama-
ções para as ontologias. Goméz-Pérez registra as visões de diversos autores das de restrições de papéis). Na concepção dessas autoras, O desenvolvi-
para o termo. À tabela 9 apresenta algumas dessas visões: mento de ontologias pode ser motivado para: a) compartilhar um enten-
dimento comum da estrutura da informação entre humanos e agentes
Tabela 9: Definições de ontologia inteligentes; b) permitir o reuso do domínio do conhecimento; c) tornar
Definição explícitos os pressupostos de um domínio; d) separar 0 conhecimento
Uma ontologia define os termos básicos e as relações “sobre o domínio do conhecimento operacional; e) analisar o conhecimen-
compreendendoo vocabulário de uma área de tópico, “o sobre o domínio, Para complementar essas idéias, cabe aqui apresen-
inaçã capo . . e
b tar a tipificação desenvolvida por Hyvonen (2002) para identificar as.
a combinação de lerimoseestaas
em comapara
relações definir para
as regras as extensões do vocabutário, Vo o
NECHES (1991) definição fornece também as linhas gerais paraa ontologias, quanto aos seus objetivos: a) de representação do conheci-
construção de uma ontologia: identificar os termos básicos mento - compreendem a representação de primitivas utilizadas para co-
e as relações entre eles; identificar as regras para : - : :
z de conhecimen-
a a cimento formalizado em paradigmas de representação
combiná-los; fornecer definições para tais termos e nhe p 8 P s
relações. 'to; b) gerais ou comuns — incluem vocabulário relativo a coisas, eventos,
é uma especificação explicita de uma
uma ontologia À - tempo, espaço, causalidade, comportamento, funções, etc: c) meta-
conceituação. Nesta definição: conceituação refere-sea “ ontologias — também chamadas de ontologias genéricas ou ontologias,
um modelo abstrato de algum fenômeno, sendo , - qro . e :
identificados os conceitos relevantes desse fenômeno: núcleo -— são reutilizáveis em diversos domínios; e d) entologias de domí-
explicita significa que o tipo de conceitos utilizados e as “ nio — são reutilizáveis em um dado domínio. Fornecem vocabulários so-
GRUBER (1993)
restrições a esse uso são explicitamente definidos; formal bre conceitos com um domínio e suas relações com as atividades que têm
e sobre teorias e princípios ciementares que que 8 gover
máquina; aocompartilhada
refere-se a ontologia
fato de que reflete uma por
dove deserqueIegivel
a noção 8 nesse domínio
lusar Í prncip
ontologia captura um conhecimento consensual, isto é, nam esse domínio.
não privativo de um indivíduo, mas aceito por um grupo. Do ponto de vista da representação do conhecimento, uma ontologia
BORST (1997) Ontologias são definidas como uma especificação formal * não deve ser concebida apenas como um vocabulário informal, ou mesmo
de uma conceiluação compartilhada. k d d
uma ontologia é um conjunto hierarquicamente como uma linguagem de termos estruturados — como um tesauro, por exem-
estruturado de termos para descrever um domínio que “plo -, mas requer uma possibilidade de interpretação algorítmica dos seus
SWARTOUT (1997) significados e, por conseguinte, uma representação em uma linguagem for-
pode ser usado como um esqueleio fundamental para
de conhecimentos “mal, cujo processamento dos significados pode ser realizado por máqui-
Uma base
uma ontologia fornece significado para a descrever ' J] Pp sm , P Da P 2a q
SERNARAS (1996) explicitamente uma conceituação atrás de um as. Dito de outro modo: uma ontologia requer a explicitação lógico-for-
conhecimento representado em uma base de mal de significados e palavras, que devem ser expressos por meio de
conhecimento é construtos matemáticos.
Fonte: Góômez-Pérez (1999) :
Certamente essa explicitação requer uma organização estrutural. A
depender do domínio do conhecimento, as ontologias podem variar em
Organização da Informação na web: das tags à web semântica co Organização da Informação na web: das tags à web semântica
Ailton Feitosa
ABlton Feitosa
74 75
termos estruturais, mas alguns construtos utilizados são independentes de - cias. Com a utilização desses componentes, as ontologias fornecem um
domínio. Entre eles, Hyvonen (2002, p. 122) cita: vocabulário comum para uma área e definem — com diferentes níveis de
a) classes — os conceitos genéricos de um vocabulário são definidos formalismo — o significado dos termos de tal vocabuláio, bem como as
como classes. Por exemplo, a classe Tigre representa a categoria ; relações entre eles.
genérica de espécies de tigres; Classes (conceitos) — são utilizados em sentido amplo e podem ser
b) relação de superclasse — as classes são organizadas em hierarquias abstratos ou concretos; elementares ou compostos; reais ou fictícios; uma
conceituais. Exemplificando, a classe Tigre é uma subclasse da classe - classe pode ser um objeto ou uma tarefa, uma função, uma ação, uma
dos carnívoros; estratégia, um processo de raciocínio;
c; propriedades de classe - classes podem ter propriedades, Relações — representam um tipo de interação entre classes de um
frequentemente denominadas slots (pistas). As propriedades de uma domínio; são formalmente definidas como qualquer subconjunto de um
produto de n conjuntos;
subclasse podem ser herdadas de sua superclasse, o que leva a uma .
Funções — são casos especiais de relações em que o enésimo elemen-
economia em termos de representação e que torna possível a reali-
to da relação é único para os n-1 elementos precedentes;
zação de inferências simples. Exemplificando: uma vez que carní- |
Axiomas — são usados para modelar sentenças que sempre são ver-
voros comem carne e possuem dentes afiados, então os tigres tam-
dadeiras;
bém, visto que são carnívoros; Instâncias — são usadas para representar elementos.
d) características de propriedade (facetas) — propriedades de classes Sejam quais forem os construtos ou componentes admitidos, os
podem, em si mesmas, possuir facetas que as restringem. Por exem- autores consultados oferecem recomendações importantes. A fim de ga-
plo: as facetas tipo de valor e cardinalidade podem ser associadas rantir sua efetividade na representação do conhecimento há, segundo
à propriedade pais, para denotar que é um tipo da classe Pessoa e Gomez-Pérez (1999), alguns princípios básicos que devem ser seguidos
que o número de valores deve ser de pelo menos 2; para a estruturação de ontologias. São eles: a) clareza e objetividade —
e) indivíduos — um objeto individual sobre o qual trata uma ontologia uma ontologia deve fornecer o significado dos termos definidos, forne-
é denominado de instância ou objeto. Cada objeto é uma instância - cendo definições objetivas e também documentação em linguagem natu-
de uma ou mais classes. Por exemplo: Garfield pode ser uma ins- . ral; b) completeza — uma definição expressa por condições necessárias e
tância da classe Gato e também da classe GatodeCartoon. A rela- suficientes é preferível a uma definição parcial; c) coerência - para permi-
ção de pertinência é freqiientemente denotada pela expressão “é tir inferências que sejam consistentes com as definições; d) maximização
da extensibilidade monotônica - novos termos gerais ou especializados
um”;
devem ser incluídos na ontologia de modo que não seja necessário reali-
) axiomas e restrições - uma ontologia baseada em lógica formal
zar a revisão das definições já existentes; e) comprometimento ontológico
pode ter axiomas e restrições adicionais ou regras de inferência.
mínimo - fazer a menor quantidade possível de declarações sobre o mun-
Axiomas e regras podem ser escritos por meio de termos, funções,
do que está sendo modelado, o que significa que a ontologia deve especi-
predicados, operadores, quantificadores, entre outros.
ficar, em um contexto tão pequeno quanto possível, os significados dos
seus termos, dando liberdade à ontologia para especializar-se e instanciá-
Para Gômez-Pérez (1999), tais construtos, ou componentes, como los; £) princípio da distinção ontológica — as classes em uma ontologia
denomina a autora, são cinco: classes, relações, funções, axiomas e instân- devem ser desmembradas; o critério utilizado para isolar o núcico de pro-
Organização da Informação na web: das tags à web semântica " Otganização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
76 mn
priedades considerado como invariante para uma instância de uma classe projetista toma tais decisões com base nas propriedades estruturais de
é chamado de critério de identidade; g) diversificação de hierarquias (me- uma classe. Como resultado, uma estrutura de classes e as relações entre
canismos de herança múltipla) — se conhecimento suficiente é representa- classes em uma ontologia é diferente da estrutura para um domínio simi-
do na ontologia, e tantos critérios de classificação quanto possível são lar em um programa orientado a objetos (NOY; MCGUINESS, 2004).
utilizados, é fácil entrar com novos conceitos (desde que eles possam ser Daconta (2003) partilha de tal orientação, argumentando que uma repre-
facilmente especificados a partir de conceitos e de critérios de classifica- sentação de classes e de relacionamentos entre classes, para possibilitar
ção pré-existentes) e também herdar propriedades a partir de diferentes inferências, requer formalismos rigorosos que estão muito além das con-
pontos de vista; h) modularidade — para minimizar o acoplamento entre venções utilizadas nas atuais linguagens de programação orientadas a
módulos; i) redução da distância semântica entre conceitos similares — objetos, como Java, C e C%, por exemplo. No entanto, tais formalismos
conceitos similares são agrupados e representados como subclasses de de hierarquias de classes, restrições de propriedades e relações entre clas-
uma classe e devem ser definidos utilizando-se as mesmas primitivas, ses podem facilmente ser representados por meio de ontologias. A essas
enquanto conceitos menos similares são representados mais apartados observações, é interessante acrescentar a classificação de Uschold &
na hierarquia; |) padronização — os nomes devem ser padronizados, quan- Gruninger (1996), que distinguem quatro tipos de ontologias, de acordo
do possível; com co grau de formalismo com que são construídas: a) altamente infor-
Na concepção de Noy e MeGuinness (2004), existem pelo menos mais — escritas em linguagem natural; b) semi-informais — expressas em
três recomendações importantes quanto à estruturação de uma ontologia: linguagem natural, mas de um modo restrito e estruturado, isto é, utili-
a) não há uma forma correta de se modelar um domínio do conhecimen- zando padrões; c) semi-formais — são definidas artificial e formalmente
to: entre diversas alternativas viáveis, a melhor solução sempre depende- em uma linguagem definida; d) rigorosamente formais - são definidas
rá das características da aplicação ou serviço que se pretende desenvol- em uma linguagem com semântica formal,
ver; b) o desenvolvimento de uma ontologia é necessariamente um pro- Em suma, depreende-se das idéias aqui discutidas, que uma teoria
cesso interativo; c) os conceitos em uma ontologia devem estar intima- ontológica define conceitos em um domínio do conhecimento, por meio
mente ligados a objetos físicos ou lógicos, e a suas inter-relações em um de um vocabulário; uma aplicação faz uso dos objetos, por meio de axi-
dado domínio do conhecimento. Tais conceitos provavelmente serão mais cmas e de regras lógicas; tais regras dizem como utilizar os conceitos
bem expressos por nomes ou verbos. Em resumo, uma ontologia refere-se referenciados, com vistas à solução de problemas em particular; há sem-
à descrição exata de coisas e seus relacionamentos. E, na web, uma pre uma estrutura que melhor representa o domínio do conhecimento,
ontologia refere-se à descrição exata de uma informação disponível na mas ta! estrutura depende dos objetivos do sistema e, por isso, deve obe-
rede e à descrição de seus relacionamentos com outras informações decer a certos princípios; existem níveis de formalismo a serem estabele-
(W3Schools, 2004). cidos, os quais terão interferência determinante na efetividade do siste-
Tal como à estrutura, deve-se dispensar atenção à metodologia de ma; registre-se, aqui, que tais níveis de formalismo também conformam-
desenvolvimento de um ontologia, para garantir sua efetividade na repre- se aos objetivos do sistema,
sentação do conhecimento. O desenvolvimento de uma ontologia é dife- A busca pela possibilidade de se reutilizar o conhecimento em dado
rente do planejamento de classes e relações na programação orientada a domínio do conhecimento é uma das forças motrizes das pesquisas na área
objetos. À programação orientada a objetos centra-se principalmente em de ontologias. Se um grupo de pesquisadores desenvolve uma ontologia
torno de métodos em classes - um programador projeta decisões basca- relativa a determinado domínio do conhecimento, outras pessoas poderão
das nas propriedades operacionais de uma classe. Em uma ontologia, o reutilizá-la mais tarde ou até mesmo integrá-la a outras ontologias para
Organização da informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
78 79
formar uma maior, que descreva mais profundamente certo domínio do “ ceito é similar ao que todas as linguagens de programação ou de marcação
conhecimento. Tornar explícitos os pressupostos de um domínio torna, utilizam e denominam como atributo identificador de um objeto, Dessa
também, possível modificar facilmente tais pressupostos, se o conheci- “maneira, o uso de URIs permite que uma linguagem faça referência a obje-
mento sobre o domínio muda, Além disso, tal explicitação é muito útil “tos definidos em outra linguagem.
para novos usuários, que devem compreender o que os termos de um do- A expressão URI pode ser definida de acordo com os seus constitu-
mínio significam (Daconta, 2003). “intes núcleos, da seguinte maneira (Berners-Lee, 19982):
Na atualidade, grande parte da informação produzida encontra-se ar-
mazenada na web. Esse fato toma a busca de uma interpretação comum a) Uniforme — a noção de uniformidade em um URI associa-se a três
entre humanos e computadores um dos objetivos primordiais no desenvol- princípios básicos: em primeiro lugar, deve ser possível a utilização
vimento de ontologias. Apenas para ilustrar tal afirmação, considere-se, por de diferentes tipos de identificadores de recursos no mesmo con-
exemplo, a aplicação de uma ontologia a um sistema web de comércio eletrô- texto, ainda que os mecanismos usados para O acesso a tais recur-
nico. Se os sites envolvidos em tal sistema compartilharem e publicarem os sos sejam diferentes; em segundo lugar, independentemente da for-
mesmos termos contidos em uma ontologia que todos utilizem, então agen-
ma como os identificadores são usados, deve ser possível a inter-
tes inteligentes serão capazes de extrair e agregar informações desses diferen-
pretação semântica de convenções sintáticas, mesmo gue sejam
tes sites e, assim, empregar tal informação para resolver situações que vão
usados diferentes tipos de identificadores de recursos; e em tercei-
desde apenas responder a questões de pesquisa de usuários, até aproveitar as
ro lugar, deve ser possível a reutilização dos identificadores em
informações coletadas como dados de entrada para outras aplicações (Noy e
McGuiness (2004). Tal nível de organização do conhecimento, inteligível
diferentes contextos o que, por conseguinte, permitirá a criação de
para humanos e máquinas, é a razão de ser da Web Semântica. novas aplicações ou protocolos.
b) Recurso — um recurso pode ser qualquer coisa que tenha identida-
de, como um arquivo eletrônico, uma imagem, um som, entre ou-
4.5 Infra-estrutura da Uleb Semântica tras entidades. Nesse contexto, mesmo entidades que não sejam
“recuperáveis” pela web, como por exemplo, seres humanos, em-
Para Tim Berners-Lee (1998), os princípios da universalidade do acesso presas ou o acervo de uma biblioteca, são definidos como recur-
sem restrição de plataformas de hardware ou de software, infra-estrutura sos. Um recurso, portanto, É o mapeamento conceitual para uma
de rede, idioma, cultura, localização geográfica ou física são os valores entidade ou conjunto de entidades, não necessariamente entidades
núcleo do projeto da web. Além desses princípios, o autor destaca, como que correspondem àquele mapeamento em alguma instância parti-
“matérias-primas” da web: a simplicidade e a modularidade; e como “respi- cular no tempo. Desta maneira, um recurso pode permanecer cons-
ração da web”: a descentralização e a tolerância. Para projetar tal infra- tante, mesmo quando seu conteúdo — a entidade à qual ele
estrutura, que permita essa arquitetura multiplataforma, o autor concebeu corresponde — muda com o tempo.
o identificador universal de recursos — Universal Resource Identifier, URP?
c) Identificador — um identificador é um objeto que pode atuar como
— como unidade fundamental de identificação de objetos na web. Esse con-
uma referência a algo que possua identidade. No caso de um URI,
o objeto é uma segiiência de caracteres com wma sintaxe restrita.
» Um Uniform Resource Identifier (URI) é um conjunto compacto de caracteres utilizado para a identificação
de um recurso abstrato ou físico; um URI fornece ao recurso um significado simples e Portanto, tendo identificado um recurso, um sistema pode utilizá-
extensível (BERNERS-LEE, 1998)
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
8o 81
lo para realizar operações tais como: acesso, atualização, substi- . tante flexível, impossível a outros sistemas como tabelas e diagramas
tuição ou localização de atributos. : hierárquicos. Os círculos seriam, então, como os nós, e as setas como
“os links. Cada nó representa, portanto entidades como uma pequena
De acordo com Swartz (2002), um importante ponto a ser destaca- . nota, ou um sumário de um artigo e pode ser armazenado em forma
do é que um URI não é um conjunto de endereços dizendo ao computador : gráfica, textual, ou em ambas representa ou descreve uma pessoa ou
como obter um arquivo específico na web (embora ela também faça isso), cbjeto em particular. O autor sugere, desta maneira, exemplos de enti-
O autor lembra que um recurso é um nome para uma “coisa” que pode ou “dades representadas por nós: pessoas, módulos de software, grupos
não ser acessível por meio da Internet. Portanto, é possível atribuir-se um “de pessoas, projetos, conceitos, documentos, tipos de hardware, obje-
URI para qualquer coisa e qualquer coisa que possua um URI pode ser “tos gráficos específicos, entre outras. Assim, dadas duas entidades A e
considerada “na web”: um livro, um vôo de avião, e qualquer outra coisa B, os links (setas) entre uma e outra podem representar, por exemplo
em que se possa pensar, Segundo Swartz o URI é o fundamento da web: “que A: depende de B ; é parte de B; é feito de B; refere-se a B; usa B; ou
enquanto qualquer outra coisa na web pode ser substituída, o URI não, 'é um exemplo de B.
pois é ele que mantém o resto da web junto. Um URI pode ou não fornecer : Com essas concepções, ou autor desenvolveu um sistema já conheci-
um caminho para o computador obter mais informações acerca de um : do por todos, no qual qualquer tipo de informação pode ser armazenada e
recurso; isto é, embora a possibilidade de um URI fomecer informações “localizada por qualquer pessoa, mesmo que esta não saiba exatamente o
sobre outro URI seja importante para a web semântica, o autor Swartz. “que tenciona procurar. O sistema baseia-se, pois, na utilização de tipos
(2002) argumenta que um URI nada faz além de fornecer um identificador : genéricos de links entre os itens (dependência, por exemplo), e tipos de nós
para um recurso. (entidades: pessoas, coisas, documentos), sem a imposição de limites. O
Genericamente, um URI pode ser classificado como um localizador, objetivo é disponibilizar um lugar para cada informação que alguém quiser
um nome ou ambos. O termo Uniform Resource Locator (URL) refere-se “tornar pública, de modo que tal informação seja encontrada posteriormen-
a um subconjunto do URI, que identifica recursos por meio da represen- : “te. Associadas a essas características, o autor anteviu também que o siste-
tação do seu mecanismo de acesso principal: o seu endereço, ao invês de “ ima seria suportado por diversas plataformas, além de ser extensível a no-
identificá-lo pelo nome ou por outro atributo. Lembra Swariz (2002) vos formatos de dados.
que um URL é um tipo de URI que fornece um caminho para se obter
A ilustração 14 apresenta o modelo proposto por Berners-Lee em
informação sobre um recurso, ou talvez para se recuperar o próprio recur- :
:1989 para representar uma “web de objetos”, incluindo pessoas, organiza-
so, O termo Uniform Resource Name (URN) refere-se ao subconjunto do -.
'ções, tecnologias, documentos, tópicos, entre outras entidades. Assim, os
URI que é requerido para permanecer globalmente único e persistente,
Jinks tipificados, como por exemplo “wrote”, “unifies”, “includes” — escreveu,
mesmo quando o recurso deixar de existir ou estiver indisponível (Berners- -:
unifica, inclui -- são utilizados para a representação do conhecimento sobre
Lee, 1998a). ,
eus relacionamentos,
Em sua idéia original sobre o que virá a ser a web, Berners-Lee
A leitura do diagrama apresentado permite concluir que a idéia da
(19984) apresenta conceitos de nós e links que, no seu ponto de vista,
web é bem mais ampla do que apenas fornecer meios para a localização de
permitem a melhor descrição de sistemas complexos e que são a base
. páginas, mas que, desde a sua concepção, o autor pensava em fornecer
para o entendimento da função do URI, O autor compara esses con-
informações semânticas sobre os objetos. Por exemplo, é possível obser-
ceitos aos conceitos de círculos e setas, que deixam qualquer pessoa
livre para descrever as inter-relações dos objetos de uma maneira bas- | var-se que: Tim Berners-Lee escreveu um “documento” > que descreve
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das lags à web semântica
Ailton Feitosa Aston Feitosa
83
82
2º Geração
a IBM - estrutura separada da apresentação
Computer mm GroupTalk - baseada em XML, XSL
qontendno “aaa ".
e “A ” (e) “+ dorexample
Hyper
Cand , > — 1º Geração
- apresentação separada da localização
Pago eco Sono n1 Hiaramhica! » baseada em HTML, PDF, CSS
k syteths
"' / o Sea
forexample
forenample
A
e”
4 - 1
15: Gerações tecnológicas da World Wide web —
Aq t Ilustração
adaptado de Hyvônen (2002).
CERHDOE. :
Lied !
e
A ilustração mostra as tecnologias utilizadas na web em cada gera-
information
o !
a
ção. A primeira geração, baseada na linguagem HTML, tornou possível a
/ CERN
indudes Y
ng
dessribes
“exibição dos documentos independentemente de sua localização física; a
indudes 4
” .
; bes This .
' od,
“segunda geração tornou possível o uso de diferentes formas de apresenta-
d divison
'ção para a mesma estrutura de um documento, com base na linguagem
document ,
O
-—e”
' e. XML; a terceira geração, a da web semântica, consiste na separação do
group
significado de sua estrutura, isto é, estende a noção de “documento” com a
group
| retrs
indudes desoribes to
| possibilidade de “semântica legível por máquina”. Se a codificação semân-
Y
wmfe
código, apresentado na ilustração 16, por exemplo, nada informa ao com- torresponde a um resumo do texto integral da lei; que o campo lei relaciona-se
putador sobre o conteúdo do parágrafo em questão: de algum modo com os termos norma, código, legislação, direitos.
cprebo<font Face-arial”> Na prática, a maioria dos sites disponíveis na Internet utiliza, ainda,
LEI Nº 3211,DE 23 DE OUTUBRO DE 2003 : apenas as tecnologias da primeira geração. Do ponto de vista da localização
EACC A AA J de documentos, as implicações desse uso são significativas, uma vez que
Hustração 16: o problema do significado com o uso da codificação HTML “tornam menos efetivas as operações de recuperação. Se, por um lado, a pu-
“& blicação se torna mais rápida apenas com o uso de textos integrais, por
A codificação apresentada na figura anterior apenas informa ao com-
“outro, a inexistência de metadados dificulta a representação € a organização
putador o que fazer em relação à forma do parágrafo, isto é: o tipo de letra:
“da informação, o que torna mais baixa a precisão, no momento da recupera-
que deve ser utilizado (arial); e o tipo de efeito aplicado a essa letra: negrito.
ão. De tal modo a interpretação do significado e da relevância das informa-
Quanto ao conteúdo do parágrafo, é necessária a interpretação humana “ções fica a cargo dos humanos.
para identificar que o texto refere-se a uma lei que foi publicada em uma:
No entanto, a Internet não é utilizada apenas por pessoas. É cada vez
certa data. Essa codificação, portanto, não permite ao computador realizar.
imaior o uso de robôs de busca, agentes de comércio eletrônico (shopbots),
inferências acerca do significado do texto em questão. De modo análogo, :
| rastejadores (web crawlers) e outros artefatos, para os quais não é fácil
com a utilização da tecnologia XML, é possível ao computador reconhecer.
à interpretar ou “entender” a informação não estruturada disponível na web
a estrutura de um certo registro em um documento, mas não dizer algo a
(HYVÔNEN, 2002). É com o pensamento nessas tecnologias, que os pes-
respeito do significado dessa estrutura (BERNERS-LEE, 2001). Assim, a
quisadores estão desenvolvendo os fundamentos da web semântica.
compreensão do seu significado é possível apenas para o leitor humano,
A Ilustração 17 mostra essa situação:
<aml> o à 444 ARTº geração: HTML € XHTML
<legislacao>
«lei>
<numero>3211</numero> A Hypertext Markup Language surgiu como uma derivação da lin-.
<data>23/10/2003</data> : .
<ementa>Dispõe sobre a estrutura orgânica da guagem Standard Generalized Markup Languege (SGML), linguagem ori-
Secretaria... .</ementa> 'ginária dos anos 70 e que sempre foi conhecida no meio informático pela
po sua potencialidade como linguagem de marcação de textos. À primeira ver-
</legislacao> CS “são da linguagem HTML foi elaborada por Tim Berners-Lee, com o objeti-
</xml>
“vo de suprir a web, uma vez que o seu projeto necessitava, para publicar
informação para a distribuição global, de uma linguagem universalmente
“compreensível, como um tipo de esperanto?!, que todos os computadores
O computador é capaz de compreender, por exemplo, que o valor 3271
pudessem potencialmente entender.
refere-se a um campo de dados, denominado mumero e que o valor 23/10/-
XHTML é um acrônimo para eXtensible Hypertext Markup Language.
2003 refere-se a outro campo de dados, denominado data. Com a tecnologia:
- Essa linguagem é uma evolução da linguagem HTML e consiste em uma
XML, a realização de inferências acerca desses campos é possível apenas para
humanos. Com as informações fornecidas no código da ilustração 17, o com-
putador não a date refere-se to diaemque
é capaz de saber por exemplo, que |" E a
língua universal (FERREIRA, 1986).
o e com
soa Lam oo
o documento foi aprovado em uma reunião de deputados; que a ementa:
Organização da Informação na weh: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa
Ailton Feitosa
87
B6
ção da infor-
“para prover a necessidade de uma metodologia para a descri
iniciativa para a imposição de regras semânticas às páginas escritas em
“mação publicada na Internet.
HTML, com a utilização do padrão de discrição da linguagem KML, de marcação
Como já mencionado, a idéia de linguagens padrão
(VALENTINE e MINNICK, 2001). Alguns dos benefícios esperados pela 80 quando , depois
“não é muito recente. Iniciou-se por volta da década de
linguagem incluem: redução dos custos de autoria; melhor. para Padroniza-
“de vários anos de trabalho, a Organização Internacional
utilização dessa
casamento entre aplicações de bancos de dados e workflow, solução modu- Language (SGML)
“ção (ISO), aprovou a Standard Generalized Markup
lar para o problema de os navegadores possuírem cada vez maior número “como um sistema — uma metalinguagem - para a criação
de novas lingua-
transparente, para ser
funcionalidades diferentes; solução para integrar, de modo gens de marcação. O problema da SGML era sua complexidade
documentos HTML com cutras aplicações KML (W3C, 2005). a, um grupo
“entendida pela grande maioria dos navegadores. Dessa maneir
“enxuta”,
de trabalho instituído pelo W3C2 criou uma linguagem mais
pudesse, a
sem todas as “firulas” da SGML, de modo que qualquer pessoa
44.2 A 2º geração: XML, DTD e XML Schema partir da XML, criar sua própria linguagem de marcação. Do
mesmo modo
documentos na
que a HTML criou uma forma para cada computador ler
de babel de
A linguagem eXtensible Markup Language (XML) é um padrão de Internet, à XML torna possível, independentemente da torre
criar uma espécie de
representação que permite a introdução de uma significativa quantidade sistemas de computadores incompatíveis entre si,
de metadados para descrever, inclusive com grande nível de detalhamento, esperanto, que todos podem ler e escrever (Bosak, 1999).
a dos forma-
o conteúdo temático de um documento. É, portanto, um mecanismo im- O autor argumenta, ainda, que diferentemente da maiori
fazer sentido para
portantíssimo para os sistemas de recuperação de informações, que permi- “= tos de dados para computadores, a XML também pode
que texto comum.
te a escolha mais diversificada quanto à forma (fichas, formulários con leitores humanos, uma vez que consiste em nada mais do
padrão UNICODE
nuos, tabelas, entre outros). | Uma das forças da unificação da XML é a confiança no
caracteres de quase
De acordo com Valentine e Mimnick (2001), a verdadeira finalidade de de codificação de textos, que suporta a utilização de
XML possibilita o
uma linguagem de marcação é descrever as partes de um documento sem se - * todos os principais idiomas do mundo. Dessa maneira, a
sistemas
preocupar com a apresentação ou com a exibição do documento. As autoras intercâmbio de informações não apenas entre diferentes
e de suas
argumentam que a marcação deve fornecer estrutura aos dados, permitindo: computacionais mas, sobretudo, além das fronteiras dos países
sua especificação
seu uso de diversas maneiras, desde a exibição em um telefone celular até o “ culturas. É natural, portanto, que desde a finalização de
pela ciência
armazenamento e recuperação em um banco de dados em linha. pelo W3C, o padrão tenha se espalhado “como fogo selvagem”
fábricas.
As autoras definem esses conjuntos de elementos XML, projetados e pela indústria, estendendo-se desde a medicina até o chão das
na web, manten do a
para descreverem um determinado tipo de informação, como vocabulários: Para que um documento XML possa interoperar
s, duas condições
XML; assim, uma grande quantidade de vocabulários XML já foi desen característica da universalidade de plataformas e sistema
Diz-se que um
volvida, como por exemplo: CML (Chemical Markup Language), para des devem ser atendidas: cle deve ser “válido” e “bem-formado”.
sintáticas especificadas
documento XML é válido, se ele obedece às restrições
crever informações relativas à química; OPX (Open Financial Exchange), Diz-se
para descrever informações financeiras. na estrutura da linguagem XML, conforme as especificações do W3C.
das regras de
é um conjunto de regras e convenções de sintaxe que podem :
que um documento XML é bem-formado, se a ele estão associa
XML de representar.
validação e restrições, de acordo com o objeto que se preten
ser utilizadas para a criação de conjuntos personalizados de elementos d
marcação, com vistas à descrição do conteúdo de um documento eletrôni- = Informações sobre os grupos de trabalho envolvidos com nas
especificações da linguagem XML podem
co (VALENTINE e MINNICK, 2001). Essa linguagem foi desenvolvida: ser encontradas em: http://w ww w3.0rg/K MLA,
a
Organização da informação na web: das tags à web semântic
Ailton Feitosa
Organização da Informação na web: das tags à web semântica
Ailton Feitosa
88 Bo
Conjuntos de regras de validação foram recomendados inicialmente pelo : te textual, legível por humanos; f) fornece uma sintaxe padrão simplificada, de
W3C como Document Type Definitions (DTD's) e essas DTD's proviam um .: modo a permitir a representação de dados ou meta dados; g) fornece princípi-
conjunto de regras sintáticas às quais o documento deveria seguir para que : os fundamentais que podem ser utilizados para a codificação de informação
fosse considerado válido. A desvantagem das DTD's é que permitem apenas : semântica — desses princípios utilizam-se a RDF, o RDF-Schema, entre outras
a verificação sintática dos documentos, não sendo dotadas de nenhum tipo : tecnologias da web semântica, O autor define XML não como uma linguagem
de controle semântico. Outro problema das DTD's é que a sua definição é e sim, mais propriamente, “como um conjunto de regras sintáticas para a
feita em XML, mas numa notação própria (LIMA, 2005). . criação de linguagens de marcação semanticamente mais ricas, em um domí-
Lima argumenta que, como substituição às DTD's, foi introduzido “ nio particular”. Em outras palavras, isso quer dizer que XML é um padrão que
o conceito de XML Schema, cuja principal contribuição foi a separação pode ser aplicado para a criação de outras linguagens, às quais o autor deno-
entre a descrição da estrutura do documento e a descrição dos mais de - mina de “aplicações de XML”, São exemplos: MathML, mkML. CML, VoxML,
vinte tipos de dados que podem ser utilizados para a sua marcação. Essa * MusicXML?, entre outras (HAROLD, 1999).
linguagem é suficiente para a troca de dados entre colaboradores que utili- A preocupação básica de uma linguagem de marcação é desenvolver
zam o mesmo vocabulário, mas sua semântica é limitada no que se refere « métodos para a adição de informação semântica sobre o conteúdo de um
ao processamento automatizado de novos vocabulários. documento, de modo a tornar tal conteúdo mais explícito. Esse procedimen-
“to tem sido efetuado manualmente, ao longo dos anos (Daconta, 2005, p.
- 32). Compartilhando dessa orientação, o tutorial do site W3Schools explicita
44.91 XML : que XML é uma ferramenta utilizada para transmitir informação em ambi-
entes que envolvem diversas plataformas em termos de hardware e de software.
Diversos autores argumentam que a linguagem XML é a pedra funda- - XML será tão importante no futuro da web como a HTML tem sido até
mental da web semântica e tem sido amplamente aconselhada a sua adoção “ hoje; além disso, será a ferramenta mais importante para todo tratamento,
como instrumento para o desenvolvimento de novas áreas de processamento manipulação e transmissão de dados, devido às seguintes características: a)
de informação. Tal recomendação deve-se à flexibilidade da linguagem, por “foi desenvolvida para descrever em formato de texto puro, de modo que
um lado, e às possibilidades de implementação de maior rigor sintático, por esses dados possam ser trocados entre sistemas de diferentes plataformas;
outro, dados os mecanismos e padrões fornecidos pelo XML-Schema : D) como as marcações não são predefinidas, o projetista pode desenvolver
(Daconta, 2003; Berners-Lee 2001, W3Schools, 2004, entre outros).
% InkML é um formato de dados baseado em XML, destinado à representação digital de marcações em que
Daconta (2003), por exemplo, discute que a XML é uma plataforma o dispositivo de entrada é uma caneta eletrônica. Informações mais detalhadas estão disponíveis em <http:/
importante no desenvolvimento da web semântica, entre outros motivos, por- Iw3 org/2002/mmilink>, MathME é uma especificação de baixo nível para realizar descrições matemáticas
com uma base para comunicações máquina-a-máquina e que fornece a estrutura básica para a inclusão de
que: a) cria documentos e dados independentes de aplicativos; b) possui uma expressões matemáticas em páginas da web. Para mais detalhes, recomenda-se uma visita a <http://
sintaxe padrão para meta dados; c) possui uma estrutura padrão, tanto para w3,orgiMath/>. VoxML é uma aplicação da emptesa Metorola para mensagens faladas, cuja intenção é
facilitar a interpretação pelas máquinas tanto de correio eleirônico de voz, como gravações de sistemas de
documentos quanto para dados; d) não é uma tecnologia nova?'; e) é indepen- auto-resposta. Detalhes adicionais podem ser obtidos no endereço <www w3,0rg/Voice/1999/VoxML pdf.
MusicXML é uma inicialiva em desenvolvimento pelo site Recordare.com e ctja intenção é promover a
dente de aplicativos, pois seu seus arquivos são criados em formato puramen- interopetabifidade entre diversos aplicativos utilizados para a gravação ou para a execução de músicas. À
MusicXML inclui todas as notações musicais como notas, ritmos, claves, letra da música, entre outras.
2 Como já discutido nesta obra, XML é um subconjunto da linguagem Siandardized Generalized Markup . Mais detalhes podem ser encontrados no site <htip:/Awww.recordare.com/>. A Chemical Markup Language
Language (SGML), que foi desenvolvida em 1969, por Charles Goldfarb, Ed Mosher e Ray Lorie. Assim, os (CML) foi desenvolvida por Peter Murray-Rust e é, provavelmente, uma das primeiras aplicações da
conceitos e os princípios fundamentais para a XME foram pfanejados por mais de tinta anos, sendo continuamente linguagem XML. O desenvolvimento da CML foi originalmente iniciado em SGML, mas gradualmente foi
aperfeiçoados, reiteradamente testatos e amplamente implementados (Daconta, 2003). O advento da web, e migrando para a XML; o objetivo da linguagem é a padronização de metadados sobre informações químicas
dos seus problemas na representação da informação, naturalmente impulsionaram o surgimento da XML. na web. Para mais detalhes, recomenda-se visitar o site < http://www .xml-oml org,
Organização da Informação na web: das tags à wob semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
91
90
seu próprio conjunto de marcações; €) as metodologias DTD ou XML-Schema De acordo com o W3Schools (2004), não há regras definidas para
s de
permitem a escritura de regras de sintaxe para um conjunto de marcaçõe a escolha quanto à representação por meio de atributos ou por meio
criado pelo usuário; d) um documento XML é auto-descritivo. mais facil-
elementos filhos. No entanto, apesar de os atributos serem
O código apresentado na tabela 18 exemplifica a simplicidade, a fle- ser evi-
mente manipuláveis em HTML, em documentos XML eles devem
xibilidade e a natureza auto-descritiva da linguagem XML. tados, para que a representação se torne mais explícita e, ainda, pelos
documento escrito em XML seguintes motivos: a) atributos não podem conter valores múltiplos; b)
Tabela 10: estrutura de um
Bloco de Código Função Uso atributos não são facilmente expansíveis, para mudanças futuras; c) atri-
mais
Linha de cabeçalho, define
butos não podem descrever estruturas de dados; d) atributos são
a versão da linguagem, bem
aplicati vos; e) a va-
como o conjunto de difíceis de serem manipulados automaticamente por
lidação da sintaxe de atributos por DTD's ou XML.-Schemas — que defi-
caracteres padrão que será . a
<?wml version="1,0"
utilizado no documentos obrigatório
encoding="1I50-8859-1"7>
dos pelo usuário podem possuir atributos. Assim, os dados podem ser
representados por meio de elementos filhos ou por meio de atributos, como Uma vez que os elementos em XML são flexíveis, é possível que
mes-
explicita a tabela 10: haja conflitos quando dois documentos diferentes utilizarem os
ele-
Tabela 10: Representação de dados por meio de elementos mos nomes para descreverem diferentes tipos de elementos. Se os
con-
filhos ou de atributos
mentos forem utilizados no mesmo documento, é certo que haverá
um
Uso de atributos Uso de elementos filhos
flitos de interpretação no momento da extração de informações por
da es-
aplicativo. Nos exemplos dados na tabela 12 têm-se, na coluna
<senador >
<senador sexo='masculino"> <sexo>masculino</sexo>
ações per-
querda, os elementos <autor> e <data>, representando inform
<nome>Rui</nome> <nome>Rui</nome>
os mes-
<sobrençme>Barbosa</sobrenome> <schbrenome>Barbosa</sobrenome>
así
tinentes a uma coleção de documentos. Na coluna da direita,
</senador> das leis
mos elementos podem representar informações relativas a uma
</senador >
Tabela 12: uso de nomes iguais em elementos que representam “Anformações sobre'o"” Informações sobre um registro no
informações diferentes documento. documento
<d:legislacao xmins:d="http:/
Informações sobre o Informações sobre um registro www 3. org/TRihtmid!'> <r:tei xmins:r="Attp://wwunw.ci-df.
documento no documento <dititulo> gov.brilegislacao”>
Coletânea de Legislação «riautor> Augusto Ruschi<iriautor>
<legislacao> c1ei» Tematica sobre Meio «riementa>Define áreas de
Ambiente</d-titulo> preservação ambiental no DF<fr:
<titulo> <autor>Augusto
<d:autor>Câmara Legislativa
Legislação temática sobre Ruschi</autor> ementa>
do DF<id:autor> «r;data>12/01/]996</r:data>
meio-ambiente</titulo> <ementa>Define áreas de <«d:data>18/ago/2004</d:
<autor>Câmara Legislativa <frilei>
preservação ambiental nó data>
do Dr</autor> DF</ementa> <idilegislacao>
<«data>18/ago/2004</data> <data>12/01/1996</data> Ilustração 19: utilização de namespaces para qualificar os elementos
</legislacao> </lei> e atributos em um documento
Fonte: adaptado de W3Schools (2004) um banco de dados relacional. A linguagem, inicialmente proposta pela
Microsoft, ganhou status de recomendação do W53C em maio de 2001
Além dos prefixos, podem ser acrescentadas referências sobre o URI (DACONTA, 2003; W3SCHOOLS, 2004)
onde a determinação de tal prefixo é estabelecida. Então, ao invés de se Com discutido anteriormente, para garantir a integridade sintática e
utilizar apenas o prefixo, é possível se acrescentar o atributo gmlns, um semântica de um documento XML, utiliza-se uma DTD ou um XMLSchema.
namespace, que é também um identificador unívoco. Tal atributo integra a O propósito de um XMLSchema ou de uma DTD é a especificação da estru-
biblioteca de atributos reservados definida para a linguagem XML pelo tura de um documento em termos de elementos, atributos e tipos de dados
consórcio W35€. que ta! documento pode conter A diferença entre uma Document Type
Definition (DTD) e um XML Schema é que, embora uma DTD forneça
insumos para a validação básica de um documento em termos de estruturação
Organização da Informação na web: das tags à web semântica Organização da informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
94 95
de elementos, de ocorrência de restrições, de atributos permitidos, de tipos | Tabela 15: Declaração de atributos em uma DTD
de atributos e de valores padrão, não fornece um controle fino sobre o for-
Declaração de atributos de elementos em uma DTD Descrição
maio e os tipos de dados dos elementos e seus atributos. Como motivações
Fórmila gerai:
principais para a utilização de XMLSchemas, ao invés de DTDs, estão os <!ATTLIST nome-do-elemento nome-do-atributo tipo-do-atributo valor
seguintes fatores: a) DTDs são escritas com sintaxe própria, diferente da Qualquer tipo de texto, exceto carateres reservados:
CDATA “e as g"8r
XML; b) DTDs são muito limitadas com relação à capacidade de suporte a
l ; Lista de valores
tipos de dados — suportam apenas 10 de tipos de dados, enquanto um , Identificador do atributo À
: feat em)
XKMLSchema pode suportar 44 ou mais tipos, já que é possível a criação de IDREF Identificador de elemento relacionado
Lista de identificadores de elementos relacionados
tipos personalizados; c) XMLSchema pode restringir ou estender um tipo IDREFS
Nome válido em XML
NMTOKEN
de dados, por-meio da derivação das definições de um novo tipo com base NMTOKENS Lista de nomes válidos em XML
Entidade
em um tipo antigo; por meio da definição de um conjunto em que elementos ENTITY
a = entidades
ENTITYS
filhos podem ocorrer em gualquer ordem; por meio da definição de elemen- otação
Valor padrão dado a um atributo -
tos substituíveis, isto é, que possuem os mesmos tipos de dados. EEEADLT
indica a obrigatoriedade da inclusão do atributo no
As tabelas 14 e 15 apresentam, respectivamente, as estruturas sintá- REQUIRED elemento
Indica a não obrigatoriedade da inclusão do atributo no
ticas para a declaração de elementos e atributos em DTDs. elemento
HAMPLIED
HEIXED Indica que o valor do atributo é fixo
Tabela 14: Declarações de elementos em uma DTD
Fonte: Adaptado de Furgeri (2007).
Declarações de elementos em uma DTD Descrição
Fórmula geral:
<IELEMENT nome-do-elemento lista-de-elementos ou restrições> Um arquivo escrito em XMLSchema utiliza sintaxe XML — e, con-
<!ELEMENT nome-de-elemento EMPTY> Declara um elemento vazio [que não possui segiientemente, é extensível — para declarar um conjunto de tipos sim-
ples ou complexos. Um tipo é um modelo que pode possuir um valor —
subelementos)
<'ELEMENT nome-do-elemento (SPCDATA)> Decata um elemento que somente pode possuir
SELEMENT nome-do-elemento ANY)> Dectara um elemento que pode conler lexio ou até tipo simples - ou múltiplos valores — tipo complexo. Então, cada tipo
mesmo subelementos
Declara um elentento com lodos os seus
possui duas características-chaves: um nome e um conjunto de valores
subelementes, bem como a ordem de entrada
SELEMENT nome-do-elemento (subt, .. subnj> — desles; nessa declatação, é definida que cada permitidos. Por exemplo, para a escrita do elemento gutor, de modo
subelemento ocorrerá obrigatoriamente e apenas que seja considerado válido em um documento XML, é necessário que
para tal elemento se especifique um nome e um tipo de dados:
uma vez
<!ELEMENT nome-do-elemento (sub? subZaj> Declara que o elemento filho, seguido do sinal +,
namespace pode ser, por exemplo: <«xsd:schema xmins:xsd= “httpo//. Tabela 16: uso de um XMELSchema para a estruturação
sintática de um documento XML
www w3.0rg/2001/XMLSchema “>,
: Arquivo XML XME-Scheria
Nesse exemplo, é declarado um namespace para todos os elementos.
<?xmt versions "1,0" encoding="180-8859. — <7aml version="1.0"7>
permitidos em um documento válido. Assim, o prefixo xsd corresponde ao- vo
<lei>
<xsdischema xmins:xsd="Nlp:Hhrwy w3.org/2001/
XMLSchema”
documento; define que elementos são elementos filhos: define a or- o padrão
dem de precedência dos elementos filhos; define o número de elemen- <xsdielement name="lei">
sxsdiComplexType-
tos filhos; define se um elemento é vazio ou se pode conter texto; <xsdrsoquance»
<xsd element names nimero
="asdostingio. -
define os tipos de dados para elementos e atributos; define valores <xsdielemen dia
=" y t
Elementos definidos
pelo usuário, conforme a
.
Definido pelo
“xsd.element name='eimenta
O código apresentado na tabela 16 exemplifica a utilização de Inpe" xsdistring'?We
<ixsdsequence»
>=
um XMLSchema para a estruturação sintática de um documento XML. <ixsd'element>
<fxsd'schema>
Indicação de final do
arquivo de esquema
Obrigatório
Organização da Informação na web: das lags à web semântica Organização da Informação na web: das lags à web semântica
Aion Feitosa Ailton Feitosa
99
98
indica que será utilizada uma instância de um esquema. A declaração Fonte: adaptado de W3C (2004a) e W3Schools (2004)
xsi:schemaLocation="http://wywy.cl df.gov.br lei xsd” indica o namespace
em que são declarados os elementos e o nome do esquema desse namespace:
que será utilizado, 4.4.3 A 3º geração: padrões e linguagens de
A tabela 19 indica os elementos que podem ser utilizados para a. especificação de ontologias (ADF, ADF Schema,
construção de XMLSchemas, de acordo com as especificações do W3C. DAML+HOIL OUL)
Tabela 19: Elementos definidos para um XMLSchema
Lima (2003) esclarece que, embora a web semântica inicialmente
Elemento Descrição estivesse sendo construída com base na flexibilidade obtida pela combina-
Define que elementos filhos podem ocorrer em qualguer ordem, sendo que cada filho
Al ocarrerá uma vez ou nenhuma
: ção entre XML e RDE, essas tecnologias não são suficientes para se obter
Annotation Define um elemento de maior nivel para comentários sobre o esquema uma estrutura de descrição do significado dos documentos na web. Na
amy Defina elementos não especificados no XML Schema (estende os elementos documento
XML) tabela 20, apresenta-se uma adaptação ao pensamento de Lima (2003)
enyatiribute M). atributos não especificados no XMLSchema (estende os atributos do documento sobre as diversas linguagens envolvidas na construção da web semântica
appinfo Subelemento de annotation, especifica a informação a ser usada na aplicação em suas inter-relações.
Attributo Define um atributo Qualquer que seja a linguagem utilizada na web semântica, seu obje-
aftributeGroup Define um grupo de atributos a ser usado em definições da fipo complexo
Choics Define elementos opcionais, isto é, permite que somente um dos elementos definedos como “ tivo é fornecer uma descrição para o conhecimento representado por meio
subelementos de <choice> seja utilizado no documento XML de ontologias.
Tabela 20: Linguagens da web semântica e suas funções “Language (DAML)>, projeto iniciado em um encontro de especialistas em
agosto do ano 2000, em Boston, é uma dessas iniciativas. A versão mais
Linguagem Função na web semântica
XML fornecer sintaxe básica para a estruturação dos
: recente da linguagem é a DAML+OEL?”, uma combinação das linguagens
documentos, não há imposição de restrições semânticas “DAML e OIL, e fornece um conjunto de ferramentas com o qual é possível a
fornecer controfe sintático à linguagem XML, por meio de
XML Schema | restrições à estrutura, bem como da definição de tipos de -criação de ontologias e a marcação de informação, de modo a viabilizar a
dados para documentos XML
fornecer um modejo de dados para os objetos da web e
leitura e compreensão automática por máquinas (DAML, 2005).
RDF seus relacionamentos, propiciando uma semântica Face às restrições da arquitetura RDE, o W3€ propôs a especificação de
simples, com possibilidades de representação do próprio
tmogelo em XML mais um padrão de linguagem, de modo a permitir maior rigor semântico à
RDF Schema fornecer um vocabulário capaz de descrever os objetos da
web e suas relações hierárquicas de gênero -espécie
“representação do conteúdo das páginas web. Assim, a Web Oniolgy Language
fornecer vocabulário adicional capaz de descrever outros (OWL), uma evolução da combinação DAML+OIL, foi projetada para uso
DAML+OIL & tipos de relacion amentos entre os objetos da web, como
ME relacionamentos de disjunção, sardinalidade, igualdade, por aplicações que necessitam processar conteúdo de informação, ao invés de
enumeração; fornecem tipos de dados mais ricos que as apenas apresentar informações para humanos. De acordo com o W3€, a OWL
linguagens anteriores.
Fonte: adaptado de (LIMA, 2003)
facilita a maior interoperabilidade de conteúdo da web do que o suportado
: por XML, RDF e RDF Schema, fornecendo um vocabulário adicional e tam-
Em RDE, o significado é expresso como um conjunto de triplas, bém uma estrutura de semântica formal,
cada tripla correspondendo ao sujeito, ao verbo e ao objeto de uma sen-
tença simples. Essas triplas podem ser escritas em XML, e um documen-
4.4.3.1 ADF
to RDF pode fazer declarações a respeito de coisas particulares (pessoa),
que possuem suas propriedades (é irmã de), com certos valores (outra
pessoa). RDF, afirma LIMA (2005), diz respeito a expressões processáveis O RDF é um esforço para a criação de convenções que controlem como
por máquinas, pois fornece um mecanismo para a descrição de recursos, . a semântica, a sintaxe e a estrutura de metadados são formuladas em um
sem fazer nenhuma inferência sobre o domínio da aplicação. RDF oferece domínio, de modo que, quando tais estruturas forem misturadas com um
suporte básico para ontologias, mas é necessário maior rigor semântico. " segundo ou terceiro domínio, as declarações orginais mantenham sua clareza
Para descrever o vocabulário do RDF foi criado o padrão RDF Schema, e legibilidade. Como já discutido a linguagem XML é, por natureza, puramen-
que define propriedades que podem ser utilizadas para descreverem clas- te estrutural e sintática e descreve dados apenas no nível de objetos. Por esse
ses, propriedades e outros recursos (W3€, 2003). Então, a função do RDF'S motivo, o padrão RDF foi projetado para permitir que software inteligente,
é permitir a criação de vocabulários controlados, compartilháveis e exten- como um spider ou um agente inteligente, consiga descobrir, catalogar e enten-
síveis. Um esquema é um tipo de ontologia onde são definidos os termos der recursos em um site, uma vez que seus objetivos são: ter um modelo de
que serão usados nos documentos RDEF e o significado específico de cada dados simplificado; possuir semântica formal e provável inferência; utilizar
termo. São esses esquemas que expressam a semântica dos documentos “ um vocabulário extensível; utilizar sintaxe baseada em XML; dar suporte aos
RDF (LIMA, 2003).
= Embora o Progtama DAME não seja uma iniciativa do W3C, possui diversas interfaces com o consóteia, entre
O uso de ontologias fornece uma grande possibilidade de se descrever elas o fato de o próprio Tim Bemners-Les ter participado do seu desenvolvimento (QUELLE TOGBUSI, 2002).
obietos e suas relações com outros objetos. Entretanto, devido a restrições = O originária da cooperação de diversas instituições de pesquisa européias, a Ontology Interchange
Language (OIL), é uma proposta de representação e uma camada de inferência para ontologias, que
semânticas da arquitetura RDF, algumas iniciativas foram desenvolvidas com combina a modelagem de primitivas com semântica formal e serviços inteligentes fornecidos pela lógica
o objetivo de se solucionar tais problemas. A linguagem Darpa Agent Markup descritiva. A OIL é compatível com ADF Schema (RDFS), e inclui uma semântica precisa, para a
descrição do significado dos termos, bem como de informações implícitas (ONTOKNOWLEDGE, 2004).
Organização da informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
103
102
tipos de dados do XML Schema; permitir que qualquer pessoa possa fazer objeto sobre o qual se elabora alguma declaração. Em RDE, necessita-se
declarações acerca de qualquer recurso (W3C, 2001; STUCKENSCHMIDT. de um URI para a identificação unívoca do conceito sobre o qual se ela-
VAN HARMELEN, 2003; POWERS, 2003; W3C, 2004). Além dessas carac- : bora tal declaração; esse URI é também representativo de um recurso. O
terísticas, o RDF pode utilizar valores representados em conformidade com os : predicado, gramaticalmente, é a parte da sentença que modifica o sujeito
tipos de dados do XMLSchema, possibilitando, assim, o intecâmbio de da- e incluí uma frase verbal; em outras palavras, o predicado diz algo a
dos com outras aplicações XML. respeito do sujeito — no campo da lógica, um predicado é uma função de
Um documento RDF pode ser utilizado para criar descrições de meta -: um indivíduo (um tipo particular de sujeito) para valores verdade, com
dados relativas não apenas a informações internas ao documento, mas: base em certo número de argumentos. Em RDF, um predicado é uma
também sobre metadados externos ao seu conteúdo ou até mesmo ocultos : relação entre o sujeito e o objeto. Gramaticalmente, um objeto é um nome
- como por exemplo, autor, data de criação, tipo de arquivo —, sendo par- que sofre a ação expressa por um verbo — para a lógica um objeto é influ-
ticularmente útil na representação de conteúdo de arquivos de áudio c ima- enciado pelo predicado. Em RDF, um objeto pode ser também um recur-
gens (DACONTA, 2003, p. 85). Dessa maneira é possível a gravação de so, referenciado por um predicado ou por um valor literal (Daconta, 2003).
dados em formato “compreensível-por-máguina”, favorecendo operações:. A ilustração 20 apresenta a estrutura de uma Tripla RDF.
como intercâmbio, busca, catalogação, navegação e classificação, de ma-
neira mais eficiente e sofisticada (POWERS, 2003).
São conceitos básicos do RDF: modelo de dados gráfico; vocabulá- ca
ça A) qn tea
rio baseado em URI; tipos de dados; literais; sintaxe de serialização XML, : pues 4í »4 =UR
expressão de fatos simples; implicações. O modelo gráfico baseia-se nos : Sujeito |e = Sitmboto literal
conceitos de sujeito, predicado e objeto que, tomados juntos, formam uma <- |!
tripla. Um conjunto de tais triplas é denominado Grafo RDF. Cada tripla. Simbolo ———————— = Propriedade ou associação
RDF é uma declaração e pode ser pensada, também, em termos de objetos tieral
“é autor da Lei nº 179” > predicado — elemento da oração que in-: <leis:Rui Barbosa><leis:qutor><leis:lei nº 179>
forma algo a respeito do sujeito; Por certo, para tornar-se válida, essa declaração necessitaria ser inserida
O predicado, por sua vez, pode ser assim analisado: “em um documento semântica e sintaticamente estruturado, isto é, em um
“é“Sverbo de ligação — verbo que não possui um conteúdo signifi- * documento válido. Como a arquitetura RDF possui suas bases na estrutu-
cativo, isto é, não traz nenhuma informação a respeito do sujeito, mas que “ra da linguagem XML, pode ser utilizada para a descrição de conteúdo
serve como elemento de ligação entre o sujeito e o seu atributo (predicativo com a implementação de todos os recursos desta linguagem, o que vale
do sujeito); “inclusive para os namespaces. É possível também a combinação com ou-
“autor da Lei nº 179” > predicativo do sujeito — elemento que se “'tros padrões de metadados, como, por exemplo, o Dublin Core, de modo
refere ao sujeito mediante um verbo;
que o arquivo se torne compreensível para aplicativos que fazem uso des-
Em face do problema levantado nesse exemplo”, e devido à comple-.
“ses padrões, como os mecanismos de busca da web. A tabela 21 utiliza um
xidade gramatical da Língua Portuguesa, o modelo recurso-propriedade-.:
“exemplo proposto pot Harold e Means (2002) para elucidar a aplicação de
valor parece ser mais aplicável à documentação escrita em português. Des-
namespaces em um documento RDF
se modo, para o exemplo em questão, ter-se-ia:
“Rui Barbosa” 5 recurso; Tabela 21: Estrutura de um arquivo RDF
“é autor” > — propriedade; Bloco de código Função
“Leinº 179º 5 valor <7ml version="1.0" encodiny="T80-8459-1"2% Início do arquiva
coatalo
não raiz
É importante notar que toda declaração é feita em um documento, e
cricão do tipo de
que todo documento possui um endereço, isto é, uma localização identificada | <RDF>
<Bescription
o a que se
«e o arquivo e do
por meio de um URI, Para a sentença dada, então, é possível se utilizar a tipo de vocabulário
about="http://enar. cafeconleche, vrg/ezamples/impres
utilizado, segundo à
seguinte notação: sionists.cnl">
RDF
Ctitles Ob impr cnistas «/titler
<HRui Barbosa> <Hautor> <HLei nº 179> lJiatte Busty Harold «/creator»
leil79.htm> Gouh<ia
efdate> ão de min
O símbolo £, em cada declaração anterior, significa que o URI dos con- > u referente a
mon logl: to che lett, A chire sorks in ma ebra de arte
ceitos referenciados é o próprio documento RDF que os contém. Essa é uma her garden.
sintaxe abreviada para um URI absoluto, como per exemplo: <Attp:// </description>
<«fpainting>
wu. cl df gov.br/legislacao/ontolegis>. O mais usual — e recomendável — é a cfeata lego
substituição do símbolo É por um prefixo que represente o namespace em que Fonte: adaptado de (HAROLD; MEANS, 2002).
se localiza o documento RDF em questão. A formulação resultante é, então;
prefixo leis: <htip://wum.cl df gov. br/legislacao/ontolegis> Com a intenção de tornar o conteúdo conhecido para qualquer
Desse modo, as declarações sobre a autoria de uma lei podem ser as aplicativo que seja capaz de compreender padrões RDF e Dublin Core, os
seguintes: autores sugeriram utilizar no código o elemento Description, que pretence ao
vocabulário da arquitetura RDF e os elementos title, creator, description, e
“ O exemplo em questão foi fundamentado na obra Curso prático de gramática, de Terra (1991).
Organização da Informação na web: das tags à web semântica Organização da Intormação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
108 107
date, que pertencem ao vocabulário do Dublin Core. Para que um aplicativo. Para cada namespace, elementos ou atributos prefixados devem ser
— um mecanismo de busca, por exemplo — seja capaz de reconhecer a infor. registrados com a seguinte estrutura: prefixo:elemento (ou atributo). Para
mação, é necessário que os nomes dos elementos sejam preservados. No, se conectar um prefixo a uma URI, utiliza-se o atributo xmins, seguido do
entanto, ocorre uma sobreposição dos elementos title e description que des prefixo, da seguinte maneira: «mins:prefixo. Analisando-se o código apre-
crevem o documento com os elementos title e description que descrevem a, “sentado, tem-se: a) xmins:rdf é usado como atributo para conectar o ele-
obra de arte. Uma maneira de desambigiizar a descrição é utilizando. mento RDF, representado por rdf:RDF ao URI do namespace http://
namespaces para particionar os elementos em conjuntos diferentes de voca- = www.w3.org/TR/REC.-rdf-syntaxi, que contém o vocabulário padrão de-
bulários. Elementos que posstiem o mesmo nome, mas que apresentam URP's; “finido pelo consórcio W3C; b) rdf:Description representa o elemento
diferentes, são elementos distintos. Uma vez que URI's geralmente possueni:: . Description do vocabulário RDF definido pelo W3C; c) a«mins:dc é usado
caracteres especiais — como /, % e -, para citar alguns não aceitos na sintaxe: como atributo para conectar os elementos Dublin Core — title, creator,
XML para nomear elementos -, recomenda-se o uso de prefixos curtos para: description e date - com o vocabulário padrão definido no URI http://
a denominação dos namespaces. Assim, cada prefixo é associado a um URI. “purl.org/de/ e, embora tenha sido declarado no elemento rdf:Description
e, da mesma forma, nomes de elementos associados ao mesmo prefixo esta » por questão de conveniência —, poderia ter sido declarado no elemento
rão no mesmo namespace. Para o código proposto anteriormente, na tabela “taiz.
21, uma reescritura viável é exemplificada na tabela 22. Um exemplo de aplicação da sintaxe RDF a uma coleção de docu-
Tabela 22: inclusão de namespaces relativos a elementos Dublin Core mentos legais é apresentado na tabela 23.
em um arquivo RDF
Organização da Informação na web: das tags à web semântica Organização da informação na Web; das tags à web semântica
Ailton Feitosa Ailton Feitosa
108 109
Retomando os conceitos de recurso, propriedades e valores, do exem-. outras palavras, como abordagem RDF é centrada na propriedade, e não
pio dado na tabela 23, é possível expressar informações por meio de decla:: na classe, é possível estender-se a descrição de recursos, sem a necessida-
rações como: “o recurso <htip cl df. ://wa
gov. br/egislacao/lei
m d26> pos de de se redefinir a descrição original da classe.
sui uma propriedade autor, cujo valor é Governo do Distrito Federal “; ou: Em suma, na especificação formal da arquitetura RDF, os recursos
“o recurso <http://unww.cl.df.gov.br'legislacao/lei426> possui uma proprie-. . podem ser divididos em grupos chamados classes. Os membros de uma
dade data, cujo valor é 06/04/1993 *, : “classe são denominados instâncias. As classes em si, são também recur-
À utilização desse tipo de construção, argumentam Harold & Means sos e podem ser descritas por meio de propriedades. Ao conjunto de ins-
(2002), além de facilitar a implementação de esquemas como DTD's e: tâncias de uma classe denomina-se extensão da classe. Uma classe pode
XML-Schema, possibilita maior flexibilidade, caso seja necessária a ser membro de sua própria extensão, isto é, pode ser uma instância de si
redefinição de um prefixo ou sua atribuição ao um URI diferente, posto: * própria (W3C, 2004b). Todas as classes em RDFSchema são agrupadas
que a declaração é feita apenas em um ponto do arquivo. Com essa: em uma classe principal denominada rdfs:Class. De tal maneira, se uma
estrutura, o arquivo poderá ser interpretado por qualquer aplicativo: “classe X é uma subclasse de Y, todas as instâncias de X serão também
que se utilize dos padrões Dublin Core ou RDF para a descrição de: “instâncias de Y € poderão ser declaradas com o uso da propriedade
conteúdo. rdfs:subClassOf. O termo superclasse é utilizado para designar uma clas-
“se superior em relação a suas subclasses. No exemplo dado, Y é superclasse
de X.
4.4.5.2 ADFS Coleções de recursos podem ser representadas em RDF pelo uso de
: contêineres, que podem ser de valores alternativos (rdf:A!t), de valores não
Propriedades RDF podem ser pensadas como atributos de recursos. “ ordenados (rdf:Bag) e de valores sequenciais (rdf-Seg). Exemplificando, o
e, nesse sentido, correspondem aos tradicionais pares atributo-valor utili- tipo de suporte de um documento pode ser representado por um contêiner
zados em XML. Tais propriedades também representam relacionamentos de valores alternativos, para a definição dos tipos: em papel, em cdrom ou
entre recursos. Como é uma linguagem de descrição de vocabulário, é pa-. em linha (tabela 24). Palavras-chaves relativas a um documento podem ser
pel do RDFSchema descrever tais propriedades e suas relações com propri-". . representadas em uma sequência alfabética ou definida pelo indexador,
edades de outros recursos, o que é feito por meio da definição de classes e : com o uso do contêiner rdf-Seg (tabela 25). Do mesmo modo, tais pala-
propriedades que podem ser utilizadas para descrever classes, propriedades | vras-chaves podem ser representadas por um contêiner rdf-Bag (tabela 26),
e outros recursos, que não determina uma ordem de descrição.
A linguagem de descrição de classes e propriedades em RDF asse.
melha-se a linguagens de programação orientadas a objetos, uma vez que : Tabela 24: contêiner para descrever recursos com valores alternativos
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
tio am
Tabela 25: contêiner para descrever recursos com valores não ordenados
Tabela 28: Propriedades RDF
Propriedade Descrição : Dominio Extensão
erdi: Description E . rditype indica que o recurso (sujeito) é uma inslência de uma classe tdfsiRescurce rdisiClass
rdfiabout="hitpo//www, ei: df gov. brilegisiacao/leioo +! a rdis:subClassOf indica que o recurso (sujeito) é uma subclasse de uma classe réfs:Class rdís:Class
<lei:palavrachave> : róis:subPreperiyOf Indica que o recurso (sujeilo) é uma subpropriedade de uma propriedade rdf.Property rdkProperty
«rdf:Seqg> as rdis:domein Indica o dominio da propriedade sujeito (ou de um recurso) rof: Property rdis:Class
«rdfili=Clinica</rdtdi> esco rdfs:cange Indica à extensão da propriedade dominio (ou dg um recurso) rot Property rdís:Class
rdfsitabet Fornece um rótulo legível por humanos para um recurso (sujeito) idis:Resource rdis:titeral
«rdidi>Direito a saúde=/rdfi EA
«rdfli>Hospital</rdfili> : rdfs:comment Fornece uma descrição para 6 recurso (sujeito) rdis:Resouce — rdisiLitera!
rdisimember Indica que um recurso é membro de oulro ráls:Resource — idissRescuce
<rdiili>Saúde</rdf:li>. IdisRescurce
rdefirst Indica que o recurso deve ser 9 prímeiro em uma lista ROF. rdliList
«frdf:Seq>
rdkzest Indica os recursos compreendidos em uma lista RDF, apresentados após o cdfiList dE List
“<Hei:palavrachave>:
primeiro recurso.
rdis:sesálso Propicia uma relação de temissiva (ver também) para o recurso em questão rdis:Resource rdis:Rescurce
rdisisDefnedBy Fornece uma definição para O recurso em questão rdis:Resourçe — rdis:Resousce
rdivalue Descreve valores estruturados «dis:Resouroe — rdis:Resquice
Tabela 26: contéiner para descrever recursos com valores sequenciais rdfiStalement— edfs:Resouice
rdfsubject Indica a sujeito em uma declaração RO
rdfpredicate Indica o predicado em uma declaração RDF rdfStatement sdig:Resouiçe
ratobject Indica o objeto em uma dectatação RDF rdf-Statement— «dis:Resource
erdt: Description
sdfiabout="hitpi//www. ol. diigov.brilegisiacaoileidor” >
“<td palavrachaves
«rdt:Bag>
«rdlili>Saiúde</rdfili> Tabela 29: Atributos RDF
«rdf:ti>Clinicas/rdf:li>
<rdfiti>Hospitai</rdf:li> . Elemento Descrição
«rdfiti>Direito a saúde</rdfili>
<«frdf:Bag> Rofiabout Especifica que recurso está sendo descrito
«ted: palaviachaves. Ref: Description Contêiner para a descrição de um recurso
Rdfresource Define um recurso para especificar uma propriedade
Rdfdatatype Define c tipo de dados de um elemento
Rabi Define um ID (atributo identificador) para um elemento
Rabi Define uma fista
Além de classes e de contêineres, a arquitetura RDF propicia diversas Ret.n Define um nó
propriedades e atributos que podem ser utilizadas para a descrição de re- Ref.nodelD Define 0 ID de um elemento nó
cursos. Às tabelas 27, 28 e 29 apresentam, respectivamente, as classes, Rat parseType Define como um elemento deve ser analisado sintalicamente (parsed)
RaERDE Declara o elemento raiz RDF em um documento
propriedades e atributos admitidos pela estruturas RDF e RDFS,
Nome da classe — Descrição da classe De modo similar ao XMLSchema o RDFSchema foi concebido para
róFAl Descreve contêineres de valores alternalivos.
rdtBag, Descreve contêineres de valores não ordenados fornecer rigor sintático e semântico a um documento e funciona como uma
rofiList Descreve listas de valores
rof:Property Descreve propriedades RDF. E uma subclasse de rdis:Class. extensão para o RDF, fornecendo a arquitetura para a descrição de classes
rdiSeg Descreve contêineres de valores sequenciais e propriedades específicas para certa aplicação (tabela 30).
rdfStalement Ulitizada para realizar declarações RDF
rofixLLitoral É usada para descrever valores lilerais em XML. Pelo código da tabela 30, um mecanismo de inferência pode deduzir
rdfsClass £ a classe das classes em RDF. Uma classe rdfs:Class pode ser uma instância de rdfs:Class (uma instância de
sua própria classe) gue uma lei complementar é um tipo de norma: ou que uma norma pode
rdfs:Container Descreve contéineres RDF, É superclasse de rdf.Att, rdé Bag e rdí:tist
É utilizada para a celinição de tipos de dados em RDF. Cada instância de rdis:Datatype é uma subclasse de ser uma lei complementar ou uma lei ordinária. O mesmo exemplo pode
rofs:Dalalype
rdfs:Lileral
É utilizada para a descrição de valores literais, que padem serallabéticos ou numéricos. E uma subclasse de ser abreviado pelo uso da classe rdfs:Class, ao invés de rdf-Description e
rofs:Literal
rdis:Resource pela eliminação da informação rdf.type. O código resultante pode ser visto
Todas as coisas descritas em RDF são recursos e são instâncias da classe rdfs: resource. Todas as oulras
rofs:Rescurce
classes são subclasses desta classe, À classe rofs:resource é uma instância da classe rdfs:Class. na tabela 31
Organização da informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
112 113
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Aliton Feitosa
us
1i4
ser tratada simultaneamente como uma coleção de indivíduos e ' sintaxe que utiliza RDF e RDFSchema. A indicação do tipo de sintaxe que
como o próprio indivíduo. OWL Full permite a uma ontologia será usada em um documento é especificada pelo namespace referenciado,
aumentar o significado de um vocabulário pré-definido, seja ele - bem como pelo prefixo usado — a convenção é o uso do prefixo owlx para
a sintaxe XML e do prefixo owl, para a sintaxe XML/RDF. A tabela 37
RDF ou OWL.
indica essas diferentes formas.
A tabela 32 apresenta a estrutura básica de um documento escrito Tabela 33: Namespaces e prefixos OWE
em OWL, que deve possuir: a) uma marcação de início de arquivo, com
Prefixo. Namespace Descrição
a indicação de que é um tipo de XML; b) um cabeçalho de indicação do “Attp:/Avwayw3. org/2003/05/041]-
owix indicação da sintaxe XML
xml”
esquema ou dos esquemas utilizados para a validação sintático-semân- owt “htip:/Marvn 3. 0rg/2002/07/0wl" indicação da sintaxe XML/RDE
tica — em geral são usdados esquemas RDES e XMLS, além do próprio
RDF; c) um corpo, iniciado pelo elemento raiz <ontology>, que indica a
Do mesmo modo que em RDF, a linguagem OWL utiliza estruturas
localização da ontologia principal, definida pelo usuário - que do pon-
to de vista terminológico, pode sc pensada como um arquivo em que
de classes para a organização dos recursos. Assim, cada classe pode forne-
cer um mecanismo de abstração para o agtupamento de recursos e está
estão definidas as relações conceituais num sistema de conceitos; d)
indicação de final de arquivo, dada pelo fechamento do elemento </ associada a um conjunto de objetos individuais, a que se denomina exten-
são da classe. Cada objeto individual em uma classe é denominado instân-
ontology>.
cia de tal classe e possui um significado intensional, Devido a essa concep-
Tabela 32: Estrutura básica de um documento OWL (sintaxe XML) ção, todos os recursos em um documento OWL são descritos como clas-
Código Descrição
ses, subclasses ou propriedades de classes e subclasses. Isso garante, tam-
<?xml version="1,0"7> indicação de início de arquivo bém, à linguagem, a possibilidade de representar significações com base
<sIDOCTYPE Ontology [ indicação de que o arquivo é
<IENTITY xsd uma ontologia que utiliza um em elementos que atuam como funções em algoritmos e que permitem a
“httpitAme
wa. org/2001/XMLSchemag > vocabulário XML Schema
J- definido pela W43C realização de inferências por agentes inteligentes.
elemento raiz, marca o início
das declarações sobre as
A ilustração 21 (p. 114) apresenta a indicação do conjunto de ele-
<«owbx:Ontology
classes; “owixiname=...”
referencia uma ontologia
mentos utilizados na linguagem OWL. Como se pode observar pela ilus-
owix:name="http:/Mmny
cLdf. gov. brileis”
xmins:owix="http:/Mma
WS, org/2003/05/0Wi-ximl">
definida pelo autor, de onde
serão validados os nomes dos
tração a OWL possui grande quantidade de elementos, cuja característica
eiementos; xmins:owix faz principal é serem destinados ao estabelecimento de relações entre classes e
referência ao conjunto de
elementos definidos pelo W3C subclasses, por meio de propriedades e restrições de propriedades. Entre
para a linguagem OW.
cabeçalhos de elementos, bem como números de declarações a respeito das esses elementos há um conjunto importado das arquiteturas RDF e RDFS,
a saber: Class, subClassOf, Property subPropertyOf, domain, range e Indi-
classes, e individuos classes e propriedades
<fowix: Ontology>
indicação de final de arquivo. vidual,
O elemento Class define um grupo de objetos individuais que possu-
Fonte: Adaptado de (W3C,2003c) em características em comum. Classes podem ser organizadas hierarquica-
mente por meio do uso do elemento subCiassOf. Com o elemento
Um documento OWL pode ser escrito com o uso de uma sintaxe rdfs:subClassOf pode-se criar hierarquias para a escrita de uma ou mais
puramente baseada em XML, como apresentado na tabela 32, ou em uma declarações de que uma classe é subclasse de outra. Isso pode permitir
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
116 17
construções como: uma lei é uma subclasse de norma. De tal modo, um Os elementos de comparação são: eguivalentClass, equivalentProperty,
agente inteligente pode deduzir que se um objeto é uma lei, então é uma sameAs, differentFrom e AUDifferent. Duas classes são ditas equivalentes se
norma. O elemento rdf:Property pode ser utilizado para estabelecer relacio- possuem as mesmas instâncias. O elemento equivalentClass pode ser utili-
namentos entre indivíduos ou entre indivíduos e valores de dados. Ex.: Na zado pata criar classes sinônimas. Por exemplo, a classe Deputado porde ser
declaração uma lei possui autor, os indivíduos lei e autor podem ser liga- 'definida como eguivalentCiass em relação a Parlamentar, dessa forma qual.
dos por uma propriedade temautor. O elemento rdfs:subPropertyOf é uti. quer agente inteligente poderá concluir que um Deputado é também um Par-
lizado para indicar que um indivíduo pertence a uma classe de um domí.. lamentar e vice-versa, Propriedades equivalentes são utilizadas para relacio-
nio, pelo fato de possuir uma propriedade que se inscreve em tal classe, Q ' nar um indivíduo com outro na mesma classe. Dito de outro modo, o ele-
elemento rdfs:range limita os valores de uma propriedade em relação a mento equivalentProperty pode ser utilizado para declarar propriedades si-
certo domínio. O último elemento do conjunto, Individual, refere-se a um - “nônimas. O elemento sameAs é usado quando se deseja especificar que dois
objeto individual como uma instância de uma classe e suas propriedades indivíduos devem ser tratados como um só. Por exemplo, o indivíduo <Rui
são utilizadas para estabelecer suas relações com outros indivíduos da “ “ Barbosa> é o mesmo que <SenadorRui>. O elemento differentFrom é usado
mesma classe. - para definir que um indivíduo é diferente de outros indivíduos. AliDifferent
“indica que os indivíduos de uma lista são mutuamente diferentes, quando
tais indivíduos são comparados entre si.
Entre os elementos que definem propriedades de características, es-
Iistarmação de
preenchimento sstmgs tabelecendo comparações entre elas ou restrições, estão: inverseOf,
Combinações bogicanas
de expressões de classe TransitiveProperty, — SymmetricProperty, FunctionalProperty,
Informação de cabeçalho
e InverseFunctionalProperty, alValuesFrom e someValuesFrom. O elemen-
to inverseOf indica que uma propriedade é o inverso de outra. Por exem-
Fropriadades de
RDI | “ pio, se a propriedade autorde é inversa à propriedade foiescritapor, diante
Caracteristicas
da declaração <Jorge Amado> autorde <Lei nº 1> um agente pode deduzir
que <Lei nº 1> foiescritapor <Jorge Amado>. TransitiveProperty é utilizada
Reskyicénes de
Cardunalidade *
Laet
para indicar a associtividade entre três ou mais propriedades. Por exemplo,
aldade e desigualdade “ se um par (x,y) é uma instância de P, e o par (y,Z) é uma instância de P, então
O arbitrária
o par (x,7) é, também, uma instância de P. SymmetricProperty é utilizada
intesecuvad! — Interseeção de e para indicar a comutação entre duas propriedades. Por exemplo, se o (x,y)
Tm “Elementos OW
DT
Nm rledados de
é uma instância de P, então o par (y,x) é também uma instância de P.
Proprlndades de reto au
| nestrição
q EE
FunctionalProperty indica um valor único para uma propriedade. Uma pro-
priedade declarada como FunctionalProperty não pode ter mais de um va-
lor para cada indivíduo em uma classe. Entretanto, pode ter valores nulos
to dee
dc exiomas |
Controle de vorsões, para um indivíduo. InverseFunctionalProperty indica um valor unívoco
Tipos de dados
para uma propriedade, isto é, se uma propriedade como possuiCPF for
declarada do tipo InverseFunctionalProperty, não poderá haver duas ins-
tâncias individuais que possuam CPFs idênticos. O elemento allValuesFrom
Husiração 21: Elementos da linguagem OWL indica restrição de valores de propriedades em relação a uma classe, isto é,
Organização da Informação na web: das tags à web semântica
Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
1148 tg
essa propriedade, em uma classe particular, possui uma extensão restrita. 'e Mulher podem ser declarados como classes distintas entre si. Ássim, um
Dito de outro modo, todos os valores admitidos para essa propriedade. mecanismo de inferência pode identificar que se um indivíduo é uma ins-
vêm de uma classe definida. Diferentemente de allValuesFrom, uma pro tância de uma classe, não poderá ser instância da outra. Em outras pala-
ptiedade definida como someValuesFrom não restringe todos os valores: “yras, se Cecilia Meireles é uma instância de Mulher, então não é uma ins-
admissíveis a uma mesma classe. Isto significa que alguns dos valores ado ância de Homem.
mitidos podem advir de uma classe determinada. co A ilustração 22 apresenta uma esquematização dos elementos OWL
Os elementos de restrição de cardinalidade da linguagem são; segundo os aspectos sintáticos. O elemento, raiz é o elemento ontology, ao
minCardinality, maxCardinality e cardinality. O elemento minCardinality. “qual estão subordinados outros grupos de elementos que compõem a es-
indica os valores mínimos (O ou 1) que podem ser assumidos por uma “rutura da linguagem. Os elementos de cabeçalho são aqueles utilizados
propriedade. Em outras palavras, indica se o valor de uma propriedade é “nara descrever o documento OWL em relação a características como ver-
no mínimo O ou no mínimo 1. O elemento maxCardinality indica os valé «são, compatibilidade com outras tecnologias, bibliotecas que estão sendo
res máximos (0 ou 1) que podem ser assumidos por uma propriedade. Em. “importadas ou outros comentários que se julgue necessários ao arquivo.
outras palavras, indica se o valor de uma propriedade é no máximo O o
no máximo 1. Finalmente, cardinality indica um valor exato que pode set.
assumido por uma propriedade. Nas versões OWL DL e OWL Full, esses.
Imports
Incompatiblewith Class IO
minCardinatity
que denotam a intersecção entre determinadas classes é feita com o eleme BackwardCompatiblewWith
fearainatiay
hasValue pode ser utilizado para declarar um valor específico para umã
Data Iypeêraperty 3
. SubPropertyor AESA —
sperPrapery perty £ objeciProperty Jo
propriedade. Por exemplo, hasValue pode ser usado para indicar que, para
; domain | DatatypeProperty
OregfldMa] cane, Amuatation
um indivíduo da classe Automovel, o valor esperado para o valor da pro:
EnumeratedCiass
É Individual
Organização da informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa
Ailton Feitosa
120 121
4.5 Resumo do Capítulo *” Uma ontologia é uma especificação explícita de uma conceituação.
Nessa definição: conceituação refere-se a um modelo abstrato de
“ Desde a sua concepção, a web passou por estágios evolutivos que. algum fenômeno, sendo identificados os conceitos relevantes des-
podem ser classificados em três gerações. A primeira geração, base: . se fenômeno; explícita significa que o tipo de conceitos utilizados
ada na linguagem HTML, tornou possível a exibição dos docu-. e as restrições a esse uso são explicitamente definidos; formal refe-
mentos independentemente de sua localização física; a segunda; tre-se ao fato de que a ontologia deve ser legível por máquina; com-
geração tornou possível o uso de diferentes formas de apresenta-: partilhada reflete a noção de que uma ontologia captura um co-
ção para a mesma estrutura de um documento, com base na lin- nhecimento consensual, isto é, não privativo de um indivíduo, mas
guagem XML; a terceira geração, a da web semântica, consiste na: aceito por um grupo (GRUBER, 1993, apud GOMÉZ-PÉREZ,
separação do significado de sua estrutura, isto é, estende a noção 2000).
de “documento” com a possibilidade de “semântica legível por: Do ponto de vista da representação do conhecimento, uma
máquina”. ontologia não deve ser concebida apenas como um vocabulário
A idéia da web semântica não é nova: a verdadeira Internet revolu-. informal, ou mesmo como uma linguagem de termos estruturados
cionária, pensada em 1989 por Berners-Lee e retomada em 2001, —- como um tesauro, por exemplo —, mas requer uma possibilidade
no artigo The Semantic Web, ainda está por chegar; de interpretação algorítmica dos seus significados e, por conse-
A Web Semântica é uma estrutura de representação de dados na guinte, uma representação em uma linguagem formal, cujo
World Wide Web, por meio de um esforço colaborativo liderado: processamento dos significados pode ser realizado por máquinas;
pelo W3€C, com a participação de pesquisadores e de empresas de. Na gênese das linguagens de marcação e de especificação de
desenvolvimento de software de todo o mtindo; ontologias para a Web Semântica encontra-se a XML, que fornece
O principal objetivo da Web Semântica é habilitar os computado-. uma sintaxe básica para a estruturação de documentos, mas não
res a usarem as informações disponíveis não apenas com propósi- possui elementos que lhe permitam impor restrições semânticas
tos de exibição, se não, também, com possibilidades de automação ao significado de tais elementos. Fundados nessa linguagem estão
integração e reuso em diferentes sistemas. Tais informações deve os padrões XML-Schema, RDE, RDF-Schema, DAML+OIL, OWL,
rão ser organizadas por meio de uma linguagem com característi- entre outros. XML-Schema impõe restrições sintáticas à estrutura
cas tais que permita o estabelecimento de regras de inferência, for-:. de documentos escritos em XML. RDF é um modelo de dados
necendo também as regras para extração de conhecimento por sis-: para objetos ou “recursos” e tal modelo pode ser representado uti-
temas inteligentes; trata-se de uma Internet de significados; lizando-se a sintaxe da XML. RDF-Schema é um vocabulário para
As ontologias, apoiadas na concepção de Uniform Resource: a descrição de propriedades e classes de um modelo RDE, com a
Identifier (URI), são o elemento basilar na construção da Web Se- utilização de elementos semânticos para a generalização de tais
mântica, pois acredita-se que favorecerão um entendimento comum propriedades e classes. Complementando todas essas tecnologias,
e compartilhado sobre um determinado domínio de conhecimen- a OWL fornece mais vocabulário para a descrição de propriedades
to, tanto entre pessoas como entre computadores; e classes, por meio de: a) relações entre classes — por exemplo:
disjunção; b) cardinalidade — por exemplo: univocidade; cJigualdade;
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das lags à web semântica
Ailton Feitosa Ailton Feitosa
322 123
Organização da informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
124 125
CAVALCANTI, €. R., Indexação. In: Estudos avançados em biblioteconomia e HAROLD, E. R.; MEANS, WS. XML in q Nutshell, 2nd Edition. Gravenstein
Ciência da Informação, volume 1. Brasília: ABDF, 1982. : Highway North, Sebastopol, CA: O'Reilly & Associates Inc. 2002,
CENDÓN, B. V. Ferramentas de busca na Web. Ciência da Informação, Brasília HYVÔNEN, E. The Semantic Web — The new Internet of Meanings. In: HY VÔNEN,
v. 30,n. 1, p. 39-49, jan./abr, 2001. Eero (editor). Semantic Web Kick-Off in Finland: vision, technologies, research
and applications. Helsinki, Finland: HIT Publications. 2002. Disponível em: <http:/
COMITÊ GESTOR DA INTERNET NO BRASIL. Indicadores - Crescimento da
Awuna.cs.helsinki.fi/u/cahyvone/stes/semanticweb/kick-off/index .html>. Acesso
Internet. Disponível em: <http://www.cg.org.br/indicadores/brasil-
em: 26 mai, 2003.
mundo.htmmundo>. Acesso em: 22 ago. 2004.
KARTOO. Sistema de ajuda do site. Disponível em: <http://wwrw.kartoo.net/a/
DACONTA, M. The Semantic Web. A guide to the future of XML, Web Services,
en/aide01 .html>, Acesso em: 05 out. 2004.
and Knowledge Management. Indianapolis, Indiana: Wiley Publishing Inc. 2003, -
DAY, M.. Metada Formats. In: DESIRE Information Gateways Handbook. 2000 LANCASTER, F. W. Indexação e resumos: teoria e prática. Brasília: Briquet de
Lemos Livros, 1993. 347 p.
Disponível em: <http://www.desire.org/handbook/2-3.html>. Acesso em: 16 dez,
2004. LASSILA, O. Introduction to RDF metadata. 13/11/1997, Disponível em: <http:/
DEMPSEY, L.; HEERY, R, Metadata: a current view of practice and issues, Bath forrwy3.org/TR/NOTE-rdf-simple-intro>. Acesso em: 15 mai. 2003.
United Kingdom: UKOLN - The UK Office for Library and Information . LIMA, F. Modelagem Semântica de Aplicações na WWW. 2003, Tese (Doutorado
Networking, University of Bath, 2000. Disponível em: < http://wwrwukoln.ac.uk/:. em informática) - Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro,
metadata/publications/jdmetadata/>. Acesso em: 24 dez. 2004. Brasil.
DICTIONARY.COM. 2004, Disponível em: <http://www.dictionary.com>. MAEDCHE, A. Development and applications of ontologies. Institute AIFB,
DOGPILE, About DogPile. Disponível em: <http://www dogpile.com/info.dogpl/: Knowledge Management Group, University of Karlsruhe, Germany. 2000.
search/help/about.htm>. Acesso em: 05 out. 2004. : Disponível no endereço <http://events.aifb uni-karisruhe.de/ontologytutorial/
fgmi2000/tutorial fgmi.pdf>. Acesso em: 08 abr. 2003.
FERREIRA, A, B. de H, Novo Dicionário da Língua Portuguesa. Rio de Janeiro
Editora Nova Fronteira, 1980. MARCO, D. Building and Managing the Metadata Repository: A Full Lifecycle
Guide. New York: John Wiley & Sons, Inc. 2000.
FURGERI, Sérgio. Ensino didático da linguagem XML. São Paulo: Érica, 2001.
MILLER, E.:; KOIVUNEN, M. W3C Semantic Web Activity. In HYVÔNEN, Eero
GOMÉZ-PÉREZ, A. Ontological Engineering: a state of the art. Expert Update
(editor) Semantic Web Kick-Off in Finland. Vision, technologies, research and
1999. Expert Update. Ontono 2(3): 38-43. Disponível em: <http://:
applications. Helsinki, Finland: HIIT Publications. 2002. Disponível em: [http://
citeseer.ist.psu.edu/cache/papers/cs/22343/
wunm.cs.helsinki.fi/u/eahyvone/stes/semanticweb/Kkick-off/index.html]. Acesso em:
http:zSzzSzwww.csc.livac.ukzSz-franszSzExpertUpdatezSzontologies.pdf/:
26 mai, 2005.
ontological-engincering-a-state.pdf>. Acesso em: 17 jul, 2004.
MOLE — Text Analysis Group. Boolean Retrieval. 1999a, Disponível em: <http:/
GUARINO, N.; WELFY, C. Supporting ontological analyses of taxonomic.
relationships. Data & Knowledge Engineering, v. 39, 2001. p. 51-74. Disponível fisp.imm.dtu.dlk/thor/projects/multimedia/textmining/node2 .html>. Acesso em:
09 set. 2005.
em: http://www loa-cnr.it/Papers/dke2001 pdf. Acesso em: 21 nov. 2004,
GUINCHAT, C, MENOU, M. Introdução geral às ciências e técnicos da informação : - MOLE -. Text Analysis Group. Probabilistic Retrieval. 1999c. Disponível em:
e documentação. Brasília: IBICT, 1994. 540p. : <http://isp.imm.dtu.dk/thor/projects/multimedia/textmining/node?
.htmil>, Acesso
em: 09 set. 2003.
HARMAN, Donna. Automatic Indexing. In: Challenges in Indexing Electronic;
Text and Images. Medford, New Jersey: Asis, 1994, p.247-264 MOLE — Text Analysis Group. Vector Space Model. 1999b. Disponível em: <http:/
/'isp.imm.dtu.dk/thor/projects/multimedia/textmining/node2 .htmi>, Acesso em:
HAROLD, E. R. XML bible. Foster City, CA: IDG Books Worldwide, Inc. 1999. 09 set. 2003.
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semêntica
Ailton Feitosa Ailton Feitosa
128 129
NAFRÍA, I. El futuro de Internet tiene nombre: la web semântica. 23/05/2001, A19C-37BF727DBBB!|&XSLTRANSID DEFAULTPAGE>. Acesso em: 05 out.
Disponível no site Baguía.com: http://www. baquia.com/com/200105237:. 2004.
art00008.html, Acesso em: 07 nov. 2003.
QUIVEY, M. A. The Semantic Web The Future of Our Online Experience. EDL547
NAKAYAMA, H. Anúlise Temática da Informação. Nota de aula da disciplina. New Technology Research Paper. MTL Program — University of Hlinois. 22/04/
Análise Temática, do curso de Doutorado, Departamento de Ciência da Informação . 2002. Disponível em: <http://students.uis.edu/mquiv01 s/Semanticweb.html>.
e Documentação, Universidade de Brasília, 29/03/2001. Acesso em: 12 mai. 20053.
NISO Press, ANSE/NISO £39.85-2001 — The Dublin Core Metadata Element Set: REGISTRO.BR. Domínios Registrados por DPN. Disponível em: <http://
Bethesda, Maryland, USA: NISO Press, 2001. Disponível em: <http://: registro.br/estatisticas.htmi>. Acesso em: 22 ago. 2005.
www.niso.org/standards/resources/Z39-85,pdf>. Acesso em: 24 dez. 2004.
ROBREDO, J. A indexação automática de textos: o presente já entrou no futuro.
NISO Press. Understanding Metadata. Bethesda, Maryland, USA: NISO Press; In: MACHADO, U. D. (editor). Estudos avançados em Biblioteconomia e Ciência
2004. Disponível em: < http://www.niso.org/standards/resources/ da Informação. Volume I. Brasília: ABDF, 1982.
UnderstandingMetadata.pdf>. Acesso em: 24 dez. 2004. .
ROBREDO, J.; CUNHA, M. B. Documentação de hoje e de amanhã: uma
NOY, N.; MCGUINNESS, D. Ontology Development 101: A Guide to Creating
abordagem informatizada da biblioteconomia e dos sistemas de informação. São
Your First Ontology. Stanford University, 2004. Disponível em: [http://. Paulo: Global, 1980.
protege.stanford.edu/publications/ontology. development/ontology t01.pdf]
SCIRUS. About Scirus. Disponível em: <http://www.scirus.com/srsapp/aboutus/
NUA - INTERNET SURVEYS. Ecommerce 1998-2005. Disponível em: <http://.
>. Acesso em: 05 out. 2004.
www-nua.com/surveys/analysis/graphs, charts/comparisons/ecommerce us.html>.
Acesso em: 22 ago. 2003. 2003b. SEMANTIC web primer. 2002. Disponível em: http://uwimp.com/co.htm. Acesso
em: 15 mai. 2005.
NUA - INTERNET SURVEYS. How Many Online? Disponível em: <http://:
www.nua.com/surveys/how
many online/index.html>. Acesso em: 22 ago. 2003, SEOCONSULTANTS.COM. History of Search Engines and Directories - Search
2003a. Engine History, 2004. Disponível em: <http://wwrw seoconsultants.com/search-
NUTCH. Sobre. Disponível em: <http://wwwnuteh.org/does/pt/>. Acesso em:. engines/history/>. Acesso em: 19 jul. 2004.
19 set, 2004. SEOCONSULTANTS.COM. Meta Tags - Metadata Elements. 2004a. Disponível
ONTOKNOWLEDGE. Welcome to OIL. Diponível em: <http:// em: <http://www.scoconsultants.com/meta-tags/>. Acesso em 26 dez. 2004.
www ontoknowledge org/oil/>, Acesso em: 12 nov, 2004. SERVER WATCH. December 2004 Neteraft Survey Highlights. Disponível em:
OQUELLET, R.; OGBUJE, U. Introduction to DAME: Part I. Publicado em 30/01/: <http://wrwrw.serverwatch.com/stats/neteraft/article.php/344445 1>, Acesso em:
2002, Disponível em: <http://wwrwml.com/pub/a/2002/01/30/damll
.html>; 12 dez. 2004.
Acesso em: 12 nov, 2004. STUCKENSCHMIDT, H.; VAN HARMELEN, E Information Sharing on the
PALMER, S. B. The Semantic web: an introduction. 2001, Disponível em: <http:/, Semantic Web. 2003. Copiado da Internet por meio do aplicativo E-mule <hitp:/
'infomesh.net/2001/swintro/>, Acesso em: 17 mai. 2003. / wwrw.emule-project.net>. Acesso em: 15 nov. 2004, (manuscrito)
PIEDADE, M. A, R. Introdução à teoria da classificação. Rio de Janeiro: SULLIVAN, D. Major Search Engines and Directories. Publicado em 28 abr. 2004.
Interciência, 1977. 190 p. Disponível no site Search Engine Watch <http://searchenginewatch.com/links/
article.php/2156221>. Acesso em: 13 set. 2004.(b)
POWERS, S, Paractica! RDF. Sebastopol, CA: O Reilly & Associates Inc. 2003.
350 p. SULLIVAN, D. Score Media Metrix Search Engine Ratings. Publicado em 23 jul,
2004. Disponível em: <http://scarchenginewatch.com/reports/article.php/
PROFUSION. Help. Disponível em: <http://www.profusion.com/.
2156431>, Acesso em: 20 set. 2004. (a)
utiLasp?TID=XSLTRANSID HELP&cobid-ess&sid=[90745228-FOB1-4F40-
Organização da Informação na web: das tags à web semântica Organização da Informação na web: das tags à web semântica
Ailton Feitosa Ailton Feitosa
to
130 131
W5C, RDF Vocabulary Description Language 1.0: RDF Schema. 2004b. Disponível
em: <http://wwrww3.org/TR/rdE-schema/ich, introduction>. Acesso em: 21 dez,
2004.