Você está na página 1de 68
mOle-clnlyclez toler informacao na Web DAS TAGS A WEB SEMANTICA TTT ALM yl | “a oot TLL Lee Ailton Feitosa ni ee wii Mi) | 90332 AILTON FEITOSA ORGANIZACAO DA INFORMACAO NA WEB: DAS TAGS A WEB SEMANTICA Estudos Avangados em Ciéncia da Informagao - V. 2 i By Série jen Géncia da jE Informacio e da Bt Comunicagio Presidente Editorial Antonio Miranda - UnB Secretaria Executiva iza Antunes Araujo Comissao Editorial Katia Carvalho - UFB Neusa Dias de Macedo - USP Elmira Simedo - UnB © Ailton Feitosa — 2006 Ficha Técnica Revisdo: © autor Projeto grafico: Claudia Comes Capa: Victor Tagore Dados Internacionais de Catalogagao na Publicagdo (CIP) F3110 — Feitosa, Ailton. Organizagao da informa- 40 na web: das tags A web semantica / Ailton Feitosa. Brasilia : Thesaurus, 2006. 132 p. ; il. (Estudos Avan- cados em Ciéncia da Informa- cao ; v. 2) 1. Organizagao da infor- macio. 2. Indexacao na web. 3. Recuperacdo na web. 1. Te tulo CDU: 007, CDD: 001.5 {sB| 85-7062-568-5 Todos os direitos em lingua portuguesa, no Brasil, reservados de acordo com a fei. Nenhuma parte deste livro pode ser reproduzida ou transmitida de qualquer forma ou por qualquer meio, incluindo folocépia, gravagao ou informagao computadorizada, sem permissdo por escrito do autor. Esti é uma publicagao ‘THESAURUS EDITORA DE BRASILIALTDA. SIG Quacra 8, lote 2356 — CEP 70610-480— Brasilia, DF. Fone’ (061) 3344-3798 — Fax: (061) 3344-2353, www.thesaurus.com.br, e-mait editor @ thesaurus.com.br — Contato com © aulor: mamede @ unb.br Composto e impresso no Brasil Printed in Brazit A Glaucione, meu grande amor, e a Natalia, Amanda e Lara, amores de outra natureza. Sem fami- lia, meu mundo seria incompleto; meu trabalho seria imotivado; minhas maiores conquistas seriam meras acGes inacabadas, opacificadas ao longo do tempo. Sumario Lista de abreviaturas e siglas 1 Introdugio ..... 2 Elementos de Organizacao da Informacao 2.1 Documentos ... 2.2 Ciclo Documentirio .... 2.3 Tratamento intelectual da informagao 2.3.1 Indexagio... 2.3.1.1 indices e Resumos.. 2.3.1.2 Indexagao automatica. 2.3.2 Recuperacdo da informagao . 2.3.2.1 Modelos de Recuperaciio da Informacao 2.4 Resumo do capitulo .... 3. Servicos de Indexagao e Recuperacao na web 3.1 Breve historico dos servigos de busca na Web ... 3.2 Meta Tags: as primeiras técnicas de otimizagéo da web para os mecanismos de busca .. oe 3.3 Padroes de meta dados: tendéncias da organizag&o na 3.4 Resumo do capitulo 4 Web Semantica 4.1 Caracterizacaio da web semantica 4.2 Ontologias . 4.3 Infra-estrutura da Web Semantic: 4.4 As geragGes da wei 11 17 17 18 21 22 23 24 28 30 31 33 33 47 50 59 63 63 70 78 83 4.4.1 A 1" geragdo: HTML E XHTML i i i 4.4.2 A 2° peraetos XML, DTD e XML Schema 86 Lista de abreviaturas e siglas 4,4.2.1 XML .... . 88 4.4.2.2 XML-Schema .. . 93 4.4.3 A 3 geracao: padrées e linguagens de especificagao ABNT Associacao Brasileira de Normas Técnicas de ontologias (RDF, RDF Schema, DAML+OIL, CDD Classificagio Decimal de Dewey a la CDU Classificago Decimal Universal 4.43.2 RDRS . lg Cl Ciéncia da Informagao 4453 OWL . 13 CRG Classification Research Group 4.5 Resumo do capitul . DAML Darpa Markup Language capitulo 120 DARPA Defense Advanced Research Projects Agency a DTD Definicdo de Tipo de Documento 123 | FGDC Federal Geographic Data Committee HTML Hypertext Markup Language IDF Inverted Document Frequency ISO International Standardization Organization JSP Java ServerPages KIWC Keyword in Context LDAP Lightweight Directory Access Protocol MIDI Musical Instruments Digital Interface NISO National Information Standards Organization OIL Ontology Inference Layer OWL Web Ontology Language PDF Portable Document Format RDF Resource Description Framework. RDP’S Resource Description Framework Schema RFC Requests for Comments SGML Standardized Markup Language TEI Text Enconding Iniciative URI Universal Resource Identifier URL Universal Resource Locator . URN Nome Uniforme de Recurso W3C World Wide Web Consortium WEB World Wide Web WS Web Semantica 5 Consideragées finais .... Bibliografia .... 125 Organizago da Informagdo na web: das tags & web seméntica Ailton Feitosa Organizacdo da Informagéo na web: das tags & web semédntica Ailton Feitosa 10 XHTML Linguagem de Marcagao de Hipertexto Extensivel XML Extensible Markup Language XML-S Extensible Markup Language Schema 1 Introdugdo O advento do servico World Wide Web na Internet proporcionou grande crescimento na quantidade de informagées, de usuarios e de com- putadores ligados a rede. De acordo com dados das instituigdes de pesqui- sa NUA Internet Surveys! ¢ Nielsen NetRatings®, em todo o mundo, dados do ano de 2003 apontavam para cerca de 605,60 milhdes de pessoas com acesso a Internet (tabela $) e, no Brasil, em julho de 2003, cerca de 14,3 milhdes. Segundo estimativas da NUA, somente nos Estados Unidos, até 9 final de 2003, foram realizados negdcios entre empresas na rede atingin- doa soma de 1,3 trilhdio de délares (ilustragéio 1). Dados do Comité Gestor da Internet no Brasil (2004), indicavam a existéncia, em janeiro de 2004, de mais de 223 milhdes de servidores de Internet em todo o mundo, distri- buidos entre trinta paises. A tabela 2 apresenta as dez primeiras posigdes nessa classificagio, destacando o Brasil em 8° lugar. Ao lado dessas esta- tisticas, o Servigo de Dominios para a Internet no Brasil — Registro.br (http://registro.br) contabilizava, em dezembro de 2003, mais de 509 mil dominios em todo o pais, ntimero que est4 hoje (2006), na ordem de mais de 859 mil (ilustracao 2). Em todo o mundo sao quase 57 milhdes de sites publicados na web (SERVER WATCH, 2004). Atualizando as informa- 4 cSes para o ano de 2005, pesquisas do site ClickZnetwork? apontam para um ntimero de 1,08 bilhdo de usuarios, sendo 22,32 milhdes o numero global de brasileiros com acesso 4 rede, dos quais cerca de 12,52 milhoes sio usuarios ativos. A previsdo para o ano de 2010 é de que o namero de usuarios da Internet em todo o mundo salte para 1,8 bilhao. 1 hitp:i/www.nua.com/surveys/iow_many_online/index.atm 2 hitp:sAwwwnielsennetratings.com/nows,|sp?section=dal_to&countty=br * hitp:itww.clickz.comistats/web_worldwide/ Organizagéo da Inlormagao na web: das tags & web seméntica Ailton Feitosa COrganizagéo da Informagio na web: das tags a web seméntica Aillon Feitosa SALAS inp inant 12 13 Tabela 1: Quantidade de usuarios conectados A Internet om todo 9 mundo em 2003 { Domes Resstrados par DPA. 14072006 47-0000 “Totalmundil 005.60 ' Dex QUANT IpADE * pps QUANFIDADE 8 Kiioa 631 4 nt dades Proftestonals Liberate AsialPacition 767.24 . AOR.DR 3300.05 ADM BR 32530018 See ee a BHBR oi 0.08 ADV_BR sea] 0.68 Epa 190.97 ART.BR 25st 0.30 ARQ.BR 1409.17 Giienie Mido 52 : cabR = 785675 91.41 ara_OR 1330.02 a : ‘COUP BR 2990.08 Br0.28 2199.03 América Latina 33.35 aes ETc. BR 367 0.04 CTA. BR 438 0.0s er : FAR. BR 3640.02 eng.BR 1s 0.00 Fonte: NUA (2003, b). iS FARR 4390.02 cur aR 964 Ott : 12.58 607 0.07 BoH.R 3280.01 US ECOMMERCE 1998 - 2003 4 Guy. DR, act 0,10 ENG.DR 2652 .d, eos Tw.nR 4890.05 EXT.DR 2509 0.30 : Biase anne i nD en sus 0.60 FI TR a6 9.08 i ete -Connnee | “in BR 2409 0.28 vor.an eon 0.00 cad eB 2 MIL. BR 22 0.00 FST.BR 97 a.0L | ‘eo ‘MET. BR 631 0.07 SOF DR 16 0.00 ai GRE. BR 23615 2.75 ‘TOR.BR 519 0.06 go PST.DR 24400 9.03 LEL.AR 1070.04 a REC.BR 990.01 MAT-BR 06 0.01 3 SRV.BR pais 0.23 ‘MED.BR 2067 3.24 2 ae ER 36 0.00 MUS ..BR, 1043«0.12 gm TUR. BR 2193 0.26 HOT.BR v7 0.0L > Tv.BR te 0.02 NTR.DR 6s 90.01 2 s2n6i7 96.41 ‘op0.0R sa 0.09 a vP0.DR 7730.09 1 Universidades: ‘PRO.BR ea2l c.28 § “ aR 4194 Psc.DR 490 (0.05 aie PY. ER 1107 9st..0R 59 oot llustragao 1: Vol sss ant ete 2 2301 SLO.DR 140.00 : Volume de negécios realizados na Internet no 4 wrk 38 ote eriox ¥ Pessoas Fisicas ver. 299.03 periodo do 1998-2008, van OSE weran a 'e: NUA (2003, b). 3 asasn 2.96 Tabela 2: Posigio dos pai: a goneinaa ——> paises por numero de Q ma S60 9.00 Servidores de Internet Total 959494 100.00 Posig30 dos paises por numero de hosts Pals ——danaioong llustragéo 2: Quantitative de dominios registrados no A Batades idea? 102 105.368 Brasil até janeiro de 2006 igo (p) tase Fonte: Regisiro.br (2006) =e ieee ater q » A anélise dos dados apresentados permite inferéncias sobre 0 enot- 8 Holo) 3 ta 82 : me volume de informacées disponiveis na Internet. Por certo, o crescimen- a 4 to da quantidade de informagao eletronica disponivel por meio da Internet a1 4 & uma realidade que pode ser percebida em todos os campos do conheci- 10° Taiwan (1) 2777 085 2 mento humano. pe ete) TF 08S Lec us, ml org, gov e TLDS) Por outro lado, exatamente devido a esse volume de informacoes, Fonte: Comité Gestor da internet no Brasil (2004) tornam-se cada vez maiores os problemas de acesso e de recuperagao de Organizagao da Informagao na web: de ani 3 Ailton Feitosa * das lags a web semantica 3 COrganizagio da Informagio na web: das tags & web semantica Ailton Fettosa 14 qualquer tipo de informacdo na rede. Alguns desses problemas podem ser caracterizados, como aponta Maedche (2000), por fatores como: crescimento acentuado das fontes de informacdo digitalizada; acesso, localizag&o e resumo de informacdes tornam-se cada vez mais dificeis, tendo em vista a necessidade de se filtrar informa- oes (a esses fatores contrapde-se a indisponibilidade de ferramen- tas que possibilitem a filtragem); existéncia de um hiato entre o conceito de informacio e as atuais formas de armazenamento ~ o autor argumenta que a falta do uso de formas padronizadas para o armazenamento de informacées na web prejudica o compartilhemento do conhecimento; / Bacza-Yattes © Ribeiro-Neto (1999) so outros estudiosos das disciplinas relacionadas com recuperagao de informagdo, que apon- tam dificuldades na area, tais como: ‘ - baixa efetividade ou elevado custo das técnicas de pré- processamento da linguagem natural, bem como de extracdo de texto semAntico em grandes quantidades de dados — na maioria dos casos essas técnicas 6 sio efetivas ém textos bem estruturados com tesauros ou com outras informagées contextuais; - informagées distribuidas em diferentes computadores, topologias, plataformas e larguras de banda diversas ~ esses fatores podem tornar 0 acesso bem mais complexo do que em ambientes de rede local, por exemplo; - _ acentuada volatilidade dos dados — os autores estimavam, em 1999, que cerca de 40% da informagio disponivel na Internet jéera mo. dificada mensalmente, o que indica a ocorréncia de baixos niveis de preservacao da informagdo digital (preservacdo de originais); - acentuada volatilidade de enderecos e paginas — diversos sites e paginas mudam de endereco com elevada freqiiéncia; - grande volume de informacées - fator que torna cada vez mais complexa a tarefa de se recuperar informagées na web; - _ dados nao estruturados e redundantes — muitos sifes, além de ndo estarem estruturados rigorosamente segundo os padres da Organizacéo da Informagao na web: a i Organza i : das tags & web semantica 15 HyperText Markup Language (HTML) ~ ou de outras linguagens de marcagio -, nao apresentam contetidos originais; os autores estimavam que, naquela época, cerca de 30% das paginas da web ja eram “duplicagées”; - baixa qualidade dos dados, seja por problemas de correcao orto- gréfica, digitalizagao ou de corregio conceitual. Ao lado desses problemas, 580 destacadas, ainda, as dificuldades do usuario na recuperagdo da informagdo, seja pela falta de conhecimento ao elaborar questdes que reflitam seus objetivos de busca, seja pela sua inabi- lidade para interpretar, classificar, priorizar ou filtrar as grandes quantida- des de informacSo retornadas pelo sistema de busca, selecionando apenas aqueles documentos que the interessam. Quivey (2002), por exemplo, assi- nala que, com o crescimento da Internet e das tecnologias de comunicagéo disponiveis, nunca foi tao facil encontrar informagao, como o é atualmen- te. Tal facilidade é questionavel, no entanto, ja que freqiientemente as pes- soas perdem horas examinando informagdes que podem lhes ser totalmen- te desnecessarias, excessivas ou redundantes. A autora Jembra que a maio- ria dos mecanismos de busca trabalham com a localizacao de paginas para © texto especificamente digitado pelo usuario e simplesmente retornam milhares de fontes como ocorréncias para 0 que foi pedido, sem nenhuma discriminagao da informagio. Isso, obviamente, dificulta a analise do usu- 4rio que nunca pode ter certeza de que a exata informagao desejada esta localizada entre as primeiras fontes retornadas. Assim, a web € provavel- mente o mais rico repositério de informagoes na historia humana, mas como a'maioria dessa informagao é desestruturada, nao se pode saber 0 que ela contém e com que propésito, ou que se pode esperar dela, A autora assinala a existéncia de alguns sites que armazenam informag6es de modo estruturado ¢ que utilizam sistemas de busca, mas afirma serem apenas pequenas “ilhas de ordem, no cadtico mar de informagées”. Do exposto nos pardgrafos anteriores, é facil depreender-se que a otimizagdo das ferramentas para armazenamento, busca e recuperagio de informagdes na web deve ser uma preocupagao constante dos pesquisado- res. Portanto, a falta de instrumentos que permitam a padronizagdo de metodologias de estruturagao de paginas & sites motivou diversas comuni- Organizagao da Informagao na web: das tags a web semantica Ailton Feltosa 16 dades académicas por todo o mundo ao estudo de alternativas de solugéo. para esses problemas. Alguns exemplos desses projetos sao o Dublin Core, o TEL a XML* e, mais recentemente, a Web Seméntica. Web SemAntica ¢ Ontologia de Web sao denominagies adotadas pelo W3 Consortium’, e que trazem iniciativas para a estruturagdo ou desenvolvimento de metodologias que viabilizem a organizaciio semantica das informagées dis- poniveis na web em todo o mundo. O crescimento da informagao compara-se a uma montanha que se torna cada vez mais alta e volumosa, o que torna necessaria a busca de melhores métodos para significativamente se gerenciar a incrivel quantida- de de informagio disponivel. Portanto, na vanguarda dessa busca, estA o conceito de Web Semantica, como um método de gravagdo de significados em paginas da web, unidas com um esquema para adicionar interpretagéio logica aos documentos. A iniciativa busca oferecer instrumentos para se obter um sistema global, estruturado cuidadosamente, de modo a permitir que os usuarios selecionem a informacao desejada, em conformidade com as suas preferéncias individualizadas (QUIVEY, 2002). Dublin Core Metadata Initiative, & uma organizagéo dedicada a promover a ampla adogéo de padrées de interoperabilidade de metadados @ desenvolver vocabularios de metadados especializados para a descrigéo do recursos, de modo a habilitar a descoberta inteligente de informagdes na web. Mais Informagées estao disponiveis em [httovAwww.dublincore.org]. © Text Encoding initiative (TEl) tem desenvolvido, com base na Standard Generalized Markup Language (SGML), uma codificagdo para um grande nlimero de documentos em diversas extensGes do conhecimento humano. A iniciativa TEI & um Projeto de pesquisa intemacional, patrocinado pela Association for Computing in the Humanities (ACH), pela Association for Literary and Linguistic Computing (ALLC), © pela Association for Computational Linguistics (ACL). Informagdes adicionais podem ser encontradas no site oficial do projeto: (http:!/ werw.tel-c.org/}. A eXtensible Markup Language (XML) é um formato de texto simples @ muito flexivet, derivado da SGML (ISO 8879) que tem desempenhado importante papel no inlercémbio de grande, variedade de dados na /ntemet ou fora dela. * 0 World Wide Web Consortium, ou simplesmente W3C, foi criado em outubro de 1994 para liderar 0 desenvolvimento da World Wide Web em relagao as suas tecnologias e interoperabilidade. © consércio conta com cerca de quatrocentas organizagdes-membros, espalhadas por todo o mundo, ¢ tem sido o referencial quanto as especilicagdes normativas e metodoiégicas para praticamente todas as tecnologias envolvidas na web. Mais informagées podem sor obtidas em [http:/hwww.w3.org/Consertium/} Organizagao da Informagio na web: das tags & web seméntica Ailton Feitosa 7 2. Elementos de Organizacdo da Informagdao 2.1 Documentos E impossivel a abordagem de qualquer assunto relacionado ao trata- mento da Informagio, mesmo tendo como suporte a web, sem uma refle- xdo sobre conceitos basicos da area de Ciéncia da Informagao. Entre esses conceitos, esta o de documento, Um documento é um objeto que fornece um dado ou uma informacSo e pode ser diferenciado entre outros docu- mentos, de acordo com suas caracteristicas fisicas ou intelectuais. As ca- racteristicas fisicas de um documento relacionam-se aos conceitos de mate- rial, natureza, tamanho, peso, forma de produgio, suporte, entre outras. As caracteristicas intelectuais relacionam-se aos conceitos de objetivo, con- tetido, assunto, tipo de autor, fonte, forma de difusao, originalidade, entre outras. As caracteristicas intelectuais de um documento permitem definir seu interesse, publico alvo e valor. Entre as caracteristicas intelectuais, Guinchat e Menou (1994) destacam: - objetivo - refere-se 4 razio pela qual o documento foi produzido: para servir como prova, para preparar outro documento, para ex- por idéias, para divulgar resultados de um trabalho, para ensino, entre outras; — grau de elaboracdo - refere-se a autoria e 4 finalidade de um docu- mento. Com base na nogdo de grau de elaboragao é possivel esta- belecer-se uma classificago dos documentos em: Organizagao da Informagdo na web: das tags & web semantica ae Ailton Feitosa 18 - primarios — documentos originais elaborados pelo autor; - secundarios — documentos que descrevem documentos pri- miarios, como por exemplo as bibliografias, os catalogos e os resumos; = tercidrios - documentos elaborados a partir de documentos primarios ou secundarios e que retinem, condensam e elabo- ram a informagao original na forma mais adequada as neces- sidades de um usuario ou grupo de usuarios. — contedido — 0 contetido pode ser avaliado a partir da identificagao do assunto, da forma de apresentagao, da exaustividade da andli- se, do nivel cientifico do texto, da novidade das informagées, da representatividade das informages pata um dado grupo de leito- res, entre outras caracteristicas. ~ tipo —refere-se ao nivel de relevancia do documento; ha documen- tos essenciais, isto 6, que tratam de assuntos que possuem interes- se direto para determinada comunidade de leitores e documentos marginais, ou seja, que possuem pouca ou nenhuma relevancia para o usuario. 2.2 Ciclo Documentdrio Em uma unidade de informagao — que pode ser entendida como uma instituigdo ou sistema de informagao — cada documento que en- tra recebe um tratamento visando a facilitar a recuperagdéo das infor- mages nele contidas. Esse tratamento relaciona-se a operagées de se- lecdo, avaliacdo, andlise, tradugio e recuperagao de documentos capa- zes de responder a necessidades especificas, de acordo com o perfil do usuario e com seus objetivos. O conjunto de operagdes de tratamento dos documentos é organizado num ciclo conhecido como cadeia documentdria ou ciclo documentdrio. O ciclo documentario, como qualquer outro sistema, apresenta uma extremidade na qual entram Organizagéo da Informago na web: das tags & web semantica Alton Feitosa 19 os documentos a serem tratados; ¢ outra na qual s&o apresentados os produtos documentarios, que resultam desse processamento: referén- cias bibliograficas, descricées de documentos, indices, instrumentos de pesquisa, documentos secundarios e tercidrios. Os produtos documentarios sio utilizados em atividades de pesquisa e, novamen- te, transformados em documentos que realimentam o sistema (ilustra- cao 3). Ciclo Documentirio Entrada de Alividartes de Produtos Dooumenlos = --———>}_Processamento Documentarios llustragao 3: O Ciclo Documentirio - visdo sistémica As principais atividades do Ciclo documentario envolvem a cole- ta, o registro, o tratamento intelectual, a pesquisa e a difusao. A ilus- tragic 4 representa um modelo esquematico para o ciclo documentario, obtido a partir da andlise das definigdes de Guinchat e Menou(1994), © de Lancaster (1993), Robredo e Cunha (1986) e de Nakayama (2001). A andlise dessa ilustracdo permite identificar operagdes de entrada, de processamento técnico e de saida, As operacées de entrada compreen- dem a selegiio (que se da pela localizagiio e posterior escolha) e a aquisi- co (que pode ser realizada por meio de compra, permuta, doagdo, pro- jetos, convénios, entre outras formas). As operagGes de processamento - técnico, ou tratamento intelectual compreendem a catalogacao, a clas- sificagdio, a indexacgéo e o resumo. As operagGes de saida correspondem. Aquelas que permitem tornar disponiveis as informacoes: armazenamento, disseminagdo (divulgagao, distribuigao, disseminagao seletiva da informagdo), recuperagdo (acesso), ou alerta (forma de di- vulgacdo das novas aquisigées, por meio de exposicio, impressao ou armazenamento em midia eletrénica, como CD/DVD ou em linha). Organizagio da Informagio na web: das tags A web semantica Aiton Feitosa ee Tas, le ‘ atgasioiiai ‘nace, (Usesds Desa, ase ‘ade de hs, “0 Tit eames |< taassa TO Coleta ‘1 OD Tratamento Material alg ewe os Shade romapia oO Tratamento Intelectual Pesquisa Documental Difusao ae llustragdo 4: Atividades do Ciclo Documentério Organizagio da Informagao na web: das tags & wod seméntica Ailton Faitosa 21 9.3 Tratamento intelectual da informagdo A partir da realizagéio das operagées documentarias, um servicgo de formagoes pode originar produtos com algum tipo de tratamento inte- tual ou nfo. Produtos que recebem tratamento intelectual podem ser gacdo ea analise tematica da informacio. A catalogacao ou descrigio liografica é uma forma de referéncia que destina-se a fornecer uma des- 0 precisa documento, identificando-o materialmente, de forma tnica e co em catdlogos ou em outros instrumentos que facilitem a sua locali- cdo fisica. A andlise tematica da informagao é relativa ao contetido * formacional dos documentos ¢ permite a identificagao do tema ou as- into (NAKAYAMA, 2001). A anélise tematica da informagao ocorre no processamento técnico a informagiio, mais especificamente na classificagéo, na indexagao, na Le disseminagao, no resumo, na recuperagdo e na busca. A operagiio de classi- acdo consiste principalmente na atribuigdo de um nimero ou outro sim- lo para descrever o documento. A indexacao consiste em atribuir um ou rios descritores, que podem ter ligagdes entre si, para descrever 0 contet- dodo documento. De certo modo, uma lista de termos pode ser vista mo uma espécie de mini-resumo, uma vez que retine os termos em uma ta ou indice. Com relag&o a extensdo do registro, a indexagao pode ser seletiva (mais restrita) ou exaustiva (mais completa). A operagio de resu- imo consiste na condensagio do documento em }inguagem natural. O prin- cipal objetivo do resumo € indicar de que trata o documento ou sintetizar seu contetido, Conforme o nivel de aprofundamento, 0 resumo pode ser classificado como resumo breve ou resumo detalhado (ampliado). Esse gtau de aprofundamento é também denominado extensiio do registro de um resumo. De todas as operagdes do processamento técnico, a mais im- COrganizagéio da Informagdo na web: das tags & web seméntica Ailton Feitosa 22 portante para o contexto desta obra é, sem dtivida, a indexacéo, da qual pode depender em grande medida a qualidade dos resultados advindos de uma operagéo de busca e recuperacao. Por esse motivo, a operacdo de indexagao sera abordada em uma segio especifica deste capitulo. 2.3.1 Indexagdo Embora fontes de informagao contendo texto-completo tenham sido escassas por algum tempo, a partir de meados da década de 80 essas fontes comecaram a proliferar-se, uma vez que os pregos dos computadores come- garam a cair ¢ que sua capacidade de armazenamento comega a tornar-se cada vez maior, de modo que bases de dados de textos-completos correspondem a um segmento cada vez mais crescente no mercado (atual- mente, é notério como a disponibilidade de tais fontes cresceu exponencialmente). Certamente, a vantagem de se acessar documentos com- pletos, ao invés de apenas referéncias a esses documentos, é indiscutivel. Entretanto, se por um lado o armazenamento de mais e mais documentos desse tipo 6 vantajoso, por outro traz uma série de dificuldades para a recuperacgao da informagao, Os aspectos intelectuais da recuperagdo tém sido reduzidos 4 utilizagdo de palavras-chaves, bem como de frases chaves, combinadas 4 utilizagao de operadores booleanos ou de proximidade, que sao recursos menos efetivos em se tratando de recuperagéio em textos-com- pletos. Técnicas de indexagio automaticas ou semi-automaticas, normal- mente baseadas em processos estatisticos, lingitisticos ou baseados na In- teligéncia Artificial, tém sido pesquisadas e utilizadas especialmente para aqueles textos completos que nao foram submetidos a processos de indexacao manual ou de resumo. Definida por Robredo (1982) como “operagio de representar 0 con- tetdo dos documentos, qualquer que seja o método utilizado”, a indexagao utiliza-se de instrumentos para o tratamento da informac&o, de modo a obterem-se termos que representem corretamente os conceitos contidos em determinado documento. Assim, o principal propésito de um servigo de indexagao é assegurar da forma mais eficiente e econémica possivel, que qualquer documento ou informagio seja fornecido ao usudrio no momen- Organizagio da Informagao na web: das tags & web seméntica Ailton Feitosa 23 to preciso (CARNEIRO, 1985). Para a consecugao desse objetivo, a técni- ca de indexacdo necessita da utilizagéo de instrumentos normativos (nor- mas), bem como de instrumentos lingiiisticos como a linguagem natural e as linguagens documentarias. A linguagem natural é formada pela reuniio de sinais utilizados € reconhecidos facilmente pelo homem. Quando empregada na indexagéo denominada “livre”, utiliza termos como se apresentam nos documentos. A linguagem. documentéria compreende 0 conjunto de regras, simbolos ¢ termos previamente estabelecidos, formando uma linguagem artificial para a indicag’o do contetido tematico dos documentos. E, por conseguinte, uma metalinguagem, que utiliza uma construgio simbélica, concebida como ~ instrumento para conversao de uma linguagem em outra. A técnica da indexagdo necessita do uso de uma linguagem de indexacdo, que compreende a especializagéo de uma linguagem documentaria. A linguagem de indexagao é uma “linguagem artificial utili- { zada para o registro ou indicag&o dos temas contidos nos documentos, ( dotada de vocabuldrio controlado e regida por uma sintaxe propria” } (CAVALCANTI, 1982). Um vocabulério controlado relaciona termos uti- lizados em sistemas de indexacdo, com vistas & uniformidade de armazena- gem, bem como 4 facilidade de recuperacao. A sintaxe compreende um conjunto de regras necessdrias 4 tarefa de combinaciio dos elementos do yocabulario. 2.3.1.1 Tipos de indices Qs produtos orgindrios da operagiio de indexagao sao os indices. A principal fungao da elaboragio desses indices, que sao instrumentos utili- zados para a representacdo do contetido de documentos primarios, é facili- tat a recuperacao de informagées relativas ao documento indexado ou re- ‘sumido. indices, bem como resumos, geralmente sao incluidos em bases de dados que podem ser impressas, armazendas em fichas, ou em formato eletrénico (LANCASTER, 1993) ou, ainda, como assinala Harman (1994), em um arquivo invertido ou em ouira estrutura de dados, de modo que pesquisas possam ser realizadas no indice, utilizando operadores booleanos, Organizacéo da Informagao na web: das tags & web seméntica Ailton Feitosa 24 ou algoritmos baseados no peso dos termos, para se obter resultados orde- nados de acordo com critérios estatisticos. A tabela 4 apresenta alguns desses tipos de indices. Tabela 4: Tipos de indice e suas caracteristicas Tipo de indice Caracteristicas ai (auihor and key-word in context) Indice auilomatioo que relaciona autores e palavras-chaves balioo Termos em ordem alfabetica ‘Analitoo ipclui a referencia bbliogrtioa 6 Gm resume on andlise do nna documento sindaieo 10 ineompora referencias oruzadas Coordanado au conelative Tesillante da combinagao dos descilores para a oblonga da incicagao de assuntos especticos Corrente publicado periodicamente, com a fnaidade de atvalzar informagdes constantes de determinados documentos cumulative ‘indice de publcages seriadas; rete numa s6 lista as entrades relativas a varios fasciculos ou volumes De olagdes ascociagao das roferéncias citadas por aulor em um afigo A, com as referéncias feitas posterioemente ao préprio artigo A uso de runcamento na indexagéo autoraiica, para a produgao deindoos indice obtido pela permulagac das palawas de un Wiulo Espécie do indice KIC baseado em permutagao selecionada 28 palavras signifcativas aparenem na devida ordam allabéica, seguidas pelo tito completo, dentro porém, de un elerminad espago linear ‘as pelavras signficalivas do litio so oxiraidas @ colocadas em orden allabética ‘ arranjo deste Indios & feo polas classes gerals da Cie subdivisdes dossas classes em ordem alfabética das palavras- chaves dos titulos que constam de cada classe KLIG (key letter in context) KWAG (Key word and context) KWIT (key word in tile) KWOC (key word out of context) KWOT (key word out of tite) KQWUG (key word and UDC} _ Fonte; adaptado de Cavalcanti, 1982 2.3.1.2 — Indexagdo automatica Como j4 mencionado, grandes quantidades de texto estéio atualmente disponiveis para acesso em linha, incluindo tanto os textos criados para acesso eletrénico como publicagées tradicionais. Entretanto, nao é possivel pesquisar informagées nesses textos sem 0 auxilio da indexacdo automatica. Segundo Harman (1994), 0 ponto chave para a qualquer indexagiio 6 a esco- tha dos limites do registro que identifica uma unidade pesquisavel. Um re- gistro pode ser definido como um livro, um capitulo em um livro, uma segaio Organizagio da Informagio na web: das tags web semantica Allon Feitosa 25 ou um paragrafo. A deciséio depende, em parte, da natureza do objeto a ser indexado. Por exemplo, quando se trata de uma pesquisa em registros bibli- ograficos, o registro é claramente definido como um dos registros do catélo- go bibliografico, Quando se trata de uma aplicacdo em artigos de jornal, 0 registro poderd ser cada artigo. Dessa forma, a escolha do tamanho do regis- “tro, embora inicialmente parega vaga, pode basear-se no tamanho do docu- mento — pata documentos muito grandes (de 100 paginas ou mais), a autora ~tecomenda a divisdo do registro por paginas ou por segées do documento. Importa aqui destacar que a escolha do tamanho do registro nao é tao importante para a exibicado dos resultados, mas, principalmente, para a rea- lizagio da pesquisa. Assim, um registro muito pequeno fornece pouco texto para os algoritmos de pesquisa, o que fornece resultados pobres; um registro ~ muito grande, entretanto, pode diluir a importéncia das palavras encontra- das ¢ causar falsas ocorréncias, A segunda decisdo chave para qualquer siste- ~ ma de indexacao é a escolha do que constitui uma palavra e, por conseguin- te, quais dessas palavras devem ser indexadas. Nos sistemas de indexagao manual, a escolha é facilmente feita por um indexador humano. Para a indexagio automatica, entretanto, é necessario definir que pontuagao deve ~ ser utilizada como separador entre as palavras e definir que palavras indexar, Essa separacao normalmente é feita com todos os espagos em branco ¢ todas as pontuagées, embora haja excegdes, dependendo da aplicagao e do software utilizado. Tratando-se da informagio armazenada na web, todos os servigos de busca utilizada essa definic&o. Definidos os limites das palavras, outro problema a ser resolvido € a indexag&o de nameros, uma vez que o conjunto de nameros tnicos é infinito. Nao indexar nime- ros, entretanto, pode acarretar problemas na recuperacao, quando um némero for imprescindivel para a pesquisa, como € 0 caso de datas, anos ou numeros de identificagio de documentos. Outro problema para a indexagaio é relativo aos caracteres individuais (a, b, c, etc). Se, por um lado, indexar esses caracteres pode representar um aumento no tamanho do indice, por outro, no index4-los pode representar perda de informa- cdo, quando um caractere for imprescindivel a pesquisa (por exemplo: vitamina C). Como solugao para definir que palavras devem ou nao ser indexadas, Harman (1994), sugere os seguintes “compromissos”, a serem estabelecidos com o usuario: Organizagio da Informagéo na wob: das tags & web semantica Ailton Feitosa 26 - @ pontuagao deve ser estudada e potenciais problemas identifica- dos; — deve-se estudar o uso de letras maitisculas e minisculas; uma téc- nica usual, relata a autora, é a conversio dos caracteres maitiscu- los para mindsculos durante a indexagéo, o que pode, entretanto, acarretar problemas para a recuperacdo de nomes proprios; — a indexagaéo de nameros depende profundamente da aplicagio; datas, rétulos de segdes e ntimeros combinados com letras podem ser indexados; outros tipos de nimeros nado devem ser indexados; — quanto a indexacdo de caracteres individuais, pode-se verificar 0 alfa- beto, anotando-se as letras que possuem um significado particular para a aplicacaio; apds essa operacao, tais letras podem ser indexadas. Com relagdo ao tratamento automatizado para a indexagiio automé- tica, diversas técnicas tém sido desenvolvidas, algumas com aplicagées in- teressantes, tanto no dmbito de pequenas colegdes, como para grandes acervos, como € 0 caso da técnica baseada na ocorréncia dos termos. Ci- tam-se ainda outras técnicas como: indexac&o de palavras nao significati- vas; uso de sufixos; e extenséio da busca — esta tiltima, segundo Harman (1994), muito bem sucedida em pequenas colecdes. A técnica de indexacao de palavras nao significativas baseia-se na construgdo de listas de termos nao que ndo possuem maior relevancia ao campo daquele assunto especifico. Como a construgo desse tipo de listas, entretanto, pode ser uma tarefa dificil do ponto de vista da escolha, mui- tos sistemas utilizam trabalhos desenvolvidos no passado por pesquisado- res. Assim, palavras que ocorrem com freqiiéncia muito elevada nos textos sao integradas a essas listas. Uma técnica mais apropriada é a produgdo de uma lista de termos ndo-significativos baseada no préprio corpus do texto a ser indexado, com base na freqiiéncia com que determinadas palavras ocorrem naquele texto, conforme, por exemplo, a sua classe gramatical ou outro critério definido por especialistas. Assim, palavras como aquelas pertencentes as classes dos artigos, das conjungdes ¢ das preposicdes, por exemplo sao removidas do documento matriz. Entio o documento somen- te sera indexado pelas palavras cujo contetido é significativo. ‘Organizacdo da Informagéo na web; das tags 4 web semintica Ailton Feitosa 27 Outros sistemas utilizam a sufixago ou derivacao para substituir todas as palavras indexadas com suas raizes. Os algoritmos utilizados para realizar essa tarefa normalmente possucm trés partes: uma especificagao ou qualificagdo da terminagio da palavra; uma lista de excegdes e uma agao necessaria. A utilizagao de sistemas de sufixac&o ou derivagiio deve-se a dois fatores primordiais: a redugo do tamanho do indice armazenado e o aumento da performance, devido ao uso de variantes das palavras. Outra técnica conhecida e utilizada por diversos sistemas comerciais de indexagiio é a da atribuigao de pesos aos termos, que fornece a possibi- lidade de ordenar os documentos com base no ndmero de termos que correspondem a pesquisa do usuario e as ocorréncias desses termos nos documentos, Essa técnica utiliza ordenagoes estatisticas complexas € pode. ser utilizada quando se desejar aumentar a precisdo em uma busca com trés ou mais termos. A técnica consiste em se atribuir pesos diferenciados para os termos, de modo que mesmo quando nao contiverem um dos ter- mos pesquisados, sejam retornados documentos que possuem os outros dois termos fornecidos na busca. Alguns sistemas de medida que podem set utilizados por essa técnica baseiam-se no Inverted Document Frequency (IDF), que mede a escassez de um termo no texto. Outros utilizam algum. tipo de fungiio de medida da freqiiéncia do termo no texto. Independentemente de todas essas técnicas ¢ metodologias, um dos maiores problemas encontrados nos sistemas de recuperagao da informa- Go é que documentos relevantes siio perdidos porque no contém os ter- mos da busca. Para grandes colegdes de textos-completos, uma estratégia viavel pode ser o uso de um mecanismo de expansdo de busca. Um método de expansio de uma busca pode ser 0 uso de uma linguagem documentatia, como um tesauro ou uma terminologia, como instrumento de controle de vocabulario incorporado automaticamente ao sistema. Tratando-se de indexacao automatica, no entanto, embora haja pesquisas que se preocu- pem em desenvolver metodologias para a construcao automiatica de tesauros, essa 6 uma tarefa dificil e extremamente dependente do dominio do conhe- cimento a que se refere o sistema de busca. Por esse motivo, 0 uso de um. gerenciador eletrénico de tesauros pode ser uma alternativa mais vidvel no que ser refere 4 obtengao de resultados mais precisos. Organizagdo da Informagao na web: das tags & web semantica Ailton Feitosa 2.3.2 Recuperacdo da Informacéo De acordo com Lancaster (1993), para qualquer necessidade especi- fica de informagao, haveré sempre muito mais itens que nado possuem rele- vancia ou pertinéncia ao assunto pesquisado pelo consulente (itens int- teis) do que itens que possuam relevancia ou pertinéncia as necessidades desse usuario (itens Gteis). Portanto, a principal fungio de um sistema de recuperagdo de informagées é permitir que o usuario localize o maior nt- Mero possivel de itens relevantes. A relacao entre 0 total de itens titeis para 0 usuario ¢ o total de itens recuperados € denominada coeficiente de precisaio. Essa relacio pode ser representada pela formula: “ cp =niu/nt onde cp = coeficiente de preciso niu = némero de itens dteis nt = némero total de itens recuperados A relag&o entre o total itens teis encontrados pelo o usuario em uma determinada busca e a quantidade total de itens titeis sabidamente disponiveis na base de dados é denominada coeficiente de revocagio. Essa relagao pode ser representada pela formula: ir =niu/ntu onde ir = indice de revocacao niu = ntimero de itens Uteis ntu = ntimero total de itens ateis - O indice de revocacao e 0 coeficiente de precisio sfo grandezas inversamente proporcionais. Portanto, quanto menor for o indice de revocacao, mais preciso seré o resultado da pesquisa, isto é, maior seré a quantidade de itens Gteis recuperados. E importante destacar-se, tam- bém, que resultados satisfatérios na recuperag’io dependem diretamente da qualidade com que a indexagio foi realizada isto é, da politica de indexacao utilizada, das regras usadas para a redagaio do resumo, da qua- lidade do vocabulario controlado, da qualidade das estratégias de busca, entre outros fatores. Organizagio da Informagéio na web: das tags web seméntica illon Feitosa 29 Segundo Piedade (1977), os dois fatores que mais influenciam a revocagao ea precisdo, sio a exaustividade — isto 6, a extensdo ou nimero de conceitos escolhidos para se representar o contetido de determinado documento; € a especificidade — isto 6, a exatidao com que os termos esco- Ihidos descrevem o contetido do documento em questa. A escolha de muitos termos para a representagéo do contetido de uma base de docu- mentos, isto é, alta’exaustividade, poderd aumentar a revocagao — mais jtens serio recuperados —, mas alguns documentos recuperados tratarao apenas superficialmente sobre 0 assunto e, nesse caso, a precisao sera bai- xa. Por outro lado a escolha de poucos termos, mas exatos, para a repre sentacio do contetdo de uma base de documentos, isto é, alta especificidade, poderé aumentar a preciso ~ apenas itens que coincidam exatamente com o termo de busca sero recuperados -, sendo recuperado pequeno o ntimero de itens que trataraio sobre o assunto em profundidade. Em resumo, o aumento da exaustividade aumenta a revocagio € diminui a precisao. Por outro lado, o aumento da especil cidade diminui a revocagao e aumenta a precisdo. Quanto mais especifica for a indexagaio, mais precisas serao as res- postas e menor sera a revocagaio (CARNEIRO, 1985). Tomando esse pon- to de vista, e lembrando que a revocago, que é definida por Lancaster (1993, p. 4), como “a capacidade de recuperar documentos titeis” tem me- nor importancia em um sistema de indexagio automatica, entio, o ideal & que se aumente 0 nivel de precisdo, que o autor define como “a capacidade de evitar documentos initeis”, por meio do aumento da especificidade da indexagdo. Lancaster (1993) argumenta, ainda, que quanto maior for o acervo da base de dados, menos aceitavel sera uma baixa precisao, isto é, em bases de dados muito grandes, torna-se progressivamente mais dificil alcangar um nivel de revocacdo aceitavel, com um nivel de precisao satisfatério. Com o adyento dos servigos de busca na web e tendo em vista a grande quantidade de informagdes disponiveis na rede, esses conceitos, embora ainda muito relevantes do ponto de vista da organizagao da infor- magdo, ganham menor aplicabilidade no momento da recuperagao, uma vez que é impossivel a definigdo do nitmero de total de itens dteis disponi- veis na web. Organizagéo da informagéo na wob: das tags a web semantica Ailton Feitosa 30 2.3.2.1 Modelos de Recuperagdo da Informacao Os modelos de recuperagiio mais comuns sao 0 booleano, o vetorial, . 0 probabilistico e o de atribuig&o de pesos. De acordo com a definico do MOLE Text Analysis Group (1999), o método de recuperacao booleana é 0 mais simples dos métodos de recuperacio e, como diz o seu nome, baseia- se no uso de operadores booleanos. Assim, os termos em uma busca. sio ligados por meio dos conectores ¢, ou e néo. O métedo booleano é freqiientemente utilizado em mecanismos de busca na Internet, uma vez que é rapido e que pode ser utilizado em linha. No entanto, para maior eficiéncia, esse método requer que 0 usuario tenha pelo menos algum co- nhecimento acerca do tépico de pesquisa desejado. Atualmente, a recuperagaio baseada no método booleano tem sido combinada com o método de navegacio por contetido, utilizando-se redes de conceitos, nas quais termos compartilhados de documentos obtidos previamente so utilizados para refinar ou expandir a busca. Em diversos sistemas, os operadores booleanos tém sido substituidos por operadores fuzzy® (MOLE, 1999a). O modelo de vetor-espago pode ser dividido em trés estagios: a) indexag4o do documento, na qual os termos chaves siio extraidos do docu- mento; b) extensio dos termos indexados para melhorar a recuperacao dos documentos relevantes para 0 usuario; c) classificag&io do documento com relac&o a busca, de acordo com uma medida de similaridade (MOLE, 1999b). A indexacdo probabilistica 6 baseada no pressuposto de que existe algum nivel de diferenga na distribuicdo do contetido de termos-significati- vos ¢ de termos nao-significativos, Recentemente, um método de indexac&o. automéatica que utiliza um agrupamento serial de palavras tem sido intro- duzido. O valor de tal agrupamento é um indicador se 0 termo é ou ndo significativo, Essa indexagéo pode ser baseada na freqiiéncia do termo, isto é, os termos que tém alta ou baixa freqiiéncia em um documento sao considerados nfo significativos. Desse modo, em geral, de 40 a 50% do * Um modelo baseado na leoria do conjunto fuzzy permite a inlerpretagao do uma busca do usuétio, com a ullizagao de um descritor lingifstico para cada termo (MOLE, 1999a). Organizagdo da Informagao na web: das tags & web seméntica Ailton Feitosa 34 ~ nfimero total de palavras em um documento s&o removidas, com uma lista de termos nao significativos (MOLE, 1999c). A ponderagio de termos tem sido explicada pelo controle da exaustividade ou especificidade na busca, onde a exaustividade esta relaci- nada com a revocagiio e a especificidade com a precisao (MOLE, 1999c). ‘A ponderaciio de termos para o modelo de vetor de espago tem sito inteira- mente baseada em estatisticas de termos simples. Segundo os autores, hé trés principais fatores de ponderagao dos termos: a) fator de freqiiéncia ‘dos termos; b) fator da freqiiéncia da colegao; c) fator da extensao da nor- malizacao. Esses fatores so combinados para, juntos, definirem o peso yesultante para o termo. 2.4 Resumo do capitulo Y £ impossivel a abordagem do tratamento da informagao na web sem uma reflexdo sobre como alguns conceitos e processos da Ci- éncia da Informagiio tais como a classificagio, a indexagao, e a recuperagao da informagao, relacionam-se com o conceito de do- cumentos; Y Um documento 6 um objeto que fornece um dado ou uma infor- magao e pode ser diferenciado entre outros documentos, de acordo com suas caracteristicas fisicas (por exemplo: material, natureza, tamanho, peso, forma de produgdo, suporte) ou intelectuais (por exemplo: objetivo, contetido, assunto, tipo de autor, fonte, forma de difuso, originalidade); YA informagio disponivel na web é passivel de tratamento intelec- tual utilizando os mesmos processos do ciclo documentario tradi- cional: em uma extermidade do sistema entram documentos a se- rem processados e na outra extremidade resultam os produtos documentérios como, por exemplo, referéncias bibliograficas, des- crigdes de documentos, indices, instrumentos de pesquisa, docu- mentos secundarios ¢ tercifirios; zacdo da Informagao na web: das lags & web seméntica Owen * Ailton Feitosa 32 vA grande maioria dos documentos de completos publicados na web nao foi submetida a processos de indexagéio manual ou de resumo, © que exige esforcos na busca por técnicas de indexaciio automéaticas ou semi-automéaticas — normalmente baseadas em pro- cessos estatisticos, lingiiisticos ou com o suporte de conceitos de Inteligéncia Artificial — que oferegam maior preciso no momento da sua recuperagio; Entre as técnicas usadas, citam-se: listas de termos nao significati- vos; sufixacio, derivagio; atribuicaéo de pesos diferenciados aos termos, incluindo o método Inverted Document Frequency (IDF), que mede a escassez de um termo no texto; uso de linguagens documentérias como tesauros e bancos de dados terminolégicos; Entre os modelos de recuperagio mais importantes est&o 0 booleano, o vetorial, o probabilistico e o de operadores fuzzy; Pesquisadores ligados a instituigdes académicas ou provedoras de solugdes comerciais, na busca de_melhorar a organizacao da infor- macao na web, tém utilizado e aprimorade diversos modelos de- senvolvidos no passado para indexacao automatica e para recupe- ragSo da informacio. Organizago da Informagéo na web: das tags & web semantica Ailton Feitosa 33 3 Servicos de Indexacdo @ Recuperagdo na web 3.1 Breve Histéria dos servigos de busca na WEB Desde 0 inicio da Infernet sempre houve preocupagdes de se disponibilizar servicos que garantissem a recuperagio dos documentos publicados. Entre as ferramentas mais antigas citam-se o Archie, o Veronica, o Jughead e o Gopher (CENDON, 2001). O advento da World Wide Web trouxe consigo o crescimento exponencial da quantidade de documentos registrados na Internet, 0 que motivou a implementagao de outros servigos de organizagiio e de recuperagao de informacées. Nessa Area, alguns dos pioneiros da web foram o AlJtaVista, o Yahoo!, o Open “Directory, a Virtual Libray, o Excite, o Lycos, entre outros servicos. Atu- almente (2006) ha centenas de servicos dessa natureza, categorizados, conforme as suas caracteristicas tecnolégicas, em diretérios de pesqui- sa e mecanismos de busca. Ambos os termos referem-se as ferramentas utilizadas para recuperagao de informagio na Internet, mas que funcio- nam de maneira diferente. Os mecanismos de busca criam seus indices automaticamente e percorrem continuamente a Web ~ utilizando software conhecido como robot, crawler ou spider -, visitando sites e indexando suas paginas. No momento da recuperagao, as pesquisas sao feitas uti- lizando-se essas informagées colhidas. Os diretérios, por seu turno, cons- troem seus indices por meio de descrigdes de paginas fornecidas pelas pessoas no momento de submeté-las a um cadastro. As pesquisas ba- seiam-se nas informagées fornecidas, que podem ou nio refletir o con- COrganizagio da informagio nia web: das lags 4 web seméntica a4 tetido real das paginas. Assim, a indexagao dos mecanismos de busca 6 feita de maneira diferente daquela dos diretérios e os fatores importan- tes para o julgamento da relevancia das paginas também diferem (BAX; CAMPOS, 2000). Algumas dessas diferencas e caracteristicas sio dis- cutidas, a seguir, neste capitulo. Os diretérios foram a primeira solugdo proposta para a organizagéio de conhecimento na web e surgiram com uma intengao de se coletar manu- almente, ou por meio de indicagées de usuarios, a maior quantidade de informagées possivel, contando-se a grande variedade dos assuntos dispo- niveis na Internet, Segundo Wall (2004), o primeiro mecanismo de buscas a ser disponibilizado na Internet foi o Archie, criado em 1990 pelo estudante Alan Emtage, na Universidade McGill em Montreal. A intencdo original era a utilizagao do nome “archives”, o que nao foi possivel pelas restricdes do sistema operacional Unix, que exigia nomes mais curtos. Basicamente, o Archie era composto por um banco de dados contendo nomes de arqui- vos na web e um sistema de busca para a localizac&o e recuperagdo de nomes de arquivos coincidentes com uma pesquisa do usuario. Em 1991, Mark McCahill, da Universidade de Minnesota, desenvolveu o Gopher, como uma aliernativa para o Archie e em 1993 um grupo de consultoria e pes- quisas da Universidade de Nevada desenvolveu o Very Easy Rodent-Oriented Netwide Index to Computerized Archives (VERONICA), que tinha 0 mes- mo propésito do Archie, mas que trabalhava com arquivos de texto plano. Na mesma época surgiu também o Jughead. Com o advento da web, Matthew Gray introduziu o seu sistema World Wide Web Wanderer, mais tarde conhecido como Wandex, que inicialmen- te tinha apenas a inteng&o de medir o crescimento da web por meio da contagem dos servidores web ativos. Logo foi agregada ao sistema a capa- cidade de capturar URL's e ele fazia varreduras diérias, chegando a acessar a mesma pagina centenas de vezes no mesmo dia. Segundo Wall (2004), essa foi a primeira iniciativa do uso de tecnologias que originaram os ter- mos spiders (aranhas), crawlers (rastejadores) ow bots (robés), para desig- nar qualquer tipo de mecanismos de coleta automatica de dados na Internet. Para Willey (2004), robés de computador sao programas capazes de execu- tar tarefas repetitivas em velocidades que seriam impossiveis para os hu- Organizacao da informagdo na web: das tags 4 web semantica Ailton Foitosa 35 manos: no ambito da Internet, o autor define o termo para referir-se a pro: gramas, que exploram a rede em busca de qualquer tipo de informagao, e que usualmente compilam uma grande base de dados para pesquisas futu- ras. Essa categoria de robés 6 geralmente denominada spider’. Em outubro de 1993, Martijn Koster criou-o sistema Archie-Like Indexing of the Web (Aliweb), que permitia aos usuarios submetcrem paginas para serem indexadas de acordo com sua propria descrigéo. Em. dezembro do mesmo ano, duas outras iniciativas foram implementadas: o JumpStation, que coletava informagées do titulo e do cabegalho das paginas, e o WWW ‘Worm, que indexava titulos e URL's. Essas duas ferramentas possuiam o mes- ‘mo problema estrutural: ao invés de estabelecerem um sistema de classificagao dos resultados, listavam-nos na ordem em que os encontravam. : Em fevereiro de 1993 estudantes da universidade de Stanford inicia- am as atividades do projeto Architext, que veio a tornar-se Excite em me- ados daquele ano. O software de busca, que previa a utilizagao de anflise estatistica de palavras para tornar a localizagaio mais eficiente, foi liberado “para a utilizagaéo em outros sites. ; Wall (2004) relata que todos esses servicos possuiam deficiéncias, por- _ que seus spiders nfio eram suficientemente inteligentes para compreenderem o significado dos links encontrados, resultando a necessidade de que o usuario ° tivesse plena certeza dos termos de busca a serem utilizados, sob pena de nao conseguir localizar nenhuma informagao relativa ao assunto em questéo. Em. janciro de 1994 surge o diretério ENet Galaxy, que possuia caracteristicas similares aos diretérios atuais e que contava também com recursos de Gopher e Telnet. Em seguida, em abril do mesmo ano, surge 0 Yahoo, criado por David Filo e Jerry Yang, como uma colegio de suas paginas favoritas. Filo e ~ Yang logo tiveram que reorganizé-lo para tornar-se um diret6rio dotado de um © mecanismo de busca focal, uma vez que a quantidade de paginas referenciadas cresceu rapidamente. Diferenciaram-se também das outras iniciativas, intro- duzindo uma descricéio para cada um dos links referenciados. "Em abril de 1994, Brian Pinkerton, da Universidade de Washing- ton apresentou o WebCrawler que, segundo Wall (2004) e Willey (2004), 7 Willey (2004) utiliza também 0 conceit de chatlerbot, para relerit-se a programas de computador que posstier capacicade de realizar algun tipo de didlogo inlerative ou de prestar algum tipa de informagéo basica para 0 usuario, de mode intuitivo © repetitive. COrgenizago da Informago na web: das tags a web seméntica Killon Feitosa 36 : 37 foi o primeiro crawler (rastejador) com capacidade para indexar textos S Em 1997 foram langados 0 Ask Jeeves e o Northern Light. Segun- completos de paginas inteiras. Antes dele, um usudrio podia pesquisar™ do Wall (2004), 1998 foi o tltimo ano de langamento de apenas nas URL’s ou em descricdes de paginas fornecidas pelos seus au- upermecanismos, como o Google, que introduziu a caracteristica de clas- tores. Logo o WebCrawler tornou-se tao popular que as vezes era impos- sificagdo dos resultados com base nas ligagdes com outras paginas. Des- sivel acessa-lo, devido a grande quantidade de usuarios conectados ~ cer- : de entdo, tornou-se (Zo popular que mesmo grandes servigos de busca ca de quinze mil acessos didrios. Passado algum tempo, o provedor de como a AOL e€ o Yahoo passaram a receber resultados a partir de sua servicos de Internet americano, American On-Line (AOL), adquiriu 0 | base de dados. No mesmo ano foram langados o MSN, o DirectHit e 0 WebCrawler ¢ passou a executd-lo em sua propria rede. Em 1997, 0 Exci- “Open Directory. te comprou o WebCrawler da AOL ¢ passou a oferecer sua base de dados Em 2000 foi langado o Teoma, que utiliza a classificagao por clusters para que aquela empresa mantivesse o seu servigo de busca, o NetFind. : ara organizar sites, de acordo com a popularidade especifica do assunto. Em seguida ao langamento do WebCrawler vieram o Lycos, o Infoseck e m 2001, o Ask Jeeves comprou o Teoma, para substituir seu antigo Direct 0 OpentText. ‘ ‘Hit. Nos diltimos anos, na rida corrida pelos melhores resultados finan- O Lycos foi desenvolvido na Universidade Carnegie Mellon, sob a “eiros, algumas empresas foram fundindo-se ou sendo vendidas. Tal fe coordenagao de Michael Mauldin ¢ foi publicado com cerca de 54 mil do- éaso do LookSmart, que adquiriu o WiseNut em margo de 2002; e do cumentos. Trazia como principais caracteristicas a recuperagao categorizada Overture, que em 2003 adquiriu o AllTheWeb eo AltaVista. fm 2004 ° por relevancia; a localizagiio baseada em prefixos ou na proximidade de » Yahoo! adquiriu o Overture deixou de utilizar o mecanismo de jusca fe palavras; ¢ o tamanho do seu catélogo — apés um més do seu lancamento Google, em favor de seu proprio mecanismo de busca. A empresa he de o Lycos j contava com cerca de 394 mil p4ginas indexadas; seis meses ’ambém em um novo banco de dados que substituiu tanto a base do depois, com aproximadamente 1,5 milhdo; um ano e meio depois, com ~ “AltaVista, como a do AllTheWeb. «tas imiciativas imbutdes da filosofia mais de 60 milhdes de paginas, mais do que qualquer outro mecanismo de : No tocante & busca na web, muitas iniciativas im uidas He Bona busca da época. do software livre sempre foram implementadas; mas ha que se des! Nutch.Org, que constitui-se um esforgo para implementar um sistema de localizagdo na web com cédigo-fonte aberto ¢ com estratégia de desenvol- | vimento comunitario. Os argumentos da organizagéo em favor da disponi- . bilidade de um buscador com cédigo fonte aberto enfatizam o risco de as tuais empresas tornarem-se monopélios. Certamente, apenas uma empre- ‘a, ou uM pequeno grupo, controlando praticamente todo o sistema de ~focalizaciio e recuperacao na web pode representar um sério risco a dissemi- nag&o democrética da informagiio. Nesse sentido, o Nutch pretende ser - tima alternativa transparente aos sistemas comerciais de localizagao na web, propiciando maior confiabilidade aos resultados gerados, quanto a nao serem secretamente direcionados — se houver orientagao, ela sera publica. “Outro argumento da instituigdo é o de que todos os principais sistemas de localizagio existentes tém formulas de classificagaéo proprias e nao tém interesse em explicar porque foi dada uma posigéo a um determinado re- Em 1995 o Alta Vista foi publicado, introduzindo novas caracteris- ticas como a maior largura de banda para a época; técnicas de pesquisa avancada; técnicas de pesquisa em linguagem natural: permissio para que usuarios adicionassem ou excluissem suas URL's em 24 horas; pesquisa de links que apontavam para uma dada pagina; e dicas de pesquisa. Em 1996 vieram o diretério Looksmart e o mecanismo de busca HotBot, este titimo de propriedade da empresa Inktomi Corporation. Essa empresa foi funda- da por Eric Brewer, professor assistente da Universidade da California em. Berckeley, e pelo doutorando em Ciéncia da Computagao, Paul Gauthier. Segundo Willey (2004), o nome deve set pronunciado “ink-to-me” e trata- se de uma apologia a uma aranha mitolégica — unktomi ou iktomi — que vive nas planicies indigenas americanas e que é por eles muito conhecida, pois acreditam que traz cultura para 0 povo. Organizagao da Informagéo na web: das tags a web semédntica Organizagio da Informagéo na web: das tags & web seméntica Ailton Feitosa Ailton Feitosa 38 sultado. Além disso, como sao entidades que visam lucro, alguns sistemas de localizacao determinam o posicionamento dos resultados principalmente com base no pagamento (NUTCH, 2004). Segundo texto de apresentagio do seu web site, o Nutch espera permitir que qualquer pessoa possa facilmente colaborar para o desen- volvimento de um sistema de localizagéo na web, com tecnologia de ponta conhecida em nivel mundial, e com custos reduzidos. ‘Tal sistema tem como objetivos: a localizagio mensal de bilhGes de paginas; a ma- nutencao de um indice atualizado dessas paginas; a realizagdo de pelo menos mil pesquisas por segundo nesse indice; o provimento de resul- tados de alta qualidade; operagaéo com o menor custo possivel (NUTCH, 2004). Relativamente ao panorama do uso de servigos de busca na web atu- al, Sullivan (2004a) apresenta um relatério acerca da popularidade dos servigos, obtida pela mensuracéo do volume de pesquisas. A ilustragéo 5 mostra a porcentagem de utilizagao de servicos de busca na web, por ust- rios norte-americanos, no més de maio de 2004. Os dados relativos ao Yahoo! contemplam também as pesquisas re- alizadas por meio do AltaVista, do Overture e do AllTheWeb, adquiridos por aquela companhia. Os dados relativos ao Google contemplam tam- bém 0 parceiro Go.com, Os dados relativos 4 AOL Search contemplam também o Netscape Search. Os dados relativos ao Excite referem-se tam- bém ao iWon, MyWay e My Web Search, todos de propriedade da rede Ask Jeeves Excite Network. Os dados relativos ao Ask correspondem ao Ask Jeeves e ao Teoma. O valor relativo ao InfoSpace engloba também seus outros servicos: o Dogpile e 0 WebCrawler. O HotBot esta representado nos dados relativos ao Lycos, j4 que foi adquirido por aquela companhia. Em relacao a utilizagio do mecanismo de busca, a ilustragao 6 mos- tra a lideranga das empresas Google e Yahoo! Aproximadamente 95% do mercado americano, em maio de 2004, utilizava os mecanismos forneci- dos por essas empresas. Organizagéo da Informagéo na web: das tags a web semantica Ailton Feltesa 39 Others: 1.1%: “Excite: 4.3% - = 0.8% Ask: 1.8% Lycos? 0.8% tospace: 1.3% Mustragdo 5: Utillzago de servigos de busca na web por internautas americanos em maio de 2004. Fonto: (SULLIVAN, 20048) Other: 1% Mix: 2% Ask: 2% Hustragdo 6: predominio das tecnologias de busca na web por empresas em maio de 2004. Fonte: (SULLIVAN, 2004a) Os dados mostram 0 Google liderando a utilizagao, com 54% das buscas, e referem-se nao apenas As buscas na base Google, mas também nos seguintes servicos que utilizam a tecnologia Google: a AOL e a Excite Network — iWon, MyWay e My Web Search. Os dados do Yahoo referem-se também & MSN Search. O rétulo Mix refere-se 4 combinacio de buscas do Lycos — que acessa informagGes do LookSmart, do Google, do HotBot do Yahoo, além das suas proprias - ¢ do InfoSpace, que executa meta busca em diversos mecanismos de busca. Organizagéo da Informagdio na web: das tags & web seméntica Aillon Feitosa 40 Certamente, a mesma busca feita em diferentes mecanismos podera tra- zer resultados completamente diversos, recuperando informagdes extremamente pobres em um sistema e verdadeiras minas de ouro em outro — 0 uso de opera- dores booleanos, por exemplo, pode representar uma grande diferenga nos resultados de uma pesquisa, Como uma tentativa de solugio para tal proble- ma, surgitam as ferramentas de meta-busca. A primeira delas, segundo Willey (2004), foi o MetaCrawler, que fazia pesquisa no Lycos, no AltaVista, no Yahoo!, no Excite, no WebCrawler e no Infoseek simultancamente. O MetaCrawler foi desenvolvido em 1995, por Eric Selburg, um estudante de mestrado na Universidade de Washington — a mesma origem do WebCrawler, alguns anos antes -, sob a orientacdo de Oren Etzioni, O MetaCrawler baseia- se na reformatagio dos resultados obtidos em outros mecanismos, apresenta- do-os para o usuario final em uma pagina concisa. Além dessa iniciativa, ou- tros metabuscadores que se destacam no mercado de busca na Internet sio 0 Mamma, o Dogpile, o Vivissimo, o Kartoo e o ProFusion. Criado em 1996, como resultado de uma dissertag&o de mestrado, o Mamma foi um dos primeiros servigos de busca a introduzirem o conceito de metabusca na Internet. Devido & qualidade dos seus resultados, bem como aos beneficios da metabusca, o servico cresceu rapidamente e, rece- beu em fevereiro de 2004, uma mengio honrosa na categoria de melhor servico de metabusca, conferida pelos assinantes do site Search Engine Watch, organizado pelo consultor Danny Sullivan, especialista em meca- nismos de busca®. O metabuscador Dogpile foi langado em janeiro de 1996 e rapida- mente tornou-se um dos servicos mais usados na web. No ano 2000 foi adquirido pela companhia InfoSpace. Atualmente (2006) 0 Dogpile per- mite a localizagio de informagées principalmente no Google, no Yahoo, no Ask Jeeves, no About, no FindWhat e no LookSmart, entre outros. De acordo com 0 site do servigo, 0 uso do mascote de um cachorro como marca, ¢ uma apologia a idéia de tempos antigos em que os cdes recolhiam 9 jornal da manhii e entregavam a informagéio nas mos dos seus donos (DOGPILE, 2004). * Para maiores detalhes, recomenda-se a leitura do seguinle artigo: SULLIVAN, Danny; SHERMAN, Chis. 4th Annual Search Engine Walch Awards. Publicado em 06/02/2004. Disponivel em: . Acesso em 02/05/2008. Organizagio da Informago na web: das tags & web seméntica Aillon Feitosa 4 O Vivisimo foi fundado por uma equipe de cientistas do Departa- mento de Ciéncia da Computagao, na Universidade Carnegie Mellon, dan- : do continuidade a uma pesquisa originalmente subvencionada pela National Science Foundation. Em junho de 2000, apés a universidade haver libera- do os direitos da propriedade intelectual aos idealizadores do projeto, 0 grupo fundou uma organizagao comercial. ; - O sistema, que é uma combinag&o de conhecimentos das freas de jnteligéncia artificial, recuperacdo da informagao, cogni¢aio e matematica, baseia-se, principalmente, na tecnologia de clustering que, por sua vez, fun- © damenta-se no agrupamento de documentos de acordo com suas deseri- gGes. Neste caso, as desctigdes sfio obtidas pela metabusca de URL's, titu- los € resumos em outros servicos de busca direta, seguida do reagrupamento “dos resultados por similaridade. Nao ha utilizag&o de bases de dados, uma __yez que © sistema nao possui crawler ou spider e nem indexa os sites pro- -priamente ditos. a A técnica de clustering difere de outras como a classificagao, a constru- : Gio de taxonomia, ea marcagiio de meta dados, uma vez que é totalmente automatizada, dispensando.a intervencao humana. De acordo com informa- “Gées “obtidas no sife do servigo, o maior desafio da técnica de clustering tem = sido o de buscar ¢ organizar rapidamente os grupos de conhecimento relati- vos 4 pesquisa do usuario. Tal iniciativa apdia-se no uso de um algoxitmo heuristico que tem propiciado, segundo o site, bons resultados para paginas “da web em geral; resumos de patentes; publicagdes académicas e escolares; anais de encontros; entre outros tipos de informagao (VIVISSIMO, 2004). © KartOO é um servigo de metabusca de informagdio na web que trouxe uma manéira inovadora de apresentacao dos resultados: trata-se da representaciio dos seus resultados na forma de mapas interativos. Os sitios encontrados sdo representados por circulos maiores ou menores, de acor- do com a sua pertinéncia ao assunto. Entre as principais caracteristicas de. > sua estratégia de recuperacdo, esto a capacidade de realizar buscas por palavras no endereco da pagina; a capacidade de realizar buscas avanga- das; ¢ a capacidade de realizar buscas em linguagem natural, inclusive com o.uso de pontos de interrogagao colocados no final da sentenga (KARTOO, 2004). A ilustracio 7 mostra os resultados de uma pesquisa pelo termo legislac&o utilizando-se esse servigo. Destaca-se como uma das principais inizagdio da Informacéio na web: das lags & web seméantica Cranias Ailton Feitosa 42 caracteristicas do servico, o fato de que, mesmo que o termo seja dij em portugués, o painel esquerdo da tela apresenta uma lista de termos relacionados, nos idiomas francés e inglés. llustragao 7: Resuttado da busca pelo termo legislagio no KartOO. Fonte: (KARTOO, 2004) O ProFusion organiza as fontes de informagdo em grupos ou catego- tias hierarquizados verticalmente, por assuntos. Os assuntos s&o organiza- dos por colunas, sendo que a primeira, A esquerda, refere-se aos assuntos amplos e as demais, a direita, aos assuntos especificos de maior proemi- néncia dentro de dado assunto amplo. O sistema permite ainda ao usuario a criagéo dos seus préprios grupos ou categorias de fontes de informagio. Uma outra caracteristica relevante é a pagina de Andlise de Busca, que fornece ao usuario informagdes detalhadas sobre os resultados da busca como, por exemplo, a quantidade de documentos recuperados por fonte de informa¢ao; o némero total de documentos recuperados; links aparente- mente duplicados; links mortos; tempo que durou a busca, entre outras (PROFUSION, 2004). Com o objetivo de aprimorar os resultados na pesquisas realizadas na web, diversos servigos de busca tém utilizado recursos que procuram Crganizagao da informago na web: das tags A web semntica Aiton Feitosa 43. _ -estabelecer maior rigor ¢ riqueza ao controle terminolégico. Um dos exem- plos significativos é 0 servicgo Scirus, especializado em pesquisas cientifi- “cas, O sistema apresenta recursos tradicionais, como a area de busca por ~ termos livres e a classificag’o dos resultados com base na ocorréncia dos termos exatamente como foram digitados. Os resultados, portanto, exi- bem ocorréncias literais do termo pesquisado nas paginas. Adicionalmen- te, no entanto, o servico oferece um painel de termos sugeridos, que pode- ~\) riam guardar algum tipo de relacdo semantica com o termo pesquisado. A jlustragéio 8 apresenta os resultados de uma pesquisa pelo termo “crianca”. Observe-se que, no painel central, so retornados resultados literais e, in- dependentemente de o termo haver sido digitado em caixa alta ou baixa, “serio exibidos resultados com todas as letras em mintisculas, todas as letras maidsculas ou apenas com a inicial maitiscula. No painel direito, sao apresentados termos alternativos, inclusive em inglés, sugerindo que al- gum tipo de controle terminolégico est4 sendo realizado no sistema. seis wwii lll Seat fEmatebecbes teats E+ pecan o> on iene UEIRar tae ue Feta de Cine an lesa a . Hustragao 8: Iniciativas de controle terminolégico no servico de busca Scirus.com O(Scirug’é um dos melhores servigos de busca, em se tratando de assuntos cientificos — foi considerado o melhor servigo de busca especi- anizagao da Informagéo na web: das tags & web semantioa Oren Ailton Feitosa 44 alizada pelos usuarios do site Search Engine Watch. Utilizando tecnologia de ponta, servigo busca aproximadamente 167 milhdes de paginas que tratam exclusivamente sobre ciéncias, permitindo aos usuarios a localiza- gao de artigos ou paginas cientificas, escolares, técnicas e médicas; bem como de relatérios e manuscritos de artigos e jornais nao catalogados por outros mecanismos de busca. O nome é uma homenagem a Scirus, um profeta da mitologia grega, e & justificado, segundo os idealizadores do projeto, pois assim como os visiondrios e profetas tem a capacidade de julgar os simbolos e sinais do que esté por vir, também a ciéncia 6 uma disciplina visionaria, que trabalha continuamente com novas idéias. O sis- tema, ento, pretende ser uma ferramenta pré-ativa para dar suporte aos atuais visionarios: os cientistas (SICRUS, 2004). O fato de as paginas indexadas possuirem apenas contetido cientifi- co, representa um diferencial muito interessante para o usuario, uma vez que os termos pesquisados apenas apontarao para contetidos pertinentes & lingua cientifica especializada, filtrando outras acepgdes pertinentes 4 lin- gua geral; além disso, o sistema indexa os sites mais profundamente do que em apenas dois niveis, descobrindo maior quantidade de informagdes relevantes, Em relagéo aos delimitadores de pesquisa, o usuario podera especificar sua busca por Areas, como satide, fisica e ciéncias sociais; por nome de autor, periédico ou artigo; por intervalo de data; por natureza do acervo: conferéncias, resumos ou patentes; é possivel também a personalizagio e a gravagfio das pesquisas, Os resultados sao classificados por relevancia e por data. A relevan- cia € obtida com base na localizagdo e na freqiiéncia dos termos na pagina ~ classificagdo estatica, correspondente primeira metade do algoritmo de busca; bem como pelo calculo do némero de ligagdes para uma pagina, isto €, quanto mais ligagSes para uma pagina, major sua relevancia no contexto — classificagao dinamica, correspondente a segunda metade do algoritmo de busca. O peso final é dado pela soma dos valores estatico e * Para mais detalhes, recomenda-se a leitura do seguinte artigo: SULLIVAN, Danny, 2002 Search Engine Watch Awards, Publicado em 28/01/2003, Disponivel em: . Acosso em 02/05/2006, , inewatch com/awards! Organizagao da Informagaio na web: das tags a web semantica Ailton Feitosa | seméntico “ 45 dinamico. O sistema nao utiliza meta marcacdes, pois sao vulneraveis a intervengio dos autores das paginas em busca de melhores classificagdes “hos sistemas de busca. ~~ Em relacio a natureza dos dominios, o sistema indexa: 58,5 milhdes de sites edu; 18 milhdes de sites .org; 6,8 milhdes de site yac.uk facadémi- cos no Reino Unido); sites; 18,6 milhGes de sites .com; 5 milhGes de sites ~‘gov; mais de 45 milhdes de sites especializados em ciéncia, tecnologia e medicina. Além de paginas da web o sistema indexa periddicos, incluindo: 14,6 milhdes de citagdes na MEDLINE*; 5,5 milhGes de artigos com texto integral no ScienceDirect"; 1,2 milhdes de patentes a partir da USPTO”; 261 mil e-prints no ArXiv.org"; 5.352 artigos com texto integral na BioMed -Central!*; 10.600 relatérios técnicos da NASA; e 7.672 artigos de texto : integral do projeto Euclid’? (SCIRUS, 2004). Na mesma diregiio do aprimoramente das técnicas de busca na “Internet, outro exemplo relevante é a introdug4o, em meados de 2003, do ‘operador semantico no servigo Google. Como esse operador ainda nao esta disponivel para o idioma portugués, as ilustragdes 9 e 10 apresentam ~ os resultados de uma pesquisa pelo termo “Laws”, utilizando 0 operador lomo se pode observar na ilustragéo n° 10, o sistema retorna resultados que coptenham tanto sinénimos, quanto outros termos relacio: nados ao termo pesquisado, como por exemplo: Law, Statutes, Code, Act, . "MEDLINE - base de dados compilada pela Biblioteca Nacional de Medicina dos Estados Unidos. Para mais informagées, recomenda-se uma visita ao sttio da instituigso disponivel em: httpy/vww.nim.nih.gov!. 1 ScienceDirect - servigo implementado a partir de 1997 pela empresa de consultoria em informacao Elsovier, a ScienceDirect aulodenomina-se como a tnaior colagao eletrénica de bibografias @ texlos integrais nas areas de ciéncia, tecnologia e medicina.. Mais detalhes poderdo ser obtidos em: hitp:! ‘wor. info.scienceditect.comiticensing_options/index. shtml. ® USPTO - eserilério de Marcas Registradas ¢ Patentos do Estados Unidos. Para mals informagoes, “ facomenda-se uma visita ao sitio da instituigao disponivel em: hilp:/www.uspto.gov. 0 ArXivorg — iniciado em 1991, 0 servigo compreende um arquivo tolaimente automatizado de artigos cientllicos eletrénicos, O acervo cobre principalmente a area de fisica e suas disciplinas correlatas: matematica, ciéncias néo-lineares, lingOfstica computacional ¢ neurociéncia. Para mais informagées, © recomenda-se uma visita ao sitio da instiluigéo disponivel em: hitps/wmw.arxivorg!. % BioMed Central - editora independente que fornece acesso livre e imediato a documeintos relativos a pesquisas médicas. Mals informagdes podem sar oblidas no sttio da instituigéo, disponivel om: http: ‘werw_biomedcentral. com/intof © Projeto Euclid ~ Iniciativa da biblioteca da Universidade de Cornell, com 0 objetivo de promover a ‘comunicagao académica nas areas de materntica teotia e aplicada 6 de estatistica, Para mais informacbes, recomenda-se uma visita ao sitio institucional, dispivel em: http:fprojecteuctd, org/Diens¥UW .O/Home, Organlzagdo da Informago na web: das tags & web seménlica Ailton Feitosa 46 Rights, Rules, Legislation e Regulation. Além desse recurso, o Google in- troduziu também o uso da busca por radical que, realizada automatica- mente, retorna termos variantes de uma mesma palavra. Para exemplificar, uma busca pelos termos run linux retorna, também, running linux. Ferramentas de idiomas Dig Pesquisa Google ilieatna Web C Pesquisar paginas ern portugues EY Imagens | Grupos | Dinelaria Prafersucias: Cateyauas Recreation > Hurnor > Laws Sariety > Issues > Oisabilities siete aur ages toner © n ci es i ast De ua agian ce puseoae é llustragéo 10: Resultados de uma pesquisa semantica no Google No campo das inovagdes de servigos, em 2003 0 Google langou o AdSense, um programa de aniincios baseado em contexto, que permite com que pessoas consigam obter rendimentos apenas pela colocaciio de antinci- 9s relevantes em suas paginas; nos tiltimos anos, (2003-2004), o Google iniciou um investimento pesado na introdug&o dos citados elementos se- Organizagio da Informago na web: das tags & web semntica Allon Fetosa a ~ ménticos ao seu servico de busca, embora muitos usuarios continuem alheios a tais mudangas. 3.2 Meta Tags: as primeiras técnicas de otimizacao da web para os mecanismos de busca Existem na web diversos recursos, como tutoriais ou guias, que abordam a otimizagao de paginas para a indexagaéo por mecanismos de busca. Entre tais recursos, a maioria recomenda que se fornecam meta dados no cédigo fonte de uma pagina web, para a descrigéo de infor- _ mages. Tais meta dados podem ser: palavras-chaves; titulo; descrigéo do contetido; resumo; autor; informagdes de copyright; distribuigéo; idioma; entre outras. A gravacdo dessas meta tags no contetdo da pagi- na, que pode ser realizada com o uso do elemento , que integra a biblioteca da linguagem HTML, foi muito utilizada para favorecer a indexacdo de paginas da web pelos mecanismos de busca. No entanto, devido aos abusos cometidos por webmasters, que desenvolveram téc- nicas de spamming, as empresas € organizagdes que desenvolvem meca- nismos de busca passaram a utilizar outras metodologias de indexagao. Desse modo, embora ainda possam se utilizar das meta tags para a des- coberta de contetido de uma pagina, essa técnica passou a ter menor importncia na indexag&o automatica da web e scu uso tem sido mais bem fiscalizado com tecnologias anti-spam que, inclusive, apenam os sites cujo uso for considerado abusivo. Tal fato nao € um indicativo de que se deva evitar 0 uso das meta tags mas, ao contrario, seu uso res- - ponsdvel, respeitando as politicas anti-spam, pode favorecer a classifi- cagdo de uma pagina web nos diversos mecanismos de busca — 0 pré- prio texto de ajuda do servigo Yahoo! recomenda que se utilizem as tags description ¢ keywords para a otimizagao dos resultados da busca (YAHOO!, 2004). A tabela 4 contém uma lista das principais meta-tags usadas para promover a classificagéo de uma pagina da web junto a um mecanismo de buscas, e foi adaptada de Bowman (2004) com comple- mentos de SeoConsultants.com (2004a). Organizagdo da Informagao na web: das tags & web semantica Ailton Feitosa 48 Tabela 4: principais meta tags utilizadas para a definigdo de politicas de indexagéo por mecanismos de busca Nome da Tag Sintaxe. Robots Descigae., Tndioa ao robé, spider ou orawder se the sera ou néo parmitida a indexagdo da pagina web Similar & meta tag Description, pode ser Uilzada para fornecer unta segunda descrigéo a rospoito do conletido da pagina Abstract mete na betraot’ content="descrigo* Author Indica 26 a pagina possui uma dala de Designa tina versio eubeliuta para ura ‘pi tela aneexgiesconlentngongin de dea> PO documento, Pode ser uilizada juniamente Indica o cBdigo do idioma uillizado na pagina, I=" : 5 com o elrfouto lang, para especiicar uma Language do curdo com as sonvengdes cs aetna Alemalo ——_lnkrol-“aternlo ref-nkselerence ‘erat d document am oo ino ov intesnacionais, como atribuio media, pare designar wma ‘verso om ouiso po de suport. Designae alemento anterior em uma série Description tum sumario do ste Aigune mecanismos thonracere ovbides hosteailatee da Contents ‘ink rel=“contents" href="link-referenae” bron poem inlrprelar esse vor como busca. sindnima de ToC: (Table of Contents). “meta name="Keywords” confent="palairas-chaves que Incica alla de palavras-oh Rofero-se a umn dacumento que fornece ti Keywords hearer apie Pat swe repevenian ocenate nto Index ink telendes" href"Eokrelerence'> Indien de assuntos para o documento corront Fonte: adaptado de (BOWMAN, 2004) Reforo-s2 a um documento que famnece um Slossery ink rel="gossary"href"inksference"> capilulo para uma calegao de documentos, spamming, como, por exemplo: nao se Relere-ce a um documento que espeaiica & Pp ‘PK deve escrever textos que possuam a Section ume segéo para uma colegio de mesma cor do fundo da pagina ou de uma célula de uma tabela; nao é Slocumentos, re davel . + Relere-ce a um docamanto que especiios recomendavel que se repita uma palavra muitas vezes na tag keyword — 0 Subsection ma subsegdo para uma colagao de. itle ‘nti fens wag b documentos mesmo vale para as tags title ¢ description e esta técnica de spamming & Refore-so 2 um documento que espectica conhecida como keyword stuffing ; quaisquer palavras listadas no titulo da Append sink re-"appendis'tef="Tinkelerence’> ts anon pra.uma colegio te woe aoe ue fooume pagina devem ser também incluidas nas tags keyword e description, além Relere-ce a umn documento que inclut i 5 Avi Itelp ate" . informendes de ajuda, come links para de ocorrerem em diferentes pontos da pagina, como texto comum Help ‘fink rele"help" href="tnkcreference"> ‘outrac fontes, detahamento de (BOWMAN, 2004). A relevancia da meta tag keywords atualmente (2006), Organizagio da Informago na web: das tags & web semantica Allon Feitosa injormepoes, ene culras. Fonte: Adaptado de SeoConsuttants.com (2004a). COrganizagao da Informagao na web: das tags & web semntica Aillon Feitosa : Outro elemento que pode facilitar a indexagao pelos mecanismos de busca é 0 elemento fink. Esse elemento possui diversos atributos que po- dem fornecer uma indicagio de ordenagio do documento em relagéo a outros documentos em um site. Cria-se, assim, uma seqiiéncia de paginas que pode ser atil A indexagiio automatizada. A tabela 5 fornece algumas indicagdes de uso do elemento link, com vistas 4 indexago. Devido ao fato de que-a meta tag keywords atualmente (2006) pos- sui pouco peso na classificag&o dos resultados dos mecanismos de busca, Wall (2004a) sugere que as palavras-chaves escolhidas para a representa- ao de contetido dos documentos de um site sejam colocadas em partes estratégicas, como: titulo; texto de links internos; cabegalhos

, sendo usado um por pagina; sub-cabegalhos

e

; meta description; tex- tos de links de barras de navegaciio; links externos, quando possivel. O autor sugere, ainda, a utilizacdo de negritos e listas com marcadores para o destaque de palavras importantes, além da descrigéio, com palavras-cha- ves, de todas as fags que ocorrerem na pAgina. Uma outra técnica importante, lembra o autor, é a promogio de uma politica de hiperlinks, isto é, o estabelecimento do maior namero possivel de hiperligagdes de outros sifes para o site que se pretende promover junto aos mecanismos de busca. Essa estratégia justifica-se porque os principais mecanismos de bus- ca, a exemplo do Google, orientam suas buscas por meio da anilise de shiperlinks. 3.3 Padrdes de meta dados: tendéncias da organizagao na web A palavra meta dados origina-se do prefixo grego metd, que significa mudanga, posterioridade, além, transcendéncia e reflexiio critica sobre al- guma coisa. A palavra dado, no sentido informatico, refere-se a informa- cao em forma codificada (FERREIRA, 1986). Assim, juntando-se os ter- mos, pode-se chegar a uma nogio de transcendéncia sobre a informagao, ou de uma possivel descric¢fo da informag&o que os dados representam. Nessa perspectiva, meta dado é todo dado fisico, isto é, contido em algum software ou qualquer tipo de midia, e que fornece informagao sobre outra Orgenizago da tnformagéio na web: das lags & wob seménlica Aillon Feitosa st informacio. De uma maneira mais simples, ¢ possivel se dizer, também, que meta dado é “dado sobre dado”. O,conceito de meta dado esta associ- ado, ainda, a conhecimento — contido em pessoas ou midias - dentro e fora de uma organizacao, incluindo informacao sobre dados fisicos, pro- cessos técnicos e de negécios, regras e restrigdes sobre os dados ¢ estrutu- ras de dados usados por uma corporagio. Assim, falar sobre meta dados é, também, falar sobre conhecimento (MARCO, 2000). Embora possa parecer que os conceitos de meta dado ¢ de repositdrio de dados so conceitos recentes, eles tém suas origens no inicio dos anos 70. Nessa época, os primeiros repositorios d de dados comerciais eram deno- minados, diciondrios de dados e tinham mais enfoque nos dados, do que no conhecimento. A preocupacdo comum na época era, entao, propiciar um repositério centralizado de informagées sobre os dados em si ~ como suas definicdes, relaces, origem, dominio, uso e formato ~, com vistas a © subsidiar o trabalho dos administradores de bancos de dados, cujas fun- gdes principais eram o planejamento, controle, avaliagéio, armazenamento e uso de tais dados. Dessa maneira, utilizando um dicionatio de dados, o administrador de banco de dados estava apto a especificar requisitos, mo- delar dados corporativos ¢ prestar suporte as bases de dados. A partir dos anos 90, 0 conceito de meta dados foi se alterando e, atuaimente, o desafio com que se deparam os especialistas em informagao é a habilidade para diferenciarem repositérios de meta dados de diciondrios de dados. Os repositérios de meta dados realizam todas.as funcdes de um dicionario de dados, mas possuem um escopo mais amplo, determinado, entre outros fatores, por necessidades que emergiram a partir dos anos 90: os sistemas tornaram-se mais flexiveis ¢ nao integrados; criaram-se os conceitos de ar- mazéns de dados ¢ mercados de dados; com 0 advento dos negocios reali- zados em linha, muitas necessidades de informacfo dos usuarios ficaram ainda sem ser preenchidas; com a popularizagao dos negocios realizados em linha, aumentou, proporcionalmente, a necessidade de se implementar maior nivel de seguranca e de confianga aos dados envolvidos nas transa- gdes (MARCO, 2000). No sentido do saber biblioteconémico, meta dado pode ser considera- do como dado estruturado, que compartilha diversas caracteristicas similares para a catalogacdo, e que descreve as caracteristicas de um determinado recur- Organizagéo da Informagao na web: das tags & web semantica Ailton Feitosa 52 so informacional. Portanto, um registro de meta dados consiste em um name- to pré-definido de elementos que representam atributos especificos de um ob- jeto, sendo que a cada elemento pode estar associado um ou mais valores (TAYLOR, 2003). A cada elemento de um registro de meta dados estéo asso- ciadas propriedades como nome, dominio, tipo, tamanho, formato, responsa- bilidade e, no caso de sistemas informatizados, origem. A propriedade nome identifica univocamente o elemento. O dominio especifica o conjunto de valo- res que o elemento de dado pode assumir; por exemplo, ao dominio do idio- ma de um documento poderiam estar associados os cédigos de idiomas. A propriedade tipo refere-se ao tipo de contetido que se podera armazenar no elemento de dados, como por exemplo, valores textuais, numéricos, datas, entre outros. A propriedade éamanho refere-se ao nfimero maximo de caracteres que poderao ser armazenados no elemento. O formato refere-se a forma com que a informagao deverd ser representada, e define as posigGes de determina- dos simbolos como tragos, pontos, barras, entre outros; nos sistemas informatizados, os formatos so também conhecidos como mdscaras, A ori- gem determina se os valores a serem armazenados no elemento de dados serao digitados pelo usuario, utilizando um formulario de entrada de dados, ou se serfio calculados ou gerados automaticamente pelo sistema. A tabela 6 repre- senta um exemplo de um registro de meta dados: Tabela 6: Exemplo de registro de meta dados Nome do Elemento Vator Titulo Catalogo da web: Criador Dagniia Moa Biblioteca da Universidade de Gueonsland Idenlificador hilp: www library.ug.edu.awladimainmens.html Formato Texlo/htmt Relagéia Web oie da bibioieoa Fonte: Adaptado de (TAYLOR, 2003) O uso de meta dados apresenta muitos beneficios, como por exemplo: a) meta dados sfio estruturados e, desse modo, podem formar a base para o desenvolvimento de sistemas de busca mais avangados; b) meta dados po- dem ser convertidos para outros formatos, de modo que possam interoperar com diferentes protocolos de busca ¢ recuperacao; c) em relagéio a documen- tos publicados na Internet, pensando-se em recuperagdo automatizada, tor- Organizagéo da Inlormagdo na web: das tags & web semantica Ailton Feitosa 53 na-se mais facil a extracéo de contetido de uma base de dados de descrigéo de recursos, do que de arquivos textuais em formato HTML; d) meta dados administrativos podem ser utilizados para facilitar 0 gerenciamento do siste- ma de informag&o, uma vez que ajudam a avaliar quando os recursos devem ser revistos ou removidos da base de dados (DAY, 2000). Na 4rea de Ciéncia da Informagdo ha diversos esquemas de meta dados, citando-se, entre as iniciativas mais populares, o Dublin Core, o AACR2 (Anglo-American Cataloging Rules) e 0 GILS (Government Information Locator Service). Obviamente, segundo as caracteristicas da area de conhecimento em questdo e do sistema de informagdes, os meta dados podem variar significativamente. Nao obstante essa possibilidade de variagio, para Taylor (2003), cada esquema devera possuir pelo menos trés caracteristicas: ntimero limitado de elementos; 0 nome de cada elemen- to; o significado de cada elemento. Em relagao ao agrupamento dos ele- mentos de meta dados de um recurso informacional, Day (2000) sugere uma classificagdo, segundo o uso, em: a) dados descritivos — séo aqueles que contém informagao passivel de utilizagio por sistemas de busca, como: titulo; titulo abreviado; titulo alternativo (em outro idioma, por exemplo); subtitulo; descrigao; URI; autor; idioma; codificagio do conjunto de caracteres; organizacao (de criagéo e de hospedagem do documento); for- matos de arquivo (por exemplo, texto, imagem, audio, video), meio fisico, propricdade intelectual ou copyright, disponibilidade (por exemplo, indi- cagiio se 0 acesso a informacdo é gratuito ou sujeito a registro); software requerido para acesso (navegadores especificos, software de MIDI); ¢ pa- blico alvo; b) dados do assunto — sfio aqueles que descrevem o contetdo do documento, como: palavras-chaves; cédigo de classificagao; sistema de classificag4o; e termos do tesauro ou cabecatho de assuntos; c} dados ad- ministrativos — séo aqucles que facilitam a organizacao e a administragao do sistema de informagées, como, por exemplo: responsavel pela manu- ~ tengo do documento; data de adicdo do documento ao sistema; data da Gltima modificacao; data de expiragao (por exemplo, de um antincio de conferéncia); catalogador do documento; origem do registro; e proprieta- tio dos direitos. Day (2000) considera que, embora essa lista de elementos nao seja exaustiva, ela contém aqueles que, em. sua avaliagdo, sao funda- mentais para a organizagao da informagao. Organizagao da Informagio na web: das tags @ web semantica Aillon Foitosa 54 A escolha de um formato de meta dados é uma das decisées mais importantes no desenvolvimento de sistemas de informagao, e é essencial que tal formato permita a integragdo com o software que forma a base do sistema. E também importante que o formato contenha todos os campos considerados apropriados a descrigao dos dados do sistema. Como ja men- cionado, © formato Dublin Core é, na atualidade (2006), um dos mais importantes meios de descrigdo de recursos na Internet e é um exemplo das iniciativas que se propdem a definir um core (nticleo) de meta dados, isto é, um conjunto de dados essenciais que possam ser utilizados como pa- drao para a descrig&éo de recursos na web. Ao lado do formato Dublin Core, outra iniciativa que merece destaque no 4mbito é o Resource Description Framework (RDF). A arquitetura RDF € discutida em maior. profundidade no capitulo Web Semantica. O esquema Dublin Core caracteriza-se pela sua utilidade e flexibi dade na representaciio de dados. A semantica dos elementos foi projetada para ser claramente compreendida por um grande ntimero de pessoas, sem a necessidade de treinamento, bem como para interagir com o maior nt- mero possivel de tecnologias. Assim, a intengdo da metodologia nao é su- plantar outros recursos usados para descrever documentos, mas, ao con- trario, complementé-los, Outra caracteristica interessante do formato Dublin Core € que embora, por padréo, todos os elementos sejam opcionais, é possivel que o administrador do sistema ou especialista em informacgdo defina situagGes de obrigatoriedade, quando necessario (TAYLOR, 2003). A Dublin Core Metadata Initiative (DCMI) (ilustragao 11) iniciou- se em 1995, com um workshop realizado em Dublin, no estado de Ohio nos Estados Unidos, que congregou bibliotec4tios, pesquisadores especi- alistas em biblioteconomia e em bibliotecas digitais, provedores de con- tetidos e especialistas em técnicas de marcagao de textos. Como o evento, patrocinado pelo Online Computer Library Center (OCLC) e pelo National Center for Supercomputing Applications (NCSA), teve lugar em Dublin, 0 conjunto de elementos sugeridos recebeu o nome de Dublin Core. O obje- tivo desse workshop era promover a melhoria dos padrdes de descoberta da informagao na web. A proposta original, inicialmente reunindo inte- resses de um pequeno grupo, rapidamente atraiu atengdes, em escala glo- bal, de uma grande variedade de fornecedores de informacio nas areas de Organizagdo da Informagao na web: das tags a web semantica Ailton Feitosa : riais e aplicagdes (NISO Press, 2001; NISO Press, 2004) 55 artes, ciéncias, educacao ¢ negécios, além dos setores do governo. Devido 4 proliferagdo dos documentos eletrénicos em face da impossibilidade de os bibliotecdrios e especialistas em informagdo realizarem a catalogagéo “de todos os documentos, pensou-se, inicialmente, em um conjunto de treze elementos que permitissem aos proprios autores € administradores de sites fazerem essa marcagio, a partir da utilizagao de regras simples | *(ilustragdo 12). Assim, a tarefa tornar-se-ia factivel, mesmo para aqueles que néo dominassem os principios de catalogagao e classificagao. Poste- tiormente, o néimero de elementos foi elevado para quinze — titulo, cria- dor, assunto, descrigéo, editor, colaborador'’, data, tipo, formato, identificador, fonte, idioma, relagdo, cobertura e direitos. Embora 0 pa- drao tenha sido concebido originalmente para a descrigéio de documen- tos da web, o Dublin Core tem sido utilizado com outros tipos de mate- WNCnonens [Js] yaavo Edin Ent Gavoion Foran At | eoteese [BT slant _ TO DIG TICE CCE OCC DIRE OLE nes ‘Sout the Initiative npr ritalin fieasad oo ‘Status of Deliverables: ctl ees ‘The Dinbin Cure Metadata Imaatrye ts an open facnm engaged Goouments an the development of unteraperable anime metadata ds gS estings aa that mappott a brosd range of porpotes aud burness models siting Etanen DedIe wtinmesatclule eousensoeiven warkung geny, — emlgseatine proiects loll workshops, conferences, strula ds hasson, ane — = anetadata standards and prachees. Sechibeggure Tost are Citation ‘Workshows Sener Snasenrcensents See" neva peu sndonds utatve ounces heats on ‘9 leet a : Aine] 28 44 6 BD) Ay ay oo BA | -Doa.| wana, FSO BALI IOS teak ve ilustragdo 11: Site do padrao Dublin Core na internet Fonte: © 0 elemenio contributor foi traduzido aqui como colaborador ~ apenas por uma questa de estilo - embora haja registro do termo contribuidor no idioma portugués brasileiro na obra de Houaiss (2001). COrganizacao da Informagdo na web: das tags & web semantica Allon Feitosa 56 Ene eR ren The META tay of HM, 10 deatened to encode m naned netadaca elenens, Esch elenent describes a given aopect af e ducimeat or other intorustion resource. FOE etauple, this tagged netadate eleaect, ‘Aqies dla Fx Favoies Favanenas Aida cal - c 4] a concent = "Siapson, ewer"> soys thee Houer Sinpoen 29 che Creator, uhere the elencnt nened Cceacar 1g defined in the DC elewent set. In the nore geherel Cora, neta mene SPREE. RLEMEST_ WANE Content = *EGERENT,VaLUE"> the cepitalized vords are meant to he ceplaced 4m actuel Seaceiptions; thus 4 the eemple, Rumer iam uewrr_yauor ana FREFIZ creator Simpson, Howes be Michie a ath cay ee Ficat letter of w Dubtin Core eleuene ane As cebltalised. Diplaces sw cetsicton on aabetic soon on Gleaent value ané ony riabee 9€ HETA tagged elonents aay eppent together, in way ondez, bse thas one BC etenent with the sane nage ney erpene, ant encn D2 element Sa opetonal, ‘ihe nent example to a Book cesoripeian with tae auehocs, Go erthes, and nooner netadora. Eccl So nat Baiior| | G3 A BY Dy ij oo BP Joe | rec PSN Me | (BMG lay et lustragdo 12: Disposigéo de meta tags Dublin Core em uma pagina HTML Fonte: http:/www.iett.org/te/tc2731.txt Dempsey e Heety (2000) analisaram diversos formatos de meta dados € 0s sistematizaram, de acordo com sua complexidade, em bandas. A classi- ficago estatui que a banda 1 compreende estruturas de organizagao mais simplificadas, aumentando gradativamente a complexidade até se atingir a banda 3. Assim, a banda 1 corresponde aos sistemas de indexagéio automa- tica de texto integral, que 6 realizada pelos servicos de busca da Internet. Nessa banda, os meta dados sao criados automaticamente, a partir da extra- go, realizada pelos crawlers ou spiders, de informagées consideradas rele- vantes em um documento. Como abordado na sec&o que tratou dos meca- nismos de busca, tais informagées podem se referir algumas partes do docu- mento, como titulo, parte inicial do texto ou a metatags. A desvantagem dos meta dados nessa banda, esta no fato de que sua estrutura normalmente é oculta, uma vez que as arquiteturas dos sistemas so protegidas, devido a interesses comerciais. Como os servigos de indexagao desse tipo geralmente utilizam os préprios documentos para a obtenc&io de informagées e, tam- Organizagao da Informagéio na web: das tags 4 web semantica Ailton Feilosa 57 bém, pelo fato de serem muito amplos com relagao 4 cobertura, tais servicos so muito mais efetivos na localizag&o do que na descoberta. Se o usuario busca por um item conhecido, os resultados da busca provavelmente serao {iteis, caso o tema seja mais amplo, é de se imaginar que a preciséio seja mais baixa. Como a web apresenta um alto grau de desorganizagao, no que tange a estruturas de meta dados, e uma vez que as tecnologias incluidas nessa banda extraem informacao com base exclusivamente nos documentos, ter- minam por operar em nivel de cépia, isto €, nao h4 como reconhecer fontes ~ duplicadas ou estabelecer relagdes entre diferentes fontes, 0 contetido dos indices é apenas um extrato do contetido dos acervos indexados. A banda 2 de Dempsey e Heery (2000) compreende servigos que se baseiam em padrdes que traduzem os esforcos da comunidade de Ciéncia da Informag&o para a busca em sifes organizados por diret6rios. Os formatos incluem recursos de descrigfio construidos manualmente e so um pouco mais complexos do que os formatos originados pela indexagiio automatica. O for- matos da banda 2 baseiam-se na criagiio de meta dados referentes a recursos selecionados; 0 padraio Dublin Core € 0 mais caracteristico dessa banda. Em geral, os formatos da banda 2 sao criados de modo que possam ser _ aplicados por usuarios n&o-especialistas na descricio de documentos de dife- rentes tipos e de diferentes dominios. As descrigdes dos documentos podem ser feitas apenas manualmente ou podem compreender 0 aperfeigoamento manual de descrigdes realizadas automaticamente. Os formatos incluem ele- mentos descritivos outros atributos, e so projetados para permitirem bus- © cas baseadas em campos e néio requerem conhecimentos aprofundados Os formatos concernentes 4 banda 3 (ilustragao 13) sao mais com- _ plexos e requerem os conhecimentos de especialistas para serem criados ¢ mantidos. Essa banda inclui o formato MARC, amplamente utilizado pela comunidade bibliotecdria e nos cataélogos de bibliotecas. A descri¢aio dos registros é realizada intelectualmente € requer conhecimentos néo apenas sobre o formato, como também sobre as regras de classificagao. Alguns formatos dessa banda sao tao complexos, que podem ser utilizados nao apenas pata a localizacéo e descoberta de informagdes em documentos, mas também para a organizagéo de colegGes inteiras. Esses formatos, como o TEI, por exemple, propiciam niveis de andlise de contetido e navegagao entre categorias de objetos. Usualmente associados 4 atividade de pesquisa ou académica, so expressivos o suficiente para envolverem uma ampla Organizagio da informagio na web: das tags & web semnantica Aiton Feitosa 58 59 diversidade de relagdes, em diferentes niveis. A tabela 7 apresenta o esque- ma de classificacdio em bandas, de Dempsey ¢ Heery (2000). A tabela 8 apresenta uma sistematizacao da classificagao em ban- das, de acordo com as caracteristicas de cada uma. Tabela 7: Tipologia de formatos de met: a di adios Tabela 8: Caracteristicas dos formatos de meta dados ‘Wanda 3 farmatos ‘Banda Si aivakuras mala” "Banda 3 Gy Gntegram ume 7 sdatexto gentrices com entrutura Simple) wt eee fsrguteotesermanice male Garacteristica Bandat Banda? Banda 3 Formatos Dublin Core FGDC ‘TEI headers ‘Sarvigos de indexagao Dessrigies de colegdes smopriolérios IAFARWHOIS ++ MARC icPSR da internet global; Servipos de busca seletiva ne internet, “ig ‘6 REC 1BOF Ambiente de uso =, Ss, 2 académicas ¢ de oulros Hs, cap sero te indoxagdo _direl6rios de servigos vSpostis impoentes Fonte: (DEMPSEY; HEERY, 2000) Tocalzagio, selegis, c Fungao Localizagdio Localizagéo; selegzio avaliagéo, andlise, ‘omo j4 mencionado, = . documenlagéo meta dados, basend Da banda 3 agrupa padrGes mais avangados de ee . , baseados na linguagem SGML (Standard Generalized Mark- Griagio Gerados pare Gerados por robs, mais entrada manual ena ke up Language) ¢ suas detivadas (HTML, XML e XHTML). As principais “ informagia caracteristicas dessa banda estio |i . : Campos e suboamipos, ados de deseots 0 sto ligadas a0 avango dos algoritmos associ- Estrutura ‘Néo estruturedoe Pores do atnutosvalores uaiifvederes, marcago le descoberta da informagiio nao mais de localizagiio. Destacam-se setter com 3 . : vee ; ‘ilp com Interface proporcionada por ee no padrdes dessa banda: TEI (Text Encoding Initiative), ICPSR (Inter- Protosolos de er formulécioyrotocoles ce servga de dirctrios 239.50. Navegaxlores © emmy Consortium for Political and Social Research), USMARC e EAD associados fermutério Tee besoaderce SSM (Encoded Archival Description); ‘late Proprio padéee eme-genles para nternst Padronizagao de ea __. dorninios especitions. MARC lags Hi, bap. be Telia [eon the Fonte: (DEMPSEY; HEERY, 2000) 3.4 Resumo do Capitulo Y Oadvento da World Wide Web trouxe consigo o fenémeno da explosiio exponencial da quantidade de documentos registrados na Internet, para o que foi necessaria a jmplementacao de servigos de organizagiio ¢ de recuperagao de informagdes como os diretérios, ‘os mecanismos de metabusca e os mecanismos de busca direta; Y Os mecanismos de busca direta criam seus indices automatica- mente e percorrem continuamente a Web ~ utilizando software conhecido como robot, crawler ou spider -, visitando sites € jndexando suas paginas. No momento da recuperagao, as pesqui- sas sao feitas utilizando-se essas informagoes colhidas; Y Os diretérios constroem seus indices por meio de descrigées de pagi- nas fornecidas pelas pessoas, no momento de submeté-las a um ca- “pubis 9. levine

[eta e . No entanto, abusos cometi- dos por webmasters motivaram a busca pelo estabelecimento de novos padrdes de metadados para a_representagiio, bem como de novas modalidades de indexacio; Entre os padroes de metadados mais importantes e origindrios da Area de Ciéncia da Informagao, citam-se: Dublin Core, TEI, AACR2, MARC e GILS; 61 Dempsey e Heery (2000) analisaram diversos formatos de meta dados e os sistematizaram, de acordo com sua complexidade, em trés bandas. A banda 1 corresponde aos sistemas de indexagao automiatica de texto integral, que é realizada pelos servigos de bus- ca da Internet. A banda 2 compreende servigos que se baseiam em padres para a busca em sifes organizados por diretérios. Os for- matos incluem recursos de descrigao construidos manualmente e so um pouco mais complexos do que os formatos originados pela ‘indexagéio automatica. A banda 3 inclui formatos mais complexos que requerem os conhecimentos de especialistas para serem cria- dos e mantidos. Entre esses formatos esto o MARC e o TEL A descricao dos registros é realizada intelectualmente e requer conhe- cimentos nao apenas sobre o formato, como, também, sobre as tradicionais regras de classificagdo. Organizagio da Informagio na web: das tags A web seménlica Organizagio da Informagéo na web: das tags a web semantica Ailton Feitosa Ailton Feitosa 63 4 Web Seméantica Este capitulo trata dos aspectos teéricos da Web Semintica, focando- se principalmente em ontologias, linguagem XML, esquemas XML, RDF, esquemas RDF e linguagem OWL. Foram estudados alguns textos de au- “-tores representativos da area: Berners-Lee (1989; 1998,2001), Hyvonen. (2002), Lassila (1997), Miller (2002), Daconta (2003), Brickley (2001), Miller (2004), entre outros. Além desses autores foram consultadas reco- imendagdes normativas do W3 Consortium sobre tecnologias da web se- mantica: OWL, RDF, RDF-Schema, XML, XML-Schema, Foram consulta- ‘das as especificagdes semanticas do DARPA para DAML+OIL, DAML-R, DAML-L e DAML-S (DAML,2004) 4.1 Caracterizagao da web semantica Segundo Nafria (2001) a Internet, como a havia imaginado Berners- Lee em 1989, nao era exatamente o que é hoje, mas algo muito mais revo- luciondrio e que ainda esta por chegar: a web semantica. O autor lembra que a idéia da web semantica foi levantada no famoso artigo The Semantic Web"? de Tim Berners-Lee, James Hendler e Ora Lassila, no qual os autores - falam de uma Internet na qual os computadores nao apenas sfio capazes de ‘apresentar a informagiio contida nas paginas web, mas além disso, de compreendé-las. "7 BERNERS-LEE, T.; HENDLER, J; LASSILA, O. The Semantic Web: A new form of Web content thal is moaningful to compulers will unleash a revolution of new possibilities. American Scientific.com. may, 2001. Disponivel em: — hitp:/www.sciam.com/article cfm?articlelD=60048144-10D2-1670- B4AQROSECSBBEF21. Acesso am 07/11/2003. COrganizagéo da Informago na web: das tags & web semantica Aillon Feitosa 65 Na pratica, isto significa que as mAquinas — computadores pessoais soas. A organizacio de sitios ¢ paginas com tal escalabilidade que permita ou qualquer outro dispositive conectado a Internet — poderao realizar, qua- a completa integracio entre os recursos, mesmo quando tiverem sido de- se sem necessidade de interveng&o humana, uma infinidade de tarefas que envolvidos em plataformas completamente diferentes — e isso refere-se simplificam a vida das pessoas. Assim, a web seméntica “nao é uma web : nao apenas a hardware, mas também a aplicativos —, habilitaraé os compu- separada, mas uma extensfo da atual, na qual a informagiio é dada com tadores a usarem as informacées disponiveis nfo apenas com propésitos um significado bem definido, melhor babilitando computadores e pessoas de exibicio, se nao também com possibilidades de automagao, integragao a trabalharem em cooperagdo” (BERNERS-LEE, 2001). Dessa maneira, a |e reuso em diferentes sistemas (PALMER, 2001). web tommar-se-4 um ambiente com capacidade de processamento automati- : A web atual tem sido desenvolvida para o Ieitor humano (BERNERS- co de informagées, deixando de ser apenas um repositério de documentos LEE, 2001). Uma maquina nao pode entender muito do contetido da web, para pessoas (NAFRIA, 2001). : mas apenas oferecé-lo para que as pessoas 0 interpretem. Entretanto, a " jnterpretacdo automética do contetido € vital para o desenvolvimento de aplicacdes inteligentes para a Internet (NAFRIA, 2001). Para Hyvénen (2002), a Web Semintica, ou Internet de significados, 6 uma vis&o da pro- = xima geragdo da web que podera ser utilizada nao apenas por humanos, regras de inferéncias, de modo que os computadores possam utiliza-las © “mas também por maquinas. Assim, o autor prevé que, com a ajuda dos para desenvolverem sua capacidade de localizagao automitica de recursos © _ padrées ¢ ferramentas da web semantica, serd possivel a representagdio ~ de (BERNERS-LEE, 2001; NAFRIA, 2001). E necessario, portanto, adicio- — uma maneira compreensivel para os computadores — dos significados dos nar-se légica 4 web, por meio da utilizag&io de uma linguagem que seja contetidos da web; isso facilitar a implementacdo de novas aplicagdes € capaz de expressar dados e regras para inferéncias sobre tais dados, forne- servigos inteligentes. cendo também as tegras para a exportagao para a web de qualquer sistema Segundo Quivey (2002), a idéia da Web Seméntica tem sido desen- de representacao do conhecimento existente. yolvida por pelo menos seis anos'* e, embora com desenvolvimento len- A concepgiio da Web Semntica, que almeja tais objetivos, é€ uma 4 to, 0 projeto tem tido significative a expansio: diversas tecnologias es- estrutura de representaciio de dados na World Wide Web, por meio de um : tio sendo desenvolvidas com esse esforgo. Pelo menos duas tecnologias esforco colaborativo liderado pelo W3C, com a participagiio de pesquisa- ‘so chave para o sucesso da Web Semantica: a eXtensible Markup dores e de empresas de desenvolvimento de software de todo o mundo. A. Language (XML) ¢ 0 Resource Description Framework (RDF) (QUIVEY, jdéia da Web Semantica é uma evolucao do grupo de trabalho Metadata 2002; BERNERS-LEE,2001), que sao tecnologias promissoras e que atu- almente tém encontrado grande aceitagdo na web. Entéo, a Web Semanti- = ca baseia-se principalmente em aplicagdes que utilizam XML como tecnologia de suporte a estruturacdo sintitica e URIs para a denomina- No entanto, para se chegar a essa nova web, sio necessérias muitas iniciativas que no so faceis de serem realizadas. Entre essas iniciativas esta o desenvolvimento de uma linguagem padrao, que permita a constru- go de colecdes de informagées estruturadas, bem como de conjuntos de Activity, vinculado ao W3C, cujos maiores objetivos eram o estudo ¢ 0» desenvolvimento de um framework para a representacio de informagao = compreensivel por m&quinas na web. O principal trabalho desenvolvido por esse grupo foi o Resource Description Framework (RDF), que tem como cdo dos recursos (W3C, 2003). propésito fornecer um sistema de ontologia de base para dar suporte a Conforme lembra Nafria (2001), a linguagem XML € bem aceita troca de conhecimentos na web (W3C, 2003a). As fungdes do W3C | pois permite aos usuarios adicionarem uma estrutura arbitraria a seus Metadata Activity foram absorvidas pelo W3C Semantic Web Activity. documentos; entretanto, essa linguagem nada pode dizer a respeito do O principal objetivo no desenvolvimento da web semantica 6 0. compartilhamento de informages, tanto por méquinas, quanto por pes- || Aproximadamente dez anos, contando-se 0 ano de 2006. Crganizagio da Informagdo na web: das tags & web semantica Organizagao da Informagdo na web: das tags & web seméatica Ailton Feitosa Ailton Feitosa 66 significado de tal estrutura. Por esse motivo, a tarefa de atribuir-se signi- ficado tem sido realizada com a linguagem RDF, uma linguagem de mar- cagaio em que é possivel descrever-se a informacao para processamento de significado pelo computador. O terceiro elemento fundamental para cons- trucao dessa web do futuro sio as ontologias. Conforme Berners-Lee (2001), na filosofia, uma ontologia é uma teoria sobre a natureza da existéncia, dos tipos de coisas que existem; entdo a ontologia, como dis- ciplina, estuda tais teorias. O autor lembra, ainda, que pesquisadores nas Areas de Inteligéncia Artificial e de Web tém feito empréstimo desse ter- mo, dando-Ihe a significagdo de: um documento ou arquivo que formal- mente define relagdes entre termos. Um exemplo tipico de ontologia para a web possui uma taxonomia e um conjunto de regras de inferéncia (BERNERS-LEE, 2001). Para Palmer (2001), a web semantica é uma malha de informagao ligada de maneira que seja facilmente processével por maquinas, em uma escala global e pode ser pensada como sendo uma forma eficiente de repre- sentar dados na web ou como uma base de dados globalmente vinculada. Segundo Quivey (2002), com o advento da Web Semantica, as buscas na tornat-se-Jo mais faceis e mais rapidas porque os computadores poderao realiza-las com a minima interveng&o humana. No entanto, para que isso ocorta, é necessdrio que as paginas sejam escritas em uma Jinguagem clara, de modo que os computadores possam compreender seu significado. Para a autora, com a linguagem certa e com o conjunto semantico apropriado, nossos computadores estarfio aptos a decifrar e fazer inferéncias sobre 0. material encontrado em uma pagina web. 5 importante destacar-se que 0 computador nao “compreende” verdadeiramente qualquer tipo de infor- macdo em uma piigina web, mas pode, com 0 apoio das ontologias, mani- pular os termos de uma maneira muito mais efetiva, permitindo que essa informago torne-se mais atil e significativa para um usudrio humano (BERNERS-LEE, 2001). Quivey (2002) destaca que o verdadeiro poder da web seméntica sera realizado quando forem criados programas que coletem contetido de diversas fontes, processem essas informagGes ¢ troquem os resultados com outros programas; a efetividade desses programas crescera exponencialmente, 4 medida que mais e mais programas com a mesma Organizagao da Informagao na web: das tags & web seméntica Ailton Feitosa 67 capacidade estiverem disponiveis para interagirem. Ora Lassila (1997) tam- _pem prevé que a web se transforme em algo compreensivel para as maqui- _nas, por meio de um mecanismo que permita uma descriciio mais precisa das coisas na web; isso, afirma o autor, poderia elevar o status da web de Jegivel-por-maquina para algo que poderiamos chamar de compreensivel- por-maquina. Em termos de aplicagées, os exemplos a seguir mostram alguns be- neficios da web semantica: - se for corretamente desenvolvida a web semantica pode ajudar a evolucio do conhecimento humano, facilitando a colaboragao en- tre equipes de pesquisadores em localidades remotas; - como os agentes melhorarao sua eficécia em razo dos contetidos com significado semfntico, as buscas serao mais precisas ¢ retornaraio melhores resultados, combinando informages em di- ferentes paginas; - as escolas poderao integrar-se com sua comunidade: bibliotecas piblicas, videotecas, museus, entre outras instituigdes; Berners-Lee (2001), postula que o primeiro passo para que se consi- ga organizar a informagao na web, de modo a torna-la inteligivel para ma- quinas, é uma mudanga no paradigma de como tal informagio ¢ armaze- nada, de modo que os dados sejam processados direta ou indiretamente “por computadores. Para Daconta (2003), essa mudanga de paradigma tem evoluido em quatro estagios: a) informagées organizadas em forma de texto ou armazenadas ban- cos de dados (pré-XML) ~ nesse estdgio inicial, em que a maioria das informagées é de propriedade de um aplicativo ou servigo; as- sim, as “inteligéncias” concentram-se nas aplicagdes em nao nos dados; b) informagées organizadas no padrio XML, em um dominio especi- fico — nesse estagio, a informagdo registrada adquire independén- cia dos aplicativos em um dominio especifico do conhecimento; a informagiio agora € “inteligente” o suficiente para que possa ser compartilhada automaticamente de um aplicativo ou servigo para outro; Crganizago da Informagao na web: das tags & web semantica Ailton Feitosa taxonomias ¢ documentos com vocabularios mistos — nesse esta- gio, a informagdo pode ser composta por diversos dominios e cui. dadosamente classificada em uma taxonomia hierarquica; assim, a descoberta dos dados é feita por meio da classificagao; podem ser utilizados relacionamentos simples entre as categorias da taxonomia, de modo a permitir a correlagdo e a combinacao de informagées; a informagio é “inteligente” o suficiente para ser des- coberta e combinada com outras; ontologias e regras — nesse estégio novos dados ou informagses podem ser inferidos a partir de dados existentes, por meio de re- gras légicas pré-existentes; em sua esséncia, a informagao é descri- ta com relacionamentos concretos ¢ com sofisticados formalismos em que calculos légicos podem ser realizados a partir de uma “al. 4 gebra seméntica”; isso permite a combinagio ¢ a recombinagao de. : dados em um nivel mais “atémico”, isto é, a informaco é analisa- da a partir de unidades menores para um contexto mais amplo; nesse estagio os dados nao existem individualmente, mas fazem parte de um sofisticado microcosmo; tal estruturagao encontra 4 aplicagdes em diversos Ambitos do conhecimento, como, por exem-. plo na traducdo automatica do contetido de um documento de certo dominio para outro. Nesse nivel de estruturagiio os dados." definem-se inteligentes, pois so independentes de aplicativos, sao classificados, sua composigao é flexivel e sao parte de um sistema de informagéo mais amplo (uma ontologia). Finalizando essa abordagem, os autores relembram que os benefici- os da Web Semantica nfo esto destinados apenas para a World Wide Web mas, ao contrario, representam também um conjunto de tecnologias que funcionariio igualmente bem em intranets e que resolverao um grande ni- mero de problemas existentes nas atuais arquiteturas de tecnologias de: informagao. Em termos de tecnologias, a web seméntica sera construida com base nas potencialidades da linguagem XML, da arquitetura RDF e do esquema RDF-Schema, para a representacao de dados por meio da descrigao de es- quemas de marcac&o personalizados e flexiveis. Além dessas tecnologias; Organizagao da informacao na web: das tags a web seméntica Ailton Feitosa 69 como atgumenta Powers (2003), é necessaria a utilizagéo de uma lingua- gem de ontologia, que permita a descrig&o formal da semintica de classes ¢ proptiedades utilizadas nos documentos da web. Tal linguagem, lembra a autora, deve ir além da semantica basica fornecida pelo RDF-Schema, Miler e Koivunen (2002, p. 27-33) consideram que os seguintes prin- ‘cipios fundamentam a web semantica: 1) tudo pode ser representado por meio de URI’s -€ possivel referenciar pessoas, lugares e coisas do mundo fisico na web sem4ntica, com a utilizagao de diversos identificadores univocos; 2) recursos ¢ links podem ter tipos — a web atual consiste de links e recursos destinados A interpretacdio humana e, ainda, nao é ampla- mente difundido o uso de meta dados para explicitar seu significa- do, bem como, suas relagdes com outros documentos, de modo que maquinas possam realizar inferéncias sobre o seu significado; tais relagdes podem ser, por exemplo: depende de, é uma versao de, possui assunto, é autor de, entre outras; 3) informagao parcial é tolerada — a web atual sacrifica a integridade dos links, em fungao de sua escalabilidade; de tal modo, paginas podem estabelecer ligagdes com outras sem a necessidade de que haja uma reciprocidade nessa ligagdo; de maneira similar, na web semantica, pode-se declarar qualquer coisa sobre qualquer coisa, sem gue haja necessidade da criagao de ligagGes entre os recursos declarados; 4) a verdade absoluta nao é necessaria ~ nem toda informagao na web atual é verdadeira, e a web semantica nao prevé mudangas nessa orientagao. 5) a evolucao é suportada — a web semantica utiliza convengdes des- critivas que podem expandir-se como a compreensao humana se expande; tais convengdes permitem a combinagao do trabalho in- dependente ¢ compartilhado entre diversas comunidades, mesmo quando estas utilizam vocabularios diferentes. 6) 0 projeto é minimalista ~ um dos objetivos para garantir o desen- volvimento da web semAntica @ padronizar apenas o que for neces- sario, favorecendo a implementagiio de aplicagGes flexiveis. COrganizagdo da Informago na wob: das tags & web seméntica Ailton Feltosa 70 4.2 Ontologias Desde 0 inicio dos anos 90, as ontologias tormaram-se um tépico de pesquisa popular nas areas de inteligéncia artificial, engenharia do conhe. = cimento, processamento da linguagem natural e representag&o do conheci mento. A razao de tal popularidade é acreditar-se que, por seu intermédio, um entendimento comum e compartilhado sobre um determinado domi. nio de conhecimento poderd ser comunicado tanto entre pessoas como” entre computadores. a Originario da Filosofia, o termo Ontologia, em sentido estrito, pode a ser definido como estudo do ser e de suas propriedades fundamentais, Etimologicamente o termo provém do grego: ontos (ser, ente) e logos (sa- : ber, doutrina). Filosoficamente, ha dois aspectos pelos quais se pode con- ceber ontologia: a) aspecto existencial — a ontologia é um saber sobre aquilo que é fundamental ou irredutivel, comum a todos os entes singulares; b) aspecto essencial — busca determinar as leis, estruturas ou causas do ser em si. A ontologia, vista na acepgiio filoséfica, remonta aos trabalhos de _| Arist6teles — entre 384 € 322 a.C —, nos quais o pensador referia-se A natu- : reza do ser, investigando sua esséncia Ultima e a razio de ser, por tras da_ natureza Ultima como o ser é percebido. Nao obstante a antecipacao dos | principios, por Aristételes, o termo “ontologia” foi utilizado pela primeira: a vez em 1613, por Rudolf Gockel, em sua obra Lexicon Philosophicum e, . aparentemente de modo independente por Jacob Lorhard, com sua obra Theatrum Philosophicum (GUARINO; WELTY, 2001). Hyvénen (2002, p. | 114) afirma que, na perspectiva lingiiistica, ontologia é vista como um método destinado a aprimorar a compreensao da linguagem pelos siste- mas de processamento da linguagem natural. Dessa maneira, as teorias ontoldgicas tentam representar o conhecimento humano de maneira estruturada. Como disciplina, historicamente a ontologia foi cultivada desde o. século VXIII e, gracas ao filésofo alem&o Christian Woldd, o termo ga- : nhou projecao. A partir do século XIX, trés correntes tornaram-se impor- tantes: Organizagao da Informagao na web: das tags & web seméntica Ailton Feitosa a a) para Husserl — a ontologia é a ciéncia das esséncias e pode ser de dois tipos: formal — que é o fundamento de todas as ciéncias e interessa-se pelas esséncias e suas relacdes com outras esséncias; ou material — conjunto de ontologias setoriais que se preocupa com fatos; b) para Hartmann ~ a ontologia presta-se ao reconhecimento daquilo que é metafisicamente insoltivel; essa corrente examinava os diver- 0s momentos do ser, relacionando-os a existéncia ou 4 esséncia; a realidade ou a idealidade; a possibilidade, realidade, causalidade ou necessidade; ©) para Heidegger — a ontologia é uma metafisica da existéncia e é baseada na fenomenologia; especifica as categorias fundamentais da existéncia, isto é, classifica os conceitos e examina as distingdes que sustentam cada fendmeno no mundo. O dicionario Dictionary.com? fornece as seguintes definigdes para o termo ontologia: a) uma drea da ciéncia da metafisica que investiga € explicita a natureza, as propriedades essenciais € as relagdes entre os seres, como tais, ou os principios e causas do ser; b) uma especificacdo explicita e for- mal de como representar objetos, conceitos e outras entidades existentes em uma area de interesse, bem como as relagGes entre tais objetos, concei- tos e entidades; c) no campo da Ciéncia da Informagao, a estruturacdéo hierérquica do conhecimento sobre coisas, pela sua subcategorizagao, de acordo com suas qualidades essenciais (ou pelo menos relevantes ou cognitivas). Como informagao complementar, o Dictionary.com anota que, para os sistemas de Inteligéncia Artificial, 0 que “existe” é algo que pode ser representado. Assim, quando o conhecimento de dado dominio é repre- sentado em uma linguagem declarativa, o conjunto de objetos que esta sendo representado é denominado universo do discurso. As definigdes associam os nomes das entidades em dado universo do discurso ~ por Dictionary.com & um servigo de busca produzido pola empresa Lexico Publishing Group, o basela-se na reuniéo de delinigdes advindas de diversos outros dicionérios disponivets na web. O serviga pode ser localizado em {hitp:/iwwwcictionary.com} o inclui as obras: The American Horitage Dictionary of tho English Language, da edilota Houghton Miflin Company, Wobster’s Revised Unabridged Dictionary, da edilora MICRA: WordNet, editado pela Princeton University, The Free On-line Dictionary of Computing, do Denis Howe; entre outras. Organizagio da Informagaio na web: das lags & web semantica Ailton Feitosa 72 exemplo, classes, relagdes, fungdes ou outros objetos ~ com textos legiveis por humanos, que descrevem o que tais nomes significam e com axiomas formais, que restringem a interpretagaéo e o uso desses termos (Dictionary.com, 2004). Do ponto de vista da Ciéncia da Computacdo, ha diversas defini- Ges para as ontologias. Goméz-Pérez registra as visGes de diversos autores para o termo. A tabela 9 apresenta algumas dessas visdes: Yabela 9: Definigdes de ontologia Autor Definicaio Uma ontologia define os termes basicos e as relagdes compreendendo 0 vocabulario de uma area de tdpico, bem como as regras para a combinagao de termos e as relagdes para definir as extensdes do vocabulario; esta definigéo fornece também as linhas gerais para a construgdo de uma ontologia: identificar os fermos basicos € as relagdes entre eles; identificar as regras para combina-los; fornecer definigdes para tais termes € relagies, uma ontoiogia é uma especificagao explicita de uma conceituagéo, Nesta definiggo: conceltuagao refere-se a um modelo abstrato de algum fenémeno, sendo identificados os conceitos relevantes desse fenémeno; explicita significa que o tipo de conceitos utilizados e as festrigdes a esse uso sao explicitamente definidos; formal refere-se ao fato de que a oniologia deve ser legivel per maquina; compartithada reflete a nogao de que uma ontologia captura um conhecimento consensual, isto 6, nao privativo de um individuo, mas aceito por um grupo. Ontologias sao definidas como uma especificagao formal de uma conceituagao compartilhada. uma ontologia é um conjunte hierarquicamente SWARTOUT (1997) estruturado de termos para descrever um dominio que pode ser usado coro um esqueleto fundamental para uma base de conhecimentos Uma ontologia fornece significado para a descrever BERNARAS (1996) explicitamente uma conceituagao atras de um conhecimento representado em uma base de conhecimento NECHES (1991) GRUBER (1993) BORST (1997) Fonte: Gémez-Pérez (1999) COrganizagio da Informagio na web: das tags & web semantioa Aillon Feitosa. " mento de ontologias pode ser motivado para: dimento comum da estrutura da informacao entre humanos e agentes ~ jnteligentes; b) permitir 0 reuso do dominio do conhecimento; c) tornar 13 De acordo com Noy ¢ McGuinness (2004), uma ontologia é uma descrigdio formal e explicita de conceitos ~ classes - em um dominio do discurso, das propriedades de cada conceito, descrevendo diversas carac- teristicas e atributos de tal conceito — slots (também chamados de papéis ou propriedades, bem como das restrigdes nesses slots — também chama- das de restricdes de papéis). Na concepgiio dessas autoras, o desenvolvi- a) compartilhar um enten- explicitos os pressupostos de um dominio; d) separar o conhecimento sobre o dominio do conhecimento operacional; e) analisar 0 conhecimen- “to sobre o dominio, Para complementar essas idéias, cabe aqui apresen- tar a tipificagio desenvolvida por Hyvonen (2002) para identificar as ontologias, quanto aos seus objetivos: a) de representagéo do conheci- mento - compreendem a representagao de primitivas ut lizadas para co- nhecimento formalizado em paradigmas de representagdo de conhecimen- to; b) gerais ou comuns — incluem vocabulario relativo a coisas, eventos, tempo, espaco, causalidade, comportamento, fungdes, etc; c) meta- ontologias — também chamadas de ontologias genéricas ou ontologias “ niicleo - so reutilizdveis em diversos dominios; e d) ontologias de domi- nio — sao reutilizveis em um dado dominio. Fornecem vocabularios so- “bre conceitos com um dominio e suas relagdes com as atividades que tém ~ lugar nesse dominio e sobre teorias e principios elementares que gover- nam esse dominio. Do ponto de vista da representagao do conhecimento, uma ontologia nfo deve ser concebida apenas como um vocabulario informal, ou mesmo “como uma linguagem de termos estruturados — como um tesauro, por exem- plo ~, mas requer uma possibilidade de interpretagao algoritmica dos seus : significados e, por conseguinte, uma representacao em uma linguagem for- mal, cujo processamento dos significados pode ser realizado por maqui- “nas. Dito de outro modo: uma ontologia requer a explicitagio légico-for- "mal de significados e palavras, que devem ser expressos por meio de construtos matemiaticos. Certamente essa explicitagiio requer uma organizaco estrutural. A depender do dominio do conhecimento, as ontologias podem variar em Organizagdo da lnformagao na web: das tags & web seménlica Ailton Feitosa 74 termos estruturais, mas alguns construtos utilizados sio independentes de dominio. Entre eles, Hyvonen (2002, p. 122) cita: a) classes - os conceitos genéricos de um vocabulario sao definidos como classes. Por exemplo, a classe Tigre representa a categoria genérica de espécies de tigres: b) relacio de superclasse — as classes so organizadas em hierarquias conceituais, Exemplificando, a classe Tigre é uma subclasse da classe dos carnivoros; ©) propriedades de classe - classes podem ter propriedades, freqiientemente denominadas s/ots (pistas). As propriedades de uma subclasse podem ser herdadas de sua superclasse, o que leva a uma economia em termos de representagio e que torna possivel a reali: zacio de inferéncias simples. Exemplificando: uma vez que carni- voros comem carne e possuem dentes afiados, entéo os tigres tam- bém, visto que sdo carnivoros; d) caracteristicas de propriedade (facetas) ~ propriedades de classes podem, em si mesmas, possuir facetas que as restringem. Por exem- plo: as facetas tipo de valor e cardinalidade podem ser associadas a propriedade pais, para denotar que é um tipo da classe Pessoa e que o niimero de valores deve ser de pelo menos 2; ) individuos — um objeto individual sobre o qual trata uma ontologia € denominado de instancia ou objeto. Cada objeto é uma instancia de uma ou mais classes. Por exemplo: Garfield pode ser uma ins- tancia da classe Gato e também da classe GafodeCartoon. A rela- cao de pertinéncia é freqiientemente denotada pela expressio “é um”; f) axiomas e restrigdes — uma ontologia baseada em légica formal pode ter axiomas e restricdes adicionais ou regras de inferéncia. Axiomas e regras podem ser escritos por meio de termos, fungdes, predicados, operadores, quantificadores, entre outros. Para Gémez-Pérez (1999), tais construtos, ou Componentes, como denomina a autora, sao cinco: classes, relagdes, fungGes, axiomas e instén- Organizagdo da Informagzo na web: das tags & web semantica Allton Feitosa 18 cias. Com a utilizagio desses componentes, as ontologias fornecem um yocabulatio comum para uma area e definem — com diferentes niveis de formalismo - o significado dos termos de tal vocabulaio, bem como as relagdes entre cles. Classes (conceitos) ~ séio utilizados em sentide amplo e podem ser abstratos ou concretos; elementares ou compostos; reais ou ficticios; uma classe pode ser um objeto ou uma tarefa, uma fungao, uma agao, uma estratégia, um processo de raciocinio; Relagdes — representam um tipo de interagio entre classes de um dominio: so formalmente definidas como qualquer subconjunto de um produto de # conjuntos; FuncGes ~ sao casos especiais de relagdes em que o enésimo elemen- to da relagio é tnico para os n-1 elementos precedentes; Axiomas ~ sao usados para modelar sentengas que sempre sao ver- dadeiras; Instancias — so usadas para representar elementos. Sejam quais forem os construtos ou componentes admitidos, os autores consultados oferecem recomendagées importantes. A fim de ga- rantir sua efetividade na representacdo do conhecimento ha, segundo Gomez-Pérez (1999), alguns principios basicos que devem ser seguidos para a estruturagao de ontologias. Sao eles: a) clareza e objetividade - uma ontologia deve fornecer o significado dos termos definidos, forne- cendo definigdes objetivas e também documentagao em linguagem natu- ral; b) completeza ~ uma definic&o expressa por condigdes necessarias e suficientes é preferivel a uma definigao parcial; c) coeréncia — para permi- tir inferéncias que sejam consistentes com as definigGes; d) maximizagao da extensibilidade monotdnica — novos termos gerais ou especializados devem ser incluidos na ontologia de modo que ndo seja necessario reali- zar a revisiio das definigées ja existentes; e) comprometimento ontolégico minimo — fazer a menor quantidade possivel de declaragdes sobre o mun- do que esté sendo modelado, o que significa que a ontologia deve especi- ficar, em um contexto tao pequeno quanto possivel, os significados dos seus termos, dando liberdade a ontologia para especializar-se e instancia- los; ) principio da distingo ontolégica — as classes em uma ontologia devem ser desmembradas: 0 critério utilizado para isolar o nacleo de pro- “ Organizacdo da Informagdo na web: das tags a web semantica Ailton Feitosa 16 priedades considerado como invariante para uma insténcia de uma classe é chamado de critério de identidade; g) diversificagdo de hierarquias (me- canismos de heranca miltipla) ~ se conhecimento suficiente € representa- do na ontologia, ¢ tantos critérios de classificagio quanto possivel so utilizados, € facil entrar com novos conceitos (desde que cles possam ser facilmente especificados a partir de conceitos e de critérios de classifica- ¢ao pré-existentes) ¢ também herdar propriedades a partir de diferentes pontos de vista; h) modularidade — para minimizar o acoplamento entre médulos; i) redugao da distancia semantica entre conceitos similares — conceitos similares séo agrupados e representados como subclasses de uma classe e devem ser definidos utilizando-se as mesmas primitivas, enquanto conceitos menos similares sfo representados mais apartados na hierarquia; j) padronizagao — os nomes devem ser padronizados, quan- do possivel; Na concepgio de Noy e McGuinness (2004), existem pelo menos trés recomendagGes importantes quanto 4 estruturacdo de uma ontologia: a) nfo ha uma forma correta de se modelar um dominio do conhecimen- to: entre diversas alternativas vidveis, a melhor solugao sempre depende- ra das caracteristicas da aplicacio ou servigo que se pretende desenvol- ver; b) o desenvolvimento de uma ontologia é necessariamente um pro- cesso interativo; c) os conceitos em uma ontologia devem estar intima- mente ligados a objetos fisicos ou légicos, ¢ a suas inter-relagdes em um dado dominio do conhecimento. Tais conceitos provavelmente sero mais bem expressos por nomes ou verbos. Em resumo, uma ontologia refere-se a descrigéo exata de coisas e scus relacionamentos. E, na web, uma ontologia refere-se 4 descrigéo exata de uma informagdo disponivel na rede e a descrigéo de seus relacionamentos com outras informagdes (W3Schools, 2004). Tal como a estrutura, deve-se dispensar atengdo 4 metodologia de desenvolvimento de um ontologia, para garantir sua efetividade na repre- sentagéo do conhecimento. O desenvolvimento de uma ontologia é dife- rente do planejamento de classes e relagdes na programagio orientada a objetos. A programaciio orientada a objetos centra-se principalmente em torno de métodos em classes — um programador projeta decisGes basea- das nas propriedades operacionais de uma classe. Em uma ontologia, o Organizagao da Informagéo na web: das tags & web semantica Ailton Feitosa 7 projetista toma {ais decisdes com base nas propriedades estruturais de uma classe. Como resultado, uma estrutura de classes e as relagdes entre classes em uma ontologia é diferente da estrutura para um dominio simi- Jar em um programa orientado a objetos (NOY; MCGUINESS, 2004). Daconta (2003) partilha de tal orientagaéo, argumentando que uma repre- sentacao de classes e de relacionamentos entre classes, para possibilitar inferéncias, requer formalismos rigorosos que estao muito além das con- vengoes utilizadas nas atuais linguagens de programagio orientadas a objetos, como Java, C e C#, por exemplo. No entanto, tais formalismos de hierarquias de classes, restrigdes de propriedades ¢ relagées entre clas- ses podem facilmente ser representados por meio de ontologias. A essas observagées, é interessante acrescentar a classificagiio de Uschold & Gruninger (1996), que distinguem quatro tipos de ontologias, de acordo com o grau de formalismo com que s&o construjdas: a) altamente infor- mais — escritas em linguagem natural; b) semi-informais - expressas em linguagem natural, mas de um modo restrito e estruturado, isto 6, utili- zando padrées; c) semi-formais — sio definidas artificial e formalmente em uma linguagem definida; d) rigorosamente formais ~ séo definidas em uma linguagem com semiantica formal. Em suma, depreende-se das idéias aqui discutidas, que uma teoria ontolégica define conceitos em um dominio do conhecimento, por meio de um vocabulario; uma aplicacdo faz uso dos objetos, por meio de axi- omas e de regras légicas; tais regras dizem como utilizar os conceitos referenciados, com vistas 4 solugo de problemas em particular; ha sem- pre uma estrutura que melhor representa 0 dominio do conhecimento, mas tal estrutura depende dos objetivos do sistema e, por isso, deve obe- decer a certos principios; existem niveis de formalismo a serem estabele- cidos, os quais terdo interferéncia determinante na efetividade do siste- ma; registre-se, aqui, que tais niveis de formalismo também conformam- se aos objetivos do sistema. A busca pela possibilidade de se reutilizar 0 conhecimento em dado dominio do conhecimento é uma das forgas motrizes das pesquisas na area de ontologias, Se um grupo de pesquisadores desenvolve uma ontologia relativa a determinado dominio do conhecimento, outras pessoas poderao reutilizé-la mais tarde ou até mesmo integr4-la a outras ontologias para Organizagae da Informagao na web: das lags A web semantica Ailton Feitosa 78 formar uma maior, que descreva mais profundamente certo dominio do conhecimento. Tornar explicitos os pressupostos de um dominio torna, também, possivel modificar facilmente tais pressupostos, se 0 conheci- mento sobre o dominio muda. Além disso, tal explicitagfio é muito util para novos usuarios, que devem compreender o que os termos de um do- minio significam {(Daconta, 2003). Na atualidade, grande parte da informagao produzida encontra-se ar- mazenada na web, Esse fato torna a busca de uma interpretagdo comum entre humanos e computadores um dos objetivos primordiais no desenvol- vimento de ontologias. Apenas para ilustrar tal afirmagao, considere-se, por exemplo, a aplicagZo de uma ontologia a um sistema web de comércio eletrd- nico, Se os sites envolvidos em tal sistema compartilharem e publicarem os mesmos termos contidos em uma ontologia que todos utilizem, entéo agen- tes inteligentes sero capazes de extrair e agregar informagdes desses diferen- tes sifes e, assim, empregar tal informacdo para resolver situagdes que vao desde apenas responder a quest6es de pesquisa de usuérios, até aproveitar as informagées coletadas como dados de entrada para outras aplicacGes (Noy e McGuiness (2004). Tal nivel de organizacéo do conhecimento, inteligivel para humanos e méquinas, é a razao de ser da Web Semantica. 4.3 Infra-estrutura da Web Semantica Para Tim Berners-Lee (1998), os princfpios da universalidade do acesso sem restrigéo de plataformas de hardware ou de software, infra-estrutura de rede, idioma, cultura, localizagio geografica ou fisica sao os valores ntcleo do projeto da web. Além desses principios, o autor destaca, como “matérias-primas” da web: a simplicidade e a modularidade; e como “respi- ragio da web”: a descentralizagao e a tolerancia. Para projetar tal infra- estrutura, que permita essa arquitetura multiplataforma, o autor concebeu 0 identificador universal de recursos — Universal Resource Identifier, UR¥° — como unidade fundamental de identificagio de objetos na web. Esse con- Um Uniform Resource Identifier (URI) & um conjunto compacto de caracteres ultizado para a identifcagéo de um recurso abstrato ou {isico; um URI fornece ao recurso um significado simples & extensivel (BERNERS-LEE, 1998) Organizagao da Informagio na web: das tags & web semantica Aion Feitosa 79 ceito é similar ao que todas as linguagens de programacao ou de marcagao utilizam e denominam como atributo identificador de um objeto. Dessa maneira, o uso de URIs permite que uma linguagem faga referéncia a obje- tos definidos em outra linguagem, A expressiio URI pode ser definida de acordo com os seus constitu- intes nticleos, da seguinte maneira (Berners-Lee, 1998a): a) Uniforme — a nog&o de uniformidade em um URI associa-se a trés principios basicos: em primeiro lugar, deve ser possivel a utilizagao de diferentes tipos de identificadores de recursos no mesmo con- texto, ainda que os mecanismos usados para 0 acesso a tais recur- sos sejam diferentes; em segundo lugar, independentemente da for- ma como os identificadores so usados, deve ser possivel a inter- pretacao semantica de conveng6es sintaticas, mesmo que sejam usados diferentes tipos de identificadores de recursos; e em tercei- ro lugar, deve ser possivel a reutilizagao dos identificadores em diferentes contextos o que, por conseguinte, permitira a criagdo de novas aplicagdes ou protocolos. b) Recurso - um recurso pode ser qualquer coisa que tenha identida- de, como um arquivo eletrénico, uma imagem, um som, entre ou- tras entidades. Nesse contexto, mesmo entidades que néo sejam “recuperaveis” pela web, como por exemplo, seres humanos, em- presas ou o acervo de uma biblioteca, sdo definidos como recur- sos. Um recurso, portanto, 6 o mapeamento conceitual para uma entidade ou conjunto de entidades, nao necessariamente entidades que correspondem aquele mapeamento em alguma insténcia parti- cular no tempo. Desta maneira, um recurso pode permanecer cons- tante, mesmo quando seu contetido — a entidade a qual ele corresponde — muda com o tempo. ©) Identificador — um identificador é um objeto que pode atuar como uma referéncia a algo que possua identidade. No caso de um URI, © objeto é uma seqiiéncia de caracteres com uma sintaxe restrita. Portanto, tendo identificado um recurso, um sistema pode utilizd- Organizagéio da informago na web: das tags A web seménlica Ailton Feitosa 81 lo para realizar operagdes tais como: acesso, atualizagao, substi- ~ tante flexivel, impossivel a outros sistemas como tabelas e diagramas tuigao ou localizagiio de atributos. a ~~ pierérquicos. Os cérculos seriam, ent&o, como os nds, € as setas como os links. Cada n6 representa, portanto entidades como uma pequena De acordo com Swartz (2002), um importante ponto a ser destaca- nota, ou um sumério de um artigo e pode ser armazenado em forma do é que um URI nao é um conjunto de enderecos dizendo ao computador | grafica, textual, ou em ambas representa ou descreve uma pessoa ou como obter um arquivo especifico na web (embora ela também faga isso). objeto em particular. O autor sugere, desta mancira, exemplos de enti- O autor lembra que um recurso é um nome para uma “coisa” que pode ou _. dades representadas por nds: pessoas, médulos de software, grupos nao ser acessivel por meio da Internet. Portanto, € possivel atribuir-se um de pessoas, projetos, conceitos, documentos, tipos de hardware, obje- URI para qualquer coisa e qualquer coisa que possua um URI pode ser {34 tos graficos especificos, entre outras. Assim, dadas duas entidades A e considerada “na web”: um livro, um y6o de avido, e qualquer outra coisa 4). B, os links (setas) entre uma e outra podem representar, por exemplo em que se possa pensar, Segundo Swartz o URI é o fundamento da web: | que A: depende de B ; é parte de B; é feito de B; refere-se a B; usa B; ou enquanto qualquer outra coisa na web pode ser substituida, o URI nao, é um exemplo de B. pois é cle que mantém o resto da web junto. Um URI pode ou nao fornecer j Com essas concepcées, ou autor desenvolveu um sistema j4 conheci- um caminho para o computador obter mais informagées acerca de um do por todos, no qual qualquer tipo de informacao pode ser armazenada e recurso; isto 6, embora a possibilidade de um URI fornecer informagées |] |ocalizada por qualquer pessoa, mesmo que esta nao saiba exatamente o sobre outro URI seja importante para a web semdntica, o autor Swartz que tenciona procurar. O sistema baseia-se, pois, na utilizago de tipos (2002) argumenta que um URI nada faz além de fornecer um identificador genéricos de links entre os itens (dependéncia, por exemplo), e tipos de nés para um Fecurso. . : (entidades: pessoas, coisas, documentos), sem a imposigio de limites. O Genericamente, um URI pode ser classificado como um localizador, um nome ou ambos. O termo Uniform Resource Locator (URL) refere-se aum subconjunto do URI, que identifica recursos por meio da represen- tacéio do seu mecanismo de acesso principal: 0 seu enderego, ao invés de identificé-lo pelo nome ou por outro atributo. Lembra Swartz (2002) que um URL é um tipo de URI que fornece um caminho para se obter informacao sobre um recurso, ou talvez para se recuperar o proprio recur- so. O termo Uniform Resource Name (URN) refere-se ao subconjunto do URI que é requerido para permanecer globalmente Gnico e persistente, mesmo quando o recurso deixar de existir ou estiver indisponivel (Berners- Lee, 1998a). Em sua idéia original sobre o que vira a ser a web, Berners-Lee (1998a) apresenta conceitos de nds e links que, no seu ponto de vista, permitem a melhor descrig&o de sistemas complexos e que séo a base _ para o entendimento da fungaéo do URI. O autor compara esses con- ceitos aos conceitos de circulos e setas, que deixam qualquer pessoa livre para descrever as inter-relagdes dos objetos de uma maneira bas- objetivo é disponibilizar um lugar para cada informagao que alguém quiser tomar ptiblica, de modo que tal informagao seja encontrada posteriormen- te. Associadas a essas caracteristicas, o autor anteviu também que o siste- ma seria suportado por diversas plataformas, além de ser extensivel a no- vos formatos de dados. A ilustragdo 14 apresenta o modelo proposto por Berners-Lee em 1989 para representar uma “web de objetos”, incluindo pessoas, organiza- ges, tecnologias, documentos, t6picos, entre outras entidades. Assim, os » links tipificados, como por exemplo ‘wrote’, ‘unifies’, ‘includes’ ~ escreveu, unifica, inclui ~ sao utilizados para a representagao do conhecimento sobre seus relacionamentos. A leitura do diagrama apresentado permite concluir que a idéia da ‘web € bem mais ampla do que apenas fornecer meios para a localizacio de paginas, mas que, desde a sua concep¢io, o autor pensava em fornecer informagdes semanticas sobre os objetos. Por exemplo, é possivel obser- yar-se que: Tim Berners-Lee escreveu um “documento” > que descreve Organizagao da Informagao na web: das tags & web seméntica : Organizagio da Informagéo na web: das tags A web semantica Aillon Feitosa Allon Feitosa a2 uma “proposta” > que “unifica procedimentos”; mas que também descre- ve “hipertexto” > que inclui “hipermidia”; mas que também inclui “infor- magio ligada”, e assim por diante. Registre-se, ainda, o modelo € capaz de representar qualquer tipo de objeto, como pessoas, coisas ou idéias, esteja ou nao tal objeto armazenado fisicamente na web. a, ™~. Computer conferencing *< forexample NS ~. of Hierawhical sytems ae forexample ener fe unifies CERNDOC, describes 4 f a nd “ 7 RN 9 i rekis indudes — geatibas te llustragdo 14 - Modelo proposto para a World Wide web, segundo Berners-Lee Fonte: (Brickley, 2001) COrganizagio da Informagdo na web: das tags A web semantica j 83 4.4 As geragdes da web Desde a sua concepgao, a web passou por estégios evolutivos que podem ser clasificados em trés geragdes. O esquema dado na ilustragaio 15 mostra essa evolugdo: 3*Goragao + signitoada sepetado da ectutra -baseada or ROF(S), Tope Maps, DAMAL+ OIL, SHOE, XOL a 2° Geragao - esbutura soparada da epresentagio ~basoada em XM, XSi. 1.Geragio + aprosontagto separaca da icalizaglo hasoada em HTML, PDF, CSS. Ilustragéo 15: Geragées tecnolégicas da World Wide web ~ adaptado de Hyvénen (2002), A ilustragdo mostra as tecnologias utilizadas na web em cada gera- cao. A primeira geragiio, baseada na linguagem HTML, tornou possivel a exibigéo dos documentos independentemente de sua localizagao fisica; a segunda geracdo tornou possivel o uso de diferentes formas de apresenta- do para a mesma estrutura de um documento, com base na linguagem -XML; a terceira geragio, a da web seméntica, consiste na separagéo do significado de sua estrutura, isto é, estende a nogdo de “documento” com a -possibilidade de “semantica legivel por mAquina”. Se a codificac&o seman- “tica 6 muito mais centrada no autor humano, o computador pode auto _ ajudar-se, ajudando o homem a criar tais descrigées. Nesta visio, a repre- sentacio explicita do conhecimento formaré a base para o desenvolvimen- to de servigos e aplicagées de web mais inteligentes (HYVONEN, 2002). As informagées existentes na web atualmente sao apresentadas (usan- do tecnologias como HTML, PDF e XML, por exemplo) de tal mancira que possam set lidas ¢ compreendidas por pessoas. Entretanto, sem a in- terpretacao de um leitor humano, essas tecnologias nada dizem a respeito do significado ou do contetido de um documento armazenado na web. O COrganizagéo da Informagao na web: das tags & web somantica Ailton: Feitosa 84 85 cédigo, apresentado na ilustragéo 16, por exemplo, nada informa ao com. ‘corresponde a um resumo do texto integral da lei; que o campo lei relaciona-se putador sobre o contetido do pardgrafo em questao: J de algum modo com os termos norma, cédigo, legislacdo, direitos. Na pratica, a maioria dos sites disponiveis na Internet utiliza, ainda,

oe x as LEI N° 3211,DE 23 DE OUTUBRO DE 2003 apenas as tecnologias da primeira geragao. Do ponto de vista da localizagao s/b>

- | -de documentos, as implicagées desse uso sao significativas, uma vez que Hustragao 16: 0 problema do significado com 0 uso da codificagao HTML ~ tornam menos efetivas as operagdes de recuperagao. Se, por um lado, a pu- plicago se torna mais rapida apenas com o uso de textos integrais, por ‘outro, a inexisténcia de metadados dificulta a representagiio e a organizacdo da informacao, o que torna mais baixa a precisao, no momento da recupera- cao. De tal modo a interpretagao do significado ¢ da relevancia das informa- “¢bes fica a cargo dos humanos. No entanto, a Internet nao é utilizada apenas por pessoas. cada vez maior o uso de robés de busca, agentes de comércio eletrénico (shopbots), tastejadores (web crawlers) e outros artefatos, para os quais nao é facil interpretar ou “entender” a informagao nao estruturada disponivel na web (HYVONEN, 2002). B com o pensamento nessas tecnologias, que os pes- quisadores estéo desenvolvendo os fundamentos da web seméntica. A codificago apresentada na figura anterior apenas informa ao com- putador o que fazer em relacdo 4 forma do paragrafo, isto é: 0 tipo de letra que deve ser utilizado (arial); ¢ o tipo de efeito aplicado a essa letra: negrito, Quanto ao contetido do paragrafo, é necessaria a interpretagao humana para identificar que 0 texto refere-se a uma lei que foi publicada em uma certa data. Essa codificac4o, portanto, néo permite ao computador realizar: inferéncias acerca do significado do texto em questiio, De modo analogo, : com a utilizagéo da tecnologia XML, é possivel ao computador reconhecer a estrutura de um certo registro em um documento, mas nao dizer algo a: respeito do significado dessa estrutura (BERNERS-LEE, 2001). Assim, a compreensio do seu significado € possivel apenas para o leitor humano, A Ihustragfo 17 mostra essa situacio: al 1 4.4.1 91% geragéo: HTML € XHTML elei> : snumero>3211 | : A Hypertext Markaip Language surgiu como uma derivagao da lin- 22/10/2003 . Dispde sobre a estrutura organica da guagem Standard Generalized Markup Language (SGML), linguagem ori- Secretaria... - | 4 - ginaria dos anos 70 e que sempre foi conhecida no meio informatico pela nnn sua potencialidade como linguagem de marcagdo de textos. A primeira ver- sdo da linguagem HTML foi elaborada por Tim Berners-Lee, com 0 objeti- yo de suprit a web, uma vez que o seu projeto necessitava, para publicar llustragao 17: O problema do significado com o uso da codificagao XML informagdo para a distribuicdo global, de uma linguagem universalmente compreensivel, como um tipo de esperanto”, que todos os computadores ~ pudessem potencialmente entender. XHTML é um acrénimo para eXtensible Hypertext Markup Language. Essa linguagem é uma evoluco da linguagem HTML e consiste em uma O computador é capaz de compreender, por exemplo, que o valor 3211 | refere-se a um campo de dados, denominado mumero e que o valor 23/10/ 2003 refere-se a outro campo de dados, denominado data. Com a tecnologia XML, a realizaco de inferéncias acerca desses campos é possivel apenas para humanos. Com as informages fornecidas no cédigo da ilustragdo 17, 0 com- putador nao é capaz de saber, por exemplo, que a data refere-se ao dia em que. o documento foi aprovado em uma reunido de deputados; que a ementa lingua universal (FERREIRA, 1986). 1 Esperanto: Lingua auxiliar de comunicagao internacional, elaborada pelo médico e poligiota judeu- polonés Ludwig Zamenhof (1869-1917) © por ele civulgada em 1887, com 0 objetivo de servi como Organizagio da Informagdo na web: das tags & web soméntica Organizagdo da Informagio na web: das tags & web semantica Ailton Feilosa Aiton Feitosa 86 iniciativa para a imposic&o de regras semAnticas 4s paginas escritas em HTML, com a utilizagio do padrao de discrig&o da linguagem XMI, (VALENTINE e MINNICK, 2001). Alguns dos beneficios esperados pela utilizagao dessa linguagem incluem: redugdo dos custos de autoria; melhor casamento entre aplicagdes de bancos de dados e workflow; solugaéo modu- lar para o problema de os navegadores possuirem cada vez maior namero funcionalidades diferentes; solugo para integrar, de modo transparente, documentos HTML com outras aplicagdes XML (W3C, 2003). 4.4.2 A 2° geragdo: XML, DTD e XML Schema A linguagem eXtensible Markup Language (XML) é um padrio de representacdo que permite a introdugéo de uma significativa quantidade de metadados para descrever, inclusive com grande nivel de detalhamento, © contetido tematico de um documento. £, portanto, um mecanismo im- portantissimo para os sistemas de recuperagao de informagées, que permi- te a escolha mais diversificada quanto & forma (fichas, formularios conti- nuos, tabelas, entre outros). De acordo com Valentine e Minnick (2001), a verdadeira finalidade de uma linguagem de marcagiio € descrever as partes de um documento sem se. preocupar com a apresentagao ou com a exibicdo do documento. As autoras argumentam que a marcacao deve fornecer estrutura aos dados, permitindo: seu uso de diversas maneiras, desde a exibicéo em um telefone celular até o armazenamento e recuperagéo em um banco de dados em linha. As autoras definem esses conjuntos de elementos XML, projetados para descreverem um determinado tipo de informacdo, como vocabularios XML; assim, uma grande quantidade de vocabularios XML ja foi desen- volvida, como por exemplo: CML (Chemical Markup Language), para des- crever informagées relativas A quimica; OFX (Open Financial Exchange), para descrever informagGes financeiras. XML 6 um conjunto de regras e convengGes de sintaxe que podem ser utilizadas para a criagio de conjuntos personalizados de elementos de marcacio, com vistas a descrigéio do contetido de um documento eletroni- co (VALENTINE e MINNICK, 2001). Essa linguagem foi desenvolvida Organizagdo da Informagao na web: das tags A web semantica Ailton Feitosa 87 para prover a necessidade de uma metodologia para a descrig&o da infor- macio publicada na Internet. Como jé mencionado, a idéia de linguagens padrao de marcagao nao é muito recente. Iniciou-se por volta da década de 80 quando, depois de varios anos de trabalho, a Organizagiio Jnternacional para Padroniza- co (ISO), aprovou a Standard Generalized Markup Language (SGML) como um sistema — uma metalinguagem ~ para a criagéio de novas lingua- gens de marcagao. O problema da SGML era sua complexidade para ser entendida pela grande maioria dos navegadores. Dessa maneira, um grupo de trabalho instituido pelo W3C” criou uma linguagem mais “enxuta”, sem todas as “firulas” da SGML, de modo que qualquer pessoa pudesse, a partir da XML, criar sua propria linguagem de marcaciio. Do mesmo modo que a HTML criou uma forma pata cada computador ler documentos na Internet, a XML torna possivel, independentemente da torre de babel de sistemas de computadores incompativeis entre si, criar uma espécie de esperanto, que todos podem ler e escrever (Bosak, 1999). O autor argumenta, ainda, que diferentemente da maioria dos forma- tos de dados para computadores, a XML também pode fazer sentido para Ieitores humanos, uma vez que consiste em nada mais do que texto comum. Uma das forgas da unificagio da XML é a confianga no padrao UNICODE de codificagao de textos, que suporta a utilizagao de caracteres de quase todos os principais idiomas do mundo. Dessa maneira, a XML possibilita 0 intercambio de informagées nao apenas entre diferentes sistemas computacionais mas, sobretudo, além das fronteiras dos paises e de suas culturas. & natural, portanto, que desde a finalizagdo de sua especificagao pelo W3C, o padrao tenha se espalhado “como fogo selvagem” pela ciéncia e pela inddstria, estendendo-se desde a medicina até o chao das fabricas. Para que um documento XML possa interoperar na web, mantendo a caracteristica da universalidade de plataformas e sistemas, duas condigdes devem ser atendidas: ele deve ser “valido” e “bem-formado”. Diz-se que um documento XML é vilido, se ele obedece as restricGes sintaticas especificadas na estrutura da linguagem XML, conforme as especificagoes do WSC. Diz-se que um documento XML é bem-formado, se a ele esto associadas regras de validacéio e restrigdes, de acordo com o objeto que se pretende representar. 2 Informagdes sobre os grupos de trabalho envolvidos com nas especiicagées da linguagom XML podem set encontradas em btlp:/www.w3.org/XML/, COrganizagao da informagdio ha web: das lags & web semantic Aiton Feitosa 88 Conjuntos de regras de validaco foram recomendados inicialmente pelo W3C como Document Type Definitions (DTD’s ) e essas DTD’s proviam um conjunto de regras sintaticas 4s quais 0 documento deveria seguir para que fosse considerado vélido. A desvantagem das DTDs é que permitem apenas a verificagiio sintatica dos documentos, nao sendo dotadas de nenhum tipo de controle seméntico. Outro problema das DTD’s é que a sua definigao é feita em XML, mas numa notagéo prépria (LIMA, 2003). Lima argumenta que, como substituicaéo 4s DTD’s, foi introduzido © conceito de XML Schema, cuja principal contribuigio foi a separagiio entre a descric¢Zo da estrutura do documento e a descrig&io dos mais de vinte tipos de dados que podem ser utilizados para a sua marcagio. Essa linguagem é suficiente para a troca de dados entre colaboradores que utili- zam o mesmo vocabulario, mas sua semantica é limitada no que se refere ao processamento automatizado de novos vocabuléarios. 44.2.1 MIL Diversos autores argumentam que a linguagem XML é a pedra funda- mental da web seméntica ¢ tem sido amplamente aconselhada a sua adogao como instrumento para o desenvolvimento de novas areas de processamento de informacao. Tal recomendagéo deve-se A flexibilidade da linguagem, por um lado, e as possibilidades de implementag&o de maior rigor sintatico, por outro, dados os mecanismos e padrées fornecidos pelo XML-Schema (Daconta, 2003; Berners-Lee 2001, W3Schools, 2004, entre outros). Daconta (2003), por exemplo, discute que a XML € uma plataforma importante no desenvolvimento da web seméntica, entre outros motivos, por- que: a) cria documentos e dados independentes de aplicativos; b) possui uma sintaxe padrao para meta dados; c) possui uma estrutura padrao, tanto para documentos quanto para dados; d) nao é uma tecnologia nova”; e) 6 indepen- dente de aplicativos, pois seu seus arquivos sdo criados em formato puramen- % Como ja discutide nesta obra, XML é um subconjunto da linguagem Standardized Generalized Markup Language (SGML), que foi desenvolvida em 1969, por Charles Goidlarb, Ed Mosher © Ray Lorie. Assim, os cconceitos ¢ os principios {undamentais para a XML. foram planejados por mais de tinta anos, sendo continuamente aperfeigoados, releradamente tostatos © amplamente implementados (Daconta, 2003). © advento da web, 0 dos sous problemas na representagao da informacdo, naturalmente impulsicraram surgimento da XML. Organizagio da Informagéo na webr das tags a web seméntica Ailton Feitosa 89 te textual, legivel por humanos; f) fornece uma sintaxe padrao simplificada, de modo a permitir a representacao de dados ou meta dados; g) fornece principi os fundamentais que podem ser utilizados para a codificagao de informagio semantica — desses principios utilizam-se a RDF, o RDF-Schema, entre outras tecnologias da web semantica. O autor define XML nao como uma linguagem e sim, mais propriamente, “como um conjunto de regras sintaticas para a criagao de linguagens de marcacao semanticamente mais ricas, em um domi- nio particular”. Em outras palavras, isso quer dizer que XML é um padro que pode ser aplicado para a criagdo de outras linguagens, as quais 0 autor deno- mina de “aplicagdes de XML”. Séo exemplos: MathML, InkML, CML, VoxML, MusicXML™, entre outras (HAROLD, 1999). A preocupacio basica de uma linguagem de marcagiio é desenvolver métodos para a adic&o de informagdo semantica sobre o conteido de um documento, de modo a tornar tal contetdo mais explicito. Esse procedimen- to tem sido. efetuado manualmente, ao longo dos anos (Daconta, 2003, p. 32). Compartilhando dessa orientagao, o tutorial do site W3Schools explicita que XML é uma ferramenta utilizada para transmitir informagio em ambi- entes que envolvem diversas plataformas em termos de hardware ede software. XML sera tio importante no futuro da web como a HTML tem sido até hoje; além disso, sera a ferramenta mais importante para todo tratamento, manipulagao e transmissio de dados, devido as seguintes caracteristicas: a) foi desenvolvida para descrever em formato de texto puro, de modo que esses dados possam ser trocados entre sistemas de diferentes plataformas; b) como as marcagées nao sao predefinidas, o projetista pode desenvolver 2 InkML & um formato de dados baseado em XML, destinads & represontagio digital de marcagdes em que © dispositivo de entrada & uma canets eletrénica. InformagGes mais detalhadas esto disponiveis em . Mathhtl. é uma especificagio de baixo nivet para realizar descrigies matematicas com uma base para comunicagées maquina-améquina e que fomnece a estrutura basica para a inclusdo de expressies matematicas em paginas da web. Para mais detalhes, rocomenda-se uma visila a , VoxML 4 uma aplicagio da empresa Motorola para mensagens faladas, cuja intengao & lactitar a interpretagéo pelas méquinas tanto de ootreio elelzinica de voz, como gravagées de sistemas de alilo-resposta. Delalhes acicionais podem ser obtidos no enderago , A Chemical Markup Language (CHL) foi desenvolvida por Poter Murray-Auust @ 6, provavellente, tina das primeiras aplicagées da finguagem XML. O desenvolvimento da CML fol originalments iniciado em SGML, mas gradualmente foi ‘igtando para a XML; 0 objetivo da linguagem é a padkonizagao de metadatos sobre informagdes quimicas na web, Para mais delalhes, recomenda-se visitar 0 site < htip:/wivw.xml-cml.orgl>. COrganizagdo da Informago na web: das tags & web semantica Ailton Feitosa 20 seu proprio conjunto de marcacdes; c) as metodologias DTD ou XML-Schema permitem a escritura de regras de sintaxe para um conjunto de marcagdes criado pelo usuario; d) um documento XML é auto-descritivo. O cédigo apresentado na tabela 18 exemplifica a simplicidade, a fle- xibilidade ¢ a natureza auto-descritiva da linguagem XML. Tabela 10: estrutura de um documento escrito em XML Bloee de codige Fingao Uso Tinha de Gabecalho, define aversie da lingusgem, bem como © conjunts de ISO-G8S9-1"7> utilizado no documenta; obrigabério was Clemente fal de aocagnto _soeiqateeie oatae “stanoecsdia> anor] 993 arquive Fonte: adaptado de W3Schools (2004) A depender da necessidade e da conveniéncia, os elementos defini- dos pelo usuario podem possuir atributos. Assim, os dados podem. ser representados por meio de elementos filhos ou por meio de atributos, como explicita a tabela 10: Tabela 10; Representacao de dados por meio de elementos filhos ou de atributos Uso de atributos Uso de elementos filhos masculino Rui Rui Barbosa Barbo: be a> cjeenador> renome>Barbosa. Fonte: adaptado de W3Schools (2004) Organizagdo da Infarmago na web: das tags & web semantica Aillon Feitosa a De acordo com 0 W3Schools (2004), niio ha regras definidas para a escolha quanto a representagiio por meio de atributos ou por meio de elementos filhos. No entanto, apesar de os atributos serem mais facil- mente manipulaveis em HTML, em documentos XML eles devem ser evi- tados, para que a representagiio se torne mais explicita e, ainda, pelos seguintes motivos: a) atributos néio podem conter valores miiltiplos; b) atributos nfo sio facilmente expansiveis, para mudangas futuras; c) atri- butos nZo podem descrever estruturas de dados; d) atributos séo mais dificeis de serem manipulados automaticamente por aplicativos; €) a va- lidagdo da sintaxe de atributos por DTD’s ou XML-Schemas — que defi- nem os elementos permitidos em um documento XML — é mais dificil, comparada com a validago de elementos filhos. Uma excecao a esta Glti- ma recomendagiio deve ser considerada, quando houver necessidade de se atribuir um identificador univoco para um registro de dados, como visto na tabela 11. Yabela 11: Utilizagao de atributo como identificador univoco para um registro ‘Uso de elementos filhos “ feininino Cecilia Meireles masculino Jorge Amade Uma vez que os elementos em XML sao flexiveis, é possivel que haja conflitos quando dois documentos diferentes utilizarem os mes- mos nomes para descreverem diferentes tipos de elementos. Se os ele- mentos forem utilizados no mesmo documento, é certo que havera con- flitos de interpretagao no momento da extragao de informacGes por um. aplicativo. Nos exemplos dados na tabela 12 tém-se, na coluna da es- querda, os elementos e , representando informagOes per- tinentes a uma colegdo de documentos. Na coluna da dircita, os mes- mos elementos podem representar jnformagOes relativas a uma das leis que integram a colegao. . COrganizagéo da Informagao na web: das lags & web semantica Ailton Feitosa 92 Tabela 12: uso de nomes iguais em elementos que representam informagées diferentes Informagoes sobre o Tnformagées sobre um registro documento no documento Augusto Legislacdo tem4tica sobre Ruschi meio-ambiente camara Legislativa Define areas de preservacdc ambiental no do Dr DE 16/aqo/2004 12/01/1996 A resolugio para os conflitos pode ser dada por meio da atribuicao de prefixos que identifiquem univocamente cada elemento, como pode ser visto na tabela 13, em que foram utilizados os prefixos d (para documen- to) er (para registro). Tabela 13: digéo de prefixos para desambigitizar os elementos do cédigo XML Informagses sobre o documento Informagées sobre um registro no documento Coletanea de legislacto Temética sobre Meio Ambiente camara Legislativa do DE xrilei> Augusto Ruschic/r:name> Define 4reas de preservacao ambiental no DP éxidata>12/01/1996 18/ago/2004 Fonte; adaptado de W3Schools (2004) Além dos prefixos, podem ser acrescentadas referéncias sobre o URI onde a determinagao de tal prefixo é estabelecida. Entdo, ao invés de se utilizar apenas o prefixo, é possivel se acrescentar o atributo xmlns, um namespace, que é também um identificador univoco. Tal atributo integra a biblioteca de atributos reservados definida para a linguagem XML pelo consércio W3C. Organizagao da Informagao na web: das tags & web seméntica Aion Feitosa oF 93. informagoes subie 0 —SS~S*dUnFormmagdeS Sobre umm regisira no locumel documes “dilegislacao xnilns:d= wow w3 org TRihtmi4/"> Coletiinea de Legisiagao Augusio Ruschi Tematica sobre Meio Define areas de AmbienteCamara Legislativa ementa> do DF 12/01/1996 1B/ago/2004 , llustragéio 19: utilizagdo de namespaces para qualificar os elementos e atributos em um documento Em suma, 0s namespaces sio implementados pela adigao de um prefixo a cada elemento em um documento. Por sua vez, cada prefixo é mapeado para um URI, por meio do atributo xm/ns (xmlns:prefixo). As- "> sim, os namespaces tém dois propésitos: a) promover a distingao entre elementos ¢ atributos que possuem o mesmo nome, mas que, por serem oriumdos de vocabularios diferentes, possuem significados diferentes; b) agrupar todos os elementos e atributos de uma aplicagéo XML, de tal sorte que qualquer software possa reconhecé-los (HAROLD; MEANS, 2002). 4.4.2.9 XMULSchema XMLSchema é uma linguagem de definigéio de tipos complexos que permite a realizagao de restrigdes de vocabuldrio em documentos XML. O papel de um XMLSchema é similar ao dos esquemas de especificagao de estruturas de dados — como nomes de campos e seus respectivos tipos — em um banco de dados relacional. A linguagem, inicialmente proposta pela Microsoft, ganhou status de recomendagio do W3C em maio de 2001 (DACONTA, 2003; W3SCHOOLS, 2004) Com discutido anteriormente, para garantir a integridade sintatica e seméntica de um documento XML, utiliza-se uma DTD ou um XMLSchema. O propésito de um XMLSchema ou de uma DTD é a especificagao da estru- tura de um documento em termos de elementos, atributos e tipos de dados que tal documento pode conter. A diferenga entre uma Document Type Definition (DTD) e um XML Schema é que, embora uma DTD forneca insumos para a validagao basica de um documento em termos de estruturagao Oiganizagéo da informagéo na web: das tags A web seménlica Ailton Feitosa 94 de elementos, de ocorréncia de restrigdes, de atributos permitidos, de tipos de atributos e de valores padrao, nao fornece um controle fino sobre o for- mato e€ os tipos de dados dos elementos e seus atributos. Como motivagdes principais para a utilizagéo de XMLSchemas, ao invés de DTDs, estio os seguintes fatores: a) DTDs sao escritas com sintaxe propria, diferente da XML; b) DTDs so muito limitadas com relagdo a capacidade de suporte a tipos de dados — suportam apenas 10 de tipos de dados, enquanto um XMLSchema pode suportar 44 ou mais tipos, j4 que é possivel a criagdo de tipos personalizados; c) XMLSchema pode restringir ou estender um tipo de dados, por meio da derivagao das definigdes de um novo tipo com base em um tipo antigo; por meio da definigdo de um conjunto em que elementos filhos podem ocorrer em qualquer ordem; por meio da defini¢aio de elemen- tos substituiveis, isto é, que possuem os mesmos tipos de dados. As tabelas 14 e 15 apresentam, respectivamente, as estruturas sinté- ticas para a declaracao de elementos e atributos em DTDs. Tabela 14: Declaragées de elementos em uma DTD ne Declaragées de elomentos em uma DTD. Descrigao Formula gezal - ‘cfara umn elemento vazio (que no possuk subelementos ELENENT rome-do-lemento@PCOATAD> —_Peuv@um elemento que coments pode possur ‘sdlae am eto que pode conler Iota Ov 8 esto subelemnenlos solara um olemento com lodos os S208 stbelementos, bem ovina a orem de entra “ELEMENT nome-doclemento(eubt, ..suibn)» desles; nessa decaragaa,¢ dfinida que ceda subetemento ocorter obrigalerlamente & apanas uma vez ELEVEN ome darn eb sbanp POUR Gi done iio de Sls, secrtort pelo menos uma vez Declaa que o elements seguido do anal” podare ‘goster uma oy aia vezes, os nao ovotTer Deciara que o elemento seguido do sinal ? poder’ certer apenas uma vez, ou NBO ocorrer “ELEMENT nome-do-elemento EMPTY “ ‘ELEMENT nome-do elamento (sub 12} > ELEMENT nomodocomonn taba roam» O08" a sla subdemonts opconal {84 Fb)" sendo quo apenaa um dles set ulizado Dedara que o deme pover’ pons Zosa08 ELEMENT nome-doemerto subs | s2}"> elem, 0 vane cen des, vat de ‘soso nt ces Deelara qe oeemenla pode past dos dis ELEMENT nome do ' | semen um ou vrs de un dos, vas de etemento feubt{it2}-> Stee mo enero contigo var no € paiva GELEMENT onde un aay HCH aIOO TREND ple we vat oe ganas une acorns de um cs cos eres Fonte: Adaptado de Furgert (2001). Organizagao da informagao na wab: das tags a web semantica Ailton Feitosa 95 Tabela 15: Declaragao de atributos em uma DTD “Declaragdo de alributos de elementos em uma DTD. Descrigao, Formula gerat: . . Nesse exemplo, é declarado um namespace para todos os elementos permitidos em um documento valido. Assim, 0 prefixo xsd corresponde ao URI <*http-//www.w3.org/2001/KMLSchema’’>, que contém o vocabulé. :- rio aceito. E importante que se destaque que o prefixo 6 meramente uma abreviagaio para o namespace que, na pratica, é um URI. O prefixo xsd é um acrénimo para XML Schema Definition (W3SCHOOLS, 2004; DACONTA, 2003). Em resumo, um esquema é uma descrigio formal que compreende um documento vélido, isto é, um XML Schema é um documento contendo uma especificagaio formal do que é um documento XML vilido. A lingua- gem XML Schema, do W3C, é um esquema escrito em particular, cuja sintaxe é uma recomendagao daquele Consércio (HAROLD; MEANS, 2002; W3SCHOOLS, 2004). Assim, diferentemente das DTD’s, os esquemas podem forgar regras especificas sobre os contetidos dos elementos e de seus atribu- tos, de tal maneira que além de tipos simples previstos pela linguagem — como string, inteiro, decimal e datahora -, a linguagem de esquema permite a criacdo de novos tipos, derivados dos antigos, o reuso des- ses tipos por outros esquemas, bem como a possibilidade de se referenciar mais de um esquema no mesmo documento (HAROLD; MEANS, 2002; W3SCHOOLS, 2004). Segundo o tutorial do site W3Schools, um XML Schema define os elementos que podem apare- cer em um documento; define os atributos que podem aparecer em um documento; define que elementos sio elementos filhos; define a or- dem de precedéncia dos elementos filhos; define o nimero de elemen- tos filhos; define se um elemento é vazio ou se pode conter texto; define os tipos de dados para elementos e atributos; define valores padrao para os elementos e atributos. O codigo apresentado na tabela 16 exemplifica a utilizagio de um XMLSchema para a estruturacio sintatica de um documento XML, Organizagéo da Informago na web: das tags & web semantica Ailton Feitosa 87 Tabela 16: uso de um XMLSchema para a ostruturagdo sintatica de um documento XML gute wai Shea ~ Styl vesion=" LO encesng= 150-0959 -<26sciumeto= sata OO0U ONS esta> . steststhema> No esquema a direita, o elemento lei é do tipo complexo, porque > contém outros elementos (numero, data, autor, ementa); esse documento faz uma referéncia ao URI do consércio W3C (hitp://Avww.w3.org/2001/ XMLSchema) em que se encontra a biblioteca de elementos validos para garantir a integridade do proprio esquema. O esquema, por sua vez, desti- na-se a garantir a integridade de qualquer documento XML que utilize a estrutura definida (tabela 17). Tabela 17: exemplo de estrutura de um XMLSchema XMLSchema Fungao Uso. —— Tiara ae eabeqaThg -<2aml yersion="1.0" encoding =180-8859-472> ‘line a vereas da Otrtgatério ied scheme Dectora o elemento raz Obiigaléna Trica que 05 erernentor a serem uliizadas no ocumenlo 280 08 stefides ato WK sunlnsisd="hip tewww3, 016/200 XML Schema" Recoinendado Indica que 0 namespace xminsehtpiinnecldigevb’> —hillpfiwwweeldigoveré — Recomendado 2 pacrae “Zxediclament amy xa Complex srs Compiactypa> “aedanquenay rr EEE — etementos detiitos — pelo usu, conforme a Detiaido pete aera — econskiade do esrigio usado re dae intermagsos ‘sfesd.gequeace> Shs eemenis teaticagao de frat a re toate Obrigatsnia Fonte: adaptado de W3Schools (2004) COrganizagao da Informago na web: das lags & wob somantica Ailton Feitosa 98 A tabela 18 apresenta um exemplo de como uma chamada a esse esquema poderia ser feita em um arquivo XML. Tabela 18: referéncia a um XMLSchema em um arquivo XML Referénoia a um 0iLSchena Ziad version=") 0" encoding="1s0-O859-1" > 426 06/04/1993 Governo do Distrito federal cementasCria a Subsecretaria de Defesa do Consumidor PROCON na estrutura de Secretaria de Governo do Distrito Federal e da outras providéncias. A declaragao xmins="http://www.cl.df.gov.br” indica a qualquer aplicativo que for realizar uma validac&o no esquema que todos os elemen- tos utilizados neste documento XML est&o declarados nesse namespace. A declaragao xmins-xsi=” http://www.w3.org/2001/XMLSchema-instance” indica que sera utilizada uma insténcia de um esquema. A declaragao xsi:schemaLocation="http://www.cl.df.gov.br lei.xsd” indica 0 namespace em que sao cleclarados os elementos e o nome do esquema desse namespace que sera utilizado. A tabela 19 indica os elementos que podem ser utilizados para a. construgo de XMLSchemas, de acordo com as especificagdes do W3C. Tabela 19: Elementos definidos para um XMLSchema 99 ~complexContent complexType “Documentation Element Extension Group Import include key Define extensdes ou restrigGes para um lipo complexo Define umm elemento do tipo complexo ‘Subslemenio de annotation, define comentérias de texto em um esquema Define um elemento Eslonde um elomento do fpo simples ou complexo Define um grupo de elomontos; 6 utlizado em dectaragdes do fipo complexo importa esquemas de outros namespaces diferentos do namespace padrao ullizado em tum documento XML. inglui diversos esquemas localizados no namespace padrao ublizado em documento XL specifica o valor de um elementa ou abibulo como chave (inioa, ndo-nula © sempre presente) Especifica que o valor de um alibuto ou elemento corresponds ao especificado em um elemento definido como Key Define tm elemento do tipo simples como uma lista de valores Dascrave 0 formato de informages no-XML no cantetdo do documento Redefine lipos simples, complexos, grupos e grupos de afribufos de um esquema extermo Define restigdes para elementos do tipo simpleType, simpleContent e complexContent Define o elemento raiz de um esquema Especifica que os subelementos devem aparecer em seqiléncia e ogorrer nenhuma ou varias vazes ‘Contam extensbes ou restigaes para elementos do tipo comploxo ¢ voment texto Define urn elemento do tipo simples e especifica suas restigdes, Define um tipo simplos como uma colegao de valores a patir de fipas de dados simples especificados Unique Define que um elemento ou atibuto deve ser tinico em dado escopo Fonte: adaptado de W3C (2004a) e W3Schools (2004) Keyref list Notation Redefine Restriction Schema Sequence simpleContent simpleType Union 4.4.3 A 3° geracdo: padrées @ linguagens de especificagao de ontologias (RDF, RDF Schema, DAML+OIL, OWL Lima (2003) esclarece que, embora a web semantica inicialmente estivesse sendo construida com base na flexibilidade obtida pela combina- do entre XML e RDF, essas tecnologias nao so suficientes para se obter uma estrutura de descrigao do significado dos documentos na web. Na tabela 20, apresenta-sc uma adaptagdo ao pensamento de Lima (2003) sobre as diversas linguagens envolvidas na construgdo da web semantica em suas inter-relagGes. Qualquer que seja a linguagem utilizada na web semantica, seu obje- Eremento Descrigio “i Define que elementos fhos podem ocorrer em qualquer ordem, sendo que cada tho ocorreré uma vez ou nenhuma Annotation Define um elemento de maior nivel para comentirios sobre 0 asquema Define elsmentos ndo especificados no XLSchema (eslende os elementos docurvonto Any XML) amps Dee RS epee KALSchina rend oe aifbutos do documento appinio Subelemento de annotalon, especifia a iformagdo a ser usada na aplcagio ‘Atvibuto Define un atibulo attbuteGroup ” Define-um grupo do abibules a sor usado om defnigdes do fipo complaxo Choice Detine elementos opcionais, ito &, prmile que coments um dos slemenios definedos como subelementos de seja utlizado no decumento XML Organizagao da Informagdo na web: das lags & web semantica Ailton Feitosa tivo é fornecer uma descricdo para o conhecimento representado por meio de ontologias. Organizagdo da informago na web: das tags & web semantica Ailton Feitosa, 100 Tabela 20: Linguagens da web semantica e suas fungées Cinguayem Fungao na web semantica XML fornecer sinlaxe basica para a esbruturaqio dos documentos; ndo ha imposigéo de restrigbes eemanticas Tornecer controle sintético & fnguagem XML, par melo de XML Schema —_restigées & esirutura, bem como de definizdo de pos de ados para documentos XML Tarnecer um modelo de dados para 0s objetos da webe ROF seus relacionamentos, propiciando uma semantca simpies, com possibikdades de representagao do proprio modelo em XML ROF Schema fornecer um vecabulario capaz de descrever os objetos da hnlerdrquicas de género espa ial capaz de descrever outros DAMLioiL e _§P08 de relacionamantos entre os objetos da web, como OWL relacionamentns do csjunezo, cardinalitate, iquaktado, enumeragde; fornecom tipos de dados mais cos que as linguagens anteriores, Fonte: adaptado de (LIMA, 2003) Em RDF, 0 significado é expresso como um conjunto de triplas, cada tripla correspondendo ao sujeito, ao verbo e¢ ao objeto de uma sen- tenga simples, Essas triplas podem ser escritas em XML, e um documen- to RDF pode fazer declaragdes a respeito de coisas particulares (pessoa), que possuem suas propriedades (€ irma de), com certos valores (outra pessoa). RDF, afirma LIMA (2003), diz respeito a expressdes processiveis por maquinas, pois fornece um mecanismo para a descrigiio de recursos, sem fazer nenhuma inferéncia sobre o dominio da aplicaciio. RDF oferece suporte basico para ontologias, mas é necessario maior rigor semantico. Para descrever 0 vocabulario do RDF foi criado o padriio RDF Schema, que define propriedades que podem ser utilizadas para descreverem clas- ses, propriedades e outros recursos (W3C, 2003). Entao, a fungao do RDF’S é permitir a criagdo de vocabularios controlados, compartilhaveis ¢ exten- sivei Um esquema é um tipo de ontologia onde sao definidos os termos que sero usados nos documentos RDF ¢ o significado especifico de cada termo. So esses esquemas que expressam a semantica dos documentos RDF (LIMA, 2003). O uso de ontologias fornece uma grande possibilidade de se descrever objetos e suas relagdes com outros objetos. Entretanto, devido a restrigdes seméanticas da arquitetura RDF, algumas iniciativas foram desenvolvidas com 0 objetivo de se solucionar tais problemas. A linguagem Darpa Agent Markup Organizagao da Informagaio na web: das tags & web semantica Aiton Feitosa tot Language (DAML), projeto iniciado em um encontro de especialistas em agosto do ano 2000, em Boston, é uma dessas iniciativas. A versdo mais ~ recente da linguagem 6 a DAML+OIL”, uma combinagao das linguagens DAML e OIL, e fornece um conjunto de ferramentas com o qual é possivel a criagéio de ontologias e a marcacdo de informagio, de modo a viabilizar a Jeitura e compreensfio automatica por méquinas (DAML, 2003). Face as restrigdes da arquitetura RDE, o W3C propés a especificagéo de ~ mais um padro de linguagem, de modo a permitir maior rigor semantico & representacaio do contetido das paginas web. Assim, a Web Ontolgy Language -. (OWL), uma evolugio da combinagéio DAML+OIL, foi projetada para uso por aplicagSes que necessitam processar contetido de informacao, ao invés de apenas apresentar informagGes para humanos. De acordo com 0 W3C, a OWL facilita a maior interoperabilidade de contetido da web do que o suportado por XML, RDF e RDF Schema, fornecendo um vocabulirio adicional e tam- ~ bém uma estrutura de seméntica formal. 4.4.3.1 RDF O RDF é um esforgo para a criacdo de convengdes que controlem como a seméntica, a sintaxe e a estrutura de metadados s&o formuladas em um dominio, de modo que, quando tais estruturas forem misturadas com um segundo ou terceiro dominio, as declaracdes orginais mantenbam sua clareza ¢ legibilidade. Como ja discutido a linguagem XML é, por natureza, puramen- te estrutural e sintética ¢ descreve dados apenas no nivel de objetos. Por esse motivo, o padrio RDF foi projetado para permitir que software inteligente, como um spider ou um agente inteligente, consiga descobrir, catalogar e enten- der recursos em um sife, uma vez que seus objetivos sao: ter um modelo de dados simplificado; possuir semantica formal e provavel inferéncia; utilizar um vocabulario extensivel; utilizar sintaxe baseada em XML; dar suporte aos 3 Embora © Programa DAML nao sea uma inicativa do WSC, possui diversas intet/aces com o consérelo, entre elas 0 fato de 0 préprio Tim Beimers-Lee ter participado do seu desonvolvimento (OUELLETOGBWI, 2002). * 0 origindtia da cooperagao de diversas instituigdes de pesquisa europélas, a Ontology Interchange Language (OIL), € uma proposta de represontacao e uma camada de inferéncia para ontclogias, que ‘combina a modelagem de primitivas com semantica formal ¢ servigos inteligentes fornecidos pela lagica descritiva. A OlL € compativel com ADF Schema (ROFS), e inclul uma semantica precisa, para a desctig&o do significado dos termos, bem como de informagdes implicitas (ONTOKNOWLEDGE, 2004), Crganizagiio da Informagao na web: das tags & web seméntica Ailton Feitosa_ 102 tipos de dados do XML Schema; permitir que qualquer pessoa possa fazer declaragGes acerca de qualquer recurso (W3C, 2001; STUCKENSCHMIDT; VAN HARMELEN, 2003; POWERS, 2003; W3C, 2004). Além dessas carac- teristicas, o RDF pode utilizar valores representados em conformidade com os... tipos de dados do XMLSchema, possibilitando, assim, o intecambio de da- dos com outras aplicagdes XML. Um documento RDF pode ser utilizado para criar descrig6es de meta ._ dados relativas néo apenas a informagGes internas ao documento, mas também sobre metadados externos ao seu contetido ou até mesmo ocultos - como por exemplo, atitor, data de criacio, tipo de arquivo —, sendo par- ticularmente dtil na representacdo de contetido de arquivos de audio e ima- gens (DACONTA, 2003, p. 85), Dessa maneira é possivel a gravagao de dados em formato “compreensivel-por-maquina”, favorecendo operagées :. como interciimbio, busca, catalogaciio, navegacio e classificagao, de ma- neira mais eficiente e sofisticada (POWERS, 2003). | Sao conceitos basicos do RDF: modelo de dados grafico; vocabula- tio baseado em URI; tipos de dados; literais; sintaxe de serializagiio XML, = expressao de fatos simples; implicagdes. O modelo grafico baseia-se nos conceitos de sujeito, predicado e objeto que, tomados juntos, formam uma tripla. Um conjunto de tais (riplas é denominado Grafo RDF. Cada tripla RDF é€ uma declaragdo ¢ pode ser pensada, também, em termos de objetos, propriedades e valores de propriedades (HAROLD, 1999; W3C, 2004). Por exemplo, na declaracao “A Lei n°1/1917 é de autoria de Rui Barbosa”, *. © recurso é a “Lei n°1/1917”, a propriedade é a relagéo de “autoria” e 0 valor de tal propriedade é “Rui Barbosa”. : Como mencionado, em termos semanticos, a estrutura de um do- cumento RDF é baseada no conceito de Triplas RDF, isto é, em trés par- tes que compéem a informagdo e que sao necessérias para a sua compre-' = ensdo como uma unidade do conhecimento. Essa estrutura é o que torna possivel a interpretagao seméntica de uma sentenga, tanto por humanos quanto por maquinas. Em outras palavras, a estrutura de triplas permite que a compreensao e a significagéo dadas por humanos para uma senten- ca sejam consistentemente interpretadas por maquinas (POWERS, 2003). Como partes integrantes do discurso humano, em lingua inglesa, esses elementos so denominados como sujeito, predicado e objeto. O sujeito, no contexto gramatical, corresponde a um nome ou frase nominal que representa aquele que pratica uma aco — no campo da légica, esse 6 0 | COrganizagao da Informagio na web: das tags a web seméntica Ailton Feitosa 103 objeto sobre o qual se elabora alguma declaragio. Em RDF, necessita-se de um URI para a identificag&o univoca do conceito sobre o qual se ela- bora tal dectaragiio; esse URI é também representativo de um recurso. oO predicado, gramaticalmente, é a parte da sentenga que modifica o sujeito e inclui uma frase verbal; em outras palavras, o predicado diz algo a respeito do sujeito — no campo da légica, um predicado 6 uma fungio de um individuo (um tipo particular de sujeito) para valores verdade, com base em certo nitmero de argumentos. Em RDF, um predicado é uma relacdo entre o sujeito e o objeto. Gramaticalmente, um objeto é um nome que sofre a agdo expressa por um verbo - para a légica um objeto é influ- enciado pelo predicado. Em RDF, um objeto pode ser também um recur- so, teferenciado por um predicado ou por um valor literal (Daconta, 2003). A ilustragao 20 apresenta a estrutura de uma Tripla RDF. = ure | = ino = Prapiedade ou asseciagao llustragao 20: Tripla RDF (Daconta, 2003, p. 88) Além do modelo lingiiistico apresentado, é possivel a construgao de declaragdes RDF pensando-se em recursos, propriedades e valores, de tal modo que a cada recurso pode ser atribufda certa propriedade, com certo valor, O objetivo da arquiterura RDF é que, utilizando-se qualquer das abor- dagens, seja possivel a realizagéio de declaragdes como, por exemplo, “Rui Barbosa é autor da Lei n°. 179”. Assim, no modelo lingiiistico RDF, Rui Barbosa é 0 sujeito, é autor o predicado e Lei n° 179 0 objeto. Certamente, esse modo de interpretacio, para tornar-se diretamente aplicavel 4 termino- logia gramatical da Lingua Portuguesa deveria sofrer alteragées. Apenas para se ilustrar essa necessidade, no exemplo dado, a andlise da declaragéo deve- tia ser feita da seguinte maneira: “Rui Barbosa” > sujeito - elemento da orag’o sobre o qual se emite uma informagao; ‘Organizagio da Informago na web: das tags @ web semantica Ailton Feitosa 104 “é autor da Lei n° 179” > predicado — elemento da oragio que in.” | forma algo a respeito do sujeito; O predicado, por sua vez, pode ser assim analisado: “ é* > verbo de ligagdo ~ verbo que nao possui um contetdo signifi- cativo, isto é, nao traz nenhuma informagao a respeito do sujeito, mas que serve como elemento de ligago entre o sujeito e o seu atributo (predicativo do sujeito); “autor da Lei n° 179” -> predicativo do sujeito ~ elemento que se. - refere ao sujeito mediante um verbo; Em face do problema levantado nesse exemplo”, e devido a comple- xidade gramatical da Lingua Portuguesa, o modelo recurso-propriedade- valor parece ser mais aplicdvel 4 documentagdo escrita em portugués. Des- se modo, para o exemplo em questéo, ter-se-ia: “Rui Barbosa” > recurso; “6 autor” > propricdade; “Lein? 179" > valor E importante notar que toda declaragio é feita em um documento, e que todo documento possui um enderego, isto é, uma localizago identificada por meio de um URI. Para a sentenga dada, entio, é possivel se utilizar a= seguinte notagao: <#Lei n° 179> Estendendo-se sua significag&o, pode-se pensar que a referida lei possui uma p4gina na Internet e, em conseqiiéncia, um enderego; entdo, é valida a declaragao: <#Lei n° 179> <#tempagina> O simbolo #, em cada declaraco anterior, significa que o URI dos con- ceitos referenciados é 0 proprio documento RDF que os contém. Essa é uma sintaxe abreviada para um URE absoluto, como por exemplo: . O mais usual ~ e recomendavel - é a substituigao do simbolo # por um prefixo que represente o namespace em que se localiza o documento RDF em questao. A formulac&o resultante é, entéo: prefixo leis: Desse modo, as declaragdes sobre a autoria de uma lei podem ser as seguintes: ® exemplo em questéio foi fundamentado na obra Curso pratico de gramatica, do Terra (1991). Organizagéio da Informagao na web: das tags A web semantica Ailton Feitosa 105 Por certo, para tornar-se valida, essa declaragao necessitaria ser inserida m um documento seméntica ¢ sintaticamente estruturado, isto é, em um _ documento vélido. Como a arquitetura RDF possui suas bases na estrutu- ya da linguagem XML, pode ser utilizada para a descrigéo de contetido com a implementagéo de todos os recursos desta linguagem, o que vale inclusive para os namespaces. E possivel também a combinaco com ou- tros padrdes de metadados, como, por exemplo, o Dublin Core, de modo que 0 arquivo se torne compreensivel para aplicativos que fazem uso des- ‘ses padrdes, como os mecanismos de busca da web. A tabela 21 utiliza um exemplo proposto por Harold e Means (2002) para elucidar a aplicagao de namespaces em um documento RDF, Tabela 21: Estrutura de um arquivo RDF Bloco de eSdigo Fangae. cima FTROENSSHI" > Inicio do arquive Telen="10" eneeding went rai RUD Bescription aboursMhttp: / Jinn, cazecamlache, ony/eampies/impres pioniste. ml" Veities @ mpeessioniatas \/eleler coreatur> Eliette Rusty Harold spainting™ lust obra de acte “fratalog Fonte: adaptado de (HAROLD; MEANS, 2002). Com a intenco de tornar o contetido conhecido para qualquer aplicativo que seja capaz de compreender padres RDF e Dublin Core, os autores sugeriram utilizar no cédigo o elemento Description, que pretence ao vocabulario da arquitetura RDF e os elementos title, creator, description, e Organizagéo da Informagdo na web: das tags & web samantica Ailton Feitosa : t | I t 106 107 daie, que pertencem ao vocabulario do Dublin Core. Para que um aplicativ —um mecanismo de busca, por exemplo — seja capaz de reconhecer a infor- maciio, é necessério que os nomes dos elementos sejam preservados. No, ; entanto, ocorre uma sobreposi¢ao dos elementos title e description que des. crevem 0 documento com os elementos title e description que descrevem a obra de arte. Uma maneira de desambigiiizar a descrigao é utilizando. : namespaces para particionar os elementos em conjuntos diferentes de voca. bularios. Elementos que possuem o mesmo nome, mas que apresentam URIs - diferentes, sao elementos distintos. Uma vez que URI’s geralmente possuem caracteres especiais — como /, % e ~, para citar alguns nao aceitos na sintax, XML para nomear elementos --, recomenda-se o uso de prefixos curtos para’: a denominago dos namespaces. Assim, cada prefixo é associado a um URI. e, da mesma forma, nomes de elementos associados ao mesmo prefixo esta. rao no mesmo namespace. Para o cédigo proposto anteriormente, na tabel, 21, uma reescritura vidvel € exemplificada na tabela 22. Para cada namespace, clementos ou atributos prefixados devem ser registrados com a seguinte estrutura: prefixo:elemento (ou atributo). Para se conectar um prefixo a uma URI, utiliza-se o atributo xmIns, seguido do prefixo, da seguinte maneira: xmlns:prefixo. Analisando-se 0 cédigo apre- sentado, tem-se: a) xmlns:rdf é usado como atributo para conectar o ele- mento RDF, representado por rdf:RDF ao URI do namespace http:// _www.w3.org/TR/REC-rdf-syntax#, que contém o vocabulério padraio de- finido pelo consércio W3C; b) rdf:Description representa o elemento - Description do vocabulario RDF definido pelo W3C; c) xmins:dc é usado como atributo para conectar os elementos Dublin Core - title, creator, _ description e date — com o vocabulério padrao definido no URI http:// __purl.org/de/ e, embora tenha sido declarado no elemento rdf:Description "= por questiio de conveniéncia —, poderia ter sido declarado no elemento raiz. Um exemplo de aplicacao da sintaxe RDF a uma coleg&o de docu- Tabela 22: inclusao de namespaces relatives a elementos Dublin Core -mentos legais é apresentado na tabela 23. em um arquivo RDF Tabela 23: exemplo de aplicago da arquitetura RDF para um acervo legistativo Bloce de codigo Fungo -<2aml version="1,0" encodings ISO-8859-1"2> infin do area Bloco de Codigo Fungao seats tomenta raiz Tinha de cabecalho, define a versao da * inguagem, bem come © eonjunto de ees autos love ° ceracteres padréo que sera utilizado no. src documento; neste exemplo, 0 cédigo refere- argo odo go de eae roe aise latins vocabuiviovllizsdo, aboul='ip:vhnwe.caleconleche.orgfexamplesimpressionistsxmi’> Seguedo a RDF uso de um indica que 0 contetido do documento é RDF. prefixo rf RDF ¢ utilizado para indicar que ‘08 elementos ¢ atributos RDF aceitos nesse documento provém da biblioteca definida palo W3C (xmins-rof namespace} prelixa para representar 9 fpamaspace do Dublin Cara Descriptio da dacumenta ‘cam elementos Dublin Core; Eliot Rusly Harold creator description ‘ontém ura isa de anosascbasImpressionasonarizadas po pnt data YEO pec do, para Indica que os elementos ¢ aributos dofinidos Sosarnbigiizar 95805 >xmins:lei="http:thwe. cl. gov.brflegistacaa"> para a descrigdo de documentos legais 22/0872000 Se ee aoe provém do URI referenciado cintioenerlene femonios que cescievem srdor> as obuas =rak Description mente iza 0 atibuto “paling relabou'htipiwwincl.chgoubrlegilacanlelaze’s —-O.temente rdf Deseintion tia o a Memory of the Garden at Etlen rdfabout para descrever “ars incers Van Goghcatst> -November, 1888- descriglo um regista -leiinumero>426 - selerente a uma obra de arte lei:data>06/04/1993 “Two women look tothe Fell A thisd works in her garden, Governo do Distrito Faderalefetautor> Os elementos numero, data, autor ¢ ements Cria a Subsecretaria de Qofesa do ‘sdo referenciados pelo prefixe [ef], sipainling> Consumidor PROCON na estrutura da Secretaria de indicando um repositéro, como uma “eatalog> Tit do elemento aie @ do Governe do Distrito Federal ¢ dé outras providéncias, ontologia, em que tals elementes so validos. arquivo fsa RDF> Indicagao de final de arquive Fonte: adaptado de (HAROLD; MEANS, 2002). COrganizagao da Informagio na web: das tags & web semantica fo da informagdo na web: das tags & web somantioa Allon Feitosa, Organizagao da informagao na wel 9 A\lton Feitosa 108 Retomando os conceitos de recurso, propriedades e valores, do exem- plo dado na tabela 23, é possivel expressar informagées por meio de decla: ragGes como: “o recurso pos. | sui uma propriedade autor, cujo valor é Governo do Distrito Federal “; oy = “o recurso possui uma proprie- dade data, cujo valor é 06/04/1993 “. A utilizagdo desse tipo de construgdo, argumentam Harold & Means (2002), além de facilitar a implementacdio de esquemas como DTD’s e XML-Schema, possibilita maior flexibilidade, caso seja necessaria a redefini¢éo de um prefixo ou sua atribuigao ao um URI diferente, posto que a declaragao é feita apenas em um ponto do arquivo. Com essa estrutura, 0 arquivo podera ser interpretado por qualquer aplicativo que se utilize dos padrées Dublin Core ou RDF para a descrigéio de contetido, 44.3.2 — RDFS Propriedades RDF podem ser pensadas como atributos de recursos ¢, nesse sentido, correspondem aos tradicionais pares atributo-valor util zados em-XML. Tais propriedades também representam relacionamentos entre recursos. Como é uma linguagem de descric¢ao de vocabulario, é pa- pel do RDFSchema descrever tais propriedades e suas relacdes com propri- edades de outros recursos, o que é feito por meio da definigio de classes e propriedades que podem ser utilizadas para descrever classes, propriedades € outros recursos. A linguagem de descrig&o de classes e propriedades em RDF asse- melha-se a linguagens de programacao orientadas a objetos, uma vez que permite a definigéo de recursos como instdncias de classes ou como subclasses de classes. No entanto, enquanto em outras linguagens uma classe € definida em fungao das propriedades que uma instancia pode possuir (por exemplo, a classe livro possui um atributo autor que é um tipo de pessoa). Em RDF, a descrigdo de uma propriedade é feita em termos de classes do recurso ao qual tal propriedade é aplicavel (a propri- edade autor possui um dominio documento e uma extensdo pessoa) Em Organizagdo da Informagio na web: das tags & web soméntica Ailton Feltosa 109 _ outras palavras, como abordagem RDF é centrada na propriedade, ¢ nao na classe, é possivel estender-se a descri¢ao de recursos, sem a necessida- “de de se redefinir a descrigdo original da classe. Em suma, na especificagéo formal da arquitetura RDF, os recursos podem ser divididos em grupos chamacos classes. Os membros de uma classe séo denominados instdncias. As classes em si, siio também recur- os e podem ser descritas por meio de propriedades. Ao conjunto de ins- ancias de uma classe denomina-se extensdo da classe. Uma classe pode ser membro de sua prdpria extensiio, isto é, pode ser uma inst&ncia de si _ propria (W3C, 2004b). Todas as classes em RDFSchema sao agrupadas em uma classe principal denominada rdfs:Class. De tal maneira, se uma classe X € uma subelasse de Y, todas as instancias de X serdo também | inst€ncias de Y e poderao ser declaradas com o uso da propriedade rdfs:subClassOf. O termo superclasse é utilizado para designar uma clas- se superior em relagdo a suas subclasses. No exemplo dado, Y é superclasse de X. Colegdes de recursos podem ser representadas em RDF pelo uso de contéineres, que podem ser de valores alternativos (rdf:Alt), de valores nao ordenados (rdf:Bag) ¢ de valores seqiienciais (rdf:Seq). Exemplificando, o tipo de suporte de um documento pode ser representado por um contéiner de valores alternativos, para a definic&o dos tipos: em papel, em cdrom ou em linha (tabela 24). Palavras-chaves relativas a um documento podem ser representadas em uma seqiiéncia alfabética ou definida pelo indexador, com 0 uso do contéiner rdf:Seq (tabela 25). Do mesmo modo, tais pala- yras-chaves podem ser representadas por um contéiner rdf:Bag (tabela 26), que nao determina uma ordem de descri Tabela 24: contéiner para descrever recursos com valores alternativos <1dl:Alt> >Papel ‘liz GD-ROM«/rdf:ti> >Em linhacsrdl:ki> Orgenizagio da informagdo na web: das tags & web semanlica Ailton Fetosa 410 Tabela 25: contéiner para descrever recursos com valores nao ordenados alavrachave>, Satide Direito a sadde Além de classes e de contéineres, a arquitetura RDF propicia diversas propriedades e atributos que podem ser utilizadas para a descrigéo de re- cursos. As tabelas 27, 28 e 29 apresentam, respectivamente, as classes, propriedades e atributos admitidos pela estruturas RDF e RDFS. Tabela 27: classes RDF Nome da classe Descrigao da classe rote Descreve contineres de valores dlemativos, ralBag Desereve con'éneres de valotes nfo ofdenados Toft Desereve istas de valores ra Propet Descreve propiadatles RDF E wid Sibaasse de silass raSeq Desereve conineres valores senieniais ruf'Stalewent —_Uliizada para realizar deilaragdes ROF ReEXMLLierel E wsarla para descrever valores llerais em XML. ralsCloss Ea clase das clacses em RDF. Una dass eafsClass pace ser umanstancia de alias (oma instancla de sus propria dasse) rdfsContainer —_Descreve conidinerts RDF. F sopereasso derdiAR, Bag e rikL ra Batatype fi zat pre Sica tp de dads er RO. Cate tar des Daltype une sees ce elie C uilizada para a descigdo de valores fetas. que padem ser alabétons ov nuniicos.€ uma sublasse de els Resource raleResourse 10d35.a5 coisas deserias em RDF sfo recursos e S80 nsneias da classe s:resource, Todos as outs classes sin subclasses desta classe. A classe rdisesource é uma insiancia da classe cols Clas. Organizagao da informagao na web: das tags 4 web semantica Ailton Feitosa 11 Tabela 28: Propriedades RDF Propriedade Deserta Bonin extensso aye inca que 0 recirs0 (sue) una nslanca do uma classe idisResomce —disCiass idls-subClasS0T indica que recurso sujso)€ ema subclass de urea ase rMisClass ras Class essubPropeyOl__ Indica que 0 recurso fsyeo) @ uma subpegredade de uma propedade ‘cf Propert) it Propely idsdomain indice 0 dominio da propiedad sujeto {eu de um recut), seProperly Class isrange. Indies a exten da propietade domino (ou de wm ecutsO} lPropety sles sdislabel Fomece um rut legivel por hurmancs para um recurso (Sie). rdlgResource fs teal ‘iscoment ___Fomene uma deserao para orequs0 uo} ‘dle Resource rlshterat ds rember Indica que um recurso é membre de culo nis Resource ils Resource ‘ist Tne que o recurso deve sero primero emt uma isa ROP. rast rigResoure ‘atrest inc cs ‘comreendidas em uma ista RDF, apresenkades aps © ‘efit ‘allt ‘iaseetiso Prop uma reg de eniesia (ver arta) ara oreaxso em quesigo —reisResource Tals Resource, rifsisbeinedy — Fomece wma defnigén para o recurso em ques'So nels Resource Resource rivals sareve volores esruurados rels;Resource —kfisResource rsubjecd Incica 0 sujatn om uma declrayio ROE rif Sialomanl”isResource ri gratia Indica opregizado em ura dedaragso ROF rffSlatement eisResource dhabjct Indica o objto at na dactacanio ROP diStatement _ 1lsResourge Tabela 29: Atributos RDF Elemento Descrigao Raf:atout Especifica que recurso esta sendo deserito, Rdf:Description Coniéiner para a descrigaio de um recurso Rdfiresource. Define um recurso para especificar uma propriedade. Rdfdatatype Define 0 tipo de dados de um elemento: RdfiD Define um ID (atributo identificador) para um elemento Rat Define uma fista Rote Define um no Rdfinodel Define o ID de um elemento no RafiparseType Define como um elemento deve ser analisado sinlalicamente (parsed) RdERDE Declara o elemento raiz RDF em um documento. De modo similar ao XMLSchema o RDFSchema foi concebido para fornecer rigor sintatico e semantico a um documento e funciona como uma extensdo para o RDF, fornecendo a arquitetura para a descri¢aio de classes e propriedades especificas para certa aplicag&o (tabela 30). Pelo cédigo da tabela 30, um mecanismo de inferéncia pode deduzir que uma lei complementar é um tipo de norma; ou que uma norma pode set uma lei complementar ou uma lei ordindria. O mesmo exemplo pode ser abreviado pelo uso da classe rdfs:Class, ao invés de rdf:Description e pela eliminagiio da informagao rdf:type. O cédigo resultante pode ser visto na tabela 31. Organizagéo da Informagéo na web: das tags A web seméntica Ailton Feitosa We Tabeta 30: exemplo de aplicagao de RDFSchema Cédigo. “ «rd Description roti noma’> indicago de inicio de arquivo =rdf ROF xinins relf= declatagao de que o arquivo € do tipo RDF; 0 “http:/iwww.w3.org!199/02/22-rdt- contetide de xmins:rdf indica 0 uso do vocabulario: syntax nsif" permitido pelo RDF; o contetdo de xminsirafs xmins:rdfs="hltp dion w3, org/2000/01 fr df-schemat" xmibase= “hitp:thwanw.cl df gov. brflegislacao"> “norma” [> leicomplementar"> indica 0 uso do vecabulario pemmitido pelo ROFSchema; xmi:base, indica o URI dos. elementos permitidos em uma estrutura definida pelo autor do arquivo desoreve 0 elemento notiria, como uma olasse RDF descreve 0 subelemento leicomplementar como, uma subslasse RDF da classe norma indicagio de inicio de arquivo =IDOCTYPE SnlologyT indicacao de que 0 arquivo & |, SIENTITY xs ‘uma ontologia que ulttiza um Illpdkiw.w3 orgi20012XML Schemat" > vocabulaio XMLSchema pb definide pelo W3C ‘elemento raiz, marca o inicio das declaragées sobre as lasses; “owh:name=..” referencia uma ontologia definida pela autor, de onde e780 Validados 05 nomes dos slementos; xmins:owx faz referéncia 40 conjunto de elementos definidos pelo W3C para al linguagern OW cabecathos de elementos, bem como niimeros de declaragGes a respeito das classes, ¢ individues classes e propriedades é 0 mesmo que . O elemento differentFrom é usado |» para definir que um individuo é diferente de outros individuos. AllDifferent / “indica que os individuos de uma lista so mutuamente diferentes, quando tais individuos so comparados entre si. Entre os elementos que definem propriedades de caracteristicas, es- tabelecendo comparagoes entre elas ou restrigdes, estao: inverseOf, TransitiveProperty, | SymmetricProperty, | FunctionalProperty, ~ InverseFunctionalProperty, allValuesFrom e someValuesFrom. O elemen- to inverseOf indica que uma propriedade é 0 inverso de outra. Por exem- plo, se a propriedade autorde é inversa a propriedade foiescritapor, diante da declaracao autorde um agente pode deduzir que foiescritapor . TransitiveProperty é utilizada para indicar a associtividade entre trés ou mais propriedades. Por exemplo, se um par (x,y) é uma instancia de P, ¢ o par (y,z) € uma instancia de P, entéo © par (x,z) é, também, uma instancia de P. SymmetricProperty é utilizada para indicar a comutagdo entre duas propriedades. Por exemplo, se o (x,y) é uma instancia de P, entao o par (y,x) é também uma instancia de P. FunctionalProperty indica um valor tnico para uma propriedade. Uma pro- ptiedade declarada como FunctionalProperty nao pode ter mais de um va- lor para cada individuo em uma classe. Entretanto, pode ter valores nulos para um individuo. InverseFunctionalProperty indica um valor univoco para uma propriedade, isto 6, se uma propriedade como possuiCPF for declarada do tipo InverseFunctionalProperty, nfio poder haver duas ins- tancias individuais que possuam CPFs idénticos. O elemento allValuesFrom indica restrig&o de valores de propriedades em relagdo a uma classe, isto é, Organizagéio da Intormagdo na web: das lags & web seméntica Allon Feltosa 18 119 essa proptiedade, em uma classe particular, possui uma extensao restrita Dito de outro modo, todos os valores admitidos para essa propriedade vém de uma classe definida. Diferentemente de al[ValuesFrom, uma pr priedade definida como someValuesFrom nao restringe todos os valores admissiveis a uma mesma classe. Isto significa que alguns dos valores a mitidos podem advir de uma classe determinada. Os elementos de restricgdo de cardinalidade da linguagem sa minCardinality, maxCardinality e cardinality. O elemento minCardinality indica os valores minimos (0 ou 1) que podem ser assumidos por um: propriedade. Em outras palavras, indica se o valor de uma propriedade ¢ no minimo 0 ou no minimo 1. O elemento maxCardinality indica os vak res maximos (0 ou 1) que podem ser assumidos por uma propriedade. Em outras palavtas, indica se o valor de uma propriedade é no maximo 0 ov no maximo 1. Finalmente, cardinality indica um valor exato que pode ser assumido por uma propriedade . Nas versGes OWL. DL e OWL Full, esses elementos séo expandidos, e permitem o uso de néimeros inteiros positivos, para a indicagdo de relagdes de cardinalidade. Enquanto em OWL Lite as’! cardinalidades podem ser indicadas por ao menos, no maximo e exate mente 0 ou 1, nas versdes DL e Full, outros valores podem ser indicados, Além desses elementos, outros elementos que podem ser destacados no escopo da linguagem OWL sao aqueles que definem relagdes de intersecgdo (intersectionOf), enumeragao (oneOf), valoragao (hasValue), disjungdo (disjointWith) ¢ unifio (unionOf). A formulagéo de declaragées ‘¢ Mulher podem ser declarados como classes distintas entre si. Assim, um mecanismo de inferéncia pode identificar que se um individuo é uma ins- ncia de uma classe, nao poderd ser instancia da outra. Em outras pala- ‘yras, se Cecilia Meireles é uma insténcia de Mulher, entio nfo é uma ins- incia de Homem. A ilustragdo 22 apresenta uma esquematizagao dos elementos OWL segundo os aspectos sintaticos. O elemento, raiz é o elemento ontology, ao qual esto subordinados outros grupos de elementos que comp6em a es- qrutura da linguagem. Os elementos de cabegalho sio aqueles utilizados ara descrever o documento OWL em relacdo a caracteristicas como ver- si0, compatibilidade com outras tecnologias, bibliotecas que esto sendo importadas ou outros comentarios que se julgue necessarios ao arquivo. “Igorts baraP opera bc Prope Wate ladividval [axioma]_ Ditferentindividuats nino tat yoetropeety iB EquivalentProperties ‘OsjetPropenty DisjointClasses (0F] ita Leet Annotation ., Class__Severtton | que denotam a intersecgao entre determinadas classes é feita com o elemen- sane smicav dating to intersectionOf e indica que certas insténcias de uma classe estao em | yectesextom rn outra ¢ vice-versa. Combinagdes entre elementos como unionOf, PrioeVersion ee complementOf e intersectionOf podem ser utilizadas, nas linguagems OWL sects Ontoteey } estate fa Sameindividual wedi DF c OWL Full, para a construcao de frases booleanas. O elemento oneOf pode ser utilizado para descrever uma classe por meio da enumeragdo dos ©) supctasso¥ [0,F] sopeibapeite seus individuos e indica que os membros de uma classe sao exatamente 0 asi onjecrrroperty [= conjunto de individuos enumerados, nem mais, nem menos. O elemento aus ry) Ebates ao hasValue pode ser utilizado para declarar um valor especifico para uma “mPa subpronertyor 22st epeiapessy CobjserPruperty 10 propriedade. Por exemplo, hasValue pode ser usado para indicar que, para “pecatay Mteth | batatymeProperty um individuo da classe Automovel, o valor esperado para o valor da pro- eee priedade propulsao € “a motor”. Classes podem ser declaradas distintas’: uumas das outras por meio do elemento disjointWith. Por exemplo, Homem. EqumeratedCass llustragéo 22: Conjunto de elementos da linguagem OWL Fonte: (W8c, 20030) COrganizagéio da Informagdo na web: das lags @ web seméntica Organizagao da Informagao na web: das tags & web semantica Ailton Feltosa Ailton Feitosa 4.5 Resumo do Capitulo v Desde a sua concepgao, a web passou por estagios evolutivos que podem ser classificados em trés geragdes. A primeira geragao, base: ~ ada na linguagem HTML, tornou possivel a exibig&o dos docu- mentos independentemente de sua localizagao fisica; a segunda: geragao tornou possivel o uso de diferentes formas de apresenta- ¢4o para a mesma estrutura de um documento, com base na lin: guagem XML; a terceira geracéio, a da web semAntica, consiste na separacao do significado de sua estrutura, isto é, estende a nogdo de “documento” com a possibilidade de “semantica legivel por maquina”, A idéia da web semntica nao é nova: a verdadeita Imternet revolu- ciondria, pensada em 1989 por Berners-Lee ¢ retomada em 2001, no artigo The Semantic Web, ainda esta por chegar; A Web Semantica é uma estrutura de representaciio de dados na World Wide Web, por meio de um esforgo colaborativo liderado pelo W3C, com a participagiio de pesquisadores e de empresas de desenvolvimento de software de todo o mundo; O principal objetivo da Web Semantica é habilitar os computado- tes a usarem as informagGes disponiveis nao apenas com propési- ” tos de exibico, se nao, também, com possibilidades de automacio, integraco e reuso em diferentes sistemas. Tais informacgGes deve- rao ser organizadas por meio de uma linguagem com caracteristi- cas tais que permita o estabelecimento de regras de inferéncia, for- necendo também as regras para extragao de conhecimento por sis-:., temas inteligentes; trata-se de uma Internet de significados; As ontologias, apoiadas na concepgdo de Uniform Resource. Identifier (URI), sio o elemento basilar na construgaio da Web Se- oe mintica, pois acredita-se que favorecerao um entendimento comum ” e compartilhado sobre um determinado dominio de conhecimen- to, tanto entre pessoas como entre computadores; Organizago da Informagao na web: das tags web seméntica Aiton Feitosa 124 Uma ontologia é uma especificacao explicita de uma conceituacio. Nessa definigao: conceituagdo refere-se a um modelo abstrato de algum fenémeno, sendo identificados os conceitos relevantes des- se fendmeno; explicita significa que o tipo de conceitos utilizados € as restrigdes a esse uso so explicitamente definidos; formal refe- re-se ao fato de que a ontologia deve ser legivel por maquina; com- partilhada reflete a nog&o de que uma ontologia captura um co- nhecimento consensual, isto é, nao privativo de um individuo, mas aceito por um grupo (GRUBER, 1993, apud GOMEZ-PEREZ, 2000). Do ponto de vista da representacgio do conhecimento, uma ontologia néo deve ser concebida apenas como um vocabulario informal, ou mesmo como uma linguagem de termos estruturados ~ como um fesauro, por exemplo —, mas requer uma possibilidade de interpretagio algoritmica dos seus significados ¢, por conse- guinte, uma representagéo em uma linguagem formal, cujo processamento dos significados pode ser realizado por maquinas; Na génese das linguagens de marcaciio c de especificagio de ontologias para a Web Semantica encontra-se a XML, que fornece uma sintaxe bdsica para a estruturaco de documentos, mas nao possui elementos que lhe permitam impor restrigdes semanticas ao significado de tais elementos. Fundados nessa linguagem estio os padrées XML-Schema, RDF, RDF-Schema, DAML+OIL, OWL, entre outros. XML-Schema impOe restrigdes sintaticas 4 estrutura de documentos escritos em XML. RDF é um modelo de dados para objetos ou “recursos” e tal modelo pode ser representado uti- lizando-se a sintaxe da XML. RDF-Schema € um vocabuldrio para a descrigdio de propriedades e classes de um modelo RDF, com a utilizagéo de elementos semanticos para a generalizagao de tais propriedades ¢ classes, Complementando todas essas tecnologias, a OWL fornece mais vocabulario para a descrigéo de propriedades e classes, por meio de: a) relacdes entre classes — por exempl disjungao; b) cardinalidade — por exemplo: univocidade; c)igualdade; Organizagéio da Inlormagéo na web: das tags & web seméntica Allon Feitosa, 122 d) maior riqueza de propriedades para a especificacao de tipos de dados; e) propriedades relativas a caracteristicas — por exemplo: simetria; e) enumeracdo de classes (W3C, 2003). Esses sao, tam--” bém, os objetivos da linguagem DAML+OIL (OQUELLET;OGBURL, 2002); Y Esses padrdes aplicam-se 4 representagdo semantica de diferentes -_ dominios do conhecimento, em diferentes idiomas e culturas, Organizagéo da Informagdo na web: das tags A Web semantica Allon Feitosa 123 5 Consideracgées Finais Ao longo dos anos, os métodos e as técnicas de organizagao da in- formac&o na web foram se alterando, de tal maneira a evoluirem da primei- ra a terceira geracao. A primeira gerac&o revolucionou as formas de comu- nicagdo, permitindo o acesso remote a documentos, independentemente de localizagdo, de sistema operacional e de plataforma de hardware. A se- gunda geracgao propiciou a flexibilidade na apresentag&o de contetidos, uma vez que favoreceu a separacaéo entre metodologias de formatac&o e de armazenamento de informagées. A partir desse paradigma, tornou-se pos- sivel apresentar o mesmo contetido em diversos formatos e suportes. A segunda geragao da web, por meio da linguagem XML, revolucionou tam- bém as formas de integragao entre os diversos sistemas de bancos de da- dos. A terceira geracao, iniciada hé quase uma década, mas ainda em fase de desenvolvimento, espera apresentar sua parcela de contribuicéo nessa sucesséo de revolugGes: a extraciio automatica do contetido semantico da informagao contida nas paginas da web. Como sustentaculo desses modelos e tecnologias utilizados na web, antigos e, por que no dizer, novos conceitos origindrios da Ciéncia da Informagiio, patenteiam sua contribuic&o incontestavel. Modelos classicos de organizagao da informagéo como os sistemas de classificaciio, as lin- guagens documentarias e os sistemas de indexagéio manual, semi-automa- tica © automatica, desempenham importantes contribuicdes em diferentes iniciativas que, em seu Amago, empenham-se sempre na mesma diregio: a melhoria dos processos de busca e recuperaciio na Internet. Nao é divergen- te o objetivo de metodologias mais recentes como, por exemplo, os proje- tos Dublin Core, TEI, GILS, para citar alguns entre os conjuntos de metadados pesquisados a partir de anos recentes. As taxonomias também tém sido incluidas no catélogo de esforgos aqui enumeraveis. Organizagao da Informagio na web: das tags & web seméntica Ailton Feitosa 124 Ao lado desses padrées ¢ metodologias, as ontologias procuram es- tabelecer relagdes entre conceitos, objetos e classes de objetos, tomando suas propriedades constitutivas para andlise. As ontologias da Web Se- mantica procuram, assim, representar e descrever o conhecimento de certo dominio por meio da expressao formal dos relacionamentos entre os con- ceitos especificos daquele campo cientifico, profissional ou técnico. Essa formalizagio, que utiliza modelos como RDF, RDF-Schema, DAML+OIL, OWL, entre outros, pretende o alcance da capacidade de fornecer a um agente inteligente a instrugdo necessaria para estabelecer comparagGes en- tre os conceitos, de tal modo que, partindo dessas comparag6es, um meca- nismo possa realizar inferéncias sobre tais conceitos. Em outros termos: buscam-se métodos de se fornecer os instrumentos para que os agentes inteligentes consigam extrair conhecimento da informagio publicada. Muitos passos ainda serfo necessdrios até que a humanidade consi- ga trilhar os caminhos aqui mencionados. Apresentando os conceitos aqui revistos, esta obra pretendeu, assim, oferecer seu estimulo como sendo um pequeno impulso nervoso a sugerir que os misculos iniciem sua jornada na diregio dos trilhos da Web Semantica. Organizagdo da Informagéo na web: das tags a web semantica Ailton Feitosa 125 Bibliografia BAEZA-YATES, R.; RIBEIRO NETO, B. Modern Information Retrieval. New “York: Addison-Wesley, 1999, 513 p. BAX, M. P., CAMPOS, F. Como as Maquinas de Busca Indexam Paginas HTML. na Web In; Congresso Brasileiro de Biblioteconomia e Documentagaa, 2000, Rio Grande do Sul. BERNERS-LEE, T. fnformation Management: A proposal. CERN: 1989. Disponivel em: . Acesso em: 07 mai. 2003. BERNERS-LEE, T. Semantic Web road map. 1998b, Disponivel em: . Acesso em: 09 mai. 2003. BERNERS-LEE, T. Uniform Resource Identifiers (URI): Generic Syntax. 1998a. Disponivel em: . Acesso em: 06 mai. 2003, _ BERNERS-LEE, T. Web Architecture from 50,000 feet. 1999, Disponivel em: . Acesso em: 06 mai. 2003. BERNERS-LEE, T.; HENDLER, }.; LASSILA; O. The Semantic Web. Scientific American,com, 2001. Disponivel em: . Acesso em: 06 mai. 2003. BOSAK, J.; BRAY, T. XML and the Second-Generation Web. Scientific American, New York. May, 1999. Disponivel em: . Acesso em: 12 mai. 2003, BOWMAN, J. K. Search Engine optimization and web site promotion. 2004. Disponivel em: . Acesso em: 16 dez. 2004. BRICKLEY, D. Semantic Web history: nodes and arcs 1989-1999, The www proposal and RDF. 2001. Disponfvel em: . Acesso em: 09 mai. 2003, CARNEIRO, M. V. Diretrizes para uma politica de indexag&o. Belo Horizonte: Revista da Escola de Bilbioteconomia. UFMG, 14(2):221-241 set. 1985. Otganizagao da Informagao na web: das tags & web semantica Ailton Feitosa : | 126 CAVALCANTI, C. R., Indexagao. In: Estudos avangados em biblioteconomia e Ciéncia da Informagdo, volume I. Brasilia: ABDF, 1982. CENDON, B. V. Ferramentas de busca na Web. Ciéncia da Informagdo, Brasilia, v.30, n. 1, p. 39-49, jan/abr. 2001. COMITE GESTOR DA INTERNET NO BRASIL. indicadores - Crescimento da Internet. Disponivel em: . Acesso em: 22 ago. 2004. . DACONTA, M. The Semantic Web. A guide to the future of XML, Web Services, and Knowledge Management. Indianapolis, Indiana: Wiley Publishing Inc. 2003. DAY, M.. Metada Formats. In: DESIRE Information Gateways Handbook. 2000. Disponivel em: . Acesso em: 16 dez. 2004, DEMPSEY, L.; HEERY, R. Metadata: a current view of practice and issues. Bath, United Kingdom: UKOLN — The UK Office for Library and Information Networking, University of Bath, 2000. Disponivel em: < http://www.ukoln.ac.uk/. metadata/publications/jdmetadata/>. Acesso em: 24 dez. 2004. DICTIONARY.COM. 2004. Disponivel em: . DOGPILE. About DogPile. Disponivel em: , Acesso em: 05 out. 2004, FERREIRA, A. B. de H. Novo Diciondrio da Lingua Portuguesa. Rio de Janeiro: Editora Nova Fronteira, 1986. FURGERL, Sérgio. Ensino diddtico da linguagem XML. Sao Paulo: Erica, 2001. GOMEZ-PEREZ, A. Ontological Engineering: a state of the art. Expert Update. 1999. Expert Update. Ontono 2(3): 38-43. Disponivel em: , Acesso em: 17 jul. 2004. GUARINO, N.; WELTY, C. Supporting ontological analyses of taxonomic. relationships. Data & Knowledge Engineering, v. 39, 2001. p. 51-74. Disponivel em: http://www.loa-cnr.it/Papers/dke200 1 pdf. Acesso em: 21 nov. 2004, GUINCHAT, C , MENOU, M. Introducdo geral as ciéncias e técnicas da informagao e documentacdo. Brasilia; IBICT.1994. 540p. HARMAN, Donna. Automatic Indexing. In: Challenges in Indexing Electronic Text and images. Medford, New Jersey: Asis, 1994. p.247-264 HAROLD, E. R. XML bible. Foster City, CA: IDG Books Worldwide, Inc. 1999. Organizagéo da Informagéo na web: das tags & web seméntica Aitlon Feitosa 127 HAROLD, E. R.; MEANS, W. S. XML i a Nutshell, 2nd Edition. Gravenstein Highway North, Sebastopol, CA: O'Reilly & Associates Inc. 2002. HYVONEN, E. The Semantic Web - The new Internet of Meanings. In: HYVONEN, Eero (editor). Semantic Web Kick-Off in Finland: vision, technologies, research » and applications. Helsinki, Finland: HUT Publications. 2002, Disponivel em: . Acesso em: 26 mai. 2003. KARTOO. Sistema de ajuda do site. Disponivel em: . Acesso em: 05 out. 2004. . LANCASTER, EF. W. Indexagdo e resumos: teoria e prdtica. Brasilia: Briquet de ~ Lemos Livros, 1993. 347 p. LASSILA, O. Introduction to RDF metadata, 13/11/1997. Disponivel em: . Acesso em: 15 mai. 2003. LIMA, FE. Modelagem Semdntica de Aplicagées na WWW. 2003. Tese (Doutorado em Informatica) - Pontificia Universidade Catdlica do Rio de Janeiro, Rio de janeiro, Brasil. MAEDCHE, A. Development and applications of ontologies. Institute AIFB, Knowledge Management Group, University of Karlsruhe, Germany. 2000. Disponivel no enderego . Acesso em: 08 abr. 2003. MARCO, D. Building and Managing the Metadata Repository: A Full Lifecycle Guide, New York: John Wiley & Sons, Inc. 2000. MILLER, E.; KOITVUNEN, M. W3C Semantic Web Activity. In HYVONEN, Eero (editor) Semantic Web Kick-Off in Finland. Vision, technologies, research and applications, Helsinki, Finland: HIT Publications. 2002. Disponivel em: {http:// www.cs.helsinki fi/u/eahyvone/stes/semanticweb/kick-off/index.html]. Acesso em: 26 mai. 2003. MOLE - Text Analysis Group. Boolean Retrieval. 1999a. Disponivel em: . Acesso em: 09 set. 2003. MOLE =~ Text Analysis Group. Probabilistic Retrieval. 1999c. Disponivel em: . Acesso em: 09 set. 2003, MOLE ~ Text Analysis Group. Vector Space Model. 1999b. Disponivel em: . Acesso em: 09 set. 2003. Organizago da Informagdo na web: das tags & web seméntica Alon Feitosa 128 NAPRIA, I. Ell futuro de Internet tiene nombre: la web seméantica, 23/05/2001, Disponivel no site Baquia.com: http://www. baquia.com/com/20010523/ art00008.html. Acesso em: 07 nov. 2003. A NAKAYAMA, H. Andlise Temdtica da Informagdo. Nota de aula da discipling : Anilise Tematica, do curso de Doutorado, Departamento de Ciéncia da Informagag e Documentagao, Universidade de Brasilia, 29/03/2001. NISO Press. ANSI/NISO Z39,85-2001 - The Dublin Core Metadata Element Set, Bethesda, Maryland, USA: NISO Press, 2001. Disponivel em: . Acesso em: 24 dez. 2004. NISO Press. Understanding Metadata. Bethesda, Maryland, USA: NISO Press, 2004. Disponivel em: < http://www.niso.org/standards/resources/. UnderstandingMetadata.pdf>. Acesso em: 24 dez. 2004. : NOY, N.; MCGUINNESS, D. Ontology Development 101; A Guide to Creating Your First Ontology. Stanford University, 2004. Disponivel em: [http: protege.stanford .edu/publications/ontology_development/ontology 101 pdf] NUA - INTERNET SURVEYS. Ecommerce 1998-2003. Disponivel em: , Acesso em: 22 ago. 2003. 2003b, NUA - INTERNET SURVEYS. How Many Online?. Disponivel em: , Acesso em: 22 ago. 2003.. 2003a. NUTCH. Sobre. Disponivel em: . Acesso 19 set. 2004, ONTOKNOWLEDGE. Welcome to OIL. Diponivel em: , Acesso em: 12 nov, 2004. QUELLET, R.; OGBUJI, U. Introduction to DAML: Part I. Publicado em 30/01/ 2002. Disponivel em: . * Acesso em: 12 nov. 2004. PALMER, S. B. The Semantic web: an introduction. 2001. Disponivel em: . Acesso em: 17 mai. 2003. PIEDADE, M. A. R. Introdugdo @ teoria da classificagdo. Rio de Janeiro: Interciéncia, 1977. 190 p. POWERS, S, Paractical RDF, Sebastopol, CA; O'Reilly & Associates Inc. 2003. 350 p. PROFUSION. Help. Disponivel em: . Acesso em: 05 out. 2004. QUIVEY, M. A. The Semantic Web The Future of Our Online Experience. EDL547 New Technology Research Paper. MTL Program — University of Illinois. 22/04/ 2002. Disponivel em: . Acesso em: 12 mai. 2003. REGISTRO.BR. Dominios Registrados por DPN. Disponivel em: . Acesso em: 22 ago. 2005. | ROBREDO, J. A indexagaio automitica de textos: o presente j4 entrou no futuro. In: MACHADO, U. D. (editor). Estudos avangados em Biblioteconomia e Ciéncia » da Informagao. Volume I. Brasilia: ABDF, 1982. ROBREDO, J.; CUNHA, M. B. Documentagdo de hoje e de amanha: uma abordagem informatizada da biblioteconomia e dos sistemas de informagdo. Sao Paulo: Global, 1986. SCIRUS. About Scirus. Disponivel em: . Acesso em: 05 out. 2004. SEMANTIC web primer. 2002. Disponivel em: http://uwimp.com/eo.htm. Acesso em: 15 mai. 2003. SEOCONSULTANTS.COM. History of Search Engines and Directories - Search Engine History, 2004. Disponivel em: . Acesso em: 19 jul. 2004. SEOCONSULTANTS.COM. Meta Tags - Metadata Elements. 2004a. Disponivel em: . Acesso em 26 dez. 2004, SERVER WATCH. December 2004 Netcraft Survey Highlights. Disponivel em: . Acesso em: 12 dez. 2004, STUCKENSCHMIDT, H.; VAN HARMELEN, F. Information Sharing on the Semantic Web. 2003. Copiado da Internet por meio do aplicativo E-mule . Acesso em: 15 nov, 2004, (manuscrito) SULLIVAN, D. Major Search Engines and Directories. Publicado em 28 abr. 2004. Disponivel no site Search Engine Watch . Acesso em: 13 set. 2004.(b) SULLIVAN, D. Score Media Metrix Search Engine Ratings. Publicado em 23 jul. 2004. Disponivel em: , Acesso em: 20 set. 2004. (a) Organizagdo da Informagao na web: das tags a web seméntica Ailton Feitosa, 130 SULLIVAN, D. Who Powers Whom? Search Providers Chart. Publicado em 23 jul. 2004. Disponivel no site Search Engine Watch . Acesso em: 20 set. 2004.(c) SWARTZ, A. The Semantic Web In Breadth. 2002. Disponivel em: . Acesso em: 16 mai, 2003. TAYLOR, C. An Introduction to metadata. 2003. Disponivel em: . Acesso em: 16 dez. 2004. USCHOLD, M; GRUNINGER, M. Ontologies: principles, methods and applications, Edinburg: The University of Edinburg, 1996. Disponivel em: . Acesso em: 15 jul. 2004, VALENTINE, C; WINNICK, C. XHTML, Rio de Janeiro: Campus, 2001. VIVISSIMO. Help. Disponivel em: . Acesso em: 05 out. 2004, W3C Resource Description Framework (RDF): Concepts and Abstract Syntax. 2004. Disponivel em: < hitp://www.w3.org/TR/2004/REC-rdf-concepts-20040210/ > Acesso em: 2 dez, 2004, W3C. HTML 4.01 Specification. 24/12/99. Disponivel em: http://www.w3.org/ TR/REC-html40/cover.html#minitoc. Acesso em: 10 nov, 2003. WSC. HyperText Markup Language (HTML) Home Page. 11 abr. 2003. Disponivel em: http://www.w3.org/MarkUp/. Acesso em: 10 nov, 2003. WSC, OWL Web Ontology Language - XML Presentation Syntax. 2003c. Disponivel em: . Acesso em 27 set. 2004, W3C. RDF Vocabulary Description Language 1.0: RDF Schema. 2004b. Disponivel em: . Acesso em: 21 dez. 2004. W3C. Resource Description Framework, 2003a. Disponivel em: . Acesso em: 05 mai. 2003. WSC. Semantic Web. 2003b. Disponivel em: . Acesso em: 05 mai. 2003. W3C. XML Schema Part 0: Primer Second Edition, 2004a. Disponivel em: , Acesso em: 30 dez. 2004. W3SCHOOLS. Rdf Tutorial. Disponivel em: . Acesso em: 18 nov. 2004. Organizagao da Informagao na web: das lags 4 web seméntica Ailton Feitosa 131 WALL, A. Keyword Phrases and the Meta Keywords Tag. 2004a. Disponivel em: . Acesso enn 26 dez. 2004, ~ WALL, Aaron. History of Search Engines & Web History. 2004. Disponivel em: chttp://www.search-marketing jnfo/search-engine-history/index.htm>. Acesso em: 19 set. 2004. WILLEY, J. A history of search engines, Disponivel em: . Acesso em: 19 set, 2004. YAHOO!. How do I improve the ranking of my web site in the search results? 2004. Disponivel em < http://help. yahoo.com/help/us/ysearch/ranking/ranking- 02.html>. Acesso em 26 dez. 2004. janizacdo da Informagao na web: das tags & web semantica Omens * Ailton Feitosa Oncawaso ov wFoRHAGAO Kk WES: OAS ES ‘wa stiina foi composto em ti- pologia Life, corpo 10,5p! e impresso em papel Paperfect 75g nas oficinas da THesAU- RUS EDITORA DE BRASILIA, Acctbou- se de imprimir em agosto de 2006, citavo més do sexto ano do Terceiro Milénio.

Você também pode gostar