Você está na página 1de 9
|. Introdugao Na histéria das bibliotecas, & medida que as coleces aumentam, screver documentos vem se tomando uma condigdo fundamental para ibiltar sua posterior recuperacao entre os itens da colecao, avalia- 0 de relevancia e posterior uso. Profissionais de informacéo vem crian- hid séculos, metodologias para registro, inventario e descricdo de smentos, como forma de controlar acervos e prover meios de acessar letivamente os itens de uma colecdo. Um instrumento de pesquisa de gm arquivo ou um catdlogo de uma biblioteca nada mais sio que descri es de documentos de uma colecéo organizadas com a finalidade de ilitar sua recuperacdo e acesso, os agora chamados metadados ILSTED, 1999), _ O que antes era um problema dos profissionais de informacao, em Ontextos especficos como a recuperagao de informacao em arquivos iblitecas, generaliza-se com o surgimento da Web em meados dos anos 0. Parelas significativas da cultura contempordnea, entretenimento, cién- Gia, educacio e negécios passam a estar organizados em torno da Web, termo “metadados” surge neste contexto: o crescimento acelerado e "Frolesx do Deparamento de Cidncia da inormaco, UF, matcone>vm tbr 5 ‘abtico da Web coloca na ordem do dia 0 problema de identificar, recu- perar e avaliar a infinidade de recursos os mais diversos, tornados dispo- niveis na Web. Um dos maiores objetivos do uso de metadados no contexto da Web eimitir nao sO descrever documentos eletrénicos e informagoes em )ssibilitando sua avaliacdo de relevancia por usuarios humanos. ‘mas também permitir agenciar computadores e programas especiai. ro bs e agentes de software, para que eles compreendam os metadados “Associados a documentos e possam ento recupera-los, avaliar sua rele Vncia e manipuli-los com mais eficiéncia. Nesta questao € que entra a linguagem XML — Extensible Markup Language (Linguagem de Marcagio ismo de codificar metadados associados a um documento eletrOnico, em um formato que sejalegivel nao s6 por pessoas, mas também por programas. O uso de programas para processar metadadas em XML é um dos pilare pilares da iniciativa chamada Web semantica (BERNERS-LEE, 2001), A identificacao e recuperacao de recursos informacionais toma-se assim uma das questdes mais importantes da atual economia da Web. ‘Como ja diziamos (MARCONDES. 2001). “... a informacao relevante para ‘um dado problema tem que estar disponivel no tempo certo, De nada adianta a informacdo existr se quem dela necessita néo sabe da sua exis- téncia ou se ela nao puder ser encontrada.” A literatura brasileira ¢ ainda escassa e esparsa sobre o assunto (SOU. ZA, 1997; ROSSETO, 2002), As experiéncias priticas brasileiras mais conhecidas se referem ao desenvolvimento do Padrio Brasileiro de Metadados de Teses e Dissertagoes Digitais, o MTbr (MARCONDES, 2003), da Biblioteca Brasileira de Teses e Dissertagdes (BDTD) operada pelo Ibict. Outra experiéncia significativa € a implementacdo do Open Archives Protocol for Metadata Harvesting no Scielo (MARCONDES, 20036) FEste capitulo discute estas atividades de descricdo de informacdes ~ 10 uso dos assim chamados metadados ~ no contexto da Web e das pu blicagdes eletrénicas e sua importancia para a recuperacio e a economia da informacio. Embora o conceito de metadados nao seja limitado 20 uso tna descricdo e recuperacao de informacées, apresenta e discute com mais detalhes 0 padrio Dublin Core, o mais conhecido para esta finalidade. 9% vel) -, padrio proposto e homologado pelo W3C', como meca 2. Web, metadados e descoberta de recursos Metadados sao definidos como “dados sobre dados” (WEIBEL, 1995). ‘$40 dados associados a um recurso web, um documento eletrnico, por Speoos icpenenen eee, -descrevé-Io e avaliar sua relevancia 6-l0 (0 tamanho de um documento, downloading, ou @ seu formato, para sabermos se dispomos do programa adequado para f 4-Io), gerencid-lo, utiliza-lo, enfim. A primeira tentativa de dar conta da explosdo informacional em que se ‘trafsfcrmou a Web foram os catdlogos, como o Yahoo (0 primeiro catslogo” J€ 08 chamados mecanismos de busca, como AltaVis “WedCiaver etc, mais recentemente,o Google. Enquanto em ctélogos ‘como 0 Yahoo, a descoberta, avaliacdo e descrcao e inclusdo dos recursos b nia base de dados sao feitas por profissionais de informacao, os meca~ lismos de busca, para indexarem a Web, possuem programas que visitam gina por pagina da Web. percorrem o texto de cada pagina, extraindo dai palavres-chave e armazenando em uma base de dados estas palavras-cha- Ve, ass2ciadas 20 URI da pigina.£ sobre esta base de dados que os usua- 0s fazem suas buscas nos sites dos mecanismos de busca Naturalmente, por set uma indexacdo automatica com base em palavras isoladas, totalmente desprovida de qualquer o_contextual, 0s resultados tém baixissima_precisao (SNEt- DERMAN, 1997). Estudos como o citado reforcam a dimensao do problema €alizacao/identificacao colocado pela Internet. Com o objetivo de ajudar a obter maior precisao nas buscas por pagi- web, ajudando os robés dos mecanismos de busca a fazer uma Jndexarao de maior qualidade, em um primeiro momento foram incorpo- dos metadados no texto mesmo destas paginas. Isto foi feito com 0 180 de tags especiais da linguagem HTML (a linguagem em que sdo es- Gritas as paginas da Web), as tags META, como mostrado a seguir: ‘ ‘Ouentio: ‘la nome = “dc creator content = *MARCONDES, Corlos Henvique"> 7 ‘As tags ndo ficam visiveis quando a pagina HTML é exibida na tela de um browser como Internet Explorer ou Nestcape Navigator, mas. podem ser pro- cessadas por um programa-rob6 que esteja indexando a pagina. ‘No entanto, esta tentativa inicial esbarra com outro problema, a emer géncia da chamada ‘Web profunda, ou deep Web (BERGMAN, 2001). Apos um perfodo inicial da Web, baseado em paginas estéticas escritas na uagem HTML e armazenadas como arquivos .htm| ou .htm nos dife- Tentes servidores Web — a chamada Web superficial -, cada vez mais documentos eletrénicos s0 se tornam acessiveis por meio de interfaces de bancos de dados. invisiveis, portant, aos programas-rob6 dos meca: rismos de busca, Esta 6 a chamada Web profunda. Nestes casos, as pa- ginas HTML sao geradas pelos sistemas de bancos de dados on-the/ly, ‘ou seja, dinamicamente, como resultado de uma consulta especifica, s6 para aquele usuatio que fez a consulta, e no mais como arquivos arma- zenados permanentemente no disco rigido de um servidor. Segundo este autor, a Web profunda é de 1,000 a 2,000 vezes maior que a Web super- ficial. ice eae w ~ Exemplos desta situac3o podem ser vistos quando consultamos o site dda Receita Federal para saber se a devolucdo do Imposto de Renda jé foi depositada em nossa conta corrente. Quando informamos o CPF. 0 siste- ima de banco de dados emite automaticamente um documento em HTML 6 para nés, Caso semelhante acontece quando consultamas o site do IBGE, cruzando mortalidade infantil com determinado municipio, com de- terminado ano. Em casos como os citados, esquemas como as tags META, que sdo parte de um documento HTML armazenado em um servidor, nao funcionam, porque os programas-robé dos mecanismos de busca, ao per- correrem determinado site, nao encontrarao estas paginas. (© problema da Web profunda faz com que, hoje em dia, cada vez ‘mais metadados estejam armazenados em bancos de dados ou catélogos de bibliotecas digitais, associados, através de URL, aos documentos ele- trdnicos que eles descrevem. Conjuntos de metadados relativos a um documento eletrénico também nao precisam ser Unicos: varios conjun- tos de metadados produzidos por diferentes instituigdes podem ser as- sociados a0 mesmo documento eletrénico. Assim 0 mesmo documento eletrénico pode estar sendo referenciado por varios conjuntos de 98 metadados, um livro pode ter cépias em diversas bibliotecas e em cada “uma delas ser descrito diferentemente, com vérias finalidades diferentes, ‘0 $6 para descrevé-lo e ajudar na sua recuperacdo, mas também para ajudar a sua gestao, identificar questdes relativas a direitos autorais ou 3 ipreservacio digital do documento, _ Adescoberta de recursos para viabilizar seu uso torna-se, como ja foi dito, altamente critica em um ambiente como a Web. Diferentemente do texto restrito dos catélogos de uma biblioteca, a Web é um ambiente partlhado, mas altamente desestruturado, gerido de forma descentra- dae em crescimento explosivo, constituindo um verdadeiro desafio para estores, em especial para os profissionais da informacao, Todas as Bes e decisdes dos profissionais de informacao tém impacto global; tudo. de ser empregadas em escala global. Estamos falando de cooperacio e partilhamento de recursos. No espaco da Internet, atvidades como a descoberta de recursos so esenvolvidas nao s6 por ususrios humanos, mas também, e cada vez mais, rescimento explosiv. ‘Além do uso de agentes de software, outra estratégia igualmente im- igada também a questo dos metadados, é — uma vez que a8 .95es na Web crescem de forma exponencial endo existem profssi- is de informacdes suficientes para descrevé-los todos — permitir que os autores descrevam seus documentos ao publicé-los eletronica- jente “na fonte”, conforme uma proposta bem antiga da biblioteconomia, ara isso, & necessério, portanto, que descrigdes/tepresentagoes de Uursos informacionais ~ os agora chamados metadados = possam se Buir um padrao de descricéo que seja simples o suficiente para que um Gutor possa descrever seu documento. Esta é a proposta da iniciativa ee core, 3. O padrao Dublin Core e sua codificagao legivel por maquina Q padrio de metadados para descricdo de documentos elete proposto pela Dublin Core Metadata Initiative - DCMI (http:/purl.org/dc) oi pensado segundo esta idéia: ser simples 0 suficiente auto-explicativo de modo que o préprio autor do documento possa descrevé-lo ao publica: ‘jo eletronicamente. Outros padrées de descricio/tepresentacdo de docu- mentos, como 0 MARC. por exemplo, s40 mais complexos, exigindo © porte dé profisionais de informacao treinados. ‘© padrio DCMI é composto de somente 15 ‘elementos descritivos, simples e auto-explicativos, o chamado Dublin Core Metadata Element Set — DCMES. Nos sistemas de publicacao eletrénica, 20 submeter seu documento a uma biblioteca digital ou a um arquivo de pre-prints, 0 au- tor, 20 inclu ou fazer upload do texto, preenche um formulério descre vendo seu documento, associando metadados ao mesmo e armazentando-os ‘em catalogo automatizado ou base de dados. CO conjunto de metadados DCMI e sua utilizacao s4o os seguintes: + Subject (assunto); + Title (titulo); + Creator (autor, responsdvel pelo documento); + Publisher (publicador, quem torna o documento disponivel na Internet): + Contribuitor (outros colaboradores ~ editores, tradutores e outros): * Description (descricao, resumo, sumério); + Date (data de publicacao); + Type (tipo de recurso — homepage, romance, poesia, software, dic: onatio): * Format (formato do arquivo que contém o documento eletrénico ~ texto, POF, LaTex. HTML, Word ou outro); * Indetifier (geralmente o URL de um documento eletrOnico); * Relation (relacionamentos com outros documentos, por exemplo: verses): * Source (fonte ou origem) + Language (idioma do documento); * Coverage (cobertura — espacial ou temporal, sobre que lugar, ou sobre 2 que época o texto se refere): 100 ‘*Rights (texto livre especificando qualquer testricao referente a direi- tos autorais). A concisio da descricio de um documento obtida pelo uso dos 15 ele: sido objeto de discussao entre os partici mentos descrtivos Dublin Core te ppantes da DCMI. Esta concisdo resulta em perda de precsio na recuperacio de Jinformagoes. Para superar estes problema, a DCMI propos tambérros chamria= jos qualificadores (httpy7/purl org/de/documents-cemnes-qualifiers- 7 1 .htr) de alguns dos elementos doconjunto, por exemplo (utilizan se aqui também as tags META da linguagem HTML para codificacio) - ou ": a cada marcacao in: dicando 0 inicio de um determinado conteddo, por exemplo corresponde uma marcacio de fim, ; 05 contetidos ficam entre marcacées, Joao da Silva, assim: “outor> Décio, Orévie C XML: guie de consulta répido. “local >$80 Pavle Novatec ‘dato>2000 ‘Todo documento XML é dito “bem formado” quando pode ser associa- do a uma arvore, que deve ter uma marcacdo raiz (no caso, ); a toda marcacao inicio deve corresponder uma marcacso fim ( e , e etc) AAs linguagens para marcacao de textos tiveram inicio com a SGML - Structured Markup Language — e tém na HTML ~ Hypertext Markup 102 nguage — que se constitui na base da “teia global” da Internet, sua jo mais conhecida. A diferenca entre a HTML e a XML € que, na prime, as tags sdo predefinidas, imutaveis; por exemplo, e para cabecalhos, e para hiperlinks etc. Todo wrento deve ser identificado como HTML ( ), ter ima drea de cabecalho ( ) com o nome para o documento title> ), um titulo principal e uma drea definida como corpo body > ) do contetido do documento. Como o exemplo a seguir Bxomplo de HTML simples ‘ <Ese 60 primero nivel de cabecalho Bom:vindo 00 mundo do HTML. Este 60 primeiro porogrto.

Este 60 segundo.

Esta pagina vai aparecer assim na tela de um browser: Fgura 1 - Docunenlo em HTML, conkrme ei plo bowser Emum documento XML as marcagoes nao tém aver com a aparéncia documento ao ser exibido em um browser, e sim com sua estrutura. ambiente eletrdnico de funcionamento de um documento XML. na Web nte complexo. Na verdade, um documento XML pode fazer referén- 103 cia a uma folha de estilos ~ CSS, eascating style sheet -, com instrucdes referentes especificamente a como 0 documento deve ser exibido. Um documento XML também pode fazer referéncia a um outro arquivo, cha- ‘mado esquema (XMLSchema) ou DTD (Document Type Definition), que specifica regra de validade do documento, por exemplo, quantas ocor réncias do campo s4o possiveis, que contetido € vilido para o ‘campo ~ letras, niimeros, valores numéricos. O uso de documentos XML associados a esquemas ou DTDs garante grande precisio na sua formatacio, permitindo que eles possam ser usados em transacées “se guras” via Internet, como, por exemplo, em comércio eletr6nico. Para evi- tar confusGes semanticas sobre os campos usados em documentos XML. 0 uso do campo em um livro ou em uma acio judicial, docu mentos XML também podem fazer referéncia aos chamados espacos de rnomes ~ name spaces -, vocabulrios especificos que permitem identifi car, através de uma URL, em que contextos ¢ que comunidades utilizam ‘um determinado significado para os campos de documentos XML. Os ele ‘mentos que compéem o ambiente eletrOnico de funcionamento de um documento XML na Web podem ser vistos de forma integrada na seguinte ilustracéo: Fiquo 2 Componentes do ombiana de documeros XML page de nomes pine 104 Um exemplo do uso de metadados segundo 0 padrao Dublin Core ‘cadificados em XML é 0 protocolo Open Archives Initiative Protocol for Metadata Harvesting - OAI-PMH (http//wwwopenarchives.org/OAl/ narchivesprotocol htm). Este protacolo surge da comunidade cienti- ica que publica seus trabalhos em arquivos eletronicos de acesso aber- 05 open archives (http:/Awww.openarchives.org), que comecam a sur- jr como alternativa aos periédicos publicados pelos grandes editores fins da década de 90, para publicacio direta pelos proprios autores JARCONDES, 2001). O OAI-PMH permite 2 coleta automitica de idados de documentos armazenados em arquivos de publicacées ele- nicas — 0s “provedores de dados”. Um vez coletados, metadados de jocumentos eletronicos de diferentes pravedores de dados podem ser utilizados”, por exemplo, agregados em uma s6 base de dados, per- indo realizar uma busca unificada a esta base como se estivesse sen feita aos diferentes provedores de dados simultaneamente. Os fadados sao coletados segundo o padréo Dublin Core, A seguir é jstrado o didlogo entre os programas: harvest do provedor de servicos e idor OAI-PMH: 0 programa harvest solcita metadados de determina- documento, recebe como respostas estes metadados. segundo o pa- Dublin Core e codificados em XML = solicitacio, pelo programa harvest, de metadados segundo o pa- dro Dublin Core (“oai_de”), do documento identificado por “oai:arXiv:cs/01 12017", do arquivo de pre-prints “arXiv.org”, enviada segundo um comando HTTP: hip: /arkivora/oci2ver 1011201 78metodotPref etRecordBidentfier=ookarkvcs/ ide 105

Você também pode gostar