Você está na página 1de 100

Ketib Um processo de representao de informaes para textos complexos Eduardo Santos Kerr Trabalho Final de Mestrado Profissional

ii

Instituto de Computao Universidade Estadual de Campinas

Ketib Um processo de representao de informaes para textos complexos


Eduardo Santos Kerr Julho de 2003

Banca Examinadora: Prof. Dr. Ariadne Maria Brito Rizzoni Carvalho Instituto de Computao - UNICAMP Prof. Dr. Paulo Lcio de Geus (Orientador) Instituto de Computao - UNICAMP Rev. Dr. Rudi Zimmer Escola Superior de Teologia do Instituto Concrdia Prof. Dr. Claudia Maria Bauzer Medeiros (Suplente) Instituto de Computao UNICAMP

Co-orientador
Prof. Fernando Antnio Vanini Instituto de Computao - UNICAMP

iii

FICHA CATALOGRFICA ELABORADA PELA BIBLIOTECA DO IMECC DA UNICAMP


Kerr, Eduardo Santos K461k Ketib Um processo de representao de informaes para textos complexos / Eduardo Santos Kerr Campinas, [S.P. :s.n.], 2003 Orientadores: Paulo Lcio de Geus; Fernando Vanini Trabalho final (mestrado profissional) Universidade Estadual de Campinas, Instituto de Computao. 1. Recuperao da informao. 2. Estrutura de dados. 3. Processamento eletrnico de dados. I. Geus, Paulo Lcio. II. Vanini, Fernando. III. Universidade Estadual de Campinas. Instituto de Computao. IV. Titulo

iv

Ketib Um Processo de representao de informaes para textos complexos

Este exemplar corresponde redao final do Trabalho Final devidamente corrigida e defendida por Eduardo Santos Kerr e aprovada pela Banca Examinadora

Campinas, 30 julho de 2003.

Prof. Dr. Paulo Lcio de Geus (Orientador)

Trabalho Final apresentado ao Instituto de Computao, UNICAMP, como requisito parcial para a obteno do ttulo de Mestre em Computao na rea de Engenharia de Computao.

vi

Eduardo Santos Kerr, 2003 Todos os direitos reservados

vii

viii

Dedicatria

Esse trabalho dedicado minha querida famlia, minha esposa Denise, minha filha Ana Luisa e meu filho Eduardo, pela importncia da compreenso e colaborao durante o tempo que dediquei para essa atividade acadmica.

Aos meus pais Lysias e Norma, pelo exemplo de vida, de f, pelo incentivo, mas principalmente pelo amor e carinho que tenho tido o privilgio de conviver em todos esses anos, e que esto entre as coisas mais preciosas que poderia receber.

Dedico tambm memria do meu av, Rev. William Kerr, que durante dcadas ensinou o hebraico a uma gerao de alunos que vieram a se tornar mestres dedicados. Durante anos William se empenhou na composio e elaborao da primeira gramtica de portugus-hebraico no Brasil, publicada em 1940.

Sero sed serio.

ix

Agradecimentos
Agradeo a valiosa ajuda dos Rev. Paulo Teixeira da SBB, Dr. Waldir Luz da Unicamp, Dr. Deomar Roos do Instituto Concrdia e do Dr. Paulo Bencio da Instituto Mackenzie, pelo tempo dedicado ao esclarecimento de um obra to complexa como a Biblia Hebraica Stuttgartensia e pela importante orientao sobre a bibliografia na rea de pesquisa.

Agradeo a Sociedade Bblica do Brasil, pelo incentivo profissional, suporte e apoio dado aos estudos e pesquisa do trabalho final do curso.

Por fim, agradeo a Deus, pelas formas inescrutveis pelas quais transmitiu, inspirou e preservou o contedo das Sagradas Escrituras durante milhares de anos, para orientar o homem durante sua breve existncia na terra.

ndice
1. Introduo 2. Conceitos do Problema 2.1 SGML 2.2 A Informao 2.2.1 A representao da informao 2.2.2 Modelo de representao do Ketib 2.3 Anlise do domnio Ontologia do domnio 2.3.1 Ontologia - Definio 2.3.2 Delimitando o domnio 2.3.3 TEI como ontologia do domnio 2.3.4 OSIS como ontologia de aplicao 2.4 Relaes transtextuais 2.5 Texto complexo - BHS 2.5.1 BHS - Estrutura do texto 2.5.2 BHS - Vises do texto 2.5.3 BHS - Relaes transtextuais 2.6 Propriedades essenciais 2.6.1 Reusabilidade 2.6.2 Interoperabilidade 2.6.3 Padro aberto 2.6.4 Flexibilidade 2 4 5 6 7 8 11 12 18 19 21 22 23 30 32 34 36 36 37 37 38

xi

3. Modelos de Informao de Representao 3.1 XML-S 3.1.1 Modelos que usa o XML-S 3.2 RDF-S 3.2.1 Modelo bsico 3.2.2 XML para representao de RDF 3.2.3 Repositrios 3.2.4 O mecanismo de reificao 3.3 Processo de representao Modelo Ketib 4. Ketib para BHS 4.1 Roteiro 4.2 Problemas encontrados 4.3 Solues adotadas 4.4 Exemplo de codificao 4.5 Comparao dos modelos 5. Concluses 5.1 Argumentos finais 5.2 Trabalhos futuros 5.2.1 Frame de controle 5.2.2 Outros domnio 5.2.3 Redefinio da ontologia de aplicao 6. Bibliografia 7. Glossrio Anexo A Anexo B Anexo C Anexo D xii

39 39 42 44 45 48 49 50 52 58 58 58 59 60 62 64 64 65 65 66 67 69 72 73 74 76 79

xiii

Ketib Um Processo para Representao de Informao em Textos Complexos Abstract: The phrase complex text applies to texts that possess transtextual relations within the source text and that relate to other supplementary texts, either for aggregating the different kinds of critics and analyses, or just for better understanding. This work proposes a process for the representation of information in complex texts using the XML language and some related technologies. As part of the representation process, the model defined was one called Ketib, and it is applied, as a case study, to the Biblia Hebraica Sttutgartensia. The reason for selecting this text was its high degree of complexity, making it possible to validate the potential of the model when treating the representation and the codification of information of a multidimensional nature, containing different reference systems. The results are not restricted to the case study and demonstrate the possibilities of this process in texts in other domains. Resumo: O termo texto complexo utilizado para classificar um texto que possua relaes transtextuais dentro do texto de origem e com textos complementares, que sirvam para agregar os diferentes tipos de anlise e crtica, ou simplesmente para permitir uma melhor compreenso. Nesse trabalho, proposto um processo para representao de informao em textos complexos utilizando a meta linguagem XML e algumas tecnologias relacionadas Como parte do processo de representao, foi definido um modelo denominado Ketib, que aplicado, a ttulo de estudo de caso, obra Biblia Hebraica Stuttgartensia. Este texto foi escolhido por apresentar um alto grau de complexidade, tornando possvel demonstrar o potencial do modelo no tratamento da representao e da codificao de informaes com natureza multidimensional que contenham diferentes sistemas de referncia. Os resultados no esto restritos ao estudo de caso e demonstram a viabilidade desse processo em textos de outros domnios

1. Introduo
A representao de informao de texto em formato eletrnico tem sido objeto de pesquisas multidisciplinares. A busca de um modelo que atenda diferentes tipos de texto aponta para a utilizao de um conjunto de tecnologias baseadas em uma metalinguagem, conhecida como XML.[Durusau2002] As dificuldades variam de acordo com a complexidade do texto e com o volume de informaes que ser representada em formato eletrnico e da forma que essas informaes podero ser recuperadas, processadas e manipuladas no grau de detalhes que for pretendido. Esse trabalho descreve um processo adotado para representar diferentes vises da informao contida em textos complexos. O texto escolhido para implementar o processo de representao das informaes foi A Bblia Hebraica Stuttgartensia, 5 edio[BHS1997]. Essa obra possui um alto grau de complexidade, em que a informao pode ser explorada a partir de vises distintas tanto na forma como no contedo. No existe at o momento uma representao que supra os requisitos mencionados. Para ser possvel a representao da informao necessrio ter definido a estrutura do domnio a ser utilizada, bem como suas subcategorias relevantes e propriedades essenciais. Alm da soluo do problema, desejvel que o tipo de representao utilizada possibilite apresentar os mesmos resultados, independente do software empregado para ler e processar a representao das informaes. Essa propriedade conhecida como interoperabilidade.

Embora o texto tratado neste trabalho seja relativo a um domnio especfico, com caractersticas histricas, lingsticas e teolgicas prprias, o processo descrito pode ser aplicado a texto de outros domnios, tais como obras de contedo didtico nas reas de cincias exatas, humanas e biolgicas. O captulo 2 apresenta conceitos importantes para definio do modelo Ketib1, como informao, conhecimento, formas de representao, anlise de domnio, os tipos de ontologia, a estrutura da BHS, as vises e relaes transtextuais da BHS e as propriedades. O captulo 3 aborda as principais metodologias em codificao de texto no domnio definido para aplicao, incluindo a proposta do Ketib. No captulo 4, relatado as principais dificuldades encontradas na realizao do trabalho e uma comparao do Ketib com outros mtodos j existentes. O captulo 5 reservado para as concluses e proposta de trabalhos futuros que podem ser desenvolvidos partindo do modelo de representao descrito neste texto. O nome do processo de representao apresentado neste trabalho, Ketib, uma homenagem aos massoretas. Por vrias geraes, esses judeus eruditos foram responsveis pelas cpias das Escrituras e pelo ressurgimento de um idioma mantido apenas pelas tradies orais. A palavra ketib associada a um tipo tradicional de anotao Ketib-Qere, presente nas cpias do Antigo Testamento feitas atravs dos sculos.

Em hebraico =

, significa: est escrito

2. Conceitos do Problema
Em geral, a representao de informao nos aplicativos feita atravs de estruturas de dados especficas criadas pelos programadores, ou atravs das estruturas pr-definidas nos bancos de dados utilizados em conjunto com esses aplicativos. Os dois casos requerem modificaes freqentes, de acordo com o domnio do problema a ser estudado. A falta de um modelo de representao padro exige um grande esforo de programao na construo de novas mquinas de inferncia e mecanismos de busca. Quando possvel utilizar as estruturas pr-definidas de bancos de dados, o preo da pouca flexibilidade e adequao aos vrios tipos de problemas uma barreia a ser superada. No final, essas dificuldades se resumem no s ao custo financeiro, mas tambm ao tempo de desenvolvimento, que pode ser fator limitante nas novas implantaes, extenses e modificaes nos sistemas de informao. No trabalho aqui apresentando, ficar claro que no foi encontrado ainda um tipo de representao que suporte as informaes em textos complexos. As opes existentes apresentam solues parciais ou direcionadas a tipos especficos de domnio. Para compreender melhor essas dificuldades, considero pertinente um comentrio feito por Marvin Minsky, publicado em um estudo sobre representao e recuperao de informao, no AI Magazine 1991, intitulado Logical x Analogical or Symbolic x Connectionist or Neat x Scruffy, no qual ele comenta:
Nas dcadas de 1960 e 1970, os estudantes perguntaram freqentemente, que tipo da representao a melhor? e eu respondia geralmente que ns necessitaramos mais pesquisa antes de responder a isso. Mas agora eu daria uma resposta diferente: para resolver problemas realmente complexos, ns teremos que usar diversas representaes diferentes" [Minsky1991].

Baseado na observao de Minsky, o trabalho desenvolvido com o princpio de que: um modelo que possa representar textos complexos deve comportar diferentes tipos de representao.

Como resultado das pesquisas e dos trabalhos de representao de informao e conhecimento nos ltimos 20 anos, tem havido um envolvimento multidisciplinar dos desenvolvedores e tm crescido as aplicaes de sistemas de informao nas reas de cincias humanas e biolgicas. O modelo ideal que est sendo buscado enfrenta outros desafios, como por exemplo, no criar mais uma linguagem proprietria, permitir interoperabilidade, flexibilidade de extenso e reusabilidade. Nessa busca por um modelo mais adequado preciso investir no estudo de ontologias e procurar adotar padres abertos de tecnologia.

2.1 SGML Em 1986, aps alguns anos de trabalho, a linguagem de marcao SGML (Standart General Markup Language), atingiu o status de padro internacional. Essa linguagem teve suas origens na linguagem GML proprietria da IBM, e que representou um grande avano no campo da marcao e codificao de texto. Os recursos e mecanismos apresentados no padro SGML so extremamente flexveis, e os autores classificam SGML como uma meta-linguagem. Por definio uma meta-linguagem tem propriedades que permitem definir outras linguagens. O lado negativo dessa linguagem a complexidade e o alto custo para criar produtos de software que implementem o padro definido. As duas linguagens que tiveram papel fundamental para o desenvolvimento da Web so dialetos da SGML: HTML, que era simples na sua implementao e alcanou popularizao de forma muito rpida. A falta de recursos mais poderosos logo se tornou um obstculo para os anseios dos usurios,

XML, que manteve a caracterstica de meta-linguagem, porm menos complexa que SGML. Com boa aceitao, passa a ser a base de muitos dos padres definidos a partir de 1999.

A proposta descrita baseada nas tecnologias desenvolvidas pelo Consrcio World Wide Web (W3C) que tem como princpios interoperabilidade, utilizao de padres abertos e comprometimento com a evoluo tcnica [www.w3c.org/Consortium]. A linguagem XML a base do conjunto de tecnologias adotadas nesta proposta, que so: XML-S, RDF, RDF-S e Xlink. No captulo 3 ser apresentado mais detalhes sobre essas tecnologias. 2.2 A Informao

Na obra impressa, a BHS, a quantidade de informaes que os editores apresentam exige um complexo conjunto de referncias, smbolos, marcao de texto e tabelas suplementares que servem como fonte de consulta para compreenso da codificao. No objetivo deste trabalho discutir a formalizao conceitual do que informao. Na verdade, na literatura da tecnologia da informao no existe consenso sobre o que informao. Nesse trabalho utilizado uma verso simplificada da definio de: dado, informao e conhecimento. O subconjunto de conceitos usados extrado dos trabalhos de Setzer, Davenport e Devlin. Esses autores apresentam divergncias entre si quando analisados integralmente, porm, os conceitos usados aqui no processo de representao e codificao no apresentam divergncias. Definio: Dado: uma seqncia de smbolos quantificados ou quantificveis. Portanto, um texto um dado. De fato, as letras so smbolos quantificados, j que o alfabeto, sendo um conjunto finito, pode por si s constituir uma base numrica... qualquer texto constitui um dado ou uma seqncia de dados. [Setzer2001]

Informao: o dado acompanhado de semntica. [Davenport2002 e Setzer2001] Embora no seja tratado diretamente de representao de conhecimento nesse trabalho, oportuno definir representao de conhecimento: Representao de conhecimento: uma forma de codificar a informao apreendida e/ou estruturada com o objetivo de manipular esse conhecimento.[Devlin2001] 2.2.1 Representao de Informao

As tcnicas propostas para representar o conhecimento podem ser aplicadas de forma simplificada para representar informao. Os recursos necessrios para codificar conhecimento apresentam maior complexidade na sua formulao. Na representao de conhecimento, as estruturas criadas para organizar e manipular esse conhecimento necessitam de elementos adicionais s informaes codificadas que permitam explicitar propriedades como correlao, associao, regras condicionais, coeficiente de certeza etc. Tais estruturas so determinantes para o sucesso no mapeamento do processo dedutivo, necessrio s bases de conhecimento. Como conseqncia, a manipulao da informao codificada uma tarefa de menor complexidade do que manipular conhecimento, uma vez que a necessidade do complexo processo de tomada de deciso numa mquina de inferncia substitudo por algoritmos que se baseiam na manipulao de dados. No escopo deste trabalho so utilizados conceitos de representao do conhecimento, muito embora no seja objetivo do trabalho criar uma base de conhecimento ou um sistema especialista para interpretaes teolgicas ou literrias.

Com o mtodo adotado, possvel obter benefcios indiretos tais como uma maior facilidade de efetuar transformaes de formato, criar filtros e consultas sobres as diferentes vises do contedo codificado. 2.2.2 Modelos de Representao para Ketib

Alguns dos trabalhos desenvolvidos para representao simblica do conhecimento nas ltimas dcadas formam a base conceitual do modelo utilizado neste trabalho, o Ketib. Os pontos iniciais nas pesquisas realizadas apresentam conceitos aplicveis para solucionar os problemas na representao e codificao de informao em textos complexos. Entre os textos pesquisados esto os trabalhos na rea de representao de informao e conhecimento e a rea de codificao e marcao de textos propriamente dita. Comeando com os trabalhos na rea de representao de informao, coloco em posio de destaque: Frames[Minsky1974]- Procura agrupar de forma estruturada elementos e atributos que ajudem a representar o estado de um cenrio ou a descrio de uma cena. Essa estrutura conhecida como um frame. Os frames podem ser agrupados em vrios conjuntos e podem manter um outro tipo de frame de mais alto nvel com diversas informaes desses conjunto. Minsky explora minuciosamente o potencial desse tipo de estrutura, onde algumas destas informaes tratam de como manipular os frames, algumas tratam do que pode acontecer em seguida na cena, outras, sobre o que fazer se estas expectativas no forem confirmadas. Nesse trabalho, possvel identificar conceitos de meta-frame, frames hierrquicos e frames com heranas mltiplas, frames com regras de transformao definidas e frames com propriedades dinmicas. O artigo pode ser considerado como um dos fundamentos importantes para as reas de inteligncia artificial e anlise orientada a objetos.

Semantic Net[Quillian1968] Contemporneo de Minsky, Quillian props um modelo de representao de conhecimento que serviu de base a muitas das pesquisas na rea de sistemas especialistas e base de conhecimento. O termo rede semntica (semantic net) surge na tese de doutorado de Ross Quillian, que o introduziu primeiramente como uma maneira de falar sobre a organizao da memria semntica humana, ou a memria para conceitos da palavra. A idia de uma rede semntica, isto , uma rede de conceitos associativos, muito mais antiga, de acordo com Anderson e Bower[Anderson1973]. Eles demonstram que possvel encontrar exemplos dessa metodologia desde a poca de Aristteles. As redes semnticas foram concebidas especificamente como uma forma de representao que permitia armazenar o significado das palavras. A proposta de Quillian, bem como a grande maioria dos trabalhos que se seguiram, baseada nesses conceitos, visavam a armazenar a parte no-emocional do significado, ou seja, as propriedades objetivas das coisas, ao invs de armazenar que forma/sentimento se poderia ter a respeito dessas coisas. Semantic Web[Berners-Lee2001] No incio da dcada de 90 do sc. XX, Berners-Lee percebeu que o crescimento da Internet teria uma projeo exponencial em poucos anos e, conseqentemente, os mecanismos de busca de informao na rede se tornariam inviveis. Berners-Lee apresentou o conceito de Web Semantic, em que seria necessrio adotar semntica nas informaes que eram colocadas na Web, permitindo aos mecanismos de busca escolher o conjunto de pginas mais adequado ao pedido enviado. Os trabalhos evoluram, e com a adoo e padronizao da linguagem XML pelo W3C como uma linguagem mais poderosa e flexvel que o HTML na codificao

do contedo para internet, e novos recursos passam a ser oferecidos. Em menos de dois anos um conjunto de novas linguagens e padres baseado no XML vem sendo adotado e incorporado, aceleradamente, nos aplicativos para comrcio eletrnico e em todos os setores, pblico e privado. Particularmente, para a Web Semantic, Berners-Lee, destaca a importncia de modelos de representao para metadados, como RDF e RDFS[Berners-Lee2001], ambos baseados em XML. No campo da codificao de texto os trabalhos mais importantes que serviram de fonte de consulta e referncia foram: What is Text, Really?[Durand1990]. Trabalho que definiu a tese Ordered Hierarchy of Content Objects (OHCO) para codificao e processamento de textos eletrnicos, propondo uma rgida estrutura hierrquica para representao/codificao de texto na rea das cincias humanas. Refining our Notion of What Text Really Is: The Problem of Overlapping Hierarchies[Durand1996] Reviso da tese OHCO pelos seus autores, devido s dificuldades de representar a sobreposio hierrquica de textos com vises mltiplas da informao contida. Prope o modelo OHCO-3, que define hierarquias de perspectivas e sub-perspectivas, contudo deixa algumas classes de problemas de codificao de textos em aberto, em que mesmo o modelo OHCO-3 no apresenta solues prticas. Guidelines for TEI[TEI2002]. O trabalho mais completo e genrico no campo da codificao de texto utilizado como referncia e padro na maioria das iniciativas comerciais, acadmicas e governamentais. Teve incio em 1987 e foi baseado nos padres da linguagem SGML. Em julho/2002 foi publicada a verso P4, com revises e adaptaes para XML.

10

O modelo Ketib aplica os conceitos de Web Semantic que atualmente vem sendo aplicados pelo W3C com a utilizao de Resource Description Framework (RDF). No captulo 4 ser comentado os detalhes desse recurso. 2.3 Anlise de domnio Ontologia do domnio

O termo Anlise de Domnio foi introduzido por Neighbors com a seguinte definio: A Anlise de Domnio uma tentativa de identificar os objetos, operaes e relaes entre o que peritos em um determinado domnio percebem como importante. [Neighbors1981] Apesar desta definio informal do termo contribuir com uma boa idia inicial, uma definio mais rigorosa se faz necessria como base para as discusses que aparecem no decorrer do captulo. A seguir so descritos alguns termos necessrios construo desta definio. Arango entende que, intuitivamente, a anlise de domnio pode ser considerada equivalente atividade de anlise de requisitos convencionais na engenharia de software[Arango1994]. Estendendo esses conceitos para um meta-nvel, ao invs de explorar requisitos de uma aplicao especfica, os requisitos explorados dizem respeito a uma famlia de aplicaes de uma determinada rea. Arango define dois conceitos adicionais : a) Domnio do problema: O domnio do problema representa um conjunto de itens de informao presentes em um certo contexto do mundo real, inter-relacionados de forma bastante coesa, e que desperta o interesse de uma certa comunidade. Esta definio cobre duas perspectivas: Domnio do problema como um conjunto de problemas correlatos para os quais existe conhecimento suficiente capaz de produzir solues;

11

Domnio do problema como uma taxonomia de componentes que torna explcitas as partes comuns de aplicaes presentes e futuras identificadas como similares.

importante ser mencionado que essa caracterizao de Domnio do problema dependente da comunidade que o aborda, ou seja, diferentes grupos podem ter diferentes vises do que seria, por exemplo, o domnio de gerncia de recursos. Outro aspecto importante dessa caracterizao diz respeito necessidade de existncia de conhecimento suficiente que pode ser aplicado para a resoluo dos problemas, o que abre possibilidade para realizao de processos baseados em conhecimento para a identificao e aquisio de informaes[Prieto-Daz1991]. b) Modelo do Domnio: Pode ser descrito como um sistema formal de termos, relaes entre termos e regras de composio de termos, regras para raciocnio que utiliza estes termos e regras para mapeamento de itens do domnio do problema para expresses neste modelo e vice-versa. Resumindo, Modelo do Domnio define entidades, operaes, eventos e relaes que abstraem similaridades e regularidades em um determinado domnio, formando uma arquitetura de componentes comuns s aplicaes analisadas e tambm cria modelos que tornam possvel identificar, explicar e prever fatos difceis de serem observados diretamente. Depois de pronto, este modelo til para auxiliar na discusso e soluo de problemas que apresentem ambigidades e exigem tomada de deciso. Funciona como um repositrio de conhecimento comum, auxiliando de forma direta a comunicao. Alm disso, permite o aprendizado e reuso em um nvel mais alto de abstrao [Arango1994].

12

2.3.1 Ontologia - Definio Ontologia um tema que tem sido estudado em diversas reas, como por exemplo: Filosofia, Linguagem e Cognio, Cincia da Informao e Cincia da Computao. Dentro de uma mesma rea podem ser encontradas diferentes definies e classificaes de ontologia. A seguir sero apresentadas algumas das definies de ontologia. Na rea de Filosofia: Em 1647 Johannes Clauberg utiliza o termo ontologia no seu trabalho Elementa Philosophiae sive Ontosophiae, quando afirma que assim como a cincia que trata sobre Deus chama-se Teosofia ou Teologia, seria apropriado chamar de Ontosofia ou Ontologia a cincia que trata de seres em geral, seus nomes e propriedades[Gilson1952]. Na rea de Linguagem e Cognio: Ontologia refere-se a tudo que existe no mundo composto por objetos, mudanas e relaes entre eles. Ontologia pode ser baseada no mundo, na mente/intelecto, na cultura ou na linguagem [Dahlgren1995]. Na rea de Engenharia do Conhecimento Guarino[Guarino1997] define a ontologia como uma caracterizao axiomtica do significado do vocabulrio lgico e para Sowa[2000] a ontologia define os tipos de coisas que existem no domnio de uma aplicao . Swatout & Tate[Tate1999] definem ontologia como um conjunto de conceitos e termos que podem ser usados para descrever alguma rea do conhecimento ou construir uma representao para o conhecimento. Chandrasekaran[Chandrasekaran1999] define que ontologias so teorias de contedo sobre os tipos de objetos, propriedades de objetos e relacionamentos entre objetos que so possveis em um domnio de conhecimento especfico.

13

Os esforos empregados na formalizao de anlise do domnio vieram ao encontro dos anseios de pesquisadores das reas de inteligncia artificial, engenharia de conhecimento e sistemas de informao. Em 1993, Clancey defendeu a necessidade de mudana no foco do desenvolvimento dos novos sistemas especialistas. Ela argumentava que: a Engenharia de Conhecimento deve ser voltada para a modelagem de sistemas, e no na tentativa de reproduzir a maneira como os especialistas raciocinam[Clancey1993]. Essa viso passou a ter grande aceitao e como conseqncia ofereceu um novo conceito na estruturao da informao. As bases de conhecimento passaram a ser vistas como um produto de uma atividade de modelagem e no um repositrio de conhecimento especializado. Essa mudana de foco levou os pesquisadores a recorrerem aos conceitos e a teorias no campo da filosofia. Alguns desses conceitos, provavelmente da poca de Aristteles ou mesmo antes, vieram do estudo da ontologia, e outros, do sc. XVII, estudados por Locke, vieram do estudo da epistemologia. Esses conceitos foram adaptados cincias da computao e tecnologias de informao no final do sc. XX. Os dois principais pesquisadores que trabalharam na formalizao da Ontologia, como disciplina incorporada rea de representao de conhecimento, foram Thomas Gruber, da universidade de Stanford, EUA, e Nicola Guarino, do Ladseb-CNR, Itlia. Em geral, os artigos dessa rea fazem referncia a definies feitas por Gruber e aos aperfeioamentos na formalizao concisa dos conceitos que Guarino desenvolveu [McGuinness2001]. Noy e McGuinness, professoras da Universidade de Stanford, um dos ncleos de pesquisa em desenvolvimento de bases de conhecimentos mais consagrados nessa rea, destacam cinco motivos para incorporar o estudo de ontologias nos novos sistemas: Formalizar e explicitar o domnio a ser estudado. Estruturar as informaes na rea que estiver sendo estudada de forma a eliminar inconsistncia e ambigidade. A

14

utilizao de uma notao formal pode facilitar a verificao e validao automtica da especificao. Compartilhar e compreender a informao estruturada entre pessoas e agentes de software. Contribui na obteno de consenso dos especialistas e elicitao de conhecimento de diversas fontes. Possibilitar a reutilizao do conhecimento do domnio. Obtendo um vocabulrio de consenso e permitindo que o conhecimento na camada do domnio possa ser especializado em diferentes aplicaes, servindo a diferentes propsitos, por diferentes equipes em diferentes pontos no tempo e espao. Separar dois tipos de conhecimento: conhecimento do domnio e conhecimento operacional. Noy e McGuinness descrevem a configurao de um produto com seus componentes de acordo com uma especificao (conhecimento do domnio) e a implementao um algoritmo para configurar um pedido do produto (conhecimento operacional). Por exemplo, em uma aplicao com dois domnios distintos, computador e elevador, e usar o mesmo algoritmo para configurar elevador ou computador. Anlise do conhecimento. Permite que a partir da especificao de um domnio disponvel, haja uma maior facilidade para anlise de reusabilidade, extenso e atualizaes desse domnio. importante acrescentar que o uso de ontologias para definio de domnios pode apresentar dificuldades. OLeary[OLeary1997], por exemplo, identificou os seguintes problemas: A escolha de uma ontologia um processo poltico, j que nenhuma ontologia pode ser totalmente adequada a todos os indivduos ou grupos. Ontologias no so necessariamente estacionrias, isto , necessitam evoluir. Poucos trabalhos tm enfocado a evoluo de ontologias. Estender ontologias no um processo direto. Ontologias so, geralmente, estruturadas de maneira precisa e, como resultado, so particularmente vulnerveis a

15

questes de extenso, dado o forte relacionamento entre complexidade e preciso das definies. A noo de bibliotecas de ontologias sugere uma relativa independncia entre diferentes ontologias. A interface entre elas constitui, portanto, um impedimento, especialmente porque cada uma delas desenvolvida no contexto de um processo poltico. Os tipos de ontologias, segundo Guarino[Guarino1997, 1998], podem ser classificadas, com base em seu contedo, nas seguintes categorias: ontologias genricas: descrevem conceitos bastante gerais, tais como, espao, tempo, matria, objeto, evento, ao, etc., que so independentes de um problema ou domnio particular; ontologias de domnio: expressam conceituaes de domnios particulares, descrevendo o vocabulrio relacionado a um domnio genrico, tal como Medicina e Direito. ontologias de tarefas: expressam conceituaes sobre a resoluo de problemas, independentemente do domnio em que ocorram, isto , descrevem o vocabulrio relacionado a uma atividade ou tarefa genrica, tal como, diagnose ou vendas; ontologias de aplicao: descrevem conceitos dependentes do domnio e da tarefa particulares. Estes conceitos freqentemente correspondem a papis desempenhados por entidades do domnio quando da realizao de uma certa atividade; ontologias de representao: explicam as conceituaes que fundamentam os formalismos de representao de conhecimento.

16

Fig. 2-1 - demonstra a relao entre as categorias de ontologias classificada por Guarino.

. A construo de ontologias genricas apresenta trs preocupaes principais: A definio do objeto Como o objeto se comporta no contexto Como os objetos se relacionam

As discusses na criao de uma ontologia genrica esto fora do escopo deste trabalho, no entanto para trabalhos futuros, principalmente no campo da lingstica, ser preciso uma avaliao mais profunda das estruturas que sero necessrias e quais so suas relaes. Guarino tem atuado na organizao e formalizao dos conceitos de ontologia relacionados rea de sistemas de informao. Ele prope que as ontologias sejam construdas segundo seu nvel de generalidade. Os conceitos de uma ontologia de domnio ou de tarefa devem ser especializaes dos termos introduzidos por uma ontologia genrica. Os conceitos de uma ontologia de

17

aplicao, por sua vez, devem ser especializaes dos termos das ontologias de domnio e de tarefa correspondentes[Guarino1998]. As ontologias de domnio so construdas para serem utilizadas na soluo de uma classe definida de problemas. Essas ontologias so as mais comuns de serem desenvolvidas, sendo que diversos trabalhos so encontrados na literatura, enfocando reas como: qumica[Gmez-Prez1996], modelagem de empreendimento - TOVE (Toronto Virtual Enterprise), codificao de texto (TEI), identificao de contedo DC (Dublin Core), representao de codificao gentica GO (Gene Ontology Consortium), distribuio de energia CIM (Common Information Model)[PICA2001], PRISM (Publishing Requirements for Industry Standard Metadata). As quatro ltimas ontologias mencionadas (DC, GO, CIM e PRISM) tm sua descrio baseada em RDF, e esto em uso em diferentes setores, a saber: DC - Documentao em Geral: criado originalmente no Metadata Workshop, em Dublin, Ohio/EUA, como um conjunto de elementos para descrever propriedades dos documentos. Pode ser implementado com diversas estruturas (HTML/meta tags, XML/DTD, XML-S). Em 2002, o Dublin Core Metadata Initiative definiu como representao padro dos elementos do DC, o modelo RDF implantado em XML [www.dublincore.org] GO - Gentica: com objetivo de padronizar o vocabulrio para descrio de produtos genticos, permitindo que as anotaes das bases de dados possam ser compartilhadas, oferecendo as evidncias documentadas nas pesquisas j realizadas. Criada e mantida pelo Gene Ontology Consortium. [www.geneontology.org]

18

CIM - Energia Eltrica: com objetivo de definir uma semntica comum para sistemas geradores de energia, especificar seus atributos e relacionamentos. Essa representao permite a troca de informaes dos modelos na indstria de energia eltrica. Esse modelo mantido pela organizao Electric Power Research Institute (EPRI)[deVos2001] PRISM - Informaes Editoriais: uma especificao de metadados voltada s necessidades das editoras. Criado e mantido pela IDEAlliance (International Digital Enterprise Alliance) que busca solues e padronizaes para as indstrias na rea editorial.[www.prismstandard.org]

2.3.2

Delimitao do Domnio

Tradicionalmente, quando um domnio de representao de um texto genrico reduzido para codificar uma obra especfica, ocorre uma simplificao da representao e do modelo usado. Esse modelo reduzido adequado apenas s obras pertencentes ao domnio do texto especfico. No entanto, devido grande complexidade do contedo da obra BHS e necessidade de representar uma grande variedade de elementos literrios, se for aplicado o modelo na BHS, esse mesmo modelo pode ser utilizado para representar textos em outros domnios. O contedo da BHS no entra no campo da lingstica, o que pode simplificar a ontologia e o modelo de representao, pois a necessidade de prover um conjunto de vises de forma a atender ao estudo lingstico dos idiomas hebraico e aramaico apresenta um grau adicional de complexidade na codificao. Por exemplo, passa a ser importante a marcao de cada letra das palavras e at mesmo o posicionamento dos acentos e pontuaes esta sujeito a variaes (mais esquerda, direita ou ao centro de uma letra). Mesmo com essas necessidades, em trabalhos futuros, seria possvel estender as estruturas do processo Ketib para incorporar as novas classes, objetos e propriedades especficas da lingstica.

19

O ponto de partida na escolha da ontologia mais adequada ao texto escolhido reside no trabalho do TEI. Esse trabalho classificado como Ontologia de Domnio. Seguindo a proposta de Guarino, o prximo passo na criao de uma estrutura para representao das informaes seria definir uma especializao da ontologia de domnio, criando dessa forma uma Ontologia de Aplicao. Para definir essa especializao foi adotado o trabalho desenvolvido pelo Bible Technologies Group (BTG), na criao do padro OSIS, baseado em XML-S. Algumas modificaes so propostas para utilizao do OSIS e a camada de metadados introduzida para configurar o Ketib. 2.3.3 TEI como ontologia de domnio

Esse grupo de estudo tem empenhado esforos nos ltimos 15 anos na definio e formalizao da codificao de textos. As diretrizes definidas por esse grupo esto contidas em Guidelines for Text Encode Initiative. Para chegar lista final dos elementos e atributos definidos por esse grupo de trabalho, foi elaborada uma ontologia para os mais variados tipos de textos. Inicialmente, os elementos e atributos descritos eram baseados na linguagem SGML para construo das diversas estruturas de representao dos textos. Recentemente as estruturas definidas foram atualizadas e expandidas para contemplar o padro XML 1.0. A ltima verso, P4, foi publicada em julho de 2002. O documento da verso P4 serve como base para a ontologia de textos em quaisquer que sejam suas reas de expresso. O custo dessa abrangncia alto, pois como conseqncia no existe linguagem que implemente e utilize todas as definies. Alm da complexidade j existente, o documento desta verso deixa para futuras verses a soluo de alguns problemas, entre eles a representao de texto com mltiplas hierarquias sobrepostas. No final do captulo 31, do documento da TEI, verso P4, feita a seguinte observao: Esse captulo ser intensamente revisado e expandido para futura verso.

20

As alternativas para tratar hierarquias mltiplas de forma concorrentes, apresentadas a seguir, so: 1. A diretiva Concur, presente somente na linguagem SGML. 2. Milestones, elemento de marcao de texto que no possui comprimento. 3. Fragmentao, divide logicamente um elemento em duas ou mais partes, eliminando a sobreposio. 4. Unio Virtual, monta os elementos na ordem necessria a satisfazer cada viso. 5. Codificao Redundante, duplica a descrio das estruturas que existem em mais de uma viso. A diretiva Concur do SGML, o recurso de unio virtual e a codificao redundante, permitem a codificao de vises simultneas; a fragmentao eficiente na soluo de problemas que apresentem uma sobreposio de hierarquia; e o uso de milestones apenas introduz uma marca de fronteira dessas vises no texto, no permitindo a manipulao das estruturas. As solues apresentadas no captulo 31 oferecem diferentes formas na soluo dos problemas em textos complexos. Essas solues, contudo, tm sido criticadas por serem incompletas, difceis de implantar ou ineficientes[Durusau2002]. Outros pesquisadores propuseram solues alternativas ao TEI e as mais conhecidas so: Mecs, Multi-Elements Code System, de 1993, que evolui para Texmecs, Trivially Extended MECS, em 2001. Desenvolvida na Universidade de Bergen, Noruega, por Claus Huitfeldt. Essa soluo cria uma nova linguagem para representao de documentos complexos. Stand-off Markup, de 1997, proposta por Thompson e McKelvie, da Universidade de Edimburgo. Baseada em hiperlinks, implementa a codificao de marcao externa ao texto.

21

JITT, Just in Time Tree, de 2002, proposta por Durusau e ODonnel. Baseado na quebra da sintaxe do XML, extraindo a viso desejada numa etapa de prprocessamento, gerando cada uma das vises em XML vlido, somente quando pedido.

A evoluo dessas solues alternativas tem sido lenta, e quase a totalidade das propostas de codificao e representao de textos, nas mais variadas reas, ainda tomam como base o documento de diretrizes da TEI e evitam textos com hierarquias mltiplas. 2.3.4 OSIS como ontologia de aplicao

Apresentado em 2001, a primeira verso do OSIS no contemplava elementos estruturados que permitissem a marcao de captulos e versculos, sendo, por isso, de pouca aceitao. Atualmente a verso 1.1 formada por 63 elementos, e se prope a oferecer recursos para codificao de qualquer texto teolgico produzido pelas Sociedades Bblicas Unidas, tendo como objetivo explcito um formato comum para muitas vises"[OSIS v1.1]. A verso atual incorpora elementos adicionais que permitem a codificao da estrutura de captulos e versculos e utiliza a soluo de fragmentao para tratar as ocorrncias de sobreposio de hierarquias. Utiliza o XML-S para definio dos elementos, atributos e tipos no padro OSIS, incorpora os elementos do Dublin Core, usados para informaes de catalogao da obra, tais como, editor, autor, editora, ISBN, etc. 2.4 As relaes transtextuais Alm da tarefa de definir a ontologia, que deve ser feita sobre o domnio do texto e das definies das dimenses, importante definir quais os tipos de relao que esto presentes entre as dimenses do texto. Dependendo dessas relaes, a forma de representar e codificar as informaes pode implicar numa maior complexidade da estrutura definida.

22

Para examinar as relaes textuais, foi utilizado os conceitos do trabalho que Grard Genette publicou, em 1982, e considerado um dos mais importantes no campo da crtica textual, Os Palimpsestos, onde ele analisa e classifica as relaes que podem surgir em um texto. Genette chama essas relaes de transtextuais.[Genette1982] Segundo Genette, cinco so os tipos de relaes transtextuais: 1. Intertextualidade, considerada como a presena efetiva de um texto a outro. a co-presena entre dois ou vrios textos. Recurso utilizado no aparato crtico. 2. Paratextualidade, representada pelo ttulo, subttulo, prefcio, posfcio, notas marginais, epgrafes, ilustraes... Este campo de relaes muito vasto e inclui as notas marginais, as notas de rodap, as notas finais, advertncias, e tantos outros sinais que cercam o texto, como a prpria formao da palavra indica. Presentes na Massra Magna e no texto, podendo ser consideradas ainda algumas ocorrncias no clofon e no aparato crtico. 3. Metatextualidade, vista como a relao crtica, por excelncia. a relao de comentrio que une um texto a outro texto. Presente na Massra Magna e Parva, e no aparato crtico. 4. Arquitextualidade, que estabelece uma relao do texto com o estatuto a que pertence includos aqui os tipos de discurso, os modos de enunciao, os gneros literrios etc, em que o texto se inclui e que tornam cada texto nico. Presentes na viso cannica com o sistema de referncia, na viso da estrutura textual, na representao de poesia e na viso histrica, com as percopes. 5. Hipertextualidade. Toda relao que une um texto (texto B hipertexto) a outro texto (texto A hipotexto). Presentes nas massras.

23

Na poca da publicao do trabalho de Genette o termo hipertexto no tinha o significado que se popularizou com o surgimento dos navegadores de Internet. Para a representao das relaes ser utilizado a tecnologia Xlink, que um subconjunto do XML. Est padronizada desde 2001 e simplifica a representao do tratamento das relaes transtextuais definidas por Genette. 2.5 Texto complexo - BHS A obra BHS, foi impressa pela primeira vez em 1967, resultado de 40 anos de pesquisas de um grupo seleto de estudiosos. Como resultado desse trabalho foi concentrado em um s livro a somatria de quatro obras distintas: o texto original proveniente dos papiros, ainda na forma consonantal; o trabalho dos massoretas na pontuao do texto; as anotaes marginais, a Massra Parva; as referncias do texto de uma obra paralela, a Massra Magna; e por fim o aparato crtico, elaborado por diversos autores durante a preparao do texto impresso. As conseqncias de unificar, de forma concorrente, contedos gerados por diferentes autores, de diferentes culturas, numa linha do tempo que abrange pelo menos 3500 anos (aproximadamente, de sc. XV a.C ao sc. XX d.C), com anotaes de naturezas distintas, justifica o uso do termo texto complexo. A partir do sc. IV d.C, os livros cristos passaram a ser escritos em codex (tem como plural a palavra cdices), palavra derivada de caudex, que era uma pequena tbua coberta de cera na qual se escrevia com um estilete metlico (stylus). Reunidos por um cordo que passava por orifcios feitos no alto dos exemplares, os cdices ficavam em forma de livro, portanto bem mais prtico de serem manuseados que os rolos de papiros [Almeida, A. e Costa, J. M. 1992]. Muitos papiros antigos foram encadernados no formato de codex. As figuras 2-2 e 2-3 mostram um dos cdices mais importante para os estudiosos do Antigo Testamento,

24

escrito em grego, denominado Codex Sinaiticus. A figura 2-2, traz um exemplo dos palimpsestos, que se refere ao texto original que foi sobrescrito posteriormente. Num primeiro instante foi pensado em uma simplificao na representao do contedo da BHS, reduzindo de quatro para dois, o nmero de obras distintas. Essa simplificao teria como o texto principal o Codex Leningradense2, tambm chamado Codex L (ver fig 2-4), e o aparato crtico seria considerado apenas como notas dos editores. Ainda assim o texto continuaria sendo altamente complexo, porque: As notas que compem o aparato crtico possuem vrias relaes transtextuais, o que torna complexa a representao das informaes. Alm de necessitar uma grande quantidade de smbolos, abreviaes e estrutura de referncia numrica para minimizar ao mximo a ambigidade. Codex L, tem uma composio de elementos que possui um alto grau de complexidade, pois na poca no havia diviso de captulos, e as notas da Massra Parva no eram numeradas, apenas posicionadas margem de cada linha que possua comentrios

Codex Lenigradense Biblioteca Nacional da Russia, em St. Petersburgo, datado de 1008 d.C

25

Fig. 2-2 Palimpsesto

Fig. 2-3 Codex Sinaiticus

26

Fig. 2-4 Codex L - xodo 15.22 16:3

Codex L Copiado no Cairo, entre 1008 e 1010 d.C. Contm, aprox., 60.000 notas da Mp e 4271 notas da Mm Composta de aprox. 1000 pginas. As pginas, at o sc X d.C, eram feitas com o couro de animais (parchment) Em especial, o Codex L o mais conservado de todos cdices (em hebraico) do Antigo Testamento.

Fig. 2-5 Detalhe ampliado do canto direito inferior

27

da fig. 2-4

28

Quando havia questes sobre a exatido das anotaes, outras fontes de referncia eram utilizadas. As mais confiveis eram os cdices, que nem sempre estavam em perfeito estado de conservao devido ao primitivo processamento manual utilizado.

O texto anterior criao dos cdices estava escrito na linguagem consonantal, isto , o contedo escrito no tinha no alfabeto smbolos que representassem as vogais. A linguagem consonantal no uma caracterstica exclusiva do hebraico; outras escritas antigas tambm usavam a forma de escrita consonantal. Os textos contidos nos cdices so constitudos pelo texto modificado pelos massoretas. Foram os massoretas que introduziram a pontuao voclica no idioma hebraico. Esse mecanismo foi responsvel pelo renascimento do idioma de um povo que estava disperso na face da terra, pois eles no possuam territrio geogrfico nem governo formal, e certamente foi um passo definitivo na definio da atual escrita hebraica. A palavra hebraica Ketib, na escrita consonantal KTB3, quer dizer o que est escrito. O nome do processo de representao apresentado neste trabalho uma homenagem aos massoretas, pelas formas engenhosas que foram utilizadas atravs dos sculos para manter a fidelidade aos textos originais, dos papiros aos cdices e, finalmente, ao livro impresso. Segundo a tradio, a prtica de verificao formal das cpias dos textos das Escrituras Sagradas, desenvolvida pelos massoretas, existia seis sculos antes de Cristo, e foi iniciada pelo sacerdote Esdras, sendo esse autor conhecido como escriba da lei de Deus. (Esdras 7.10-12) Em muitos casos, essa pontuao voclica provocava uma escrita e (ou) pronncia de duas ou mais palavras semelhantes. Nesses casos os massoretas no modificavam o original, mas adicionavam uma nota marginal com a nova forma de pronncia, essa modificao conhecida como Qere,
3

que em hebraico quer dizer leia-se.

em hebraico consonantal=

29

O texto bblico da BHS registra o que est escrito (Ketib), a Massra Parva registra a anotao do massoreta (Qere), de como o texto deveria ser lido. Esse tipo de anotao, eventualmente, foi usado tambm para documentar os pontos que apresentavam divergncia de ordem gramatical no processo de cpia, ou como forma de proteger o nome divino. Outra forma engenhosa, que ajudou a dar consistncia s muitas cpias que eram produzidas, foi utilizao de estatsticas de ocorrncias de palavras ou expresses, anotadas na Massra Parva e a introduo de clofons, em geral ao final dos livros, que continham indicaes do nmero de letras e sees que foram escritas. Sem exagero, pode-se afirmar que os recursos das estatsticas auxiliaram na tarefa de consistncia e integridade de contedo durante os sculos em que foram produzidas as cpias do texto original. Esse recurso de verificao dos massoretas utiliza conceitos semelhantes aos que vieram a ser utilizados centenas de anos depois na rea de processamento de dados, o checksum. Alm dos mtodos prticos mencionados acima, havia rgidos rituais que deviam ser observados pelo seleto grupo de pessoas que realizam as cpias. Contudo, os que estudam e observam as Escrituras Sagradas, acreditam que sem a ao providencial de Deus na preservao destas obras, no seria possvel, nos dias de hoje, o acesso, a leitura e estudo de seu contedo. A descoberta de vrios pergaminhos antigos no deserto da Judia, na regio do Mar Morto, a partir de 1947 (at 1954), dentro das cavernas de Qumran, pde comprovar que mesmo atravs dos sculos e das inmeras cpias que foram feitas, o texto conhecido das mais antigas e melhores fontes dos textos bblicos, quando comparado com os descobertos recentemente, no apresentaram variantes significativas. Os papiros descobertos em Qumran so as cpias mais antigas dos textos bblicos at hoje conhecidas, em torno de 200 a.C (ver figura 2-6 e 2-7). Infelizmente, esses

30

documentos no esto completos, representando fragmentos da obra do Antigo Testamento. Apenas o livro do profeta Isaas est completo e em bom estado de conservao. As primeiras obras completas de crtica textual especfica, baseadas nesses pergaminhos, comeam a ser publicadas em 2003, quase 50 anos aps terem sido encontradas.

Fig. 2-6 Fragmento do livro de Daniel encontrado em Qumran

31

Fig. 2-7 Isaas cap. 1 Livro completo encontrado em Qumran

O trabalho aqui proposto tem o objetivo de representar o que est escrito no texto, sem tentar introduzir um nvel adicional de interpretao do texto e a efetiva codificao dessa interpretao. Para aplicao deste modelo necessrio ter a definio da ontologia do domnio do texto que est sendo usado, conhecer as dimenses, tambm chamadas de vises do texto, que sero necessrias representar e de que forma essas vises se relacionam. 2.5.1 BHS - Estrutura do texto

O contedo da BHS foi dividido em subconjuntos bem definidos, ver figura 2-8, sendo que cada um dos conjuntos apresentam propriedades e relaes distintas: Texto bblico: Esse texto foi gerado a partir dos papiros copiados atravs dos sculos, tendo como contedo o texto hebraico puramente consonantal e acrescidos de acentuaes, pontuaes, cantilenas e clofons. O texto bblico era

32

copiado por uma classe especial de pessoas conhecidas como sopherim, e posteriormente eram pontuadas gerando os atuais caracteres diacrticos do atual idioma hebraico; essa tarefa era atribuda s pessoas conhecidas como nakdanim. Alm da representao das vogais, muitas vezes a pontuao apresenta significados sintticos, lingsticos e litrgicos. Um mesmo sinal pode representar duas funes diferentes. Essa transformao no texto foi executada ao longo de aproximadamente 500 anos. Massra Parva: Composta das anotaes dos massoretas com referncias ao Qere, e outras referncias Massra Magna. Possui muitas notas estatsticas, e algumas notas explicativas. Esse subconjunto de anotaes conhecido tambm com Massra Marginalis. Referncias Massra Magna: Esse subconjunto formado por anotaes em cada pgina da BHS com referncias a um texto, que no est includo no livro, conhecido como Massra Magna. Essa obra foi composta com base na anlise das diferentes fontes dos papiros, do conhecimento e tradio oral do povo judeu e de comentrios teolgicos dos estudiosos que se dedicavam exclusivamente a essa tarefa. O seu contedo um volume superior a todo o contedo da BHS. Essas referncias so mencionadas pela Massra Parva e pelo aparato crtico.

33

Fig. 2-8 Gnesis 1.1-16 (BHS) Alm do TEXTO COPIADO, a figura destaca a Mp (Massra Parva), as referncias da Mm (Massra Magna), o texto da Mm no est presente na BHS, e o Ap (Aparato Crtico). Os sistemas de numerao das notas foram criados pelos editores da BHS .

34

Aparato Crtico: Contedo com anotaes coordenadas pelo primeiro editor da obra, Dr. Kittel, e pelos outros colaboradores que trabalharam durante quatro dcadas na anlise e codificao do contedo para o formato impresso. Possui referncias internas BHS e externas, a outras fontes de consulta em formato de cdices ou livros, alm das anotaes de crticas textuais. Inclui um complexo conjunto de smbolos e referncias cruzadas ao texto, que documenta e justifica decises dos editores ao optar por trechos que apresentavam divergncias. Na composio dos smbolos, so utilizados o alfabeto ocidental, o grego e o hebraico, alm de um conjunto de mnemnicos listados em tabelas suplementares.

O livro contm ainda sees com tabelas de smbolos, notas introdutrias e textos que no apresentam dificuldades na representao, servindo como documentao do processo de compilao. 2.5.2 BHS Vises do texto Para aplicao de proposta deste trabalho, o mtodo Ketib, foi definido para a obra BHS as seguintes divises do livro, suas dimenses e representao simblica: Cannico Apresenta os livros que formam o cnon do Antigo Testamento e divide o texto nas unidades criadas no sc. XVI, criando um sistema de referncia composto de captulos e versculos. A diviso adotada pela BHS, embora no seja a nica, aceita como a mais adequada e mais utilizada; em alguns casos essa diviso adotada com ligeiras variaes por outros editores. As subdivises so: o L, livro (ex: Gn, Ap, Mt), o R, referncia numrica(ex: 1.1, 149.2) que identifica o captulo e verso. Estas dimenses formam as principais unidades de referncia deste trabalho. So vitais para esse estudo, pois o processo primrio de identificao do texto utilizado nas outras camadas de informao. Pode-se dizer que sua importncia

35

anloga ao sistema de coordenadas de longitude e latitude utilizada para navegao martima. Estrutura textual Criada pelos massoretas entre o sc. V e X, divide o texto em unidades devocionais (chamadas percopes) e sentenas indivisveis. As percopes so subdivididas em 3 unidades menores. Para representar essas estruturas, foi adotada a nomenclatura: o P (percope) Pa Pb Pc o S (sentena indivisvel). o PO (estrutura de poesia) As percopes so numeradas seqencialmente dentro de cada livro. As sentenas que so indivisveis no possuem identificao e possuem um valor mais histrico do que lingstico, com exceo da ocorrncia na poesia. No caso especfico do contedo potico, necessrio recorrer a elementos adicionais na sua estrutura de representao. Alguns sinais usados no texto potico possuem outros significados no texto normal. A importncia desses sinais se torna ainda mais evidente em virtude do idioma hebraico no possuir o conceito de rimas na poesia. A poesia era formada com rimas de idias. Por isso a correta pontuao de sentenas assume importncia fundamental na correta interpretao. Histrico Para efeito de implementao do Ketib, essa dimenso subdividida em 4. o Mp (Massra Parva) o Mm (Massra Magna) o Cs, os clofons de verificao de integridade adicionados pelos massoretas, o Ap, o aparato crtico criado pelos editores do livro no sc. XX

36

A Massra Parva foi dividida em trs categorias pelos editores da BHS, de forma a facilitar a identificao para os estudiosos que teriam acesso ao texto impresso (ver fig. 2-8), pois originalmente os massoretas no indexavam a Mp (ver fig. 2-4 e 2-5), e a obra s era completamente compreendida por um grupo pequeno de pessoas, sendo esse conhecimento passado de gerao em gerao. A classificao dos tipos de notas da Mp usada na BHS : o Sem ndex o Com ndex relacionado Massra Magna o Com ndex sem relao com as notas da Mm Nessa categoria foi includo tambm os clofons, que so notas que em geral aparecem no fim dos livros, mas podem estar associados a algumas referncias de captulo e versculo, na margem oposta s anotaes da Massra Parva. Neste trabalho est sendo utilizado os termos dimenso e viso indistintamente. Essas vises auxiliam no processo de anlise e interpretao da obra. As vises que o texto da BHS apresenta contm elementos que apresentam sobreposio entre as vises e tornam sua distino uma tarefa complexa. Isso inviabiliza a adoo direta de XML-S devido s restries da linguagem. Para definir as relaes encontradas no texto e suas conseqncias no processo de representao, foi utilizado a representao simblica L, R, P, Mp, Mm, Ap e Cs. 2.5.3 BHS - Relaes transtextuais De acordo com a notao definida no item anterior, foi elaborada a seguinte lista de dimenses e suas relaes: L Cada um dos livros da BHS, por exemplo: Gnesis, xodo, Salmos, Isaas.

37

Historicamente os livros foram agrupados de acordo com os assuntos, livros poticos, livros dos reis, livros dos profetas etc, mas esses agrupamentos no influem diretamente nos sistemas de codificao. 1 relao: Todas as dimenses esto contidas em L R- Sistema de diviso de um livro (L) em unidades menores, os captulos e versculos. Diferentes grupos religiosos adotam algumas variaes na quantidade de captulos e versculos em alguns livro, as divergncias mais conhecidas so entre os judeus, cristos e cristos ortodoxos. 2 relao: As dimenses L e R, so hierrquicas e formam o principal sistema de referncia do Ketib. P- As percopes so importantes para a liturgia e para o estudo de crtica textual. Foi o primeiro sistema de diviso do texto criado. 3 relao: P e R apresentam sobreposies. S- As sentenas esto contidas nas percopes. Mp e Mm- Massra Parva e Massra Magna. So duas obras distintas. Compostas de notas e comentrios do texto contido em L. 4 relao. Mp e Mm possuem relao de metatextualidade e hipertextualidade. Ap- Aparato Crtico, o texto mais recente incorporado a BHS no sc. XX. 5 relao. Ap possui relao de metatextualidade e hipertextualidade com Mp, Mm e L-R, alm de outras referncias a obras externas.

38

Cs- Os clofons. Informaes introduzidas pelos copistas, em geral ao fim de cada livro. No fazem parte do texto. Tm grande valor para estudos na crtica literria, e precisam ser representados na obra final. 6 relao. Cs resultado direto do contedo em L. As relaes transtextuais presentes no texto, tanto na quantidade como na diversidade, tornam de representao do contedo da BHS uma tarefa complexa. 2.6 Propriedades Essenciais As experincias com as linguagens utilizadas na rea de editorao ensinaram uma demorada e dispendiosa lio. Durante anos tm sido usadas linguagens sem flexibilidade, especficas para uma classe rgida de problemas e, na maioria das vezes, fora de padres de mercado. Como conseqncia existe pouca mo de obra disponvel para trabalhar em ferramentas de software e manuteno. A evoluo tem sido lenta, a compatibilidade e portabilidade dos sistemas deixam a desejar e adoo de recursos tecnolgicos modernos tem sido visto como uma dor de cabea a ser postergada nos centros de produo. Na formulao de um novo padro de linguagem para marcao de texto, preciso considerar as dificuldades do passado e evitar a repetio dos erros. Baseado nos conceitos de programao orientada a objeto, quatro propriedades so colocadas como objetivos na formulao de um novo padro a ser proposto. 2.6.1 Reusabilidade A complexidade das pesquisas e das definies de padres de representao torna essa atividade cara, e lenta. O sucesso dos resultados pode depender de apoio poltico, de empresas ou organizaes, na escolha do pacau a ser adotado.

39

Quando h possibilidade de reutilizar estruturas de representao para diferentes obras, reduzindo os custos e o tempo de produo, a reusabilidade se torna em um forte atrativo para sua ampla aceitao. Na busca de solues que preencha os requisitos tcnicos de um novo padro, o alto grau de reusabilidade tido como obrigatrio. Essa necessidade fica ainda mais clara em setores que no dispe de abundantes recursos materiais e financeiros. No h originalidade nem novidade nesses anseios, pois na engenharia de software esse problema j conhecido. 2.6.2 Interoperabilidade Essa propriedade vem assumindo sua importncia na medida em que a diversidade de plataformas de hardware e software e suas inmeras configuraes distintas no mostram tendncias de convergirem. A implantao de novas linguagens vem empregando esforos para alcanar o status de interopervel. Essa preocupao deve ser estendida aos mecanismos de definio das novas linguagens de forma a que no haja ambigidade na interpretao da codificao. 2.6.3 Padro aberto Devido s caractersticas do problema de codificao de texto serem de grande complexidade, existe uma forte tendncia a deduzir que ser necessrio uma linguagem nova ou um padro proprietrio para resolver o problema, o que pode ser uma repetio de erros do passado. Deve haver todo empenho possvel pela busca de solues que faam o uso de padres abertos. Padres proprietrios tendem a reduzir o nmero de participantes no desenvolvimento e na manuteno de ferramentas. A antiga lei da oferta e procura pode tornar essa tarefa economicamente invivel.

40

2.6.4 Flexibilidade A tecnologia que for adotada precisa ser flexvel, para incorporar novas estruturas de representao. A linguagem HTML, por exemplo, apresentava um bom nvel de reusabilidade, era um padro aberto, e apresentava um grau de interoperabilidade, pelo menos enquanto os interesses pessoais dos principais desenvolvedores de browsers no criaram padres separados. No entanto, a falta de flexibilidade da linguagem foi um grande obstculo na evoluo do HTML. Algumas tentativas de incrementar a linguagem para oferecer recursos mais sofisticados acabaram gerando falta de padro, problemas de seguranas e perda da interoperabilidade. No foi surpresa a migrao de HTML para o XML, que vem sendo registrada pelos desenvolvedores de sites Web nos ltimos meses.

41

3. Modelos de Implantao da Representao


Esse captulo apresenta as duas formas de codificao de texto no domnio que est sendo tratada. A primeira forma est baseada em XML-S como linguagem que modela a ontologia da aplicao. A segunda usa RDF-S, a proposta desse trabalho. Para melhor compreenso do Ketib, ser feito uma breve introduo de XML-S, RDF e RDFS 3.1 XML-S XML-S a sigla do XML Schema. Possibilita a criao de modelos para documentos escritos em XML. O XML-S uma evoluo do DTD que a linguagem XML oferecia inicialmente, permitindo uma maior flexibilidade na definio de tipos de estruturas. DTD - Document Type Definition - define as regras de formatao para uma dada classe de documentos. Pode definir elementos, atributos e entidades vlidos num documento. O XML-S a primeira tentativa de substituir o DTD por algo melhor. Na verdade, o DTD um mecanismo herdado do SGML e na poca parecia ser uma soluo muito prtica. Por que que os DTDs esto sendo substitudos? O primeiro problema referente sintaxe. Os documentos em XML possuem uma sintaxe diferente da que usada no DTD, sendo assim, as ferramentas existentes de XML no podem ser usadas para verificar a validade da sintaxe do DTD.

42

O segundo, que tem se tornado crtico, referente semntica. DTDs permitem apenas uma forma limitada de conter informao semntica sobre os documentos. Isso ocorre porque DTDs empregam poucos tipos de dados e fornecem pouca flexibilidade na especificao dos tipos definidos pelos usurios. Por exemplo, a declarao de um elemento que represente um ms do ano, embora correta na forma, pode ter um contedo invlido. Com DTD o mximo que se pode dizer sobre tal elemento que deve ser um conjunto de caracteres.
<!ELEMENT MES #PCDATA>

Dessa forma o seguinte ms seria vlido:


<MES> Domingo</MES>

Eventualmente, sempre possvel pensar em alguma codificao que pudesse representar melhor tais elementos, mas isso implica em definies bem mais complexas. Um terceiro problema com o DTD em relao a reusabilidade. Nos DTDs ela feita somente atravs do uso de mecanismos de macros parametrizadas. Isso significa que a estrutura sinttica de tais entidades deve ser previamente conhecida e ao reutilizar os DTDs no possvel usar os mesmos nomes sintticos dos parmetros Em resumo, o DTD no foi projetado para ser reutilizvel nem para ser aplicado em documentos distribudos, no possui sintaxe compatvel com a da linguagem XML e tem baixo potencial na codificao de semntica. O XML Schema estende e generaliza o uso de DTD na linguagem XML. Um schema um modelo de descrio de uma estrutura de informao e s vezes, da sua semntica. O XML-S soluciona as debilidades presentes no DTD. Os documentos em XML-S so antes de tudo documentos XML. Isso significa que usam os elementos e atributos para expressar a estrutura e semntica dos documentos. Alm de poderem ser editados e processados com as mesmas ferramentas usadas para processar outros documentos em

43

XML. Os documentos XML-S so vlidos somente se estiverem de acordo com a estrutura descrita em XML-S, fica resolvido tambm o problema de ter mais de uma operao de anlise sinttica para um nico documento em XML. O vocabulrio de um documento em XML-S formado por aproximadamente trinta elementos e atributos, alm de possibilitar o uso de namespaces4 num documento, facilitando a reusabilidade. O poder de definio de modelos em XML-S pode ficar evidente na tabela I, que compara recursos do DTD com XML-S. Os modelos que utilizam o XML-S so: OSIS, XSEM, JITT e BUVH. A tabela 1 apresenta um resumo dos principais recursos que so desejados para criao de ontologias de aplicao e suas disponibilidades no caso de DTD, XML-S. DTD XML-S N S S S N S N S N N N N N N N N N N
Tabela 1

Tipo de dados Cardinalidade Restrio de Intervalo Reusabilidade Classes Herana Mltipla Reificao Negao, unio e interseo de classes Inferncia: Transitiva e inversa

Legenda
N: No disponvel

S: Disponvel

Recursos para ontologia de aplicao: Tipo de dados: possibilitar definio de vrios tipos de dados Cardinalidade: definir cardinalidade de um elemento Restrio de Intervalo: definir regras de restrio de valores Reusabilidade: possibilidade de definir escopo Classes: definir classes e sub-classes Herana Mltipla: semelhante ao recurso em linguagem orientada a objeto

44

Reificao: propriedade que permite predicados de primeira ordem numa operao Negao, unio e interseco de classes: operaes bsicas com classes Inferncia transitiva e inversa: propriedades que podem ser deduzidas automaticamente na afirmao de um predicado. Como ser visto no prximo tpico, algumas propriedades essenciais no so contempladas pela criao de esquemas com o uso de XML-S (seo 3.2 RDF-S). 3.1.1 Modelos que usam XML-S

Entre os trabalhos publicados recentemente sobre a representao de informao e marcao de texto, destacam-se os seguintes modelos: OSIS - Este o padro que vem sendo definido por iniciativa das Sociedades Bblicas Unidas, de forma a reduzir custos, unificar bases de texto, ter flexibilidade e agilidade na produo de novos produtos que usam como base o texto bblico. Sua ltima verso de setembro/2002. o padro mais completo at o momento para representao de textos bblicos. Utiliza artifcios para alguns problemas de sobreposio de vises. Ainda no contempla vises mais complexas como por exemplo, lingstica e paginao editorial. O Anexo A mostra um exemplo de codificao com OSIS. Este modelo no resolve de forma genrica os problemas de sobreposio de viso em um texto. A cada nova ocorrncia ser necessrio o uso de artifcios para permitir a codificao desses casos. Existe duplicao de elementos, como por exemplo, os elementos do Dublin Core esto quase todos repetidos.

Em XML, namespace um conjunto de nomes, identificado por uma URI, os quais podem ser usados em documentos XML como tipos e atributos. Esses nomes possuem uma estrutura interna e, de acordo com a definio matemtica, no um conjunto

45

Por fim, utilizado um tipo de dado, annotation, para armazenar anotaes ao texto. Pode-se classificar essas anotaes como metadados. Essa deciso cria na verdade uma discriminao entre metadados com um conjunto de elementos definidos, por exemplo informaes catalogrficas, e outros metadados que tenham que ser acomodados nos elementos definidos pelo tipo de dado annotation. Esto previstas modificaes no padro OSIS para incorporar novos tipos de dados, mas enquanto esses novos tipos de dados no forem implementados, os elementos tero que ser registrados como tipo annotation. JITTs - Esta a soluo proposta por pesquisadores da Society of Biblical Literature em setembro/2002, para possibilitar a representao de textos com hierarquias de vises sobrepostas. Os autores utilizam uma etapa de pr-processamento feito por linguagem de programao, por exemplo scripts em PERL, que filtram as vises em etapas distintas e passam resultados para o visualizador de XML. A descrio como um todo quebra as regras de sintaxe do XML, sendo portanto um arquivo de contedo invlido, se analisado integralmente por um parser de XML. BUVH - Apresentada em maro/2002 pelos pesquisadores da Society of Biblical Literature, trata todo o contedo do texto no nvel do elemento mais bsico, a palavra, e cria estruturas de links para representar os diferentes conjuntos de informao, atravs do uso de Xpointer e Xpath5. XSEM - Produzido pelo Summer Institute of Linguistics (SIL), com o propsito de substituir a linguagem Standard Format for Markup (SFM) que vem sendo usada nos ltimos 20 anos na produo de obras no campo teolgico e linguistco nos mais diferentes formatos e idiomas. Visa representar somente o layout de texto, sendo que a ltima verso publicada de julho/2000.
5

Linguagens baseadas em XML que permite endereamento, referncia e recursos para definir links estruturado com controle e semntica associada.

46

Uma vez produzido o arquivo em XML, alguns aplicativos so utilizados para transformarem o texto de entrada em diferentes formatos de sada. No caso do XSEM, o SIL produziu sada para pdf, html, wml e E-book6. O aplicativo que efetuou as transformaes foi o XEP, desenvolvido pela Renderx (www.renderx.com), com suporte do aplicativo MSXSL, da Microsoft. No Anexo B apresentado um exemplo de codificao na estrutura do XSEM. 3.2 RDF-S O Resource Description Framework (RDF), uma recomendao do World Wide Web Consortium - W3C, constitui-se em uma arquitetura genrica de metadados. Permite descrever recursos no contexto Web, sendo um dos pilares para construo de Web Semantic, atravs da adoo de padres de metadados[Lassila1999]. A proposta do RDF permitir a formulao de vocabulrios que possam ser processados por mquinas e ainda legveis por seres humanos, impulsionando o intercmbio, o uso e a extenso da semntica de metadados entre comunidades das mais diferentes reas do conhecimento. O RDF busca resolver um dos principais desafios encontrados pelas diferentes comunidades de descrio de recursos: prover interoperabilidade entre os diversos padres de metadados. Para tanto, RDF define um mecanismo para descrio de recursos independente de um domnio particular de interesse, porm com as primitivas de modelagem necessrias para descrio de recursos sob qualquer domnio de aplicao, independente de plataforma computacional.

E-book a codificao de dados em texto e imagens em formato digital. Um E-book pode ser uma rplica exata de um livro impresso, ou pode ter contedo especificamente preparado para o formato de E-book format. Existe vrios formatos de E-book.

47

A tecnologia RDF representa uma convergncia de influncias de diversas reas da tecnologia da informao. As principais influncias vm da comunidade de padronizao da Web, o W3C, na forma de metadados em HTML e h influncia da linguagem PICS (Platform for Internet Content Selection) [www.w3c.org/PICS], que define camadas de metadados que permite criar polticas de acesso ao contedo da Internet. A proposta do Dublin Core de utilizar RDF para representar estruturas de metadados em documentos da Web uniu os interesses dos pesquisadores na codificao de documentos com SGML/XML, e dos pesquisadores na rea de representao do conhecimento. As principais contribuies foram a criao de um formato anlogo ao de redes semnticas e a utilizao do conceito de reificao. O modelo RDF Schema (RDF-S), baseado no modelo RDF bsico, fortemente influenciado por conceitos de orientao a objetos e de linguagens de especificao de bancos de dados, como o modelo conceitual NIAM (Nijssen Analysis Method) [Brickley2000]. As reas de aplicao que podem se beneficiar das potencialidades da tecnologia RDF so inmeras. Entre elas destacam-se os contextos de: descoberta de recursos, em que o uso do RDF, que possibilita a implementao de mecanismos de busca mais eficientes; de catalogao, onde o RDF pode ser utilizado para descrever recursos de informao disponveis em um Web site; em uma pgina ou em uma biblioteca digital; agentes inteligentes, em que o RDF pode facilitar a descrio e o compartilhamento do conhecimento. Em funo da sua flexibilidade e capacidade de representao de informao em estruturas com a criao de classes e tirando proveito das propriedades dos predicados de primeira ordem, o RDF tem se mostrado uma soluo atraente para resoluo de

48

problemas de interoperabilidade, desde conflitos de esquemas em bancos de dados relacionais at na integrao com outros tipos de recursos.

3.2.1

O Modelo RDF Bsico

A especificao da tecnologia RDF destaca-se pela simplicidade com que busca estruturar o contedo contido na Web. Tecnicamente, RDF no uma linguagem, mas um modelo de dados para descrio de recursos com mais semntica, atravs da adoo de metadados. O modelo de dados RDF muito simples, baseando-se em quatro tipos de objetos, descritos a seguir: Resources: representam o universo de objetos que podem ser descritos. Todo recurso necessita de um Uniform Resource Identifier (URI) associado. So exemplos de recursos: uma pgina Web, parte de uma pgina Web, uma coleo de pginas Web e objetos fora da Web, como por exemplo um livro impresso. Literals: representam os tipos de dados que o valor de uma propriedade pode assumir. Os tipos mais usuais de literais so os do tipo string. Properties: representam os aspectos do recurso a serem descritos. Podem ser visualizadas como atributos de recursos e neste sentido correspondem a pares de atributovalor. Propriedades tambm so utilizadas para descrever relacionamentos entre recursos. Neste sentido, o modelo de dados RDF se assemelha ao modelo de EntidadeRelacionamento. Cada propriedade tem um significado especfico, define seus valores permitidos, os tipos de recursos que podem descrever, e seus relacionamentos com outras propriedades. Statements: representam a relao entre um recurso, uma de suas propriedades e o valor que essa propriedade pode assumir. Os statements correspondem construo bsica que estabelece o modelo de dados em RDF. Um statement chamado de declarao ou predicado: define uma relao binria,

49

envolvendo uma propriedade e um par de atributo-valor. Usando a notao em forma de tripla, a propriedade e o par atributo-valor formada por: subject (recurso) e objetct (valor de uma propriedade). Por exemplo, a tripla formada pela expresso flutua(oleo, agua), representa uma relao entre leo e gua. RDF pode tambm conter uma varivel como elemento da tripla, flutua(?x, agua), o predicado que representa que ?x tem a propriedade de flutuar na gua. A notao utilizada para representao dessa tripla, (predicate,[subject],[object]), particularmente proveitosa, uma vez que permite que recursos e valores sejam misturados, ou seja, qualquer recurso pode atuar no papel de valor, o que garante maior flexibilidade ao modelo na representao de estruturas mais complexas. Algumas operaes booleanas podem ser usadas para representar fatos mais complexos. Por exemplo, ponto_vapor(agua, 100C, 1atm), poder ser representada pelo seguinte conjunto de relaes binrias: vaporizacao(?y, agua) E temp(?y, 100C) E (pressao_atm(?y, 1atm). As triplas do RDF correspondem a um sub-conjunto das operaes de lgica de primeira ordem, pois define a operao de conjuno (AND) mas no implementa, no modelo bsico, as operaes de negao (NOT) e disjuno (OR)[Sowa2000]. As operaes de negao e disjuno so implementadas nas extenses de RDF que esto em processo de padronizao. Uma nova linguagem tem proposta de ser padronizada em 2003, pelo W3C, com o nome de OWL (Ontology Web Language). [www.w3c.org/TR/2002/WD-owl-ref-20021112].

50

Alm do grande poder de expresso do modelo RDF, que possibilita utilizar predicados de lgica de primeira ordem, este modelo permite a representao atravs da reificao de relaes geralmente associadas a lgicas de ordem superior, como por exemplo: Tipo(flutuar, propriedade_fisica) E flutuar(oleo, agua) onde conclu-se, atravs de lgica de ordem superior, que o fato de leo flutuar na gua uma propriedade fsica. No entanto, no modelo RDF, a expresso representada na semntica de lgica de primeira ordem. [ www.w3.org/TR/rdf-mt] A representao em RDF pode utilizar com muita flexibilidade os vocabulrios definidos atravs das URIs, conhecidos como namespace. Desta forma as afirmativas em relao s propriedades dos elementos podem ter um nmero arbitrrio de predicados. Pode ser construido uma URI para qualquer conjunto de fatos que seja apresentado, e incorporar os namespaces nessa estrutura de representao. [www.w3.org/TR/rdf-concepts] Alm do formato de tripla, o modelo de dado RDF tambm pode ser visualizado na forma de um grafo, que consiste de um conjunto de ns conectados por arcos rotulados, em que os ns representam os recursos Web e os arcos representam as propriedades destes recursos. Ainda na representao de grafos convencionada pelo W3C [Lassila1999], literais so representados por retngulos. 3.2.2 XML para representao de RDF

Um dos principais aspectos que tem contribudo para o sucesso da tecnologia RDF no contexto Web a possibilidade de representar e trocar modelos RDF via XML [BRAY2001]. Como j mencionado, o RDF no uma linguagem, mas sim um modelo de dados que prov uma estrutura (framework) conceitual e abstrata para definio e uso de metadados no contexto Web. Para tanto, se faz necessrio o uso de uma linguagem que consiga expressar este modelo. A linguagem de marcao XML uma das possveis formas de representao das instncias dos modelos RDF. Dentre os motivos que levaram escolha da XML, destacam-se os seguintes:

51

Uma sintaxe baseada em XML certamente facilitar a tarefa de tornar o RDF o padro de metadado para descrio de recursos no contexto Web. XML hoje um padro amplamente aceito no contexto de interoperabilidade sinttica de informaes via rede, haja vista o grande nmero de ferramentas disponveis no mercado, e a preocupao cada vez maior dos fornecedores em desenvolver produtos que incorporem as caractersticas do XML.

XML fornece o mecanismo Namespaces, atravs do qual a arquitetura RDF consegue misturar diferentes padres de metadados para compor descries de recursos dentro de um mesmo documento.

Duas sintaxes em XML so propostas para expressar os modelos RDF: serializada, que expressa toda a potencialidade do modelo RDF; e abreviada, que inclui construtores adicionais para expressar de forma mais compacta o modelo RDF. Exemplo:
<?xml version="1.0"?> <rdf:RDF xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns# xmlns:ex=http://local/elementos.estrutura/ xml:base="http://local/departamento/secao/produto"> <ex:barraca rdf:ID="10245"> <ex:modelo>Campestre 1</ex:modelo> <ex:ocupantes>2</ex:ocupantes> <ex:peso>2400</ex:peso> <ex:tamanho>14x56</ex:tamanho> </ex:barraca> </rdf:RDF>
RDF na forma serializada

<?xml version="1.0"?> <rdf:RDF xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns# xmlns:ex=http://local/elementos.estrutura/ xml:base="http://local/departamento/secao/produto"> <ex:Tent rdf:ID="10245" ex:modelo="Campestre 1" ex:ocupantes="2" ex:peso="2400" ex:tamanho="14x56"/> </rdf:RDF>
RDF na forma abreviada, os elementos so transformados em atributos

52

3.2.3 Repositrios RDF permite definir uma propriedade para um conjunto de fatos, dupla de objetos/valores. Esses fatos podem ser encapsulados em repositrios, containers. Containers podem ser enumerveis ou sem identificao numrica. Podem representar propriedades alternativas de um objeto, variantes ou um subconjunto de fatos que represente uma relao de especializao. Bag: Conjunto de fatos que no apresentam ordem especfica de identificao. Seq: Conjunto de fatos ordenados segundo um critrio escolhido e indexado de forma a recuperar precisamente o ensimo valor/predicado desejado. Alt: Fatos que so utilizados em substituio ao originalmente descrito. Com os repositrios e o mecanismo de reificao (ver 3.2.4), uma estrutura em RDF no fica limitada a representao de relacionamento binrio, um par atributo-valor, pois o valor pode ser um objeto do tipo container, com vrios valores adicionais. Containers, podem ainda ser particurlamente teis no registro de variaes de texto, pontos de vistas divergentes, codificao de tradues em diferentes idiomas ou utilizao de um conjunto de caracteres fora do padro. Emanuel Tov autor de um livro altamente conceituado no campo da crtica textual do texto bblico em hebraico, The textual criticism of Hebrew Bible[Tov2001]. No captulo 9 ele defende que no estudo do texto hebraico preciso registrar as diferentes opinies acerca do trecho em que os estudiosos divergem; mesmo que na sua posio pessoal no haja dvida, o registro permite que outros pesquisadores fundamentem suas teses. 3.2.4 O mecanismo de reificao7 Uma importante caracterstica do modelo de dados RDF a descrio de statements. Isso possvel atravs do mecanismo de reificao que permite considerar qualquer statement RDF como um recurso. Desta forma possvel aninhar descries obtendo assim descrio sobre descrio, requisito fundamental em gerncia de metadado. Descries

Esse termo no possui traduo padronizada em portugus

53

deste tipo so denominadas descries em lgica de ordem superior, uma vez que utilizam o mesmo modelo, porm em um nvel maior de abstrao. Formalmente, a reificao em RDF significa expressar um statement como um recurso que contenha quatro propriedades. Estas quatro propriedades so definidas pelo modelo de dados RDF e so listadas abaixo. subject : identifica o recurso sendo descrito pelo statement modelado. predicate: identifica a propriedade original no statement modelado. object : identifica o valor da propriedade no statement modelado. type: descreve o tipo do novo recurso. Todos os statements reificados so instncias de rdf:statement.

54

Exemplo: Classe com hierarquias simples

Veculos Mini -Van Sub-classe de

Sub-classe de Veculos - Vans

Veculos de Passageiros

Sub-classe de Sub-classe de Veculos - Caminhes

Sub-classe de Veculo Motor

As vantagens do RDF-S para XML-S so resumidas na tabela a seguir: XML-S RDF-S S S S N S S S S N S N S N S N N N


Tabela 2

Tipo de dados Cardinalidade Restrio de Intervalo Reusabilidade Classes Herana Mltipla Reificao Negao, unio e interseco de classes Inferncia: transitiva e inversa

Legenda S: Sim possui o recurso N: No, recurso indisponvel

55

3.3 Processo de representao - Modelo Ketib Aps uma anlise das ontologias e solues existente, as observaes a seguir so pertinentes na definio do processo de representao: 1. Em qualquer texto possvel adotar um sistema de referncia. necessria uma ateno especial quando o sistema de referncia do conjunto primrio do texto for escolhido. 2. Na representao em um texto complexo, eleger um conjunto primrio, em torno do qual os outros conjuntos interagem direta ou indiretamente uma deciso fundamental. A escolha desse conjunto deve ter o maior apoio possvel da comunidade que trabalha com o texto. Sempre haver vozes discordantes. Decises polticas podem comprometer a evoluo tcnica. 3. As mltiplas vises, presentes em textos complexos, e as relaes entre seus conjuntos de elementos, podem ser classificadas como metadados ou metainformao do conjunto primrio do texto. 4. Os metadados, devem ser representados por estruturas distintas (frames), que permitam codificar as anotaes, comentrios, alternativas e variaes que um texto pode apresentar em camadas diferentes da que contm o texto primrio. 5. Os modelos analisados nesse trabalhos buscaram representar diferentes nves de informao em uma mesma camada de dados. Essa deciso gera dificuldades de codificao atuais e barreiras tcnicas para ampliar o modelo no futuro. Para tornar possvel um mtodo que atendesse aos requisitos mencionados no captulo 2, foram definidas as seguintes medidas: Utilizar uma representao do texto principal, considerando como um conjunto de dados. Utilizar camadas de metadados para representar anotaes, aparato crtico, e dimenses paralelas do texto.

56

Definir uma estrutura de metadados que para resolva sobreposio eventual de duas camadas dentro de um mesmo conjunto. Criar um modelo flexvel que possa definir formas distintas e alternativas de representao.

Figura 3-1 -Modelo Ketib na representao RDF Schema


Clofon Aparato

Mp

Mm

Metadados Livro
Referencia

Massra

BHS Dublin Core

RDFS:Class

RDF:Propriedades

RDFS:Resource

NM

est.

autor descrio .....

57

O digrama da figura 3-1 est descrito em RDF/XML no Anexo D. Cada dimenso possui uma estrutura hierrquica bem definida. As dimenses que no apresentam sobreposies podem ser representadas na mesma camada de dados que o texto principal. A diferena para os outros modelos a adio de uma estrutura de metadados que contm uma riqueza muito maior de informaes e que podem ser facilmente recuperadas. Quando existe sobreposio que pertence a duas dimenses distintas, foi criado uma camada virtual, que define uma nova estrutura de informao que acomoda as sobreposies. Essa soluo utiliza uma combinao de dois recursos, o uso de milestones e stand-off markup. O milestone colocado no incio da ocorrncia dentro do texto primrio, mas ao invs de servir apenas como marca, contm uma estrutura de metadados que descreve as propriedades. Para evitar duplicaes do texto, dentro da estrutura iniciada pelo milestone, foi usado a codificao proposta pelos pesquisadores da Universidade de Edimburgo, stand-off markup, apenas com a melhoria de utilizar Xlink como forma de referncia ao texto principal. O Xlink8, por ser um mecanismo muito mais poderoso e estar apoiado em estrutura de metadados na sua padronizao definida pelo W3C, atende mais adequadamente as necessidades do Ketib. A deciso de criar uma nova camada anloga ao recurso presente em algumas das linguagens orientadas a objeto que implementam herana mltipla. Quando preciso modelar uma classe que utiliza mtodos de duas ou mais classes distintas, utiliza-se uma classe com herana mltipla.

Linguagem que permite referenciar elementos em um documento XML, criar e descrever links entre resources. Usa a sintaxe de XML para definir estruturas de links sofisticados, alm do tradicional link unidirecional do HTML.

58

Da mesma forma que na anlise orientada a objeto, algumas vezes possvel eliminar a herana mltipla, alterando o modelo de classes. O mesmo pode ser tentado no Ketib, com a redefinio das dimenses iniciais. Essa etapa semelhante ao proposto por Renear no modelo OHCO-3. Do ponto de vista de implantao para a BHS, foram criados arquivos em XML/RDF, baseado em templates que descrevem a ontologia de aplicao, utilizando RDF-S. Os arquivos definidos codificam os seguintes contedos: 1. Texto bblico com codificao de Livro (L), Captulo.Versculo (R) e com as estruturas e milestones dos metadados. Incluem sobreposio, clofons, cantilenas e possveis anotaes lingsticas; 2. Massra Parva (Mp) e Massra Magna (Mm); 3. Aparato Crtico (Ap). 4. Nveis sobrepostos, codificados em XML com referncias em Xlink. A opo adotada foi conveniente devido s seguintes propriedades: L e R so vises hierrquicas. Mp e Mm so vises sem intersees e com contedo distinto. Ap uma dimenso totalmente subordinada s vises L e R. Seu contedo pode ser includo no mesmo arquivo que contm a codificao de L e R, mas para melhor clareza e simplificao da estrutura de XML-S, foi escolhido usar um arquivo independente. P, S e Cs so representadas dentro do texto principal com recursos combinados do milestone e stand-off markup, sendo devidamente documentada, se necessrio com metadados especficos. Os problemas de sobreposio de P e S com R so facilmente resolvidos. Cs no possuem sobreposio com L, R, P ou S e tm sua representao anexada ao texto principal com a devida camada de metadados.

59

Para integrar todos os elementos da BHS (texto e metadados), de forma estruturada, pode ser usado tantos arquivos quantos forem desejados, de forma a encapsular as vises do texto a serem exploradas. A criao desses arquivos pode ser opcional, pois a partir do arquivo que contm o texto bblico possvel navegar por todo o contedo, incluindo as vises P, Ap, Mp e Cs. Figura 3-2 Exemplo do texto e metadados da BHS (Gnesis 1.116)

60

D E F

61

Legenda da figura 3-2: A- Colfon e marca de percope. B- Nota estatstica da Massra Parva que indica a ocorrncia da palavra ou expresso por trs vezes. Indica que a nota nmero 11 da Massra Magna traz comentrio sobre a palavra marcada. C- Nota estatstica da Massra Parva que indica a ocorrncia da palavra ou expresso por 30 vezes no Antigo Testamento. D- Nota da Massra Parva remete a uma referncia na Massra Magna que indica a ocorrncia de duas vezes no Antigo Testamento. Sendo que a segunda em Eclesiastes 6.3 (Qoh 6.3). E- Notas da Mm referenciadas no verso 1 pelas notas da Mp. Sendo que as notas da Mm so 1, 2, 3 e 3139 F- Aparato crtico, escrito no sc. XX No texto dos massoretas no havia numerao nas notas acrescentadas, apenas as divises (percopes). O sistema de numerao das notas foi adotado em 1927. As notas da Mp que fazem referncias Mm so sempre numeradas dentro do mesmo captulo, reiniciada. As notas no Aparato Crtico so marcadas com letras dentro de cada verso. a cada novo captulo essa numerao

62

4. Ketib para BHS


O processo de aplicado ao caso de estudo, o texto da BHS, teve as seguintes etapas: 4.1 Roteiro do modelo Ketib Estudo do texto de aplicao e suas propriedades Entrevista com especialistas Reviso de conceitos Definio da ontologia Validao e complementaocom especialistas Anlise das dimenses do texto e relaes transtextuais presentes Solues para as sobreposies de dimenses que ferem a estrutura hierrquica e definio dos elementos usados na camada de metados Construo do modelo RDF/XML

4.2 Problemas encontrados 1. reas de pesquisas envolvidas O objeto em estudo, representao de informaes em texto complexo, pertence rea de aplicaes para cincias humanas, sendo necessrio pesquisas de conceitos de inteligncia artificial, padres em definio pelo W3C e anlise da Bblia Hebraica. 2. Orientao e artigos de referncia O conjunto de reas envolvidas oferece um reduzido nmero de trabalhos publicados e especialistas que possam dominar conceitos bsicos. 3. Novo padro e expectativas Na proposta de criao de novo padro deve existir a preocupao de oferecer um modelo que atenda aos atuais requisitos e permita extenso para futuras aplicaes. Pela experincia com especialistas da rea de cincias humanas, foi notado que a instabilidade

63

da definio dos requisitos e propriedades apresentadas tende a ser maior do que as tratadas na rea de cincias exatas. 4. Atrito inercial A apresentao de novas propostas no recebida com credibilidade, se no estiver acompanhada de muitos exemplos e ferramentas de suporte. Por outro lado, a codificao de um bom volume de exemplos e oferta de ferramentas, em geral, leva tempo e requer uma boa aceitao dos usurios. Uma iniciativa fica esperando pela outra, sendo necessrio que algo seja feito. Esse tipo de dificuldade semelhante ao conceito da Fsica conhecido como atrito inercial. 4.3 Solues adotadas Para superar os obstculos mencionados no item anterior, as decises tomadas foram: 1. Consultar um grupo multidisciplinar de especialistas, realizando uma etapa de anlise de requisitos e extrao de conhecimento. Como resultado, foi comparado os conceitos e preferncias mais importantes na definio do modelo. 2. Foi necessrio analisar periodicamente o material publicado pelo W3C, devido velocidade das modificaes que ocorreram durante o ano de 2002. 3. Fazer uso de padres abertos, que apresentasse flexibilidade. Evitar elementos que no estivessem padronizados e modelos de representao que utilizassem artifcios para superar as dificuldades estruturais presentes no texto. 4. O objetivo desse trabalho no incluiu o desenvolvimento de ferramentas, mas para tratar o atrito inercial mencionado acima, sugerido reutilizar cdigos fontes de vrias ferramentas disponveis na Web, em que possvel encontrar mdulos que implementam editores com recursos para XML e Xlink, analisadores de estruturas RDF e outros recursos que podem reduzir o tempo de desenvolvimento de ferramentas.

64

4.4 Exemplo da codificao Ketib Trechos do captulo 1 do livro Gnesis, codificado utilizando o modelo Ketib.
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs=="http://www.w3.org/2000/01/rdf-schema#" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/" xml:base="http://dcc.unicamp.br/~800271/n1"> <rdf:Description rdf:ID="Gnesis"> <rdfs:subClassOf rdf:resource="#Livro"/> <dc:title>Gnesis</dc:title> <dc:description>bereis</dc:description> <dc:publisher>Wrttemberg Bible Society</dc:publisher> <dc:date>1997</dc:date> <dc:type>Livro impresso</dc:type> <dc:format>text/html</dc:format> <dcterms:isPartOf rdf:resource="BHS"/> <div type="testament"> <div type="book" osisID="Gen"> <div type="chapter" osisID="Gen.1"> <N:col rdf:resource="col/gn1/1"/> <verse osisID="Gen.1.1"><N:nm rdf:resource="gn1/nm/1"/>ber'shiyth br' <N:mp rdf:resource="gn1/mp/2"/> 'elohiym 'th <mmp/> hashmayim <N:mp rdf:resource="gn1/mp/3"/> ve'th <mmp/> h'rets</verse> <verse osisID="Gen.1.2"> <N:mp rdf:resource="gn1/mp/4"/>veh'rets <mmp/> hyethh thohu vbhohu vechoshekh `al-peny thehom veruach'elohiym merachepheth `al-peny hammyim </verse> <verse osisID="Gen.1.3"> vayyo'mer 'elohiymyehiy 'or vayhiy-'or </verse> </div> <div type="chapter" osisID="Gen.2"> </div> </div> </div> </rdf:Description> </rdf:RDF>

* O Anexo D traz a descrio do metadado nm e mp. Alm do template


do Ketib em RDF.

65

Predicados criados com a representao em RDF: subClass(livro, Genesis) Ispartof(Genesis, BHS) Date(Genesis, 1997) :- O livro de Gnesis, parte da BHS. O contedo codificado foi impresso em 1997. Aparato(gn1.1, a) Tipo(a, variante) Variante(a, bag1) Bag1(autor, Origenes) Bag1(text, ....) :- O texto .... uma variante de Orgenes, registrada no aparato crtico da BHS, no livro de Gnesis, referente ao verso gn1.1

Exemplo de algumas aes que poderiam ser efetuadas por programas que implementam a representao em RFD-S: Listar todas a variantes de texto do captulo 1 e 2 Listar todas a variantes de Orgenes, registrada no Ap (aparato crtico) em Gnesis Listar todos os versculos que possuem notas da Massra Parva Listar todas a palavras ou exepresses que ocorrem uma nica vex em todo Antigo Testamento

66

4.5 Comparao dos modelos A comparao dos modelos se restringe somente aos objetivos alcanados, pois o Ketib trabalha em um nvel de estrutura superior aos outros modelos. Ketib x OSIS O modelo OSIS est totalmente implantado em XML-S, o que obriga a adaptaes nesse modelo para atender s necessidades na representao. O modelo Ketib usa um conjunto simplificado e reduzido dos elementos do OSIS em XML-S. Com esses elementos feita a validao e codificao das estruturas bsicas do texto, L e R. O XML-S do padro OSIS tenta representar todos os elementos numa nica camada de dados. O Ketib utiliza o RDF-S para representar camadas de metadados. Dessa forma a representao da sobreposio das vises feita nas diferentes camadas. Alm dessas vantagens diretas, as futuras extenses que o padro pretende incorporar como elementos para publicao, direitos autorais, notas editoriais, exegese e lingstica, seriam mais facilmente implementadas nas camadas de RDF-S, com possibilidade de herana mltipla, sem necessidade de inchar o padro bsico com novos elementos. Ketib x XSEM O modelo XSEM foi o primeiro prottipo colocado em operao, demonstrando o potencial das operaes com XLS e XLST. No entanto, no contm um conjunto definido que atenda representaes mais complexas como no caso da BHS. No entanto, para o domnio e propsitos definidos pelos seus autores, o modelo atingiu seus objetivos.

67

Ketib x JITT Os autores do JITT conseguiram resultados notveis de desempenho na aplicao do seu modelo com estilo de pr-processamento atravs de scripts. No campo terico, JITT demonstra que no vivel o tratamento de marcao de vises concorrentes em uma nica camada, ou com uma nica raiz para todo o documento, sem ferir os fundamentos da linguagem XML. No modelo JITT, os autores, optaram por contornar a restrio da linguagem, e criam um arquivo de descrio que invlido para os softwares que implementam as regras de XML. No Ketib, o contedo dos arquivos est de acordo com os padres da W3C. No campo prtico, requer uma etapa de pr-processamento a cada operao que requisitar uma nova viso para ser trabalhada. Mantm as desvantagens comentadas no modelo OSIS, de utilizar uma estrutura que no disponha de herana mltipla, inchando o modelo a cada novo conjunto de elementos que forem utilizados. Ketib x BUVH O modelo BUVH, embora tenha apresentado conceitos fundamentais utilizados na formulao do Ketib, utiliza a unidade mnima para indexao de referncia, a palavra, deixando de usar a potencialidade oferecida pelos elementos de intervalos (range) no Xlink, que foi proposta no Ketib e que reduz a complexidade da codificao, sem perder contudo a flexibilidade de lanar mo dos recursos previstos para o Xpath e Xpointer. Na anlise da representao do BUVH, Patrick Durasau, em artigo publicado em 2002, observa que os editores para esse modelo no esto implementados e seriam complexo e lento o seu desenvolvimento. O autor do modelo adota a tese de que

68

uma linguagem hierrquica pode acomodar dados e metadados estruturados, numa mesma camada de representao.

69

5. Concluses
5.1 Argumentos finais O processo Ketib que descrito flexvel e est baseado em padres abertos, RDF/XML. O uso de RDF/XML vem sendo adotado por diferentes setores das industrias. Para criao de ontologia, a estrutura descrita em RDF superior aos outros modelos, est padronizada pelo organismo internacional W3C e serve como base da linguagem OWL, que est em fase de padronizao e oferece recursos ainda mais avanados. Existe trabalho j desenvolvido com esses padres que esto disponvel ao pblico, inclusive com o cdigo fonte, entre eles: editores grficos, analisadores sintticos e mquinas de inferncia. Com a soluo apresentada possvel codificar as informaes de obras com texto complexo. Alm de permitir adicionar ao modelo camadas adicionais de informao com reaproveitamento de todo trabalho j realizado. Uma vez que uma obra tenha sua representao no modelo Ketib, o fcil acesso, a pesquisa e recuperao de informaes, a formatao de sada para diferentes perifricos e a adio de notas pessoais, so algumas das facilidades que podem ser exploradas pelos usurios. Comparado soluo da representao proposta com os principais modelos conhecidos, o Ketib soluciona problemas tradicionais, que os outros modelos no contemplam ou resolvem de forma parcial. O modelo faz uso de camadas de metadados para armazenar informaes complementares, anotaes, possveis variaes do texto e estruturas que apresentam sobreposio. Com a utilizao desses recursos possvel evitar a duplicao de contedo no processo de representao e dissociao do cdigo de markup com o contedo da obra.

70

Esse modelo no tem o propsito de codificar ou deduzir conhecimento teolgico. Seu objetivo , tal como os objetivos dos massoretas, registrar o que contm o texto, quais as escolhas feitas pelos estudiosos em crtica textual. Atravs de uma estrutura especial o processo de captura e recuperao do contedo codificado utiliza lgica de primeira ordem. O modelo comporta as informaes necessrias para permitir aos telogos e estudiosos a elaborao de suas teses. As estruturas de metadados podem suportar de forma mais adequada o complexo contedo de obras como a BHS. O processo apresentado permite agregar outras camadas de informao de forma padronizada, facilitando o compartilhamento de segmentos especficos da informao. Na fase inicial, onde o volume de codificao grande, esse modelo adequado para fragmentar o contedo da obra e distribuir as tarefas entre vrios colaboradores, ou ainda dividir o trabalho de marcao entre grupos especialistas em uma viso determinada. Esse processo pode ser estendido em aplicaes de outros domnios que tenham necessidade de integrar dados e metadados. Os princpios em que foram baseados esses modelos so os mesmos que influenciam a evoluo da Web. Construir aplicativos e codificar contedo para a Web Semantic, parece ser inevitvel. 5.2 Trabalhos futuros 5.2.1 Frame de controle A proposta de criar um conjunto de frames que possa controlar o comportamento dos frames que codifiquem as informaes e as relaes transtextuais, tambm faz parte da teoria de frames apresentada por Minsky, embora, como mencionado no seu trabalho, tenha sido proposta por um de seus alunos, Scott Fahlman:
Eu imagino uma base de dados em que conjuntos dos fatos e agentes (demons) relacionados so agrupados em pacotes. Dentro desses pacotes quaisquer nmeros de fatos e/ou agentes podem ser ativados ou disponibilizados para o acesso. Um pacote pode ativar outros pacotes (recursivamente); se um pacote, que relaciona um lista de pacotes; for ativado, os pacotes listados sero ativados tambm, e quaisquer dados deles tornam-se disponveis a menos que sejam especificamente modificados ou cancelados. Assim, ativando alguns pacotes apropriados, o sistema pode criar um ambiente sob medida para execuo que contm somente a parcela

71

relevante de seu conhecimento global e de um conjunto apropriado de agentes. Eventualmente, teremos que adicionar pacotes novos especficos ao conjunto ativo a fim de tratar de alguma situao especial, mas esta inconvenincia ser de longe mais conveniente do que a complexidade de constantemente de tropear sobre conhecimento no desejado ou de disparar agentes indesejveis.[Minsky1974].

Berners-Lee fala sobre o mesmo conceito no artigo da Scientific American, maio/2001, e chama de Composite Capability/Preference Profile (CC/PP). A W3C est em fase de padronizao do recurso CC/PP, onde so definidos os elementos bsicos e atributos que permitem sua ampla utilizao na indstria mvel de comunicao, alm de ser um dos principais elementos da Web Semantic. A padronizao que est sendo proposta utiliza a representao descrita com RDF-S. Nos sistemas de E-learning essa funo responsvel por definir que caminhos um usurio vai percorrer, dependendo da interao com o tutor virtual. Esse conceito conhecido como AHS (Adaptive Hypertext System). Em uma eventual utilizao na representao da BHS, poderia ser implantada como um frame que receberia valores para seus atributos de forma interativa com o usurio, criando vises seletivas de forma dinmica ou produzindo diferente formatao, conforme o tipo do perifrico de sada detectado. Embora de importncia clara na implementao de filtros dinmicos, ou adaptivos sobre uma base de informao codificada, nesse trabalho essa etapa no obrigatria, podendo ser implantado futuramente, quando o modelo tiver atingido maturidade. 5.2.2 Outros domnios A soluo adotada pode ser aplicada amplamente com suas funcionalidades em obras didticas de ensino, por exemplo, na rea de direito, medicina, literatura e mecnica. Essas reas possuem, em geral, um texto base, com uma srie de anotaes, comentrios ou contedo relacionado com trechos do texto base. Esses elementos adicionais podem ser encarados como metadados e de tal forma podem ser codificados com os recursos em XML/RDF.

72

O processo de busca pela informao ser facilitado pela estrutura de representao do RDF. Os textos voltados para rea de ensino, em geral, possuem uma estrutura bem definida por seus autores, o que facilita a organizao das diferentes vises e dimenses que precisam ser codificadas. As ontologias, uma vez definidas, possuem um alto grau de reusabilidade para obras de um mesmo domnio. Outro domnio que pode ser atendido pelo modelo presente a codificao de obras antigas, pois as caractersticas dessas obras em geral incluem preocupao com qualidade do original, comparaes das cpias existentes, identificao de estilo do autor ou do copista, originalidade, anotaes posteriores, ausncia de um sistema de referncia e relaes transtextuais. O Ketib oferece uma forma de representao que pode ser facilmente navegada, flexvel para ser recomposta em diferentes unidades e que permitam adicionar meta nveis de informao. Com esses recursos, o trabalho dos peritos encarregados de diferentes tipos de anlises facilitado. A representao com RDF-S a estrutura mais adequada para atender a essa lista de requisitos, sendo as instncias descritas com XML/RDF. Particularmente, no domnio de trabalhos de crtica textual possvel aplicar esse processo para representar as informaes dos textos associados ao contedo das anlises de um ou mais pesquisadores. Nesses trabalhos existe uma identificao clara da necessidade de estruturas de metadados. 5.2.3 Redefinio da ontologia de aplicao Na expanso do modelo sugerido neste trabalho, poder ser fortemente conveniente a tarefa de reescrever o padro OSIS na linguagem Ontology Web Language (OWL), que est em fase de padronizao pela W3C. A linguagem OWL resultado da fuso das linguagens DAML e OIL, que por sua vez so baseadas em RDF-S. Os recursos presentes nessas linguagens so construdos especialmente para definir ontologias. Alm dos mecanismos presentes na linguagem

73

RDF-S, a OWL oferece recursos adicionais como: operaes de negao, conjuno e disjuno com classes, propriedades de transitividade, inverses e restries qualificadas. Esse conjunto presente na OWL supera a somatria dos benefcios de XML-S e RDF-S e poderia ser criado um novo modelo Ketib baseado tambm na OWL. O novo modelo que seria criado teria recursos para consultas e criao de filtros complexos. Permitiria por exemplo, que uma propriedade definida tivesse predicados com lgica de ordem superior. Esse recurso muito apreciado por usurios no estudo e anlise de texto. Atualmente, o Xlink permite a inferncia inversa, entretanto ainda h falta de editores e browsers que suportem a padronizao desse recurso aos usurios. Est previsto para o primeiro semestre de 2003 a padronizao pelo W3C da estrutura de Xpointer, que vem complementar as referncias que a tecnologia Xlink define. To logo as ferramentas processem esse novo padro, seria muito interessante sua utilizao em conjunto com Xlink. Algumas ferramentas, como por exemplo, uns dos mais conhecidos software de anlise de textos teolgicos do mercado, implementam parcialmente essas funcionalidades, no entanto no esto baseado em textos descritos em XML, e sim com estruturas de dados proprietria. O nvel de maturidade que a OWL deve atingir para ser usado regularmente pode levar vrios meses. Enquanto isso, o investimento de criar uma definio em RDF-S no representaria desperdcio de esforos, pois a representao seria integralmente aproveitada na linguagem OWL, apenas podendo ser otimizada.

74

6. Bibliografia
[Ahmed2001]K., et.al; Professional XML Metadata. Wrox Press. 2001. [Almeida, A. e Costa, J. M. 1992]. Material complementar da Bblia de Thompson [Anderson1973]J. e Bower, G; Human Associative Memory. [Arango1994] Domain Analysis Concepts and Research Directions. Workshop on Software Architecture, 1994, USC Center for Software Engineering, Los Angeles. [BHS1997] Biblia Hebraica Stuttgartensia, Editio Funditus Renovata, 1997 [Bray2001]T.; What is RDF?, http://www.xml.com, Jan, 24, 2001 [Brickley2000]D., GUHA R; Resource Description Framework (RDF) Schema Specification 1.0. W3C [Berners-Lee2001] J.Hendler and O.Lassila; The Semantic Web: Scientific American [Chandrasekaran1999]B, et al. What Are Ontologies, and Why do We Need Them? IEEE Inteligent Systems & their applications, vl 14 n. 1, jan/fev 1999. [Clancey1993]W. J; The knowledge level reinterpreted: modelling socio-technical systems. International Journal of Intelligent Systems [Dahlgren1995]K. A; Linguistic Ontology. International Journal of Human-Computer Studies [Davenport2002]K.;Library Journal, Northeast Iowa Regional Library System, May [DeVos2001]A., Widergren S.- XML for CIM Model Exchange -Power Industry Computer Application(IEEE)-PICA2001] DC (Dublin Core). The Dublin Core Home Page. http://purl.oclc.org/metadata/dublin_core. [Devlin1999]K. Infoscience: Turning Information into Knowledge. New York: W.H. Freeman, [Durand1990]D., Allen Renear; What text realy is? [Durand1996]D., Allen Renear , Elli Mylona; Refining our Notion of What Text Really Is: The Problem of Overlapping Hierarchies; Research in Humanities Computing, Oxford University Press

75

[Durusau2002]P., Matthews ODonnell; Coming down from the trees Next step in the evolution of markup? - Conference Extreme Markup 2002 [Genette1982]G.; Palimpsestes. Paris: Seuil [Gilson1952]E.; Being and Some Philosophers. Pontificial Institute of Mediaeval Studies. Toronto [Gmez-Perez1996]A.; Towards a Method to Conceptualize Domain Ontologies. ECAI96 - Workshop on Ontological Engineering, Budapest. [Guarino1997]N.; Understanding, building and using ontologies. Int. Journal HumanComputer Studies, v. 45, n. 2/3, fev./mar. 1997. [Guarino1998]N.; Formal Ontologies and Information Systems. First International Conference (FOIS), Trento, Itlia. [OLeary1997] Impediments in the use of explicit ontologies for KBS development. Int. J. Human-Computer Studies, v. 46, n. 2/3, 1997. [Lassila1999]O.; Resource Description Framework (RDF). W3C [Minsky1974]M.; MIT-AI Laboratory Memo 306 - Frames [Minsky1991]M., Logical x Analogical or Symbolic x Connectionist or Neat x Scruffy, AI Magazine vol1. [McGuinness2001]D., Noy N.; Ontology Development 101: a Guide to Creating Your First Ontology, Stanford University [Lassila2001]O., Deborah McGuinness, The Role of Frame Based Representation on the Semantic Web, KSL Tech Report Number KSL-01-02. January, 2001. Knowledge Systems Laboratory-Stanford University [Neighbors1981] Software Construction Using Components. 1981. Tese (Doutorado) Universidade da Califrnia, Irvine [OSIS2002]Open Scripture Information Standard htttp://www.bibletechnologies.net [PICA2001]Power Industry Computer Applications Conference, Sydney [Prieto-Daz1991]R.; Domain Analysis and Software Systems Modeling. Los Alamitos, CA: IEEE Computer Society Press [Janssen2000] W, Koolwaaij J., Stefanova M; XML Hype or Hope. TI/RS/2000/038 Telematica Instituut

76

[Quillian1968]R.; Semantic Information Processing, MIT press, Cambridge Mass. RDF Prime Web Consortium 2002 http://www.w3c.org/rdf [Robinson2001]D, Levy E.; The Masoretes and the Punctuation of Biblical Hebrew, Bible Society in Israel [Scott1999]W. R; A Simplified Guide to BHS, Bibal Press [Setzer2001]V.; Meios Eletrnicos e a educao: Dado, Informao, Conhecimento e Competncia, Editora Escrituras/SP [Sowa2000]J.; Knowledge Representation: logical, philosophical and computational foundations, Brookes/Cole [Fahlman1973]Scott, Frame Verification, MIT Press [TEI2002]Text Encode Initiative P4, 2002 [Tov2001] Emanuel, Textual Criticism of the Hebrew Bible, Second Revised Edition

77

7. Glossrio
Aparato Crtico: Comentrios dos editores da obra que contm explicaes, variaes ou observaes sobre trechos especficos. Geralmente esto em formato simblico extremamente compactado. Cantilena: Acentos colocados no texto que indicavam a musicalidade da leitura do texto hebraico. Em alguns casos til na anlise de discurso. Caractere diacrtico: Sinais adicionados a um caractere com a funo de modificar o seu significado. Clofons: Informaes acrescentadas pelos escribas que d detalhes sobre os massoretas, as fontes usadas, a data da concluso, nmero de letras, sentenas ou outras sees mais amplas do texto. Exegeta: Estudioso das Escrituras Sagradas com a funo de interpretar e explicar Massoretas: Nome dados aos homens que escreviam as notas marginais no texto. Nakdanim: Em hebraico significa pontuadores. Nome dados aqueles que realizavam o trabalho de escrever no texto consonantal os pontos voclicos e acentos. Palimpsesto: O uso de escrever-se em pergaminhos fez com que o couro de animais utilizado para a escrita fosse, muitas vezes, reaproveitado, apagando-se a escrita antiga, para, sobre ela, colocar-se a nova escritura. Era o palimpsesto, no qual a nova escritura, recobrindo a escritura anterior, deixava entrever os traos da primeira. O contedo de maior valor o que foi sobrescrito. Percope: Divises criadas pelos massoretas. Podem ser de sees ou de conjunto de frases. Pontuao: Adicionado ao texto consonantal, com o propsito de representar vogais, e documentar a forma correta de leitura. Sopherim: Em hebraico significa aqueles que contam. Ficaram conhecidos como escribas. Responsveis pela cpia das Escrituras Sagradas.

78

Anexo A
<?xml version="1.0" encoding="UTF-8" ?> <osis xmlns:xsi=http://www.w3.org/2001/XMLSchema-instance xsi:noNamespaceSchemaLocation="http://www.bibletechnologies.net/osisCore.1.1.1.xsd"> <osisText osisIDWork="Codex L" osisRefWork="defaultReferenceScheme"> <header> <work osisWork="Codex L"> <title>Codex L</title> <identifier type="OSIS">Bible.BHS</identifier> <language>he</language> <refSystem>Bible.BHS</refSystem> </work> <work osisWork="defaultReferenceScheme"> <refSystem>Bible.BHS</refSystem> </work> </header> <div type="testament"> <div type="book" osisID="Gen"> <div type="chapter" osisID="Gen.1"> <verse osisID="Gen.1.1"> ber'shiyth br' 'elohiym 'th hashmayim ve'th h'rets</verse> <verse osisID="Gen.1.2"> veh'rets hyethh thohu vbhohu vechoshekh `al-peny thehom veruach'elohiym merachepheth `al-peny hammyim </verse> <verse osisID="Gen.1.3"> vayyo'mer 'elohiymyehiy 'or vayhiy-'or </verse> </div> </div> </div> </osisText> </osis>

79

Anexo B
<book id="BCV-MRK" value="MRK"> <title> <part type="main">Sit amet Consectetuer</part> </title> <text> <div> <chapter value="1" /> <head>Adipiscing elit Sed diem nonummy nibh</head> <parallelPassage> <sourceRef book="MRK" chapter="1" verse="2" verseEnd="8" /> <targetRef book="MAT" chapter="3" verse="1" verseEnd="11" /> <targetRef book="LUK" chapter="3" verse="2" verseEnd="16" /> </parallelPassage> <p continued="no"> <verse id="BCV-MRK-1.1" value="1" /> Euismod tincidunt <keyWord type="glossary">erat</keyWord> ut <keyWord type="glossary">Volutpat</keyWord> , lacreet Dolore magna Aliguam. <note type="variant">Ut. wisis enim: <refText>ad Minim veniam Quis</refText> . </note> <verseEnd id="BCV-MRK-1.1-END" /> </p> <p continued="no"> <verse id="BCV-MRK-1.2" value="2" /> Nostrud exerci tution ullamcorper suscipit lobortis nisl Ut: </p> <lineGroup type="stanza"> <lineGroup> <line> <q to="Q-BCV-MRK-1.2-000-END" id="Q-BCV-MRK-1.2-000" direct="unspecified" /> Aliquip ex ea commodo consequat duis te feugifacilisi duis autem, </line> <line> dolor in hendrerit in vulputate. <qEnd from="Q-BCV-MRK-1.2-000" id="Q-BCV-MRK-1.2-000-END" /> <note type="xref"> <canonRef book="MAL" chapter="3" verse="1" /> </note> <verseEnd id="BCV-MRK-1.2-END" /> </line> </lineGroup>

80

Submetendo a descrio em xml do trecho anterior ao aplicativo XEP, produzido o seguinte contedo no formato 'pdf':

Sit amet Consectetuer


1:28 Mt 3:111; Lu 3:216

Adipiscing elit Sed diem nonummy nibh

1 Euismod tincidunt *erat ut *Volutpat, lacreet Dolore magna Aliguam.a


Nostrud exerci tution ullamcorper suscipit lobortis nisl Ut: Aliquip ex ea commodo consequat duis te feugifacilisi duis autem, dolor in hendrerit in vulputate.b
2

81

Anexo C
<?xml version="1.0"?> <rdf:RDF xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns# xmlns:rdfs=http://www.w3.org/2000/01/rdf-schema# xml:base="http://example.org/schemas/vehicles"> <rdf:Description rdf:ID="MotorVehicle"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> </rdf:Description> <rdf:Description rdf:ID="PassengerVehicle"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdfs:subClassOf rdf:resource="#MotorVehicle"/> </rdf:Description> <rdf:Description rdf:ID="Truck"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdfs:subClassOf rdf:resource="#MotorVehicle"/> </rdf:Description> <rdf:Description rdf:ID="Van"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdfs:subClassOf rdf:resource="#MotorVehicle"/> </rdf:Description> <rdf:Description rdf:ID="MiniVan"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdfs:subClassOf rdf:resource="#Van"/> <rdfs:subClassOf rdf:resource="#PassengerVehicle"/> </rdf:Description> <rdf:Description rdf:ID="Person"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> </rdf:Description> <rdf:Description rdf:about="http://www.w3.org/2001/XMLSchema#integer"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Datatype"/> </rdf:Description> <rdf:Description rdf:ID="registeredTo"> <rdf:type rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#Property"/> <rdfs:domain rdf:resource="#MotorVehicle"/> <rdfs:range rdf:resource="#Person"/> </rdf:Description> <rdf:Description rdf:ID="rearSeatLegRoom"> <rdf:type rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#Property"/> <rdfs:domain rdf:resource="#PassengerVehicle"/> <rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#integer"/> </rdf:Description> <rdf:Description rdf:ID="driver"> <rdf:type rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#Property"/> <rdfs:domain rdf:resource="#MotorVehicle"/> </rdf:Description> <rdf:Description rdf:ID="primaryDriver"> <rdf:type rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#Property"/> <rdfs:subPropertyOf rdf:resource="#driver"/> </rdf:Description> </rdf:RDF>

82

<?xml version="1.0"?> <rdf:RDF xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns# xmlns:rdfs=http://www.w3.org/2000/01/rdf-schema# xml:base="http://dcc.unicamp.br/Livro"> <rdf:Description rdf:ID="BHS"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> </rdf:Description> <rdf:Description rdf:ID="R"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdfs:subClassOf rdf:resource="#BHS"/> </rdf:Description> <rdf:Description rdf:ID="N"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdfs:subClassOf rdf:resource="#BHS"/> </rdf:Description> <rdf:Description rdf:ID="mp"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdfs:subClassOf rdf:resource="#N"/> </rdf:Description> <rdf:Description rdf:ID="ap"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdfs:subClassOf rdf:resource="#N"/> </rdf:Description> <rdf:Description rdf:ID="col"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdfs:subClassOf rdf:resource="#N"/> </rdf:Description><rdf:Description rdf:ID="ap"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdfs:subClassOf rdf:resource="#N"/> </rdf:Description> <rdf:Description rdf:ID="TextoComplexo"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdfs:subClassOf rdf:resource="#N"/> <rdfs:subClassOf rdf:resource="#R"/> </rdf:Description> <rdf:Description rdf:about="http://www.w3.org/2001/XMLSchema#integer"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Datatype"/> </rdf:Description> <rdf:Description rdf:ID="est"> <rdf:type rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#Property"/> <rdfs:domain rdf:resource="#N"/> <rdfs:range rdf:resource="#mp"/> </rdf:Description> <rdf:Description rdf:ID="ref"> <rdf:type rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#Property"/> <rdfs:domain rdf:resource="#N"/> <rdfs:range rdf:resource="#mp"/> </rdf:Description>

83

<rdf:Description rdf:ID="mm"> <rdf:type rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#Property"/> <rdfs:domain rdf:resource="#N"/> <rdfs:range rdf:resource="#mp"/> </rdf:Description> <rdf:Description rdf:ID="rearSeatLegRoom"> <rdf:type rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#Property"/> <rdfs:domain rdf:resource="#PassengerVehicle"/> <rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#integer"/> </rdf:Description> <rdf:Description rdf:ID="driver"> <rdf:type rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#Property"/> <rdfs:domain rdf:resource="#MotorVehicle"/> </rdf:Description> <rdf:Description rdf:ID="primaryDriver"> <rdf:type rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#Property"/> <rdfs:subPropertyOf rdf:resource="#driver"/> </rdf:Description> </rdf:RDF>

84

Anexo D 1) Schema do modelo Ketib


<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdfschema#" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/"> <rdf:Description rdf:ID="BHS"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> </rdf:Description> <rdf:Description rdf:ID="R"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdf:type rdf:resource=http://www.bibletechnologies.net/osisCore> <rdfs:label>Referncia</rdfs:label> <rdfs:comment>Classe baseada na simplificao dos elementos definidos no padro OSIS.</rdfs:comment> </rdf:Description> <rdf:Description rdf:ID="Livro"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdfs:subClassOf rdf:resource="#BHS"/> <rdfs:subClassOf rdf:resource="#R"/> </rdf:Description> <rdf:Description rdf:ID="N"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdfs:subClassOf rdf:resource="#BHS"/> <rdfs:subClassOf rdf:resource="#R"/> <rdfs:label>Metadados</rdfs:label> <rdfs:comment>Camada de metadados que acomoda todas as dimenses no pertencente ao texto bsico.</rdfs:comment> </rdf:Description> <rdf:Description rdf:ID="col"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdfs:subClassOf rdf:resource="#N"/> </rdf:Description> <rdf:Description rdf:ID="ap"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdfs:subClassOf rdf:resource="#N"/> </rdf:Description> <rdf:Description rdf:ID="massora"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdfs:subClassOf rdf:resource="#N"/> </rdf:Description>

85

<rdf:Description rdf:ID="mp"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdfs:subClassOf rdf:resource="#massora"/> </rdf:Description> <rdf:Description rdf:ID="ms"> <rdf:type rdf:resource="http://www.w3.org/2000/01/rdf-schema#Class"/> <rdfs:subClassOf rdf:resource="#massora"/> </rdf:Description> <rdf:Description rdf:ID="nm"> <rdf:type rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#Property"/> <rdfs:domain rdf:resource="#n"/> </rdf:Description> <rdf:Description rdf:ID="est"> <rdf:type rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#Property"/> <rdfs:domain rdf:resource="#mp"/> <rdfs:label>Estatstica</rdfs:label> <rdfs:comment>Contm dado estatstico de ocorrncia de palavra ou, expresso marcado pelos massoretas </rdfs:comment> </rdf:Description> </rdf:RDF>

2) Instncia do metadado NM
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/"> xmlns:N="http:// dcc.unicamp.br/~800271/N-ketibSchema#/"> xml:base="http://dcc.unicamp.br/~800271/n1"> <rdf:Description rdf:about="http://dcc.unicamp.br/~800271/n1/gn1"> <dc:description>Notas massorticas de Gn 1</dc:description> <N:nm> <rdf:Bag> <rdf:li> rdf:resource="/gn1/mp/1"/> <rdf:li> rdf:resource="/gn1/ap1#a"/> </rdf:Bag> </N:nm > </rdf:Description> <rdf:Description rdf:about="http://dcc.unicamp.br/~800271/n1/gn2"> <dc:description>Notas massorticas de Gn 2</dc:description> </rdf:Description> </rdf:RDF>

86