Você está na página 1de 16

Web Semntica: ontologias como ferramentas de representao do conhecimento

Semantic Web: ontologies as tools of knowledge representation


Maria Elisa Valentim Pickler Universidade Estadual de Londrina; Bolsista de IC/PROIC

RESUMO A Web Semntica uma extenso da Web que acrescenta semntica ao atual formato de representao de dados. Para isso foram propostas diversas tecnologias, dentre essas a criao de ontologias, visando atribuir sentido e significado ao contedo dos documentos, atuando como ferramenta de representao do conhecimento. Na presente pesquisa, procurou-se verificar se as ontologias seriam utilizadas apenas para representar o assunto de uma pgina Web atravs de termos contextualizados ou se tentariam controlar o vocabulrio da Web como um Tesauro. Palavras-chave: Web Semntica; Ontologias; Tesauros.

ABSTRACT The Semantic Web is an extension of the Web that adds semantics to the current format of data representation. For this, several technologies were proposed, among them the creation of ontologies, aiming at attributing sense and meaning to the content of documents, acting as tool for knowledge representation. In the present research, it was attempted to verify whether the ontologies would be used only to represent the subject of a Web page through terms in context or rather, they would try to control the vocabulary of the Web as a thesaurus. Key-words: Semantic Web; Ontologies; Tesaurus.

INTRODUO
O desenvolvimento da Web possibilitou o surgimento de um novo meio de interao e comunicao em sociedade que, alm de absorver todas as mdias anteriores, permitiu o crescimento explosivo da quantidade de informao e conhecimento disponveis e acessveis em rede a todo o mundo. Como conseqncia, houve a necessidade de ferramentas capazes de encontrar entre inmeros dados irrelevantes, uma informao precisa. Para tanto, foram criados os mecanismos de busca. A clssica organizao do conhecimento realizada por reas como a Biblioteconomia e a Documentao fundamentada na classificao de conceitos proposta por Aristteles, formando diversas subcategorias para que todo e qualquer informao ou conhecimento produzido estivesse contemplado em algumas dessas classes/categorias pr-estabelecidas. A organizao do conhecimento realizada atravs da adoo de terminologias padronizadas e o controle da linguagem possibilitada pela utilizao dos tesauros, eliminaram a polissemia, no permitindo ambigidades nas linguagens documentrias. No entanto, no

ciberespao1, esse controle de terminologia da linguagem dos documentos j no possvel (ou necessrio) considerando que sua multiplicidade permite a polissemia, caracterstica intrnseca prpria linguagem natural, base da indexao na rede. Monteiro (2006, p. 35) ressalta: No ciberespao no h centro de significncia estruturado, hierarquizado, linear, ou instrumentos de organizao do conhecimento que reproduzem o modelo de significncia, sentido nico e referncia fixa. A multiplicidade e as vrias possibilidades de tratamento da informao no ciberespao ilustram que no h uma maneira correta de organizao do conhecimento que deva ser empregada e reproduzida pelos outros sistemas para tentar atingir a universalidade []. Segundo a autora, a caracterstica do ciberespao justamente essa ausncia de classificao do conhecimento; o ciberespao permite a virtualizao da linguagem que a organizao formal do conhecimento impede ao retirar a sua ambigidade. Assim sendo, para recuperar informaes disponveis na Web, os mecanismos de busca valem-se da indexao de palavras (em linguagem natural) presentes nos prprios documentos, embora cada ferramenta opere segundo princpios por vezes divergentes. A polissemia da linguagem natural apresenta-se como um obstculo na recuperao de informaes realizada pelos mecanismos de busca da Web. Uma vez que a Web contempla um nmero inestimvel de documentos de todas as reas possveis do conhecimento humano, ao realizar uma busca por determinado termo, os mecanismos de busca traro, como resultados, todos os sites (que constam em sua base de dados) que apresentem em seu contedo as palavras buscadas. Cabe ao usurio (humano) consultar cada site obtido a fim de verificar se o contedo do documento recuperado pertinente ao seu contexto e sua necessidade, ou seja, se a palavra buscada aparece nos resultados com o mesmo sentido e significado. Nessa direo, Souza e Alvarenga (2004) consideram que a dificuldade em determinar os contextos informacionais tem como conseqncia a impossibilidade de se identificar de forma precisa a atinncia dos documentos. Alm disso, a nfase das tecnologias e linguagens utilizadas nas pginas da Web tradicional focaliza os aspectos de exibio e apresentao dos dados, de uma forma que a informao seja descrita pobremente e pouco passvel de ser consumida concomitantemente por mquinas e seres humanos. A partir disso que surge a proposta da Web Semntica. A Web Semntica foi proposta por Berners-Lee para tentar melhorar (ou mesmo otimizar) as pesquisas realizadas na Web. uma nova ferramenta de busca de informaes no ciberespao, uma extenso da Web, acrescentando semntica ao atual formato de representao de dados. Uma ferramenta inteligente, que trabalha atravs de associao e deduo. Sob essa perspectiva, a tarefa de verificar o assunto do documento ficaria a cargo das mquinas, poupando tempo e trabalho a quem realizasse uma busca. Nesse contexto, foi proposta uma srie de tecnologias necessrias para que as mquinas sejam dotadas de ferramentas inteligentes e, assim, sendo capaz de raciocinar, inferindo (deduzindo) o contedo dos documentos armazenados em seu banco de dados. Uma dessas tecnologias necessrias a elaborao e utilizao de ontologias, no no sentido da Filosofia, como estudo do ser e da existncia, mas como uma forma de atribuir sentido e significado a determinados termos, em dados contextos, em busca de atribuir semntica ao contedo dos documentos, atuando como ferramenta de representao do conhecimento. Sendo assim, o que consideramos um problema a ser estudado de que maneira as ontologias proporcionaro a organizao do (quase) infinito contedo na catica Web. Se as

ontologias seriam utilizadas apenas para representar o assunto de uma pgina Web atravs de termos contextualizados ou se tentariam controlar o vocabulrio da Web como um tesauro que estabelece uma linguagem controlada. A ontologia seria uma ferramenta/linguagem que permite a instaurao de sentido, mas o sentido atualizado de acordo com o contexto do leitor, minimizando a polissemia para quem busca determinado assunto, mas sem exclu-la do ciberespao, ou diz respeito aos conceitos do tesauro, quer seja, uma rubrica autorizada organizao e recuperao do conhecimento, operando apenas na instaurao de um significado. Nesse sentido, o objetivo geral da presente pesquisa consistiu em analisar a literatura cientfica da rea e/ou reas afins para definir e caracterizar a Web Semntica. Para isso, foi necessrio estabelecer alguns objetivos especficos, tais como: definir e caracterizar a Web atual; apresentar alguns tipos de mecanismos de busca disponveis na Web, como os diretrios, motores de busca e metabuscadores; identificar, na literatura, as ontologias; estudar, na literatura, a Web Semntica. A presente pesquisa procurou verificar como se d a recuperao de informao e conhecimento na Web atravs dos mecanismos de busca, para basear o estudo da extenso da Web que foi proposta e ainda no foi desenvolvida: a Web Semntica. A Web Semntica objetiva aprimorar o servio de busca e recuperao de dados na Web, embora ainda no exista. Por esse motivo, esta pesquisa adquire o carter de Pesquisa Documental, baseada apenas na literatura, uma vez que objeto da pesquisa ( a Web Semntica) est, por ora, em construo. Como conseqncia, a pesquisa no teve um corpus j que, como dito anteriormente, o objeto especfico ainda no foi desenvolvido. Assim sendo, esta pesquisa iniciou-se com o levantamento bibliogrfico da literatura da rea e reas afins que contemplam o objeto. Toda a pesquisa foi desenvolvida em torno da reviso de literatura cientfica obtida no levantamento bibliogrfico, tratando-se, portanto, de uma pesquisa terica.

A Web semntica
A World Wide Web foi criada por Tim Berners-Lee entre 1989 e 1991, com base nas idias originadas de trabalhos anteriores sobre hipertexto realizados por Bush na dcada de 40 e por Ted Nelson na dcada de 60. A Web surgiu com a viso de que seria um espao onde a informao poderia adquirir um significado bem definido, de forma que facilitasse a cooperao e a comunicao entre as pessoas e os agentes computacionais, conforme observa Cunha (2002). Entretanto, a Web voltou-se mais para a comunicao entre os humanos. A Web atual denominada por Breitman (2005) de Web Sinttica, na qual os computadores fazem apenas a apresentao da informao, enquanto o processo de interpretao fica a cargo dos seres humanos, j que isso exige um grande esforo para avaliar, classificar e selecionar informaes e conhecimentos de interesse. Embora a Web tenha sido projetada com a finalidade de possibilitar o fcil acesso, o intercmbio e a recuperao de informaes, Souza e Alvarenga (2004) afirmam que ela foi implementada de forma descentralizada e quase anrquica, cresceu de maneira exponencial e se apresenta atualmente como um imenso repositrio de documentos que deixa muito a desejar quando se trata de recuperao de contedo relevante. Os autores fundamentam suas crticas afirmando que:

No h nenhuma estratgia abrangente e satisfatria para a indexao dos documentos nela contidos, e a recuperao das informaes, possvel por meio dos motores de busca (search engines), baseada primariamente em palavras-chave contidas no texto dos documentos originais, o que muito pouco eficaz. (SOUZA e ALVARENGA, 2004, p. 133). Nesse sentido, cabe notar que os mecanismos de busca so extremamente ricos em quantidade de sites indexados em suas bases de dados, embora sequer os melhores deles consigam abranger a totalidade de contedo disponvel na Web. Apesar de a quantidade de informaes recuperadas pelos mecanismos de busca ser massiva, apenas uma parte da Web pesquisada, enquanto uma parte considervel do contedo fica inacessvel atravs dos buscadores (Web Oculta). Alm disso, a dificuldade de se encontrar informaes relevantes atravs dos buscadores mascarada por suas interfaces aparentemente amigveis. Assim, apesar da grande quantidade de informao na Web e dos mecanismos disponveis para busc-las, o usurio muitas vezes fica frustrado com os resultados insatisfatrios que lhe so retornados. Nesse sentido, a Web Semntica visa, justamente, melhorar a satisfao do usurio no momento da busca, retornando-lhe as informaes adequadas s suas necessidades. Contrapondo essa Web Sinttica, surge a Web Semntica, atravs da qual se buscam mecanismos que capturem o significado das pginas, criando um ambiente no qual os computadores possam processar e relacionar contedos provenientes de vrias fontes. Para que isso se torne possvel, necessrio embutir semntica na estrutura dos documentos disponveis na Web (BREITMAN, 2005). A palavra semntica, segundo Guirald (1980), formada do grego smain (significar), derivado de sema (sinal), que corresponde a sentido. Para o autor, semntica tudo o que se refere ao sentido de um sinal de comunicao e tudo o que se refere s palavras. Dessa forma, Chateaubriand (1998) afirma que a semntica a disciplina que estuda a relao da linguagem com a realidade, ou seja, a relao linguagem-mundo. Exemplificando, o autor ressalta que o fato de que a palavra casa se refira, na realidade, a casas e no a elefantes um fato semntico. Se as palavras codificam um sentido de vrias maneiras, podemos entender que a semntica o estudo da funo das palavras, funo essa de transmitir um sentido e um significado relativos a um contedo. Sendo assim, percebemos que, se a inteno inicial da Web Semntica justamente acrescentar semntica ao contedo da Web, essa semntica servir para determinar o sentido de um termo no contexto de determinado documento. A Web Semntica no , propriamente, uma outra Web. Oliveira (2002) afirma que Tim Berners Lee a caracteriza como uma extenso da Web atual que apresentar uma estrutura que possibilite a compreenso e o gerenciamento dos contedos armazenados na Web independentemente da forma em que esses se apresentam (texto, som, imagem) a partir da valorao semntica desses contedos, e atravs de agentes coletores de contedos advindos de fontes diversas capazes de processar as informaes e permutar resultados com outros programas. A Web Semntica, assim como a atual Web (Web Sinttica), ser to descentralizada quanto possvel e dever manter a responsabilidade exigida pela descentralizao, procurando alcanar o ideal de consistncia de interconexes, permitindo, porm, seu crescimento exponencial. Com efeito, a extenso da Web, na esteira de Dziekaniak e Kirinus (2004), surge como uma possvel soluo para a estruturao dos dados nesse meio, viabilizando o processamento da informao por parte das mquinas e melhorando a recuperao de informaes.

Enquanto a Web Sinttica foi desenvolvida para ser entendida apenas pelos usurios, a Web Semntica est sendo projetada para ser compreendida pelas mquinas, na forma de agentes computacionais que sero capazes de operar eficientemente sobre as informaes, podendo at entender (inferir) seus significados. Assim, esses agentes auxiliaro os usurios em suas diversas operaes na Web. A proposta da Web Semntica estruturar os dados contidos nos sites de uma forma que o prprio sistema de busca identifique seu assunto e contedo e para isso seria preciso embutir semntica na estrutura dos dados. Assim, ao buscar um termo polissmico por um de seus significados, o usurio teria como resultados apenas os sites nos quais aquele termo aparece relacionado ao sentido buscado por ele. Nesse contexto, podemos perceber que a Web Semntica visa facilitar e melhorar a recuperao de informao relevante, j que a prpria mquina, dotada de ferramentas inteligentes, funcionaria por associao e deduo automtica para identificar (inferir) o contedo de um site antes de traz-lo ao usurio como resultado de uma pesquisa. Souza e Alvarenga (2004) observam que, para atingir os propsitos da Web Semntica, necessria uma padronizao de tecnologias, de linguagens e de metadados descritivos, de forma que todos os usurios da Web obedeam a determinadas regras comuns e compartilhadas sobre como armazenar dados e descrever a informao armazenada de forma que esta possa ser consumida por outros usurios (humanos ou no), de uma maneira automtica e no ambga. Sendo assim, a partir da existncia da infra-estrutura tecnolgica comum da Internet, o primeiro passo para esse objetivo a criao de padres para descrio de dados e de uma linguagem que permita a construo e codificao de significados compartilhados. Revisitando Souza e Alvarenga (2004), o projeto da Web Semntica, em sua essncia, criar e implantar padres (standards) tecnolgicos para permitir esse panorama, que no somente facilite a troca de dados entre os agentes pessoais, mas estabelea uma lngua franca para o compartilhamento mais significativo de dados entre dispositivos e sistemas de informao de uma maneira geral. Dziekaniak e Kirinus (2004) acreditam que, para a Web Semntica se tornar possvel, os computadores necessitam ter acesso a colees estruturadas de informaes (dados e metadados) e de conjuntos de regras de inferncia que ajudem no processo de deduo automtica para que seja administrado o raciocnio automatizado, ou seja, a representao do conhecimento. Essas regras, para as autoras, so especificadas por meio de ontologias que permitem representar explicitamente a semntica dos dados. Atravs das ontologias ser possvel elaborar uma enorme rede de conhecimento humano, complementando o processamento da mquina e melhorando qualitativamente o nvel de servios na Web, sobretudo os servios de busca e recuperao de dados. Nesse sentido, Hendler apud Dziekaniak e Kirinus (2004) afirma que a Web Semntica pode ser considerada como a composio de um grande nmero de pequenos componentes ontolgicos que se apontam entre si. Dessa forma, companhias, universidades, agncias governamentais e grupos de interesses especficos procuraro ter seus recursos Web ligados a um contedo ontolgico, uma vez que ferramentas poderosas sero disponibilizadas para intercambiar e processar essas informaes entre aplicaes Web.

Ontologias
A palavra ontologia derivada do grego: onto (ser) e logos (palavra). O termo ontologia foi cunhado em 1613 por Rudolf Goclenius e, aparentemente, de forma independente por Jacob Lorhard. (MOREIRA et al, 2004). De acordo com Souza e Alvarenga (2004), na filosofia, a ontologia uma teoria sobre a natureza da existncia. Chateaubriand (1998, p. 12) afirma que: Em princpio, pode-se dizer que ontologia uma teoria do real, uma teoria do ser. Essa uma concepo tradicional que afirma, em geral, que a ontologia envolve alguma categorizao muito ampla da realidade. Isto , para se fazer uma teoria ontolgica, uma das primeiras coisas a fazer, e o que foi feito na tradio filosfica, categorizar de alguma maneira a realidade em certas grandes distribuies do ser. Para o autor, uma das tendncias mais fortes do sculo XX fazer a ontologia, de certa forma, derivar da semntica. A semntica, para o autor, tem a ver com a relao entre linguagem e realidade e a partir dessa idia que, evidentemente, ontologias e semntica se conectam. Com efeito, se a semntica tem a ver com a relao entre a linguagem e a realidade e a ontologia o estudo da estrutura geral da realidade, ento necessariamente haver relaes entre elas. Breitman (2005) afirma que o vocbulo ontologia foi introduzido no estudo da Filosofia para distinguir o estudo do ser e o estudo dos vrios tipos de seres vivos existentes no mundo natural, tendo o objetivo de fornecer sistemas de categorizao para organizar a realidade. No entanto, o uso do termo ontologia tornou-se freqente na cincia da computao no incio dos anos 90, em projetos para organizao de grandes bases de conhecimento, como ressaltam Moreira et al (2004). Para os autores, um dos principais objetivos do uso de ontologias na Cincia da Computao a construo de bases de conhecimento interoperveis e melhor estruturadas. Assim, no contexto da Web e da Inteligncia Artificial , o termo ontologia foi adaptado e, para os profissionais dessas reas, uma ontologia um documento ou um arquivo que define formalmente as relaes entre termos e conceitos, mantendo, nesse sentido, semelhanas com os tesauros utilizados para definio de vocabulrios controlados (SOUZA e ALVARENGA, 2004). Na concepo de Breitman (2005, p. 7): Ontologias so especificaes formais e explcitas de conceitualizaes compartilhadas. Ontologias so modelos conceituais que capturam e explicitam o vocabulrio utilizado nas aplicaes semnticas. Servem como base para garantir uma comunicao livre de ambigidades. Ontologias sero a lngua franca da Web Semntica. Dessa forma, as ontologias fornecero o vocabulrio necessrio para a comunicao entre os agentes e as pginas da Web, definindo as relaes entre os conceitos, como salientam Dziekaniak e Kirinus (2004). Para as autoras, na prtica, uma ontologia define termos associados aos textos que descreve, o que os mesmos significam e axiomas formais que restringem a interpretao e o uso dos termos. O W3C coloca que as ontologias devem prover descries para os seguintes tipos de conceitos (BREITMAN, 2005, p. 31): classes (ou coisas) nos vrios domnios de interesse; relacionamentos entre essas coisas; propriedades (ou atributos) que essas coisas devem possuir. Uma ontologia, para Martins (2002), requer o uso de um vocabulrio especfico para descrever uma realidade e mais um conjunto de axiomas lgicos necessrios para dar semntica ao significado pretendido pelas palavras desse vocabulrio. Sendo assim, duas

ontologias podem referir-se mesma semntica, embora apresentem vocabulrios distintos de representao, tal como o uso de dois idiomas diferentes que descrevem uma mesma ontologia, por exemplo. A autora afirma que para a construo de uma ontologia so utilizados os seguintes objetos: entidades, que descrevem conceitos (elementos de um domnio estudado) e providenciam uma representao lgica; atributos, que descrevem as propriedades das entidades; relaes, que descrevem as ligaes entre objetos no modelo (entidades e atributos); restries, condies que o projetista impe sobre as entidades, atributos ou relaes.

Martins (2002) observa, ainda, que uma ontologia possui uma hierarquia de conceitos dentro de um domnio, as descries de cada conceito e as propriedades definidas por atributos do tipo valor. Consiste, geralmente, de uma taxonomia 2 e de um conjunto de regras de inferncias. A taxonomia define classes, subclasses e as relaes entre elas, e o conjunto de regras de inferncia fornece o mecanismo de manipulao dos objetos das classes utilizando raciocnio lgico. Sendo assim, para Cunha (2002), uma ontologia fornece um entendimento comum e compartilhado de um domnio, que pode ser comunicado atravs de pessoas e sistemas de aplicao, tornando-se fator chave para o desenvolvimento da Web Semntica. O autor salienta: A ontologia tem um papel crucial no sentido que permite o acesso, a interoperao e a comunicao baseados em contedo, fornecendo Web um nvel de servio qualitativamente novo, que consideramos na Web Semntica. Ela une em rede incrveis pores do conhecimento humano, complementando-as com capacidade de processamento de mquina. (CUNHA, 2002, p. 14). O autor supracitado ressalta, tambm, que as ontologias vm sendo aplicadas no gerenciamento de dados semi-estruturados como um suporte semntico para o acesso de determinadas informaes de interesses presentes em um conjunto de fontes semiestruturadas. Para a construo de ontologias, Freitas (2004, p. 27) observa que alguns princpios, se usados com preciso, garantem sua qualidade: clareza: os programas usam diferentes modelos e abstraes na resoluo de seus problemas. Na definio do conhecimento, deve-se ter a objetividade de definir apenas o que se presume ser til na resoluo da classe de problemas a ser atingida. As definies completas, com condies necessrias e suficientes devem ter precedncia sobre definies parciais; legibilidade: as definies devem corresponder com as definies correntes e informais. A ontologia deve usar um vocabulrio compartilhvel (geralmente o jargo e a terminologia usados por especialistas do domnio); coerncia: as inferncias derivadas da ontologia definida devem ser corretas e consistentes do ponto de vista formal e informal com as definies; extensibilidade: a ontologia deve permitir extenses e especializaes monotonicamente e com coerncia, sem a necessidade de uma reviso de teoria, que consiste na reviso lgica automtica de uma base de conhecimento em busca de contradies; mnima codificao: devem se especificados conceitos genricos independente de padres estabelecidos para mensurao, notao e codificao, garantindo a extensibilidade. Essa genericidade limitada pela clareza. mnimo compromisso ontolgico: com a finalidade de maximizar o reuso, apenas o conhecimento essencial deve ser includo, gerando a menor teoria possvel acerca de cada conceito, e permitindo a criao de novos conceitos, mais especializados ou estendidos.

Nesse contexto, Souza e Alvarenga (2004) afirmam que as ontologias se apresentam como um modelo de relacionamento de entidades e suas interaes, em algum domnio particular do conhecimento ou especfico a alguma atividade. O objetivo de sua construo a necessidade de um vocabulrio compartilhado para se trocarem informaes entre os membros de uma comunidade, sejam eles seres humanos ou agentes inteligentes. Lembrando Breitman (2005, p. 44), as ontologias "[] servem para estruturar e compartilhar conhecimento, no para representar inteligncia." Para a autora, o papel da ontologia, na Web Semntica, explicitar o vocabulrio utilizado e possibilitar um padro para o compartilhamento da informao, fornecendo um modelo comum que permita aos agentes de software trocar informaes de modo significativo. A propsito de Freitas (2004), as ontologias servem no s como vocabulrio de comunicao entre agentes, mas tambm na definio e organizao apropriadas de conceitos, relaes e restries. Alm disso, a utilizao de ontologias permite um ganho de expressividade e flexibilidade, uma vez que o conhecimento sobre uma classe no se circunscreve a termos e palavras-chave como nos mecanismos de busca, mas a qualquer fato que diga respeito s pginas, tais como estrutura, regies e conceitos nelas contidos.

Tesauros e ontologias
A cincia da informao prope a organizao do conhecimento, e essa organizao, como j dito, fundamentada na classificao de conceitos proposta por Aristteles. Assim, foram formadas diversas categorias para que toda e qualquer tipo de conhecimento produzido pudesse ser enquadrado em alguma dessas classes ou categorias prestabelecidas. Dessa forma, para a efetiva organizao do conhecimento realizada pela rea, identificouse a necessidade da adoo de uma linguagem documentria que buscasse uma padronizao da linguagem natural, eliminando a polissemia caracterstica da mesma. Como observam Moreira et al (2004), sendo a organizao do conhecimento uma das principais preocupaes de Aristteles, justamente no momento da construo das linguagens documentrias que sua filosofia se faz mais presente. Nesse sentido, os tesauros, como linguagem documentria, foram criados com o intuito de formalizar a padronizao de termos da linguagem especfica de uma determinada rea do conhecimento humano. Assim, as possveis ambigidades na utilizao de termos em linguagem natural so eliminadas, permitindo que o processo de indexao e recuperao de informaes fosse realizado satisfatoriamente. Os tesauros evoluram das listas de cabealhos de assuntos at os tesauros baseados em conceitos. Assim, era preciso trabalhar com um vocabulrio mais especfico e com uma estrutura mais depurada do que a presente em cabealhos de assuntos. Logo, cuidou-se de melhorar, alm da especificidade, a estrutura. (GOMES apud SOUTO, 2003). O tesauro uma linguagem documentria, um vocabulrio controlado que contm termos relacionados lgica e semanticamente. Na rea de cincia da informao, os tesauros podem ser definidos sob dois aspectos: o estrutural e o funcional, segundo a Unesco apud Moreira et al (2004, p. 3). No primeiro caso, seria: Um vocabulrio controlado dinmico de termos relacionados semntica e genericamente, cobrindo um domnio especfico do conhecimento. Quanto definio funcional, seria: Um

dispositivo de controle terminolgico usado na traduo da linguagem natural dos documentos, dos indexadores ou dos usurios numa linguagem dos sistemas (linguagem de documentao, linguagem de informao) mais restrita. Estipulando o controle da linguagem, a utilizao de tesauros na organizao do conhecimento elimina a polissemia da linguagem natural, no permitindo ambigidades. Um tesauro, segundo Breitman (2005), rene um conjunto de relacionamentos entre termos que esto organizados em uma taxonomia. A autora define Tesauros como "[] uma taxonomia adicionada de um conjunto de relacionamentos semnticos (equivalncia, associao, entre outros) entre seus termos." (BREITMAN, 2005, p. 36). Uma taxonomia define termos, mas a nica relao entre os termos a de generalizao, ou seja, os termos encontram-se, sempre, em uma hierarquia que parte de gnero para espcie, ou seja, do geral para o especfico. Um tesauro uma taxonomia na qual se acrescentam possibilidades de relacionamentos. Quanto s relaes estruturais entre os termos que o tesauro possibilita, caracterizemos as explicitadas por Gusmo (1985, p. 22): relaes de equivalncia ou sinonmia. So referncias cruzadas, remetem de um termo no adotado no sistema para um sinnimo ou similar que foi adotado. Para isso, usa-se a remissiva U, que quer dizer USE. Partindo-se do termo adotado, o termo no adotado indicado pela remissiva UF (used for) ou UP (usado para). Gusmo (1985) salienta que, ao selecionar os termos preferidos (adotados) deve-se dar prioridade forma mais compreensiva pelos usurios, aos termos cientficos e/ou termos correntes: relao de hierarquia. estabelecida para cada descritor e indica relaes de superordenao ou subordinao. A de superordenao mostra os termos mais abrangentes (gerais) com eles relacionados, enquanto as relaes de subordinao mostram os termos mais especficos relacionados com eles. Os smbolos utilizados so BT (broader term) ou TG (termo genrico), e NT (narrow term) ou TE (termo especfico); relao de associao. utilizada para representar termos que tm uma correlao entre si, e representada pelos smbolos RT (related term) ou TR (termo relacionado). Nesse tipo de relao, os termos no representam uma hierarquizao. Podemos dizer, em outras palavras, que eles tm igual importncia dentro do assunto que representam.

Para Breitman (2005), um tesauro visa garantir que conceitos sejam descritos de maneira consistente, permitindo que os usurios possam refinar suas buscas e localizar a informao que necessitam. Para facilitar essa tarefa, os tesauros contam com os relacionamentos adicionais que auxiliam na organizao dos dados, como explicitado anteriormente. No entanto, os tipos de relacionamentos permitidos pelos tesauros so finitos e pr-determinados, isto , no so passveis de modificaes, sendo bem til na criao de vocabulrios, mas no so suficientes para modelar outros aspectos do mundo real. Atualmente, como observam Moreira et al (2004), existe uma grande demanda para desenvolvimento de sistemas que trabalhem com recuperao e troca de informaes e conhecimentos. Com a finalidade de servir de suporte a esses sistemas e auxiliar a suprir essa demanda, novos instrumentos para a organizao de conhecimento surgem a cada dia; muitos deles, recentemente, so chamados ontologias. Um dos principais objetivos do uso de ontologias no mbito da cincia da computao a construo de bases de conhecimento interoperveis e melhor estruturadas. Sob a denominao de ontologias, ferramentas tm sido criadas para auxiliar a insero e recuperao de documentos em sistemas computacionais, a extrao de informaes em

texto de linguagem natural, em sistemas de comrcio eletrnico, a troca de informaes entre agentes inteligentes, a aquisio automtica de conhecimento e vrias outras tarefas que envolvem o uso e a representao do conhecimento (MOREIRA et al, 2004). De acordo, ainda, com as autoras supracitadas, o emprego do termo ontologia para denominar uma estrutura de termos e as relaes entre eles em um determinado domnio mais comum na rea da cincia da computao e, mais particularmente, na inteligncia artificial. Com essa definio de ontologia, fica clara a confuso entre a definio desse termo com o conceito de tesauros, uma vez que estes, da mesma forma, podem ser considerados estruturas de termos e das relaes entre eles. Contudo, Breitman (2005, p. 37), afirma: Muitas vezes necessrio relacionar conceitos utilizando relacionamentos do tipo parte-de, membro-conjunto, fase-processo, lugar-regio, material-objeto, causa-efeito, entre muitos outros. Um tesauro no permite a seus usurios a criao destes e novos tipos de relacionamento, para tal necessrio utilizar uma ontologia. (BREITMAN, 2005, p. 37). Sendo assim, de acordo com as afirmaes de Breitman (2005), podemos argumentar que as ontologias so mais flexveis e complexas que os tesauros porque permitem que novos relacionamentos sejam estabelecidos entre os termos, conforme necessrio. Os tesauros so linguagens pr-definidas e suas relaes so finitas. Essa ferramenta bastante til para a padronizao da linguagem de termos e relaes em um domnio de conhecimento para definir termos de organizao e recuperao, por exemplo, em uma base de dados. Segundo Moreira et al (2004), o tesauro constitui-se em um elemento de suma importncia em um sistema de recuperao de informaes por cumprir o papel de: determinar quais termos podem ser usados no sistema; determinar quais termos podem ser usados na busca para que esta tenha um resultado satisfatrio e, ainda, permitir a introduo de novos termos em sua estrutura de termos e relaes de modo a aproximar a linguagem do usurio linguagem do sistema, realizando alteraes de sentidos dos termos existentes. Os tesauros podem ser utilizados por indexadores para atribuir uma terminologia consistente a vrias bases de dados e, ainda, pelos usurios dessas bases na definio dos termos de busca, uma vez que, pela sua estrutura de termos e suas relaes auxilia a encontrar o melhor termo que representa um assunto. Entretanto, no contexto da Web Semntica, os tesauros parecem no ser adequados, justamente devido sua falta de flexibilidade. As ontologias, por sua vez, podem ser redefinidas ou adaptadas em determinados contextos, e suas relaes so extensveis, conforme necessrio. Moreira et al (2004) afirmam que, usando linguagens para ontologias mais fcil registrar certas propriedades do que com o uso dos tesauros. Por outro lado, essa diferena de expressividade no to significativa para a tarefa de indexao ou busca de documentos. Nesse sentido, percebemos que, se ontologias e tesauros foram criados em contextos distintos, em situaes tambm distintas, poder ser observado que h casos em que o uso de tesauros mais adequado, enquanto, em outros casos faz-se necessria a aplicao das ontologias. Enquanto os tesauros se mostram eficientes no escopo da Cincia da Informao no que condiz indexao e recuperao de informaes, no mbito da Web Semntica, para descrio de recursos, a utilizao de ontologias fundamental.

10

De todo modo, McGuiness apud Breitman (2005) definiu trs propriedades essenciais de uma ontologia para a Web que a torna mais expressiva que uma taxonomia ou um tesauro. So elas: estrita hierarquia de subconceitos. Toda a instncia de uma classe tem de ser uma instncia do n pai (hierarquia tipo-de formal). A organizao dos termos segundo o relacionamento tipo-de (generalizao) forma a espinha dorsal da ontologia; interpretao livre de ambigidades para os significados e relacionamentos. As propriedades de cada n podem ser definidas pelos usurios. Essas propriedades podem ter valores restritos por uma gama de valores determinada tambm pelos usurios (restries de valor). Ontologias mais sofisticadas podem contar com relacionamentos mais expressivos, tais com disjuno (macho x fmea) e parte-de; utilizao de um vocabulrio finito, porm extensvel.

Baseando-nos nas palavras dessa autora, percebemos que, em sua concepo, a ontologia proposta para a Web Semntica no consistir em uma simples adaptao dos tesauros para a organizao do conhecimento na Web, proporcionando o controle de vocabulrio e o fechamento semntico de seu contedo. Para essa autora, as ontologias devero ser mais flexveis e complexas que os tesauros. Uma outra diferena importante a ser destacada que, enquanto o tesauro visto como uma ferramenta de organizao do conhecimento, com a finalidade de facilitar a indexao e recuperao de informaes, operando para a comunicao entre usurios e linguagens documentrias, a ontologia tida como um instrumento de representao do conhecimento no ambiente computacional, voltada para o registro de conceitos de um domnio visando a inferncia automatizada. Estabelecendo, ainda, uma comparao entre ontologia e tesauro, Moreira et al (2004) observam que uma ontologia, como vista pela cincia da computao, um sistema de conceitos, da mesma forma que os tesauros e, como tal, pertence ao nvel epistemolgico e no ao ontolgico. A diferena em relao aos tesauros pode ocorrer em termos de linguagem, de nvel de formalizao e de propsitos. Para a autora supracitada, os tesauros tm como propsito servir de instrumento de registro terminolgico e para ser usado por pessoas, no para registro do conhecimento para inferncias computacionais, caso das ontologias. Corroborando essa idia, Breitman (2005) afirma que o processo de classificao das informaes contidas em uma ontologia deve levar em conta a possibilidade de automao dessa informao, e no a maneira com que os seres humanos organizam o conhecimento. Dessa forma: Ontologias no refletem a maneira com que os seres humanos pensam nem classificam. Se estivssemos buscando um modelo que refletisse o modo como os seres humanos organizam seu conhecimento, ontologias definitivamente no seriam o modelo mais adequado. (BREITMAN, 2005, p. 43). Analisando a citao acima, percebemos que a autora faz uma distino entre a funo das ontologias e a clssica organizao do conhecimento possibilitada pela linguagem controlada, com o uso dos tesauros. No entanto, como dito anteriormente, parece haver uma contradio nas palavras da autora quando afirma que os metadados permitiro a adoo de um vocabulrio controlado, necessrio para a realizao da Web Semntica e, ainda, na observao que as ontologias no refletem o modo formal de organizao do conhecimento.

11

Nesse sentido, cabe notar que, se um tesauro estabelece um vocabulrio controlado, ele assemelha-se s ontologias, embora ambos sejam utilizados em contextos e com princpios distintos, conforme destacou Moreira et al (2004, p. 22): Os tesauros da cincia da informao e as ontologias da cincia da computao possuem origens e propsitos distintos. O primeiro nasceu como instrumento prtico para auxiliar na indexao e busca de documentos e o segundo da necessidade de descrever os objetos digitais e suas relaes. Pode-se dizer que existem alguns pontos de contato entre essas origens, uma vez que esto relacionadas com a descrio de alguma entidade: assunto de uma rea no primeiro caso e objetos e relaes no segundo. No entanto, as diferenas tambm deixaram suas marcas, influenciando na forma final do instrumento de cada vertente. Na cincia da computao a situao um pouco mais indefinida. Aparentemente tudo que modela um segmento da realidade pode ser denominado de ontologia, uma vez que a palavra da moda. Neste caso, at mesmo os tesauros podem ser enquadrados como ontologias terminolgicas. (grifo nosso). Como podemos perceber, a autora distingue ontologias e tesauros quanto s suas origens e propsitos, embora finalize sua assertiva dizendo que o tesauro pode ser considerado uma ontologia terminolgica. E, ainda, como a autora observou, os tesauros e as ontologias foram criados em contextos e com finalidades distintas. Contudo, como ambas as ferramentas foram idealizados com o intuito de descrio e padronizao acaba ocorrendo uma certa confuso na definio e conceitualizao entre tesauros e ontologias. Alguns pesquisadores apontados por Moreira et al (2004), tais como Jasper e Milke Uschold (1999) e Fensel (2001), consideram os tesauros como ontologias simples, uma vez que uma ontologia complexa exige uma riqueza maior de relaes do que as tradicionalmente apresentadas em um tesauro. Na cincia da informao os tesauros so, h muito tempo, amplamente utilizados como linguagem documentria. A definio e os conceitos dos tesauros esto, portanto, consolidados. Na cincia da computao as ontologias consistem em tecnologias recentes com definies e conceitos ainda no difundidos e plenamente cristalizados. Moreira et al (2004) afirmam que os tesauros podem ser entendidos como sendo um tipo de ontologia voltada para a organizao de termos. Da mesma forma, poderamos entender as ontologias como tesauros extensveis e reutilizveis no escopo na computao. Afirmaes como essas que denotam a existncia de conceitos e diferenas imprecisos entre tesauros e ontologias. Se, por um lado, um tesauro visto como uma ontologia simples e, por outro lado, as ontologias so entendidas como tesauros complexos e flexveis, podemos notar que, embora consistam em diferentes ferramentas, tesauros e ontologias, como vimos, possuem caractersticas em comum que permitem a comparao de ambos na definio de um dos termos. Dessa forma, percebemos que, algumas vezes, o termo tesauro, utilizado comumente no mbito da cincia da informao, utilizado como analogia ao significado de ontologia, uma vez que, como vimos anteriormente, essas ferramentas possuem caractersticas comuns. Entretanto, analisando a literatura foi possvel notar que, embora semelhantes em alguns aspectos, tesauros e ontologias so diferentes em muitos outros, tais como em suas origens, princpios, graus de expressividade e relaes, alm de se aplicarem em contextos tambm distintos.

12

Concluso
As novas tecnologias de informao e comunicao afetam significativamente todos os setores da sociedade, e a disponibilizao de conhecimento e informaes no ciberespao, ambiente da Web, faz surgir novos paradigmas de organizao e recuperao de dados. O fato de as pginas da Web atual no conterem dados sobre si mesmas dificulta a recuperao de conhecimento e informaes relevantes. Ao solicitar uma busca por determinada palavra, o sistema no faz distino entre os diversos sentidos que uma mesma palavra pode representar, ou seja, a diferena de significado afeta significantemente os resultados. Assim, os mecanismos de busca freqentemente apresentam grande nmero de pginas encontradas, porm com pouca preciso. Isso acontece porque as palavras indexadas pelas ferramentas de busca podem ter diversos sentidos (polissemia) em diferentes contextos. Uma vez realizada a busca, fica a cargo do usurio determinar a semntica, ou seja, o sentido e o significado do contedo obtido como resultado. Para Breitman (2005), a grande verdade que a Internet se desenvolveu mais rapidamente como um meio para a troca de documentos entre pessoas, em vez de um meio que fomentasse a troca de dados que pudessem ser processados automaticamente. Como conseqncia disso, o contedo semntico das pginas, ou seja, seu significado codificado apenas pelo homem. Falta, na Web, uma forma de organizar os dados de maneira que estes possam ter seu sentido identificado pela prpria mquina no momento da busca. Nesse contexto, podemos perceber que a Web Semntica est sendo projetada para tentar resolver um problema apresentado na Web atual: a pesquisa realizada pelas ferramentas de busca. A Web Semntica, para Dziekaniak e Kirinus (2004), visa incorporar semntica aos dados, o que proporcionar no somente aos usurios entenderem as informaes como tambm s mquinas. Ela pretende fornecer estruturas e dar significado semntico ao contedo da Web, criando um ambiente onde agentes de software e usurios possam trabalhar de forma cooperativa. Dessa forma, os mecanismos de busca trariam resultados adequados semntica dos termos procurados pelo usurio, aumentando (seno otimizando) a relevncia dos mesmos. Para a efetivao dessa extenso da Web foram propostas diversas tecnologias, e dentre essas cabe-nos destacar a criao de ontologias, utilizada como um vocabulrio controlado, visando atribuir sentido e significado ao contedo dos documentos, atuando como ferramenta de representao do conhecimento. No decorrer da pesquisa, procurou-se verificar se as ontologias seriam utilizadas apenas para representar o assunto de uma pgina Web atravs de termos contextualizados ou se tentariam controlar o vocabulrio da Web como um tesauro, que estabelece uma linguagem controlada. Nesse sentido, foi possvel perceber que as ontologias, embora sejam definidas por alguns autores como vocabulrios controlados, assim como os tesauros, no pretendem realizar, na Web, o que os tesauros fizeram na tradicional organizao do conhecimento: o fechamento semntico no significado.

13

Isso porque as ontologias so mais complexas e flexveis que os tesauros, porque permitem que novos relacionamentos sejam estabelecidos entre os termos, conforme necessrio, e so criadas ou adaptadas (quando reutilizadas) ao contexto do documento que descrevem. Os tesauros, ao contrrio, possuem termos, conceitos e relacionamentos finitos e bem definidos. Cabe notar que os termos ontologia e tesauros so mais utilizados no mbito da cincia da computao e cincia da informao, respectivamente. Obviamente, com a crescente interdisciplinaridade entre as reas do conhecimento, acabou ocorrendo um conflito de definies dessas ferramentas devido ao fato de as mesmas apresentarem algumas caractersticas em comum. Sendo assim, percebemos que alguns autores da cincia da informao, na tentativa de definir e/ou conceituar ontologia, acabam comparando-a com um tesauro, em analogia, de forma a explicar como as ontologias pretendem atuar no contexto da Web Semntica. Da mesma forma, alguns autores relacionados cincia da computao afirmam que os tesauros so ontologias simples e que, portanto, as ontologias podem ser estendidas, tornando-se mais expressivas, de acordo com a necessidade e o contexto. Provavelmente o termo tesauro utilizado como analogia na definio de ontologias por tratar-se de um termo cristalizado, enquanto ontologia, fora do escopo da filosofia, um termo recente, ainda em vias de definio. No entanto, com a realizao do trabalho ficou claro que, apesar de existirem pontos comuns entre ontologias e tesauros, trata-se de ferramentas distintas, com origens e propsitos distintos. Enquanto os tesauros so utilizados para realizar o fechamento semntico no significado, eliminando a polissemia caracterstica da linguagem natural, traduzindo os termos para uma linguagem documentria padronizada, as ontologias pretendem servir de vocabulrio controlado, porm flexvel, para que os conceitos descritos em pginas Web sejam nicos e, assim possam ser passveis de compartilhamento entre diferentes agentes, permitindo a adio de semntica aos documentos disponveis na rede. Com o advento do ciberespao, o profissional da informao dispe de um novo meio e espao de trabalho: a Web. A Web modificou os parmetros de organizao do conhecimento e tratamento da informao e, nesse contexto, a Web Semntica prope uma nova forma de representao do conhecimento e da informao, uma nova revoluo, um novo paradigma. Sendo assim, se a Web j representou uma verdadeira revoluo no que condiz produo, representao e recuperao de informaes e conhecimento com suas tecnologias e possibilidades, a Web Semntica parece uma proposta de revolucionar a Web.

REFERNCIAS
BRANSKI, Regina Meyer. Recuperao de informaes na Web. Perspect. Cinc. Inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004. BREITMAN, Karin. Web Semntica: a Internet do futuro. Rio de Janeiro: LTC, 2005. CENDN, Beatriz V. A Internet. In: CAMPELLO, B. S.; CNDON, B. V.; KREMER, J. M. Fontes de informao para pesquisadores e profissionais. Belo Horizonte: Ed. UFMG, 2003. p. 275-299.

14

CENDN, Beatriz V. Ferramentas de busca na web. Ci.Inf., Braslia, v. 30, n. 1, p. 39-49, jan./abr. 2001. CHATEAUBRIAND, Oswaldo. A filosofia, a linguagem e o mundo. In: BRITO, Adriano Naves de; VALE, Oto Arajo. Filosofia, lingstica, informtica: aspectos da linguagem. Goinia: Ed. UFG, 1998. CUNHA, Luiz Manoel Silva. Web Semntica: estudo preliminar. Campinas: Embrapa Informtica Agropecuria, 2002. Disponvel em: <http://www.cnptia.embrapa.br/modules/tinycontent3/content/2002/doc18.pdf>. Acesso em 03 fev. 2006. DZIEKANIAK, Gisele Vasconcelos; KIRINUS, Josiane Boeira. Web Semntica. Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianpolis, n. 18, p. 20-39, 2004. Disponvel em <http://www.encontros-bibli.ufsc.br /Edicao_18/2_Web_Semantica.pdf>. Acesso em 31 jan. 2006. FACHIN, Odlia. Fundamentos de metodologia. So Paulo: Saraiva, 2003. FREITAS, Frederico Luiz Gonalves de. Ontologias e a web semntica. Universidade Catlica de Santos. 2004. Disponvel em <http://www.inf.unisinos.br/~renata/cursos/topicosv/ontologias-ws.pdf>. Acesso em 04 maio 2006. GUIRALD, Pierre. A semntica. So Paulo: DIFEL, 1980. GUSMO, Helosa Rios. Tesauros: anlise e utilizao. Niteri: UFF, 1985. LVY, Pierre. As tecnologias da inteligncia: o futuro do pensamento na era da informtica. So Paulo: Ed. 34, 1993. MARTINS, Rosane Maria. Web Semntica: uma viso geral. Universidade Federal do Rio de Janeiro, Ncleo de Computao Eletrnica. Rio de Janeiro, nov. 2002. Disponvel em: <http://www.eng.uerj.br/~rosane/survey_generico.pdf>. Acesso em: 03 fev. 2006. MONTEIRO, Silvana Drumond. O ciberespao e os mecanismos de busca: novas mquinas semiticas. Ci. Inf., Braslia, v. 1, n .1, p. 31-38, jan./abr. 2006. MONTEIRO, Silvana Drumond; PICKLER, Maria Elisa Valentim. O ciberespao: o termo, a definio e o conceito. (No prelo). MOREIRA, Alexandra; ALVARENGA, Ldia; OLIVEIRA, Alcione de Paiva. O nvel do conhecimento e os instrumentos de representao: tesauros e ontologias . Datagramazero: Revista de Cincia da Informao, v. 5, n. 6, dez. 2004. Disponvel em <www.dgzero.org/dez04/Art_01.htm>. Acesso em 10 ago. 2006. [ ] OLIVEIRA, Rosa Maria Vivona Bertolini. Web Semntica: novo desafio para os profissionais da informao. In: SEMINRIO NACIONAL DE BIBLIOTECAS UNIVERSTRIAS. Disponvel em <http://www.sibi.ufrj.br/ snbu/snbu2002/oralpdf/124.a.pdf>. Acesso em 31 jan. 2006. SOUTO, L. F. Recuperao de informaes em bases de dados: usos de tesauro . Transinformao, Campinas, v. 15, n. 1, p. 63-72, jan./abr. 2003. SOUZA, Renato Rocha; ALVARENGA, Ldia. A Web Semntica e suas contribuies para a cincia da informao. Ci. Inf., Braslia, v. 33, n. 1, p. 132-141, jan./abr. 2004. Recebido em 21.08.2006 Aceito em 14.03.2007

15

1 Ciberespao, para Monteiro e Pickler (2006), o ambiente virtual possibilitado pelas tecnologias da internet. Um novo espao de comunicao, representao e interao em sociedade. J a Web pode ser entendida como um ambiente multimdia da Internet, que disponibiliza o contedo em formato de hipertexto. Nesse sentido, a Web o principal lugar do ciberespao, seu principal edifcio, podendo tom-la como o centro de todas as possibilidades de interfaces. 2 Uma taxonomia, segundo Daconta apud Breitman, 2005, a classificao de informaes no formato de uma hierarquia de acordo com relacionamentos estabelecidos com entidades do mundo real que representam.

16