Você está na página 1de 4

1

Introduo a Web Semntica, Ontologia e Mquinas de Busca


Alysson Vicua de Oliveira
utilizadas como referncia quando se fala de web semntica.
ResumoAs estruturas das informaes disponveis na web, atualmente no esto bem definidas. Sendo assim, um programa que precise extrair dados importantes ou especficos, como uma mquina de busca, nem sempre obtero xito, podendo recuperar informaes pouco relevantes devido a grande quantidade de informaes, sendo a grande maioria desestruturada. Neste contexto, a web semntica surge com o objetivo de introduzir uma estruturao aos dados e, para isso, utiliza-se de ferramentas tais como XML, RDF e ontologias para definio de hierarquia criando uma inter-relao de conceitos. Palavras-chaveweb semntica, ontologia, mquina de busca

II. CLASSIFICAO DE MQUINAS DE BUSCA A internet foi criada, inicialmente com propsitos militares e, posteriormente se estendeu ao meio acadmico. Depois disso, vem crescendo e se popularizando cada vez mais, podendo, ser acessada por qualquer cidado em praticamente qualquer lugar em que exista um computador ligado a uma linha telefnica. Contudo esse crescimento ocorreu de forma desordenada e sem nenhum controle, pois qualquer pessoa pode publicar um documento na internet. Isso se deve facilidade de se construir pginas, j que o HTML ainda a principal linguagem para construo de pginas web, possuindo a caracterstica de ser simples e possibilitar que todos os dias novos documentos sejam disponibilizados sem controle de contedo, facilitando assim a edio e remoo de documentos com facilidade por seus criadores. Devido a esse grande contingente de informaes disponveis, a localizao de informaes relevantes ficou mais difcil e, por isso, pensou-se numa soluo rpida e eficiente de acesso e localizao dessas informaes: as mquinas de busca. Elas utilizam como parmetro a consulta requerida pelo usurio para vasculhar documentos web, processando essas informaes e retornando uma lista dos documentos que apresentaram similaridade com o assunto desejado. Essas informaes so classificadas como informaes intrnsecas e informaes extrnsecas. Informaes intrnsecas so informaes contidas dentro dos documentos que esto sendo analisados pelas mquinas de busca, ou seja, o prprio texto do documento. A mquina de busca analisa a ocorrncia de uma determinada palavra ou frase e sua localizao no texto e classifica as pginas com maior nmero de ocorrncia como as mais importantes para o usurio, criando um ranking de pginas tidas como relevantes. J informaes extrnsecas a uma pgina, so obtidas a partir dos demais documentos contidos na coleo, estrutura de links (link analysis) ou popularidade de um documento em relao a outro (usage analysis). Com base nestas informaes podemos classificar as mquinas de busca da seguinte maneira: Primeira Gerao: O processo de recuperao da informao consiste basicamente em utilizar as informaes intrnsecas aos documentos. Segunda Gerao: Nesta gerao o processo de recuperao das informaes utiliza como critrio de

I. INTRODUO

computador, nos dias atuais, ferramenta indispensvel em diversas reas do conhecimento humano, tanto para produo do conhecimento, quanto para entretenimento ou mesmo uma simples navegao na internet. Desde a disseminao do uso de computadores, a principal preocupao da rea de Tecnologia de Informao tem sido prover informaes para apoiar a resoluo de problemas. Todos os dias milhares de novas pginas so publicadas na Internet, tornando cada vez mais difcil e demorado encontrar informaes relevantes. Esta demora e dificuldade para encontrar informaes teis em tempo hbil acabam prejudicando uma grande quantidade de negcios e oportunidades, simplesmente por falta da informao na hora ou no formato certos. No contexto especfico da Web, este problema foi identificado e as iniciativas para tentar minimizar seus efeitos deram origem rea de pesquisa denominada Web Semntica (Semantic Web). Este artigo tem por objetivo apresentar as principais ferramentas e tecnologias que permeiam o estudo da Web Semntica, que est sendo reconhecida como o prximo passo evolutivo da Internet. A Web Semntica (WS) pode representar uma revoluo na maneira de enxergamos a internet. Uma das aplicaes mais evidentes da web semntica so as mquinas de busca e por esse motivo este artigo ir utiliz-las como motivao principal. A seo 2 ir apresentar as classificaes das mquinas de busca. A seo 3 ir introduzir os principais aspectos da web semntica. As sees VII, VIII e IX iro apresentar respectivamente o XML, RDF e o conceito de ontologia, ferramentas que comeam a ser
O autor agradece a Escola de Tecnologia da Faculdade Projeo pelo incentivo e oportunidade de divulgao do trabalho. I. Oliveira professor da Escola de Tecnologia da Faculdade Projeo. Contato: alysson.vicuna@gmail.com.br.

2 seleo dos documentos as informaes intrnsecas e extrnsecas. Terceira Gerao: Recuperam a informao com base na semntica (sentido) das informaes contidas nos documentos, ou seja, recuperam dados com base em informaes estruturadas semanticamente. elaborar um "raciocnio lgico". Essa camada o primeiro passo em direo a Web Semntica; Camada Ontologia: responsvel por definir as relaes entre os dados. Essa camada responsvel pela formao do entendimento comum e compartilhado de um domnio;

As mquinas da terceira gerao introduziram novas necessidades na web (internet), como por exemplo, ter conhecimento semntico do contedo do documento, ou seja saber do que se trata uma imagem inserida em uma pgina da web, obrigando uma estruturao dos documentos disponibilizados. A proposta da resoluo dos problemas na busca de informaes relevantes dentro de um contexto desejado trazida pela web semntica, juntamente com outros mecanismos funcionais.

Camada Lgica: responsvel pela definio de mecanismos de inferncia sobre os dados, sendo composta por um conjunto de regras de inferncia que os agentes podero utilizar para relacionar e processar informaes. A figura 1 apresenta uma arquitetura proposta por BernersLee para a Web Semntica, composta de trs camadas:

III. WEB SEMNTICA (WEB SEMANTIC) Segundo o idealizador da web semntica (WS) Tim Berners-Lee[1], Web Semntica uma extenso da Web atual na qual a informao possui significado bem definido, permitindo assim que computadores e pessoas trabalhem melhor, possibilitando que haja cooperao entre eles. Ele tambm foi o responsvel pela criao de conceitos importantssimos para o sucesso da internet, tais como a WWW, URLs, http e o prprio HTML. Atualmente ele trabalha liderando um grupo de pesquisadores no World Wide Web Consortium ou W3C, com o objetivo de melhorar, estender e padronizar os sistemas web. A Web Semntica surge como uma possvel soluo para a estruturao dos dados na Web, permitindo a criao de um contexto no qual a informao possa ter significado para humanos e para mquinas, que se encarregaro de levar a informao relevante para o usurio. Segundo Berners-Lee [1] o principal desafio da Web Semntica criar uma linguagem que consiga expressar o significado e ao mesmo tempo estabelecer regras para processar esse significado de forma a inferir novos dados e regras. As regras para o processamento do significado devem permitir que outros sistemas inteligentes possam interagir. Berners-Lee[1], cita um exemplo do que a Web Semntica ser capaz de fazer: o usurio realizar uma pesquisa na Internet para encontrar um mdico de uma determinada rea da Medicina, estabelecendo algumas restries, tais como o mdico deve ter consultrio no mesmo bairro onde moro e deve estar ligado comunidade acadmica. Quando a busca for solicitada um agente de pesquisa navegar pela rede e encontrar algumas possibilidades. De maneira inteligente e autnoma, o agente dever comparar a agenda do usurio com a agenda do mdico e oferecer opes de horrios para consulta. O usurio s ter o trabalho de escolher o horrio que melhor lhe convier. Na proposta de desenvolvimento da Web Semntica sugerida uma arquitetura de 3 camadas: Camada Esquema: responsvel por estruturar os dados e definir seu significado, para que possa

Fig. 1. Arquitetura da Web Semntica.

IV. CAMADA DE ESQUEMA (SCHEMA LAYER) A camada esquema prov uma forma de definir os dados do documento e o significado associado a esses dados. Trata tambm da estruturao e disposio dos dados de forma que os programas que rodam na web possam fazer inferncia a partir dos mesmos. Para que haja a representao do conhecimento so necessrias trs condies: Interoperabilidade Estrutural: Permite que os dados sejam representados de forma distinta, permitindo especificar tipos e possveis valores para cada forma de representao; Interoperabilidade Sinttica: Constitui-se de regras precisas que permitem o intercmbio de dados na Web;

Interoperabilidade Semntica: Possibilita a compreenso e associao entre os dados. As Linguagens utilizadas para atender esses requisitos so XML e RDF, pois permitem expressar os dados para definir regras de raciocnio. A XML e a RDF que sero descritos mais adiante neste documento, nas sees VII e VIII, respectivamente.

3 pgina criada. Tais unidades podem ser ento manipuladas por aplicaes que conhecem seus significados. um primeiro passo em direo Web Semntica. <microcomputador> <modelo>Core 2 Quad</modelo> <ram>8 GB</ram> <monitor>LCD 17 Polegadas</monitor> <teclado> Microsoft Wireless</teclado> </microcomputador>
Fig. 2. Exemplo Flexibilidade do XML.

V. A CAMADA ONTOLOGIA (ONTOLOGY LAYER) Duas bases de dados podem utilizar terminologias diferentes para referir-se mesma informao, resultando em divergncias para um mesmo conjunto semntico de dados. Pode ocorrer tambm de uma mesma terminologia estar sendo utilizada com significados diferentes, por aplicaes distintas. Para tratar esses conflitos, existe a camada de ontologia que define mecanismos capazes de estabelecer um padro entre as pginas de web. As ontologias sero tratadas com mais detalhes na seo IX.

VIII. RDF (RESOURCE DESCRIPTION FRAMEWORK) VI. A CAMADA LGICA (LOGIC LAYER) na camada lgica que so possveis os relacionamentos de informao e as inferncias de conhecimento da Web Semntica. As regras de inferncia fornecem aos agentes (programas) poder de raciocinar sobre os termos e seus significados, que foram definidos na camada esquema e de raciocinar a respeito dos relacionamentos entre os conceitos segundo a sua definio na camada ontologia. Os agentes so sistemas computacionais autnomos que travam dilogos, negociam e coordenam transferncia de informaes para atingir os objetivos do seu criador (FARCO, 1998). De acordo com COSTA, 1999, os agentes possuem algumas caractersticas como autonomia (funcionam sem interveno humana), reatividade (percebem o ambiente tomam as decises), tm comportamento colaborativo, possuem objetivos, so flexveis, sociveis e tm a capacidade de aprender. A WS possuir vrios agentes interagindo entre si, compreendendo, trocando ontologias, adquirindo novas capacidades racionais quando adquirirem novas ontologias, formando cadeias que facilitam a comunicao e a ao humana. O RDF um modelo de dados para objetos (recursos) e relaes entre eles; ela prov uma semntica simples para o modelo, o qual pode ser representado em sintaxe XML. Frequentemente chamada de linguagem, RDF essencialmente um modelo de dados. Seu bloco de construo bsico uma tripla objeto-atributo-valor, chamada de statement (declarao). O significado da tripla <objeto, atributo, valor> de que o objeto X tem o valor Y para certo atributo Z. O exemplo abaixo ilustra a escrita RDF utilizando a sintaxe XML: <disciplina nome = "Engenharia de Software"> <professor>Jos</professor> </disciplina> A sentena precedente sobre Jose um statement. claro que um modelo de dados abstrato precisa de uma sintaxe concreta para ser representado e transmitido, e, nesse sentido, o RDF tem sido usado sobre XML. Como resultado, ele herda os benefcios associados com XML. Contudo, importante entender que outras representaes sintticas de RDF, no baseadas em XML, so tambm possveis; a sintaxe baseada em XML no um componente necessrio do modelo RDF [1].

VII. XML (EXTENSIBLE MARKUP LANGUAGE) O surgimento da XML, em 1996, revolucionou a Web e as formas como as aplicaes trocam e representam dados. Mas afinal de contas o que vem a ser XML? Uma linguagem de programao? Ou um substituto do HTML? Nem uma coisa e nem outra. De acordo com BRAGANHOLO, 2006, XML nada mais do que uma linguagem de representao de dados cujo foco a semntica dos dados representados e no sua forma de apresentao. XML uma linguagem de marcao extensvel (eXtensible Markup Language), derivada do SGML, de onde tambm veio o HTML, por isso a confuso. Contudo ao contrrio do HTML, que possui tags limitadas, em XML as tags no so pr-definidas. Elas podem ser definidas de acordo com o significado do dado que se quer representar. No exemplo simples ilustrado na Fig.02, mostrada uma implementao em XML. Perceba que em XML existem tags especficas para objetos como monitor, modelo, etc. Portanto atribudo um significado bem definido de certas unidades na

IX. ONTOLOGIAS (ONTOLOGYS) Uma ontologia define termos para que um agente de software consiga extrair o mximo de informao possvel de um documento. Ela fornece um entendimento comum e compartilhado de um domnio, que pode ser comunicado atravs de pessoas e sistemas de aplicao, tornando-se fator chave para o desenvolvimento da Web Semntica [4]. A ontologia tem um papel crucial no sentido de permitir o acesso, a interoperao e a comunicao baseados em contedo, fornecendo Web um nvel de servio qualitativamente novo, que consideramos na Web Semntica, pois permitem expressar regras possibilitando a um programa deduzir significados da informao guardados no documento, ou seja, permitem manipular os termos de uma maneira mais til e eficiente.

4 Ela une em rede incrveis pores do conhecimento humano, complementando-as com capacidade de processamento de mquina. Segundo [8], a utilizao de ontologias permite lidar com conceitos, representando-os formalmente, e de se livrar de problemas inerentes ao vocabulrio da linguagem natural tais como homonmia (nomes iguais), sinnimos, metonmia etc. De acordo com [7], facilidades de documentao, manuteno e confiabilidade tambm so caractersticas importantes das ontologias assim como as propriedades compartilhamento e filtragem. [6], afirmam que ontologia permite acesso inteligente aos documentos na Web e infere ou deduz o conhecimento implcito das regras e fatos declarados explicitamente na ontologia.
[5] JASPER, R.; USCHOLD, M. A framework for understanding and classifying ontology applications. Disponvel em: <http://sern.ucalgary.ca/KSI/KAW/KAW99/papers/Uschold2/final-ontapnfmk.pdf>. Acesso em: 23 abr. 2006. STAAB, S.; MAEDCHE, A. Knowledge portals ontologies at work. Disponvel em: <http://www.aifb.uni-karlsruhe.de/WBS/Publ/2001/KPOaW_sstama_2001.pdf>. Acesso em: 24 abr. 2006. CUNHA, Luiz. M. Silva. Web semntica: Estudo Preliminar,. Campinas: Embrapa, 2002. 16 p. MORAIS, Erikson Freitas de and SOARES, Marcelo Borghetti: Web Semntica para Mquinas de Busca. Universidade Federal de Minas Gerais. BRAGANHOLO, Vanessa P.: Gerenciamento de Dados XML. Revista Computao Brasil, ano VII- n21-Maro/Abril e Maio de 2006. Sociedade Brasileira de Computao.

[6] [7] [8] [9]

X. CONSIDERAES FINAIS Durante a elaborao deste artigo, procurou-se mostrar de forma clara e especifica as inmeras facilidades que a Web Semntica trar para as pessoas que utilizam computador, ajudando-as a obterem informao de qualidade, em meio aos inmeros documentos existentes na web. Com o auxilio das ontologias e Web Semntica, quando um usurio efetuar uma pesquisa utilizando uma maquina de busca, esta ir retornar ao requerente, apenas resultados relevantes ao contexto desejado, evitando que os usurios venham a sofrer prejuzos no tocante a qualidade de negcios e oportunidades. Mas para que as facilidades da WS estejam disponveis a todos os usurios, faz se necessrio a construo de ferramentas que preparem o contedo das paginas de forma semanticamente estruturadas. Deseja-se ainda a automao da arquitetura da web Semntica, que atualmente segue uma proposta utilizando XML para estruturao dos dados, modelos de RDF para a representao semntica e os relacionamentos so gerados utilizando ontologias, manipulando manualmente diferentes arquivos. Espera-se ainda que com o desenvolvimento de ferramentas especializadas, seja possvel trabalhar apenas com as ontologias, sendo as outras duas camadas do modelo criadas automaticamente.

Alysson Vicua de Oliveira Graduado em Cincia da Computao pela Universidade de Rio Verde FESURV, Especialista em Desenvolvimento de Software para Web pela Faculdade Cathedral. Professor da Escola de Tecnologia da Faculdade Projeo. Analista de Sistemas Pleno e atualmente consultor OEI do Ministrio da Educao - MEC.

REFERNCIAS
[1] BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The semantic web a new form of the Web content that is meaningful to computer will unleash a revolvution of new possibilities. Scientific American, May 17, 2001. Disponvel em: <http://www.sciam.com/print_version.cfm?articleID=00048144-10D21C70-84A9809EC588EF21>. Acesso em: 20 abr. 2006. BONIFCIO, A. S.; HEUSER, C. A. Ontologias e consultas semnticas: uma aplicao ao caso Lattes. Disponvel em: < http://www.uel.br/pessoal/ailton/Trabalhos/Disserta%E7ao%20de%20M estrado-Ailton-Final.pdf >. Acesso em: 05 jun. 2011. DUARTE, O. C. M. B.; FURTADO JUNIOR, M. B. Tutorial XML. Disponvel em: <http://www.gta.ufrj.br/grad/00_1/miguel/>. Acesso em: 18 abr. 2006.. SILVA, George Henrique. Construo de Agentes Inteligentes para a Web Semntica. Disponvel em: <http://www.linux.ime.usp.br/~cef/mac499-04/monografias/ghsilva>, 2003. Data de acesso: 05/06/2011.

[2]

[3] [4]

Você também pode gostar