Você está na página 1de 16

Ontologias e vocabulrios controlados: comparao de metodologias para construo

Daniela Lucas da Silva


Mestre em cincia da informao. Escola de Cincia da Informao (ECI/UFMG). E-mail: danielalucas@hotmail.com

1. INTRODUO A organizao da informao tornou-se um processo fundamental medida que vem crescendo exponencialmente o volume de informaes disponvel, resultando muitas vezes na desorganizao de acervos informacionais e conseqentemente na dificuldade de se encontrar o que se procura em determinado sistema de recuperao de informao. Nesse sentido, pesquisas tm sido desenvolvidas progressivamente visando ao desenvolvimento de mecanismos de indexao, organizao e recuperao de informaes, com o objetivo nico de melhorar a eficcia dos sistemas de recuperao de informao. Podemos citar, dentre outras, algumas pesquisas nessa perspectiva voltadas explorao semntica da informao: a) a Web Semntica, que pretende criar metodologias, tecnologias e padres de metadados para aumentar o escopo das atividades desempenhadas automaticamente (BERNERS-LEE; HENDLER; LASSILA, 2001); b) a utilizao semntica embutida nos prprios documentos com o uso de estruturas da linguagem natural como os sintagmas nominais e verbais (SOUZA, 2005); c) instrumentos de representao de relacionamentos semnticos e conceituais como as ontologias (GRUBER, 1993) e os tesauros (DAHLBERG, 1978), objetivando evitar problemas relacionados ambigidade inerente s palavras da linguagem natural. Esse fato contribui para a ateno dada s ontologias, cuja origem se d no campo terico da filosofia (CORAZZON, 2008), sendo ainda pesquisadas e desenvolvidas como instrumento de representao de conhecimento nos campos das cincias da computao e da informao. Para a cincia da informao, as ontologias so de interesse pela potencialidade que elas tm em organizar e representar informao. Segundo Almeida e Bax (2003), as ontologias podem melhorar os processos de recuperao de informao ao organizar o contedo de fontes de dados em um determinado domnio. Borst (1997, p.12) apresenta uma definio muito aceita pela comunidade de ontologia: uma especificao formal e explcita de uma conceitualizao compartilhada, em que formal significa legvel para computadores;
Ci. Inf., Braslia, v. 37, n. 3, p. 60-75, set./dez. 2008

Renato Rocha Souza


Professor adjunto da Escola de Cincia da Informao (ECI/UFMG). E-mail: rsouza@eci.ufmg.br

Maurcio Barcellos Almeida


Professor adjunto da Escola de Cincia da Informao (ECI/UFMG). E-mail: mba@eci.ufmg.br

Resumo
O artigo se prope a apresentar um estudo analtico sobre metodologias e mtodos para construo de ontologias e vocabulrios controlados mediante anlise da literatura sobre metodologias para construo de ontologias e de normas internacionais para construo de software e de vocabulrios controlados. Por meio de pesquisa terica e emprica, foi possvel construir um panorama comparativo que pode servir de apoio na definio de padres metodolgicos para construo de ontologias atravs da integrao de princpios tericos e metodolgicos da cincia da informao da cincia da computao, bem como de contribuies de metodologias e mtodos conhecidos para construo de ontologias. Palavras-chave Ontologias. Vocabulrios controlados. Construo de ontologias. Construo de vocabulrios controlados. Tesauros.

Ontologies and controlled vocabularies: comparison of methodologies for construction Abstract


This article presents an analytical study about methodology and methods to develop ontologies and controlled vocabularies, built through the analysis of the literature about methodologies for ontology engineering and international standards for the construction of software and controlled vocabularies. Through theoretical and empirical research it was possible to build a comparative overview that helps as a guideline for building ontologies using theories from computer and information science along with empirical research with well known methods and methodologies for building ontologies. . Keywords Ontologies. Controlled vocabularies. Ontology building. Ontology engineering. Thesauri.

60

Ontologias e vocabulrios controlados: comparao de metodologias para construo

especificao explcita estaria relacionada a conceitos, propriedades, axiomas explicitamente definidos; compartilhado seria conhecimento consensual; e conceitualizao diz respeito a um modelo abstrato de algum fenmeno do mundo real. Como componentes da ontologia (GRUBER, 1993a; GOMEZ-PEREZ; FERNANDEZ; VICENTE, 1996), tm-se o seguinte: a) classes conceituais, que organizam os conceitos de um domnio em uma taxonomia; b) atributos de classes, que so propriedades relevantes do conceito; c) instncias, que so utilizadas para representar objetos especficos de um conceito; d) atributos de instncias, que so propriedades relevantes que descrevem as instncias de um conceito; e) relaes entre classes, que representam o tipo de interao entre os conceitos de um domnio; f) constantes, que tm sempre o mesmo valor e, geralmente, so usadas em regras ou frmulas para inferir conhecimento na ontologia; g) termos, que designam os conceitos de um domnio; h) axiomas formais, que restringem a interpretao e o uso dos conceitos envolvidos na ontologia; i) regras, que determinam condies ao domnio, alm de inferir valores para atributos. Entretanto, dentro do domnio de desenvolvimento de ontologias, as abordagens para a sua construo, na maioria das vezes, so especficas e limitadas. Um problema, do ponto de vista metodolgico, que no h um padro para sua construo (FERNNDEZ et alii., 1999; USCHOLD; GRUNINGER, 1996). Apesar de grande quantidade de ontologias j ter sido desenvolvida por diferentes comunidades na qumica (GMEZPEREZ; FERNANDEZ; VICENTE, 1996) e na modelagem de negcio (GRUNINGER e FOX, 1995), s para citar alguns exemplos sob diferentes abordagens e usando diferentes mtodos e tcnicas, no h consenso sobre uma metodologia para o processo de construo (FERNANDEZ; GMEZ-PEREZ; JURISTO, 1997). A conseqncia, segundo Fernandez, Gomez-Perez e Juristo (1997), a ausncia de atividades padronizadas, cujas realizaes so conduzidas de forma artesanal e no como uma atividade cientfica. Alm disso, verifica-se a falta de explicao sistemtica de como e onde sero usadas as abordagens tericas dentro de seu processo de elaborao. Pesquisadores da cincia da informao (SOERGEL, 1997; VICKERY, 1997; GILCHRIST, 2003) apresentam similaridades entre vocabulrios controlados utilizados na biblioteconomia, como os tesauros e as taxonomias, e instrumentos utilizados na inteligncia artificial, como as ontologias. As similaridades esto principalmente na
Ci. Inf., Braslia, v. 37, n. 3, p. 60-75, set./dez. 2008

forma de elaborao da estrutura desses instrumentos, que demanda a organizao de conceitos em processos que incluem categorizao e classificao de conceitos, definio das relaes entre esses conceitos e tratamento da terminologia empregada nos conceitos e relaes da estrutura. Diante do cenrio exposto, este artigo se prope a apresentar um estudo analtico sobre metodologias e mtodos para construo de ontologias mais comumente encontrados na literatura e metodologias e normas para construo de vocabulrios controlados disponveis, de modo a delinear um panorama comparativo sobre a construo de tais instrumentos. Tal panorama pode contribuir na definio de padres metodolgicos para construo de ontologias por meio da integrao de princpios tericos e metodolgicos da cincia da informao, da cincia da computao, bem como de contribuies de metodologias e mtodos conhecidos para construo de ontologias. 2. METODOLOGIA O objetivo geral deste artigo apresentar um estudo comparativo entre metodologias para construo de ontologias e vocabulrios controlados. Para tal, os passos metodolgicos adotados na pesquisa foram os seguintes: i) identificao de documentos que contemplassem o assunto sobre metodologias para construo de ontologias; ii) anlise, interpretao e seleo de tais documentos para identificao das metodologias discutidas nos mesmos; iii) seleo de metodologias para construo de vocabulrios controlados; iv) definio das categorias de anlise das metodologias, mtodos e normas, de modo a coletar os dados pertinentes pesquisa; v) anlise comparativa das metodologias, dos mtodos e da norma. Para a identificao de documentos, foram consultadas bases de dados de documentos cientficos e empregada a tcnica de busca por palavras-chave que refletissem o universo do assunto. O processo de anlise e interpretao dos documentos recuperados se deu mediante a utilizao de tcnicas de anlise de contedo, as quais permitiram a seleo dos documentos. Aps a obteno da amostragem documental, pde-se, finalmente, identificar as metodologias discutidas nos documentos e justificar quando da insero de uma delas no material emprico destinado anlise. Tal identificao tambm foi realizada com tcnicas de anlise de contedo. A anlise de contedo contempla um conjunto de tcnicas de anlise das comunicaes
61

Daniela Lucas da Silva / Renato Rocha Souza / Maurcio Barcellos Almeida

visando a obter indicadores (quantitativos ou no) que permitam a inferncia de conhecimentos presentes nas mensagens (BARDIN, 1977). O emprego de tais tcnicas descrito nas sees 2.2 e 2.3. Essa seo apresenta a descrio dos passos metodolgicos que tornaram possvel a concretizao deste trabalho de pesquisa. No tpico 2.1 so apresentadas as bases de dados, que determinaram a recuperao dos documentos pesquisados. Em 2.2 so descritos os passos e os critrios utilizados na seleo das metodologias para construo de ontologias e das metodologias para construo de vocabulrios controlados, ambos compondo o material emprico para anlise. No tpico 2.3 so justificadas as categorias de anlise do material emprico. E, finalmente, o tpico 2.4 apresenta como foi conduzida a atividade de anlise comparativa dos materiais envolvidos na pesquisa. 2.1 Seleo das fontes de pesquisa As fontes de obteno dos artigos cientficos para o tema construo de ontologias foram o portal de peridicos da Capes* e a biblioteca digital Citeseer**, sendo que ambas as fontes disseminam literatura cientfica nos campos da cincia da informao e da cincia da computao. Alm disso, proporcionam anlises estatsticas das citaes para todos os documentos do repositrio, o que possibilita ao pesquisador tomar conhecimento da opinio dos pares em relao ao artigo em questo e, em conseqncia, de sua aceitao pela comunidade. Os livros sobre construo de ontologias foram pesquisados no catlogo de bibliotecas da Universidade Federal de Minas Gerais (UFMG) pelo sistema Pergamum *** , seguindo o critrio de maior disponibilidade. O acesso aos documentos relacionados elaborao de vocabulrios controlados se deu a partir das citaes de artigos procurados atravs dos descritores tesauros e vocabulrios controlados na base de dados Citeseer. Pesquisas tambm foram realizadas nas revistas classificadas na categoria Qualis da cincia da informao e na biblioteca Digital Brasileira de Teses e Dissertaes (BDTD****).

A indexao das citaes no Citeseer feita de forma autnoma, ou seja, sem inter veno humana (LAWRENCE, BOLLACKER; LEE GILES, 1999). Quando da execuo deste estudo, foi constatada a atualizao da base de dados do Citeseer at o perodo de setembro de 2006*. No que diz respeito ao portal de peridicos da Capes, a editora selecionada para consultas foi a Association Computing Machinery, conhecida como Portal ACM, que dissemina literatura de diversas reas da Cincia da Computao, destacando a inteligncia artificial, rea na qual foram selecionados artigos cientficos sobre construo de ontologias. 2.2 Seleo do material emprico A presente seo apresenta os passos que determinaram a seleo do material emprico nesse estudo e se organiza da seguinte forma: na seo 2.2.1 descrita a estratgia de pesquisa utilizada na atividade de seleo das metodologias para construo de ontologias; e a seo 2.2.2 apresenta os critrios adotados na seleo das metodologias para construo de vocabulrios controlados. 2.2.1 Seleo das metodologias para construo de ontologias Na atividade de seleo das metodologias para construo de ontologias, foi realizada uma investigao na literatura das reas da computao, como tambm da cincia da informao, tendo-se mais sucesso na primeira. Tal fato pode ser explicado em razo de as ontologias de sistemas de informaes serem objetos de estudo proeminentes da cincia da computao. A estratgia de pesquisa para a seleo das metodologias se deu pelos seguintes passos, que sero detalhados nas prximas subsees: 1. seleo de artigos e livros que tratam do assunto metodologias para construo de ontologias atravs da recuperao por palavras-chave determinadas; 2. identificao de metodologias para construo de ontologias nos documentos selecionados; 3. quantificao de ocorrncias de citao das metodologias identificadas nos documentos;

http://www.periodicos.capes.gov.br/portugues/index.jsp http://citeseer.ist.psu.edu *** http://webpergamum.adm-serv.ufmg.br/biblioteca/php/ opcoes.php **** http://bdtd.ibict.br


* **

4. finalmente, determinao das metodologias que foram analisadas comparativamente na pesquisa.


*

http://citeseer.ist.psu.edu/source.html

62

Ci. Inf., Braslia, v. 37, n. 3, p. 60-75, set./dez. 2008

Ontologias e vocabulrios controlados: comparao de metodologias para construo

vlido destacar neste ponto a diferena entre os termos metodologia e mtodo, visto que, na investigao realizada na literatura, ambos os termos so usados por vezes de maneira indiscriminada. Contudo, constatou-se que alguns dos objetos a serem identificados e analisados so considerados metodologias, outros so considerados mtodos, conforme ser visto na seo 3, que apresenta os objetos empricos. Segundo definies do IEEE (1990)*, apud Fernandez, Gmez-Perez e Corcho (2004), uma metodologia seria uma srie integrada de tcnicas ou mtodos criando uma teoria geral de sistemas de como uma classe de pensamento pode ser executada**. Um mtodo um conjunto de processos ou procedimentos ordenados usados na engenharia de um produto ou na realizao de um servio ***, tendo-se em vista que tais processos so compostos de atividades, que, por sua vez, so compostas por tarefas atribudas a um ou mais membro do projeto. Geralmente, tarefas relacionadas so agrupadas para formar atividades. E uma tcnica seria um procedimento tcnico e gerencial usado para alcanar um dado objetivo****, que em outras palavras significa dizer um modo pelo qual o mtodo executado. Segundo de Hoog (1998)*****, apud Fernandez, GmezPerez e Corcho (2004), metodologia e mtodo so conceitos distintos, pois uma metodologia refere-se a conhecimento sobre mtodos, isto , determina como e quando uma dada atividade pode ser realizada. Assim, uma metodologia composta de mtodos que possuem suas prprias tcnicas. 2.2.1.1 Passo 1 Seleo dos documentos O primeiro passo foi selecionar os artigos cientficos que fossem passveis de anlise para levantamento das metodologias discutidas na literatura. O processo de recuperao de artigos na biblioteca Citeseer se d por palavras-chave ou por links****** de citao (LAWRENCE; BOLLACKER; LEE GILES, 1999). A biblioteca oferece
IEEE Standard Glossary of Software Engineering Terminology. IEEE Computer Society. New York. IEEE Std 610.121990, 1990. ** [] integrated series of techniques or methods creating a general systems theory of how a class of thought [] be performed. *** [] is a set of orderly process or procedure used in the engineering of a product or performing a service. **** [] a technical and managerial procedure used to achieve a given objective ***** de HOOG R. Methodologies for Building Knowledge Based Systems: Achievements and Prospects. In: Liebowitz J (ed) Handbook of Expert Systems. Chapter 1, Boca Raton, Florida: CRC Press. 1998. ****** CiteSeer allows the location of papers by keyword search or by citation links
*

uma opo de busca de seu contedo por meio do mecanismo de busca do Google (denominada Google Docs). Essa estratgia de busca interessante, pois, para uma maior preciso, o Google pesquisa exatamente as palavras ou expresses que forem indicadas no campo de pesquisa por aspas. O Google tambm adiciona automaticamente um e entre as palavras inseridas na expresso de pesquisa. O resultado mostra pginas onde ocorram todas as palavras indicadas na busca. Diante disso, as palavras-chave precisaram ser determinadas de forma a representar o assunto, ou seja, metodologias para construo de ontologias. As palavras-chave para a atividade de recuperao foram ento escolhidas em funo do conhecimento prvio adquirido na leitura de documentos sobre o assunto: methodology, methodologies, method, design, building, development process, life cycle, em conjunto com ontologies ou ontology. importante salientar que as palavras-chave esto em ingls em virtude de os materiais publicados sobre ontologias se encontrarem, em sua maioria, nesta lngua. A consulta montada com a expresso methodology for building ontologies resultou na recuperao de 70 pginas no Google Docs, j methodologies for building ontologies resultou na recuperao de 22 pginas. Alm da estratgia de busca por expresso, foi pesquisada cada palavra-chave em conjunto com ontologies ou ontology. Na anlise de busca das palavras-chave, constatou-se que a palavra ontology em conjunto com as outras palavras-chave, foi a que resultou em maior retorno de pginas. Na anlise realizada nos dois contextos, percebeu-se uma coincidncia nas pginas recuperadas, isto , a mesma pgina era retornada tanto com ontologies quanto ontology, constatando uma variao no uso dos termos nos artigos. Do universo de pginas recuperadas, foram investigadas as 30 primeiras, pelo fato de, na maioria dos casos, as demais pginas retornarem documentos repetidos ou fora do escopo, tendo em vista que os resultados so listados em ordem de importncia *. Foram selecionados os documentos que mais se aproximavam do objeto de investigao. Para efetuar a escolha, foi necessrio analisar o ttulo mencionado na pgina, fazer uma leitura do resumo (abstract) do documento** e analisar as palavrasInformaes sobre o PageRank em http://www.google.com/ technology/ ** A pgina recuperada no Google Docs remete ao documento indexado no Citeseer. A biblioteca disponibiliza um recurso de download para visualizao do documento em vrios tipos de arquivo.
*

Ci. Inf., Braslia, v. 37, n. 3, p. 60-75, set./dez. 2008

63

Daniela Lucas da Silva / Renato Rocha Souza / Maurcio Barcellos Almeida

chave do mesmo. Alm disso, para uma compreenso macro do objeto de investigao, fez-se breve leitura da seo envolvida com o assunto. Tal leitura foi embasada em uma tcnica da anlise de contedo conhecida como leitura flutuante, na qual consiste em estabelecer contato com os documentos a serem analisados, obtendo impresses e orientaes acerca do contedo (BARDIN, 1977, p. 96-98). Algumas regras advindas da anlise de contedo tambm foram consideradas na seleo dos documentos e so descritas a seguir: regra da exaustividade: no se pode deixar de fora qualquer elemento por esta ou por aquela razo que no possa ser justificvel no plano do rigor. Muitos dos documentos filtrados no abordavam diretamente o tema metodologias para construo de ontologias, mas outros aspectos relacionados, tais como ferramentas, linguagens, aplicaes, engenharia, dentre outros, que poderiam servir para a anlise; regra da representatividade: a amostragem diz-se rigorosa se a amostra for parte representativa do universo inicial. Nesse caso, representando os documentos que tratassem diretamente de metodologias para construo de ontologias. Alm das tcnicas expostas acima, foram levados em considerao na anlise de cada artigo: a) o nmero de citaes recebidas; b) citao de autores mais produtivos na rea de ontologias, como Nicolas Guarino, Thomas Gruber, Fernandez Lopes, Asuncion Gmez Perez, Mike Uschold, Michael Gruninger, dentre outros. vlido ressaltar que, a partir dos documentos selecionados, foi possvel identificar novos conceitos e autores para realizao de novas buscas no Citeseer, bem como na editora ACM do portal da Capes, que permitiram a identificao de outros artigos relevantes para a pesquisa. Tais artigos tambm foram considerados na anlise de identificao de metodologias para construo de ontologias e, quando considerados relevantes, foram inseridos na amostra de documentos. Dando continuidade ao processo de seleo de documentos, o prximo passo foi recuperar livros que tratassem de metodologias para construo de ontologias. Para tal, foi acessado o sistema de gesto de acervos das bibliotecas da UFMG (Pergamum). As referncias foram coletadas a partir de bases secundrias que refletem a literatura nacional e internacional nos campos de cincia da informao e cincia da computao. Investigou-se o acervo on-line das bibliotecas da Escola de Cincia da
64

Informao (ECI) e do Instituto de Cincias Exatas (ICEX), por serem considerados campos mais pertinentes em relao ao assunto e para diminuir o rudo causado pelas acepes de ontologia no campo da filosofia. As palavras-chave determinadas para a busca foram: ontologia, ontologias, ontology, ontologies, engineering e web. Foram recuperadas obras que tratavam de assuntos relacionados a comrcio eletrnico, web semntica e recuperao de informao. Foi constatado pouco volume de obras relacionadas temtica ontologias de sistemas de informaes nos acervos da ECI, bem como nos do ICEX, evidenciando que o assunto de pesquisa ainda recente nas duas instituies. Foi feita uma anlise no sumrio de cada obra a fim de verificar a existncia do assunto investigado. Aps a realizao da atividade de seleo dos documentos descrita anteriormente, foi obtida uma amostra de 25 documentos representativos de anlise, os quais podem ser conferidos em Silva (2008, p. 119-120). Foram selecionados 23 artigos cientficos e dois captulos de livros. 2.2.1.2 Passo 2 Identificao das metodologias para construo de ontologias O segundo passo foi identificar as metodologias para construo de ontologias abordadas nos 25 documentos. No passo de seleo dos documentos, pde-se perceber uma carncia de metodologias representativas. Segundo a literatura pesquisada, do ponto de vista metodolgico, no h um padro amplamente aceito para construo de ontologias (JONES; BENCH-CAPON; VISSER, 1998; FERNNDEZ, GMEZ-PEREZ; JURISTO, 1997; USCHOLD; GRUNINGER, 1996). Este fato demonstra que metodologia para construo um assunto ainda em amadurecimento. Uschold e Gruninger (1996) comentam da dificuldade em encontrar, na literatura da rea, assuntos sobre metodologias para construo de ontologias. Segundo os autores, [...] no h muitas publicaes na rea, mesmo na literatura pesquisada*. Mesmo em funo de essas afirmaes terem sido feitas a cerca de 10 anos, no foi constatado nessa pesquisa um avano em relao a propostas de metodologias para construo de ontologias. Isso pode ser conferido no mapeamento temporal das metodologias abordadas nos documentos (1992 at 2007) e em publicaes recentes
[] nor is there much published in this rea, even in the research literature.
*

Ci. Inf., Braslia, v. 37, n. 3, p. 60-75, set./dez. 2008

Ontologias e vocabulrios controlados: comparao de metodologias para construo

envolvendo o assunto (FERNNDEZ, GMEZ-PEREZ e CORCHO, 2004; BREITMAN, 2005; CARDOSO, 2007). Todos os fatos expostos anteriormente, alm de frisar a importncia deste estudo, reforam o argumento de que a fase de seleo das metodologias para construo de ontologias apresentou dificuldades. Os motivos foram os seguintes: a) as metodologias discutidas na literatura eram quase sempre as mesmas; b) poucos trabalhos publicados sobre o tema. Diante disso, julgou-se pertinente, em termos de obteno de metodologias representativas de anlise, obter a freqncia de ocorrncia de citao nos documentos selecionados. Atravs da tabela de freqncia de ocorrncia, disponvel em Silva (2008, p.123), tornar-se-a possvel identificar as metodologias de construo mais discutidas e dar nfase na metodologia que mais se destacou na literatura. 2.2.1.3 Passo 3 Apresentao da freqncia de ocorrncia de citao As metodologias e os mtodos com maior freqncia de ocorrncia foram a metodologia usada no projeto Tove (68%), o mtodo proposto para o projeto Enterprise Ontology (60%) e a metodologia Methontology (56%), sendo abordadas em mais de 50% dos trabalhos selecionados. Em seguida, vem o mtodo Cyc com 36%, o mtodo Kactus com 24%, o mtodo Sensus e a metodologia On-To-Knowledge com 20%, o mtodo 101 com 12% e o mtodo KBSI IDEF5 com 4%. Para melhor visualizao dos resultados, o grfico da figura 1 mostra as metodologias e os mtodos que mais se destacaram nos documentos selecionados. Na inteno de obter um conjunto razovel de metodologias e mtodos para a anlise comparativa, decidiu-se como primeiro critrio de seleo: escolher as metodologias e mtodos mais discutidos na literatura. Assim, a tabela de freqncia de ocorrncia foi utilizada como referncia para a escolha. Dentre as metodologias candidatas insero no conjunto, o interesse da pesquisa se concentrava em metodologias que contemplassem a construo de ontologias de domnio, isto , um tipo de ontologia que descreve um vocabulrio relacionado a um domnio genrico, tal como medicina (GUARINO, 1998). Tal classificao ou tipo de ontologia foi escolhido pelo fato de a anlise comparativa envolver um tipo de instrumento da cincia da informao que objetiva construir linguagens documentrias (DODEBEI, 2002) acerca de um assunto especfico ou domnio de
Ci. Inf., Braslia, v. 37, n. 3, p. 60-75, set./dez. 2008

FIGURA 1 Metodologias e mtodos por ordem decrescente de freqncia de ocorrncia

Fonte: Silva (2008, p.124)

conhecimento, isto ,por meio de vocabulrios controlados. Diante disso, o segundo critrio de seleo de metodologias foi investigar a ontologia resultante da aplicao de cada metodologia. Tal investigao descrita na subseo a seguir. 2.2.1.4 Passo 4 Determinao das metodologias e dos mtodos A investigao da ontologia resultante de cada metodologia foi feita mediante a anlise de contedo nos documentos representativos, bem como em outros identificados em referncias bibliogrficas. No caso do projeto Tove, verificou-se que a metodologia foi derivada da experincia dos autores no desenvolvimento de ontologias para domnios corporativos (GRUNINGER; FOX, 1995). O mtodo proposto por Uschold e King foi baseado na prtica da construo da ontologia de alto nvel Enterprise (USCHOLD; KING, 1995). Ambos so capazes de construir ontologias de domnios sobre negcios. A metodologia Methontology j foi aplicada no desenvolvimento de uma ontologia no domnio da qumica (GMEZ-PEREZ; FERNANDEZ-LOPES; VICENTE, 1996). O mtodo Cyc considera o conhecimento consensual sobre o mundo e pode ser utilizado na criao de ontologias para fundamentar diferentes sistemas inteligentes (REED; LENAT, 2002). O mtodo aplicado no projeto Kactus resultou numa ontologia no domnio de redes eltricas (BERNARAS; LARESGOITI; CORERA, 1996). O mtodo baseado na
65

Daniela Lucas da Silva / Renato Rocha Souza / Maurcio Barcellos Almeida

ontologia Sensus foi aplicado no desenvolvimento de uma ontologia no domnio de planejamento de operao militar area (VALENTE et alii, 1999). A metodologia On-to-Knowledge visa a construir ontologias para aplicaes de gesto do conhecimento e so altamente dependentes da aplicao (FERNANDEZ; GMEZPEREZ; CORCHO, 2004). O mtodo 101 j foi aplicado na construo de uma ontologia no domnio de vinhos (NOY; GUINNESS, 2001). E, finalmente, o mtodo KBSI IDEF5, que auxilia a criao, a modificao e a manuteno de ontologias (JONES; BENCH-CAPON; VISSER, 1998). Mediante os critrios estabelecidos, apenas dois objetos, dentre os nove apresentados, no foram selecionados para anlise comparativa nesta pesquisa. A metodologia On-to-Knowledge depende altamente da aplicao na qual a ontologia ser modelada, mostrando-se, portanto, invivel na construo de ontologias de domnio. Alm disso, no foram identificadas na pesquisa ontologias resultantes da aplicao do mtodo KBSI IDEF5. Assim sendo, as metodologias e os mtodos escolhidos para a atividade de anlise comparativa foram os seguintes: a) metodologia de Gruninger e Fox; b) mtodo de Uschold e King; c) metodologia Methontology; d) mtodo Cyc; e) mtodo Kactus; f) mtodo Sensus; g) mtodo 101. Acreditou-se que, analisando as metodologias mais discutidas na literatura, poder-se-ia obter um resultado razovel no que diz respeito a um estudo comparativo de metodologias para construo de ontologias. 2.2.2 Seleo das metodologias para construo de vocabulrios controlados Na atividade de identificao de metodologias para construo de vocabulrios controlados, foi realizada uma investigao na literatura do campo da cincia da informao, conforme explanado na seo 2.1. Na investigao, constatou-se a existncia de normas para construo de tesauros, taxonomias, enfim, vocabulrios controlados, criadas por entidades com aceitao internacional, propiciando, aos desenvolvedores, subsdios metodolgicos para melhor orient-los na confeco desses instrumentos. Segundo definio da Associao Brasileira de Normas Tcnicas, uma norma um documento estabelecido por consenso e aprovado por um organismo reconhecido que fornece, para uso comum e repetitivo, regras, diretrizes ou caractersticas para atividades ou para seus resultados, visando obteno de um grau timo de ordenao em um dado contexto (ABNT ISO/IEC GUIA 2:1998).
66

Afora as normas, guias nacionais tambm tm sido criados para ajudar na elaborao de vocabulrios controlados. Algumas dessas normas e guias so descritas a seguir: Normas e diretrizes da Unesco de 1973: Guidelines for the establishment and development of monolingual thesauri. Manual de Elaborao de Tesauros Monolnges de 1990: publicado em Braslia pelo Programa Nacional de Bibliotecas das Instituies de Ensino Superior. A verso em portugus da ISO 2788: Diretrizes para o estabelecimento e desenvolvimento de Tesauros Monolnges, publicada pelo Senai/IBICT em 1993. Norma elaborada pela American National Standards Institute National Information Standards Organization (U.S.): Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies de 2005 ou ANSI/NISO Z39.19-2005. Nessa pesquisa, foi utilizada como referncia uma norma que se justificou pelos seguintes critrios: a) norma mais atual (de 2005), aceita e consolidada na comunidade de cincia da informao; b) norma que apresenta abordagem interdisciplinar das teorias advindas da cincia da informao e da terminologia - Teoria da Classificao Facetada; Teoria do Conceito; e Teoria da Terminologia - na construo de vocabulrios controlados. Essa norma a ANSI/NISO Z39.19-2005, que foi construda tendo como base as diversas normas americanas e internacionais sobre a criao de tesauros, incluindo a ISO 2788. Deu-se maior nfase norma ANSI/NISO Z39. 19-2005, por consider-la mais atual em relao norma ANSI/NISO Z39. 19-2003. Destaca-se que no perodo de execuo da atividade de coleta e anlise dos dados, ficou constatado que a norma ANSI/NISO Z39. 19-2005 no seria suficiente para classificar seus contedos nas categorias de anlise fundamentadas na norma IEEE-1074 (1997), conforme poder ser conferido na seo 3.8. Tal evidncia resultou na seleo do manual disponvel no stio da Biblioteconomia, Informao e Tecnologia da Informao BITI (CAMPOS; GOMES; MOTTA, 2004) sobre elaborao de tesauros. vlido ressaltar que a metodologia explicitada no manual da BITI conseqncia de trabalhos da professora Hagar Espanha Gomes e equipe (GOMES et alii., 1990), os quais se mostram como referncia para cursos de biblioteconomia e cincia da informao, alm de bibliotecas preocupadas
Ci. Inf., Braslia, v. 37, n. 3, p. 60-75, set./dez. 2008

Ontologias e vocabulrios controlados: comparao de metodologias para construo

com o desenvolvimento de terminologias adequadas para a representao do contedo de seus acervos. A justificativa da escolha de dois objetos empricos para anlise de elaborao de vocabulrios controlados (diferentemente da seleo de seis objetos para construo de ontologias), deve-se ao fato de que, como existem normas, os vocabulrios controlados no padecem do mesmo problema de falta de consenso de metodologias para construo de ontologias. Desse modo, acredita-se que a investigao literria no contexto dos vocabulrios controlados possa ser realizada de uma maneira menos exaustiva em relao s ontologias. 2.3 Coleta e anlise dos dados Esta seo descreve como foi conduzida a atividade de coleta e anlise do material emprico. O primeiro passo desta etapa foi definir as categorias de anlise que pudessem subsidiar a anlise de contedo dos materiais envolvendo as metodologias e os mtodos para construo de ontologias e a metodologia e a norma para construo de vocabulrios controlados. Na rea de engenharia de software existem metodologias j consolidadas, difundidas e bem aceitas na indstria de software (PRESSMAN, 2002), como o caso do Extreme Programming, conhecido como XP*, e do Unified Process (BOOCH; JACOBSON; RUMBAUGH, 2006), ou Processo Unificado, o qual serve de base para a criao de outros processos de software devido a sua extensibilidade. Exemplos de processos de software baseados no Processo Unificado so o RUP** (Rational Unified Process ), a sua extenso EUP*** (Enterprise Unified Process) e o Praxis (PAULA FILHO, 2003), ou PRocesso para Aplicativos eXtesveis e Interativos. Entretanto, percebe-se um cenrio relativamente diferente na Engenharia ontolgica, na qual diversas metodologias tm sido apresentadas e discutidas para construo, reutilizao e avaliao de ontologias (GUARINO; WELTY, 2000; FERNNDEZ et alii., 1999; JONES; BENCH-CAPON; VISSER, 1998; USCHOLD; GRUNINGER, 1996; GMEZ-PEREZ; FERNANDEZ; VICENTE, 1996; GRUNINGER; FOX, 1995), mas apresentam abordagens e caractersticas diversas, sendo direcionadas a diferentes propsitos e aplicaes, ou seja, no possuem propostas unificadas, sendo que grupos diferentes utilizam diferentes abordagens (FERNNDEZ et al., 1999).
http://www.extremeprogramming.org/ ** http://www.ambysoft.com/unifiedprocess/rupIntroduction.html *** http://www.enterpriseunifiedprocess.com/
*

Fernndez (1999) considera que o processo de desenvolvimento de ontologias deveria ser fundamentado no padro internacional IEEE-1074, norma para desenvolvimento de software advinda da rea de engenharia de software. O autor ressalta que algumas extenses na norma IEEE-1074 em conjunto com algumas adaptaes particulares s ontologias deveriam ser levadas em considerao no processo de construo das mesmas. E justifica a aplicao da norma no processo de construo de ontologias por consider-las como um componente de produtos de software*. Na anlise de contedo feita nos documentos, descrita na seo 2.2, percebeu-se certa semelhana entre algumas fases de desenvolvimento dos instrumentos (ontologias e vocabulrios controlados) e outras advindas do processo de desenvolvimento de software. Algumas dessas semelhanas foram identificadas principalmente nas atividades de anlise de domnio e nas abordagens tcnicas para criao de modelos conceituais. O modelo de ciclo de vida de software, proposto na norma IEEE1074, considerado um padro aceitvel para anlise e comparao das fases de desenvolvimento de ontologias e vocabulrios controlados. A justificativa para tal considerao de que o modelo de ciclo de vida descreve um processo estruturado e metdico para desenvolvimento de produtos (PRESSMAN, 2002), e advm da engenharia de software, uma disciplina considerada madura no sentido de possuir metodologias amplamente aceitas, conforme j elucidado. Decidiu-se, portanto, na perspectiva deste trabalho, utilizar como subsdio para definio das categorias de anlise o padro aceito internacionalmente para desenvolvimento de software, a norma IEEE-1074 (1997). As categorias de anlise de contedo do material emprico foram definidas a partir de princpios elucidados por Bardin (1977), que advoga o uso de categorias para procedimentos de anlise qualitativa. Segundo o autor, a escolha de categorias pode envolver vrios critrios: i) semntico (temas); ii) sinttico (verbos, adjetivos, pronomes); iii) lxico (juntar pelo sentido das palavras, agrupar os sinnimos, os antnimos); iv) expressivo (agrupar as perturbaes da linguagem, da escrita). Neste trabalho, o critrio de escolha das categorias foi o semntico, ou seja, de acordo com a norma IEEE-1074 (1997), com a literatura das reas de ontologias e

[] ontologies are part (sometimes only potentially) of software products. [] ontologies should be developed according to the standards proposed for software generally, which should be adapted to the special characteristics of ontologies.

Ci. Inf., Braslia, v. 37, n. 3, p. 60-75, set./dez. 2008

67

Daniela Lucas da Silva / Renato Rocha Souza / Maurcio Barcellos Almeida

vocabulrios controlados. Tais categorias foram, ento, adaptadas diante dos processos extrados da norma para construo de software, caractersticas particulares s ontologias (formalizao e integrao), e caracterstica peculiar aos vocabulrios controlados (formas de apresentao). So elas: i) gerenciamento do projeto; ii) pr-desenvolvimento; iii) especificao de requisitos; iv) modelagem conceitual; v) formalizao; vi) implementao; vii) forma de apresentao; viii) manuteno; ix) integrao; x) avaliao; xi) documentao. A seguir, cada categoria fundamentada: i) de acordo com a norma IEEE-1074 (1997); ii) de acordo com princpios metodolgicos para construo de ontologias (FERNANDEZ; GOMEZ-PEREZ; JURISTO, 1997; USCHOLD; GRUNINGER, 1996); iii) de acordo com particularidades na construo de vocabulrios controlados (CAMPOS; GOMES; MOTTA, 2004). Gerenciamento do projeto: ocorrem atividades relacionadas ao incio de um projeto, como criao do processo e ciclo de vida, ao planejamento da gesto de um projeto e ao monitoramento e controle do projeto em todo o seu ciclo de vida. Pr-desenvolvimento: consiste em analisar idias ou conceitos de um sistema e, em funo de problemas observados no ambiente, alocar requisitos para o sistema antes do incio de desenvolvimento do produto. A fase inclui atividades de estudo de viabilidade e anlise de requisitos do sistema. Especificao de requisitos: abrange as restries ou regras que o produto deve cumprir em funo da definio das necessidades do requisitante. Os requisitos devem servir como documento inicial para a realizao das tarefas de modelagem e prototipao, e tal processo geralmente iterativo. Modelagem conceitual: objetiva desenvolver uma representao bem organizada e coerente do sistema que satisfaa os requisitos de produto especificados nas atividades de requisitos. Formalizao: consiste em transformar o modelo conceitual da ontologia (ou conceitualizao) em um modelo formal a fim de definir de forma precisa o seu significado. O profissional envolvido na construo da ontologia concentra-se no processo de modelagem computacional do problema, usando, por exemplo, a lgica de primeira ordem e suas extenses (sistemas de representao baseados em frames, redes semnticas,

lgica descritiva etc.). As tcnicas empregadas nessa fase so oriundas da rea de inteligncia artificial. Implementao: resulta na transformao da representao do projeto da arquitetura do software em uma linguagem de programao. No caso especfico das ontologias, a implementao consiste em mapear o modelo formal em uma linguagem que se adeque s demandas como Web Ontology Language - OWL (DEAN et alii., 2003), por exemplo. Forma de apresentao: no contexto dos vocabulrios controlados, aps o modelo conceitual ter sido concebido, a prxima atividade seria direcionada apresentao do vocabulrio, que implicar diretamente a satisfao dos usurios em relao ao manuseio do instrumento. A forma de apresentao inclui como representar os relacionamentos dos termos, formato de distribuio, tipos de exibio, entre outras. Manuteno: considerada uma etapa psdesenvolvimento, que consiste em identificar problemas e melhorias nos produtos, podendo resultar em novas verses. Integrao: esta fase considera a reutilizao de conceitos existentes em outras ontologias. Segundo Fernandez, Gomez-Perez e Juristo (1997), uma alternativa para facilitar a construo de ontologias buscar integrar a ontologia em questo a ontologias existentes. A proposta examinar a conceitualizao de metaontologias (chamadas ontologias de alto nvel) e selecionar (parcialmente ou por completo) aquelas que melhor se ajustarem ao modelo que est sendo construdo. No processo de integrao, as atividades podem ser realizadas durante a fase de modelagem conceitual e implementao da ontologia, sendo considerada, portanto, um processo integral. Ressalta-se que o fato de considerar a busca por ontologias existentes no implica, necessariamente, integrao. Entretanto, o nome original para o processo (com garantia literria) integrao. Avaliao: suas atividades so executadas ao mesmo tempo com atividades dos processos orientados ao desenvolvimento do produto, como, por exemplo, conduo de revises e auditorias nos processos, desenvolvimento de procedimento de testes, execuo de testes e avaliao de resultados. Documentao: desenvolvimento e distribuio de documentao em cada fase para desenvolvedores e
Ci. Inf., Braslia, v. 37, n. 3, p. 60-75, set./dez. 2008

68

Ontologias e vocabulrios controlados: comparao de metodologias para construo

usurios envolvidos nos processos, a fim de fornecer, em tempo hbil, informaes sobre o produto. Definidas as categorias de anlise, o prximo passo foi a elaborao dos instrumentos para coleta e registro dos dados. Para cada metodologia, mtodo e norma envolvida foi elaborada uma tabela contendo um espao dedicado a cada categoria de anlise. Dessa forma, tornou-se possvel colher o contedo nos documentos envolvidos a partir das categorias e registr-lo formalmente em cada tabela. Se uma categoria no fosse pertinente a alguma metodologia ou mtodo, a coluna era preenchida com o valor Ausente. A coleta dos dados passou pelas atividades de compreenso, anlise e sntese de contedo, realizadas a partir do conhecimento adquirido na pesquisa. Tais atividades foram necessrias para a realizao da etapa seguinte, que consistia em analisar comparativamente as categorias para cada metodologia, mtodo e norma; sob a orientao dos parmetros estabelecidos para esta anlise. Tal etapa descrita na seo seguinte. 2.4 Anlise comparativa das metodologias, dos mtodos e da norma Feita a coleta e registro dos dados, o prximo passo foi o desenvolvimento de um quadro comparativo contendo as fases de desenvolvimento apresentadas nos objetos empricos analisados. Tal escopo foi concebido por meio de uma estrutura matricial representando em suas colunas os objetos investigados e em suas linhas cada fase do ciclo de vida. A partir do tratamento e organizao do contedo em tal estrutura, foi possvel analisar comparativamente cada metodologia, mtodo e norma e tirar concluses tericas e empricas acerca do processo de construo de ontologias e vocabulrios controlados. 3. APRESENTAO DAS METODOLOGIAS, DOS MTODOS E DA NORMA Esta seo apresenta a coleta de dados proposta nos passos metodolgicos descritos na seo 2. Os dados coletados foram obtidos a partir do material emprico selecionado na pesquisa, que contemplou as metodologias e os mtodos para construo de ontologias, bem como a metodologia e a norma para construo de vocabulrios controlados. Ressalta-se que, em virtude do limite de extenso do presente artigo, apresentam-se os objetos investigados de modo simplificado. Em Silva (2008, p.132), encontrase explicitada, em detalhe, a anlise de tais objetos. Desse
Ci. Inf., Braslia, v. 37, n. 3, p. 60-75, set./dez. 2008

modo, a seo 3.1 apresenta a ontologia Cyc e o mtodo utilizado para seu desenvolvimento. A seo 3.2 apresenta consideraes sobre o projeto Tove e os procedimentos da metodologia de Gruninger e Fox. A seo 3.3 apresenta o projeto da Enterprise Ontology e abrange os procedimentos do mtodo de Uschold e King. A seo 3.4 apresenta o mtodo Kactus. A seo 3.5 apresenta os mtodos e as tcnicas da Methontology. A seo 3.6 apresenta a ontologia SENSUS e o mtodo baseado em tal ontologia, o mtodo Sensus. A seo 3.7 apresenta o mtodo 101. E, finalmente, a seo 3.8 tece consideraes sobre a norma para construo de vocabulrios controlados e apresenta os procedimentos metodolgicos envolvidos no manual da BITI para construo de tesauros. 3.1 Mtodo Cyc Nos anos de 1980, a Microelectronics and Computer Technology (MCC) deu incio a criao da Cyc, uma ampla base de conhecimento que considera o conhecimento consensual sobre o mundo, incluindo regras e heursticas para deduo sobre objetos e eventos do cotidiano (REED; LENAT, 2002). A linguagem de representao da Cyc a CycL, considerada hbrida por combinar frames com clculos de predicado. Tal linguagem possui uma mquina de inferncia que permite herana mltipla, classificao automtica, manuteno de links inversos, verificao de restries, busca ordenada, deteco de contradio e mdulo de resoluo. A base de conhecimento Cyc foi desenvolvida em 1990 por Douglas Lenat e Ramanathan Guha (FERNANDEZ; GOMEZ-PEREZ; CORCHO, 2004), em que trs processos foram considerados em tal desenvolvimento, a saber: i) extrao do conhecimento de senso comum; iii) extrao auxiliada por computador; iii) extrao gerenciada por computador. No primeiro processo, o conhecimento requerido para a ontologia foi obtido de forma manual em diferentes fontes como artigos, livros e jornais. O segundo processo foi conduzido de maneira automtica, isto , com uso de ferramentas computacionais de processamento de linguagem natural e aprendizado de mquina capazes de usar conhecimento de senso comum suficiente para investigar e descobrir novos conhecimentos. E, finalmente, o terceiro processo foi conduzido por um nmero maior de ferramentas no sentido de gerenciar a extrao de conhecimento de senso comum (partes consideradas difceis de serem interpretadas nas fontes de conhecimento envolvidas) na base Cyc.
69

Daniela Lucas da Silva / Renato Rocha Souza / Maurcio Barcellos Almeida

3.2 Metodologia de Gruninger e Fox A metodologia foi proposta por Michael Gruninger e Mark Fox em 1995 (GRUNINGER; FOX, 1995), tendo como base para o seu desenvolvimento a experincia obtida no projeto Toronto Virtual Enterprise conhecido como projeto Tove (FOX, 1992), cujos princpios tericos e metodolgicos encontram-se na inteligncia artificial. O objetivo do projeto Tove criar um modelo de senso comum sobre empresas, isto , um conhecimento compartilhado sobre o negcio que conduza a dedues de respostas sobre questes acerca do domnio (FOX, 1992). Para tal, ontologias so criadas no sentido de especificar modelos para organizaes pblicas e privadas, levando em considerao as seguintes caractersticas: a) capacidade de fornecer uma terminologia compartilhada para organizaes, que possa ser compreendida e utilizada por cada aplicao, isto , para cada tipo de negcio; b) definio da semntica de cada termo por meio de uma teoria lgica; c) implementao da semntica em um conjunto de axiomas que permita ontologia deduzir de forma automtica respostas s questes comuns no escopo das organizaes; d) definio de uma simbologia para representar graficamente termos ou conceitos (GRUNINGER; FOX, 1996). A metodologia de Gruninger e Fox foi usada no Enterprise Integration Laboratory (Laboratrio de Integrao de Empresas) da University of Toronto (Universidade de Toronto) para o projeto e avaliao de ontologias integradas, incluindo propostas de construo de novas ontologias e extenses de ontologias j existentes. Os seguintes procedimentos foram propostos na metodologia: i) elaborao de cenrios de motivao, que objetivam identificar problemas no ambiente atual; ii) especificao de questes de competncia informal, que objetivam especificar em linguagem natural os requisitos que a ontologia dever ser capaz de atender; iii) concepo da terminologia formal, em que, mediante declaraes em lgica de primeira ordem, os conceitos e suas propriedades so organizados em uma taxonomia; iv) especificao de questes de competncia formal, em que problemas so definidos de modo consistente perante os axiomas na ontologia; v) especificao de axiomas formais, que restringem a interpretao dos termos envolvidos nas questes de competncia formal; vi) verificao de teoremas completos, que determinam as condies sobre as quais as solues das questes so completas.

3.3 Mtodo de Uschold e King O mtodo foi proposto inicialmente por Mike Uschold e Martin King em 1995 (USCHOLD e KING, 1995) e estendido em 1996 por Mike Uschold e Michael Gruninger (USCHOLD e GRUNINGER, 1996) na experincia de desenvolvimento da Enterprise Ontology. Tal ontologia foi desenvolvida como parte do projeto Enterprise por meio do Instituto de Aplicaes em Inteligncia Artificial da Universidade de Edinburgh e parceiros como IBM, Unilever e outros. Uschold e King (1995) consideram os seguintes estgios como sendo necessrios a uma metodologia abrangente: i) identificao do propsito da ontologia, que objetiva identificar a necessidade de construo, o grau de formalismo (desde o informal com uso de linguagem natural at o rigorosamente formal com uso de declaraes lgicas) e as classes de usurios da ontologia, incluindo desenvolvedores, mantenedores e usurios das aplicaes; ii) construo da ontologia, que se divide em: a) captura ou concepo da conceitualizao da ontologia; b) codificao ou implementao atravs de uma linguagem de representao de ontologias, e c) integrao com ontologias j existentes; iii) avaliao da ontologia atravs dos requisitos especificados; iv) documentao acerca das pretenses da ontologia e das primitivas usadas para expressar as definies na ontologia. 3.4 Mtodo Kactus A nfase do projeto europeu Esprit Kactus est na organizao de bases de conhecimento que podem ser compartilhadas e reusadas em diferentes sistemas baseados em conhecimento. Para tal, utiliza ontologias de domnio para organizar o conhecimento independente da aplicao de software que ser construda. Baseando-se no projeto Kactus, Amaya Bernaras e colegas (BERNARAS; LARESGOITI; CORERA, 1996) investigaram a viabilidade da reutilizao do conhecimento em sistemas de complexidade tcnica, como o domnio de redes eltricas, e o papel das ontologias como suporte a tais sistemas. Tal investigao resultou em um mtodo de construo de ontologias, cujos processos envolvidos estariam condicionados ao desenvolvimento da aplicao, ou seja, toda vez que uma aplicao fosse construda, a ontologia, que representa o conhecimento necessrio para a aplicao, seria refinada. Tais processos seriam os seguintes: i)
Ci. Inf., Braslia, v. 37, n. 3, p. 60-75, set./dez. 2008

70

Ontologias e vocabulrios controlados: comparao de metodologias para construo

desenvolvimento de uma lista de necessidades ou requisitos que precisam ser atendidos pela aplicao; ii) identificao de termos relevantes para o domnio da aplicao a partir de tais requisitos, construindo, assim, um modelo preliminar; iii) refinar e estruturar a ontologia a fim de obter um modelo definitivo; iv) buscar por ontologias j desenvolvidas por outras aplicaes no sentido de sua reutilizao. As ontologias reutilizadas demandariam refinamento e extenso para serem usadas na nova aplicao. 3.5 Metodologia Methontology A metodologia para construo de ontologias Methontology foi desenvolvida no Laboratrio de Inteligncia Artificial da Universidade Politcnica de Madri entre 1996 e 1997 pelo grupo de pesquisadores Mariano Fernndez, Asuncin Gmez-Prez, Antnio J. de Vicente e Natalia Juristo (GOMEZ-PEREZ; FERNANDEZ; VICENTE, 1996; FERNANDEZ; GOMEZPEREZ; JURISTO, 1997). A Methontology contempla um conjunto de estgios de desenvolvimento (especificao, conceitualizao, formalizao, integrao, implementao e manuteno), um ciclo de vida baseado em evoluo de prottipos (PRESSMAN, 2002) e tcnicas para realizar as atividades de planejamento, desenvolvimento e suporte. A atividade de planejamento inclui um escalonamento das tarefas e controle sobre as mesmas, no sentido de alcanar a qualidade devida. As atividades de suporte contemplam aquisio de conhecimento, documentao e avaliao, e ocorrem durante todo o ciclo de vida da ontologia. Os estgios iniciais de desenvolvimento (especificao e conceitualizao) implicam um grande esforo dentro das atividades de suporte, como a aquisio de conhecimento e a avaliao. Vrias so as razes: a) a maior parte do conhecimento adquirida no incio do processo de construo da ontologia; b) deve-se avaliar corretamente o modelo conceitual para evitar futuros erros no ciclo de vida da ontologia. Por fim, a documentao detalhada deve ser produzida aps cada estgio previsto no ciclo de vida. 3.6 Mtodo Sensus A ontologia SENSUS foi desenvolvida pelo grupo de linguagem natural Information Sciences Institute - ISI com o propsito de ser usada para fins de processamento de linguagem natural. A ontologia SENSUS possui aproximadamente 70 mil conceitos organizados em uma hierarquia, de acordo com seu nvel de abstrao que
Ci. Inf., Braslia, v. 37, n. 3, p. 60-75, set./dez. 2008

vai de mdio a alto. No entanto, sua estrutura no contempla termos especficos de um domnio (SWARTOUT et alli, 1996). Para tal, os termos de domnios especficos so ligados ampla ontologia SENSUS, de forma a construir ontologias para domnios particulares. O mtodo Sensus, baseado na ontologia SENSUS, prope alguns processos para estabelecer as ligaes entre os termos especficos e os termos da ontologia de alto nvel (SWARTOUT et alii, 1996). O resultado de tal processo uma estrutura de uma nova ontologia, que generalizada automaticamente atravs de uma ferramenta denominada OntoSaurus (SWARTOUT et alli, 1996; FERNANDEZ; GOMEZ-PEREZ; CORCHO, 2004). De acordo com o mtodo, os processos envolvidos na construo da ontologia de um domnio especfico seriam: i) identificar termos-chave do domnio; ii) ligar manualmente os termos-chave ontologia SENSUS; iii) adicionar caminhos at o conceito de hierarquia superior da Sensus; iv) adicionar novos termos para o domnio; v) adicionar subrvores completas. 3.7 Mtodo 101 O mtodo 101 foi concebido por Natalya F. Noy e Deborah L. McGuinness (NOY; McGUINNESS, 2001) a partir da experincia no desenvolvimento da ontologia de vinhos e alimentos, utilizando o ambiente de edio de ontologias Protg-2000 (HORRIDGE et alli, 2004). O mtodo 101 prope basicamente quatro atividades para o desenvolvimento de uma ontologia: i) definir classes na ontologia; ii) organizar as classes em uma taxonomia; iii) definir slots (ou propriedades) para as classes e descrever seus valores permitidos (denominado facetas); iv) adicionar valores de slots para as instncias. Tais atividades implicam decises de modelagem, dentre as quais o mtodo busca enfatizar, alm de se encontrarem dentro de um processo iterativo de um ciclo de vida de ontologia. 3.8 Metodologia e Norma para construo de vocabulrios controlados A norma padro proposta pela organizao norteamericana National Information Standards Organization (ANSI, 2005) prope as linhas gerais para construo, formatao e manuteno de vocabulrios controlados monolnges. Em relao s regras de construo, o padro ANSI/NISO Z39.19-2005 permite construir diversos tipos de vocabulrio controlado, incluindo
71

Daniela Lucas da Silva / Renato Rocha Souza / Maurcio Barcellos Almeida

tesauros, taxonomias, listas e anel de sinnimos, em uma ordem conhecida e estruturada com o intuito de disponibilizar claramente os relacionamentos de equivalncia, associativos e hierrquicos, quando aplicveis a cada tipo (ver apndice B da norma, pgina 135). Essa flexibilidade importante, pois permite melhor adaptao do instrumento s necessidades dos ambientes informacionais, como a Web, por exemplo. Uma inovao da ANSI/NISO Z39.19-2005 em relao s normas anteriores a incluso da anlise facetada, cuja base concentra-se no trabalho de Ranganathan (RANGANATHAN, 1967) e nos refinamentos feitos pelo Classification Research Group CRG (CAMPOS; GOMES; MOTTA, 2004), na Inglaterra, para a elaborao de tesauros em reas especficas do conhecimento. Outra questo importante a orientao sobre a interoperabilidade entre vocabulrios controlados. E, finalmente, o padro ANSI/NISO Z39.19-2005 recomenda uma srie de tratamentos em relao ao termo frente citao de atividades envolvidas no processo de construo. J o manual disponvel no stio da Biblioteconomia, Informao e Tecnologia da Informao BITI (CAMPOS; GOMES; MOTTA, 2004) sobre elaborao de um tipo de vocabulrio controlado, os tesauros, explicita os procedimentos necessrios sua construo. Desse modo, o manual da BITI mostra-se mais eficiente do que a norma ANSI/NISO Z39.19-2005 no que diz respeito a princpios metodolgicos definidos para construo de vocabulrios controlados. Os procedimentos propostos no manual resumem-se em: i) planejamento, que consiste em delimitar a rea do assunto a ser coberto pelo vocabulrio especializado, definir o pblico-alvo no qual o instrumento se destina e elaborar o planejamento de futuras manutenes que se fizerem necessrias; ii) levantamento do vocabulrio, que consiste em selecionar os termos representativos do assunto e defini-los de acordo com a natureza do assunto; iii) organizao dos conceitos, que implica agrupar os termos de mesma natureza em categorias ou facetas, a fim de permitir maior compreenso do conceito e da organizao das relaes entre os conceitos; iv) apresentao final, que inclui os tipos de exibio (listagens alfabticas simples ou visualizaes grficas) e o formato que pode ser impresso ou eletrnico; e v) critrios para avaliao, que determina a adoo do vocabulrio controlado. Apresentados os objetos investigados, cabe a realizao da classificao de contedo em cada categoria
72

denominada, a partir desse ponto, fase do processo de construo. O quadro 1, a seguir, sintetiza a anlise das metodologias, dos mtodos e da norma investigados. 4. RESULTADOS DA ANLISE COMPARATIVA Para a execuo da anlise comparativa, foi necessrio um entendimento dos procedimentos metodolgicos dos objetos investigados, apresentados na seo 3. Tal entendimento tornou-se possvel a partir da anlise de contedo feita nos materiais empricos por meio das categorias de anlise elucidadas na seo 2. A partir das informaes dispostas no quadro 1 da seo 3, chegou-se a algumas consideraes sobre as metodologias e os mtodos para construo de ontologias analisados e sobre a metodologia e a norma para construo de vocabulrios controlados analisadas. Tais consideraes so enumeradas a seguir: Existe uma variedade de estratgias para desenvolvimento de ontologias, comprovando a hiptese de que grupos diferentes apresentam abordagens e caractersticas diversas, sendo direcionadas a diferentes propsitos e aplicaes (FERNNDEZ et al., 1999). No contexto das ontologias, algumas abordagens seguem um modelo de ciclo de vida, outras no. Nesse quesito, a que mais se destaca a Methontology por ser praticamente completa em relao a um ciclo de desenvolvimento, no propondo apenas a fase de prdesenvolvimento. Tal constatao pode ser conferida no quadro 1. Em relao a detalhes das atividades e dos procedimentos para sua conduo, algumas metodologias e mtodos mostram-se superficiais na elucidao dos passos para construo de ontologias. o caso dos mtodos Cyc, Kactus e Sensus, os quais parecem considerar que o ontologista j domina o assunto sobre construo de ontologias e no necessita de detalhes acerca de atividades e procedimentos envolvidos. J a Methontology se destaca por fornecer, na maioria das vezes, detalhes de como proceder na conduo de uma dada atividade. Algumas abordagens do mais nfase em atividades de desenvolvimento, especialmente a implementao da ontologia (mtodo Cyc e mtodo 101), desconsiderando aspectos importantes relacionados a gerenciamento do projeto, a estudo de viabilidade, manuteno e avaliao de ontologias.
Ci. Inf., Braslia, v. 37, n. 3, p. 60-75, set./dez. 2008

Ontologias e vocabulrios controlados: comparao de metodologias para construo

QUADRO 1 Quadro sinptico da anlise comparativa das metodologias, dos mtodos e da norma

Fonte: Adaptado de Silva (2008).

Ci. Inf., Braslia, v. 37, n. 3, p. 60-75, set./dez. 2008

73

Daniela Lucas da Silva / Renato Rocha Souza / Maurcio Barcellos Almeida

O manual da BITI apresentou um ciclo de vida praticamente completo segundo a norma IEEE-1074 (1997), conforme pode ser visto no quadro 1. As fases de formalizao, implementao e integrao no foram consideradas por no pertencerem ao propsito dos vocabulrios controlados. Desse modo, pode-se conferir a maturidade da metodologia ante um modelo de ciclo de vida. Finalmente, vlido ressaltar que, de acordo com os resultados obtidos em Silva (2008), h indcios de que a metodologia para construo de tesauros apresenta aspectos relevantes que se destacam e podem contribuir com a construo de ontologias. Tais aspectos estariam centrados em princpios tericos e metodolgicos advindos da teoria da classificao (RANGANATHAN, 1967) e da teoria do conceito (DAHLBERG, 1978) nas atividades de identificao, definio e organizao de conceitos. Tais princpios seriam pertinentes em metodologias para construo de ontologias, visto que ambos os instrumentos, ontologias e tesauros, representam relacionamentos semnticos e conceituais. Entretanto, a verificao da relevncia de tais aspectos diante de outros observados ser objeto de trabalho futuro. 5. CONCLUSES Este artigo possibilitou elucidar as metodologias e os mtodos para construo de ontologias mais representativos na literatura, bem como apontar similaridades entre padres de construo de software (norma IEEE-1074) e princpios metodolgicos empregados na elaborao de ontologias e vocabulrios controlados. Tal similaridade ficou evidente na anlise das metodologias, mtodos e norma investigados, apresentada no quadro sinptico exibido na seo 3. A metodologia exposta no manual da BITI para construo de tesauros mostrou-se madura no que diz respeito a um modelo de ciclo de vida, visto que os processos para construo se enquadraram na maioria das categorias de anlise advindas da norma IEEE-1074 (1997). Apesar de as recomendaes da norma ANSI/ NISO Z39.19-2005 terem sido classificadas nas categorias de anlise, tal norma no objetiva propor um ciclo de atividades para a construo de vocabulrios controlados, e sim recomendar uma srie de tratamentos em relao ao termo em atividades que se enquadram no processo de construo. No caso das metodologias para construo de ontologias, a Methontology foi a que mais se destacou no quesito maturidade ante a norma IEEE-1074 (1997),
74

tendo em vista que apenas a categoria prdesenvolvimento no foi considerada em seu processo de desenvolvimento. O artigo tambm comprovou alguns problemas relacionados falta de um padro para construo de ontologias e na falta de explicaes sistemticas de como, onde e sob quais limites podem ser utilizadas as abordagens tericas dentro do processo de elaborao. Tal fato foi constatado na anlise das metodologias e dos mtodos para construo de ontologias investigados na pesquisa, que, na maioria dos casos, mostraram-se pouco eficientes na exposio clara dos procedimentos de construo. Desse modo, a soluo para tais problemas estaria centrada em uma proposta metodolgica fundamentada em princpios tericos e metodolgicos que dessem sustentao cientfica no processo de construo de ontologias. Finalmente, a apresentao de uma anlise comparativa como um passo preliminar pode ser usada para a definio de padres metodolgicos para construo de ontologias.
Artigo submetido em 27/10/2008 e aceito em 26/12/2008. REFERNCIAS ALMEIDA, M. B.; BAX, Marcello P. Uma viso geral sobre ontologias: pesquisa sobre definies, tipos, aplicaes, mtodos de avaliao e de construo. Cincia da Informao, Braslia, v. 32, n. 3, p. 7-20, set./ dez. 2003. AMERICAN NATIONAL STANDARDS ORGANIZATION ANSI. ANSI/NISO Z 39.19: 2005: guidelines for the construction, format, and management of monolingual controlled vocabularies. Bethesda: NISO Press, 2005. 176 p. Disponvel em: <http://www.niso.org/ s t a n d a rd s / re s o u rc e s / Z 3 9 - 19 - 0 0 5 . p d f ? C F I D = 24 3 6 0 4 6 & CFTOKEN=81298864>. Acesso em: 27 jun. 2007. ASSOCIAO BRASILEIRA DE NORMAS TCNICAS. ABNT ISO/ IEC guia 2:1998: guia 2. normalizao e atividades relacionadas: vocabulrio geral. Rio de Janeiro, 1998. 21 p. BARDIN, Laurence. Anlise de contedo. Lisboa: Edies 70, 1977. BERNARAS, A.; LARESGOITI, I.; CORERA, J. Building and reusing ontologies for electrical network applications. In: THE EUROPEAN CONFERENCE ON ARTIFICIAL INTELLIGENCE, ECAI, 1996. Proceedings 1996. p. 298-302. BERNERS-LEE, T; HENDLER, J.; LASSILA, O. The semantic web. Scientific American, v. 284, n. 5, p. 34-43, May 2001. BOOCH, G. JACOBSON, I. RUMBAUGH, J. UML guia do usurio. Rio de Janeiro: Campus, 2006 BORST, W.N. Construction of engineering ontologies for knowledge sharing and reuse. 1997. Tese (Doutorado). Disponvel em: <http:// www.ub.utwente.nl/webdocs/inf/1/t0000004.pdf>. Acesso em: 03 out. 2005. BREITMAN, Karin. Web semntica: a internet do futuro. Rio de Janeiro: LTC, 2005.

Ci. Inf., Braslia, v. 37, n. 3, p. 60-75, set./dez. 2008

Ontologias e vocabulrios controlados: comparao de metodologias para construo CAMPOS, M. L. A.; GOMES, H. E.; MOTTA, D. F. Tutorial de tesauro. 2004. Disponvel em: <http://www.conexaorio.com/biti/ tesauro>. Acesso em: 30 abr. 2008. CARDOSO, J. The semantic web vision: where are we?. IEEE Intelligent Systems, p. 22-26, Sept./Oct. 2007. CORAZZON, R. What is ontology?: definitions by leading philosophers. In: ONTOLOGY: a resource guide for philosophers. 2008. Disponvel em <http://www.formalontology.it/ section_4.htm>. Acesso em: 02 abr. 2008. DAHLBERG, Ingetraut. Teoria do conceito. Cincia da Informao, Rio de Janeiro, v. 7, n. 2, p. 101-107, jul./dez. 1978. DEAN, M. et al. OWL web ontology language 1.0 reference. 2003. W3C Working Draft 21. DODEBEI, Vera Lucia Doyle. Tesauro: linguagem de representao da memria documentria. Rio de Janeiro: Intercincia, 2002. FERNNDEZ, M. et al. Building a chemical ontology using methontology and the ontology design environment. Intelligent Systems, v. 14, n. 1, p. 37-46, Jan./Feb.1999. ________; GOMEZ-PEREZ, A.; JURISTO, H. Methontology: from ontological art towards ontological engineering. 1997. Disponvel em: <http://citeseer.ist.psu.edu/context/544607/0/>. Acesso em: 20 ago. 2007. ________; CORCHO, O. Methodologies and methods for building ontologies. In: ______. Ontological engineering. London: Springer, 2004. p. 107-153. FOX, M. S. The TOVE Project: towards a common-sense model of the enterprise. 1992. Disponvel em: <http://www.eil.utoronto.ca/ enterprise-modelling/papers/index.html>. Acesso em: 20 nov. 2007. GILCHRIST, Alan. Thesauri, taxonomies and ontologies: an etymological note. Journal of Documentation, v. 59, n. 1, p. 7-18, 2003. GOMES, H. E. et al. Manual de elaborao de tesauros monolnges. Braslia: CNPq/PNBU, 1990. 78 p. GMEZ-PREZ, A.; FERNNDEZ, M.; VICENTE, A. J. Towards a method to conceptualize domain ontologies. In: ECAI WORKSHOP ON ONTOLOGICAL ENGINEERING, 1996, Budapest. Proceedings Disponvel em: <http://citeseer.ist.psu.edu/483876.html>. Acesso em: 12 nov. 2007. GRUBER, T. A translation approach to portable ontology specifications. 1993a. Disponvel em: <ftp://ftp.ksl.stanford.edu/pub/KSL_Reports/KSL92-71.ps.gz>. Acesso em: 03 ago. 2006. ________. What is an ontology?. 1993. Disponvel em: <http://wwwksl.stanford.edu/kst/what-is-an-ontology.html>. Acesso em: 03 ago. 2006. GRUNINGER, M.; FOX, M. S. The logic of enterprise modelling. 1996. Disponvel em: <http://citeseer.ist.psu.edu/523974.html>. Acesso em: 10 nov. 2007. _______. Methodology for the design and evaluation of ontologies. 1995. Disponvel em: <http://citeseer.ist.psu.edu/ grninger95methodology.html>. Acesso em: 10 nov. 2007. GUARINO, N. Formal ontology in information systems. 1998. Disponvel em: <http://citeseer.ist.psu.edu/guarino98formal.html>. Acesso em: 3 set. 2007. ________; WELTY, C. Ontological analysis of taxonomic relationships. 2000. Disponvel em: <http://citeseer.ist.psu.edu/ guarino00ontological.html>. Acesso em: 12 set. 2007. HORRIDGE, M. et al. A pratical guide to building OWL ontologies using Teh Protg-OWL Plugin and CO-ODE Tools. 1. ed. [S. l.]: The Univerrity of Manchester and Stanford University, 2004. Disponvel em: <http:/ /www.co-ode.org/resources/tutorials/ProtegeOWLTutorial.pdf>. Acesso em: 7 fev. 2007. Institute of Electrical and Electronics Engineers: IEEE standard 1074 standard for developing software life cycle processes. 1997. Disponvel em: <http://ieeexplore.ieee.org/Xplore/login.jsp?url=/iel4/5984/16018/ 00741936.pdf?temp=x>. Acesso em: 20 jul. 2007. JONES, D.; BENCH-CAPON, T.; VISSER, P. Methodologies for ontology development. 1998. Disponvel em: <http://cweb.inria.fr/Resources/ ONTOLOGIES/methodo-for-ontodev.pdf>. Acesso em: 20 nov. 2007. LAWRENCE, Steve S., BOLLACKER K., LEE GILES, C. Digital libraries and autonomous citation indexing. IEEE Computer, v. 32, n. 6, p. 67-71, 1999. NOY, F. N.; GUINNESS, D. L. Ontology development 101: a guide to create your first ontology. 2001. Disponvel em: <http:// ksl.stanford.edu/people/dlm/papers/ontology-tutorial-noymcguinness.doc>. Acesso em: 3 out. 2006. PAULA FILHO, Wilson de Pdua. Engenharia de software: fundamentos, mtodos e padres. 2. ed. Rio de Janeiro: LTC, 2003. 602 p. PRESSMAN, Roger S. Engenharia de Software. 5. ed. Rio de Janeiro: McGraw-Hill, 2002. 843 p. RANGANATHAN, S. R. Prolegomena to library classification. Bombay: Asia Publishing House, 1967. 640 p. REED, S. L.; LENAT, D. B. Mapping ontologies into cyc. 2002. Disponvel em: <http://www.cyc.com/doc/white_papers/mapping-ontologiesinto-cyc_v31.pdf>. Acesso em: 20 abr. 2008. SILVA, Daniela Lucas da. Uma proposta metodolgica para construo de ontologias: uma perspectiva interdisciplinar entre as cincias da informao e da computao. 2008. 286 f. Dissertao (Mestrado em Cincia da Informao)- Escola da Cincia da Informao, Universidade Federal de Minas Gerais, Belo Horizonte, 2008. SOERGEL, Dagobert. Functions of a thesaurus: classification: ontological knowledge base. [S. l.]: College of Library and Information Services, University of Maryland, 1997. SOUZA, Renato Rocha. Uma proposta de metodologia para escolha automtica de descritores utilizando sintagmas nominais. 202 p. 2005. Tese (Doutorado em Cincia da Informao) Escola de Cincia da Informao, Universidade Federal de Minas Gerais, Belo Horizonte, 2005. SWARTOUT, B. et al. Toward distributed use of large-scale ontologies. 1996. Disponvel em: <http://ksi.cpsc.ucalgary.ca/KAW/KAW96/ swartout/Banff_96_final_2.html>. Acesso em: 10 abr. 2008. USCHOLD, M.; KING, M. Towards a methodology for building ontologies. 1995. Disponvel em: <http://citeseer.ist.psu.edu/ uschold95toward.html> Acesso em: 10 nov. 2007. _______; GRUNINGER, M. Ontologies: principles, methods an applications. Knowledge Engineering Review, v. 11, n. 2, 1996. VALENTE, A. et al. Building and (re)using an ontology of air campaign planning. IEEE Intelligent Systems, Jan./Feb. 1999. Disponvel em: <http://por tal.acm.org/citation.cfm?id=630305.630437&coll= GUIDE&dl=GUIDE>. Acesso em: 12 abr. 2008. VICKERY, B. C. Ontologies. Journal of Information Science, v. 23, n. 4, p. 277-286, 1997.

Ci. Inf., Braslia, v. 37, n. 3, p. 60-75, set./dez. 2008

75