Você está na página 1de 6

MeSH: de cabealho de assunto a tesauro

Eliane Colepcolo1, Adriano de Jesus Holanda2, Evandro Eduardo Seron Ruiz3, Jacques Wainer4, Ivan Torres Pisa5
1,4,5 2,3

Departamento de Informtica em Sade (DIS), Universidade Federal de So Paulo (UNIFESP), Brasil Departamento de Fsica e Matemtica, Faculdade de Filosofia, Cincias e Letras de Ribeiro Preto, Universidade de So Paulo (USP), Brasil

Resumo O estudo e uso das terminologias vm se tornando cada vez mais essenciais ao desenvolvimento de diversas reas de pesquisa, incluindo informtica em sade, cincias da informao, inteligncia artificial e lingstica computacional. Terminologias tais como vocabulrios controlados, cabealhos de assunto e tesauros so usados como instrumento para indexao, classificao, busca e recuperao de informao, sendo o tesauro o tipo mais sofisticado e utilizado. O MeSH representa um cabealho de assunto das cincias da sade, publicado e mantido pela National Library of Medicine (NLM), EUA, amplamente utilizado para tratamento de informao em sade e em ferramentas de aplicao da informtica em sade. O objetivo deste trabalho apresentar um mtodo de converso do cabealho MeSH em um tesauro para otimizar operaes complexas efetuadas com o MeSH em pesquisas cientficas. Para exemplificar foi utilizada uma pesquisa sobre a epistemologia da informtica em sade, que visa compreender se a informtica em sade se caracteriza mais como cincia, tecnologia ou uma mistura de ambos, a partir da literatura cientfica, do uso do MeSH e de mtodos e ferramentas computacionais. Palavras-chave: Informtica Mdica, Informao em Sade, Tesauros, Terminologias, Minerao de Textos. Abstract The study and use of the terminologies are essential to the development of several research fields, including medical informatics, information sciences, artificial intelligence, and computational linguistic. Terminologies such as controlled vocabularies, subject headers and thesaurus are used as instrument for indexation, classification, search and information retrieval, being the thesaurus the most sophisticated type and used. MeSH is subject header of the life sciences, published and maintained by National Library of Medicine (NLM), USA, largely used for treatment of information in health and application tools of medical informatics. The objective of this paper is to present a MeSH-thesaurus conversion method to optimize complex operations in scientific researches MeSH-based. To exemplify we used an epistemology of medical informatics research, that seeks to understand if the medical informatics is characterized as science, technology or a mix of both, based on scientific literature, MeSH and of computational methods and tools criteria. Key-words: Medical Informatics, Health Information, Thesaurus, Terminology, Text Mining. Os tesauros, bem mais sofisticados, apresentam avano considervel em relao aos cabealhos de assunto, pois apresentam controle persistente e relaes de vrios tipos entre os termos. Por isso mesmo, os tesauros vm ganhando cada vez mais espao como instrumento de indexao e classificao de informao, em substituio aos vocabulrios controlados e cabealhos de assunto. O que diferencia um tesauro de um cabealho de assunto so os tipos de relaes existentes entre os termos. Um cabealho de assunto apresenta somente relaes hierrquicas entre os termos, enquanto no tesauro, alm das relaes hierrquicas, tambm so encontradas relaes de equivalncia e de associao. Com isto, a rede de relacionamentos entre os termos que no fazem parte de uma mesma hierarquia se tornar mais rica e sofisticada, o que vai refletir tanto nas estratgias de formulao da pesquisa quanto nos resultados da busca por informao a partir de um termo do tesauro.

Introduo O estudo e uso de terminologias tm trazido importantes avanos para reas interdisciplinares informtica em sade, tais como inteligncia artificial, minerao de dados, minerao de textos, busca e recuperao de informao, entre outras reas da computao, amplamente utilizadas em aplicaes para as Cincias. Como tipos de terminologias, podemos citar os vocabulrios controlados, os cabealhos de assuntos e os tesauros, os quais tm por objetivo a indexao, classificao, busca e recuperao de documentos, a partir de processos de anlise e sntese. Vocabulrios controlados so simples listas de palavras-chave com ordenao seqencial ou alfabtica, porm, sem nenhum tipo de relao e um controle mnimo destas palavras. Os cabealhos de assunto tambm so listas de termos, mas com maior controle sobre os termos e agregando relaes diretas entre estes.

Conceituao do Tesauro Um tesauro pode ser definido como um vocabulrio controlado que representa hierarquias, relaes de equivalncia, pertinncia e associaes entre os termos, com objetivo de auxiliar o usurio potencial a encontrar a informao de que necessita com a menor margem de erro possvel. [1]. Os termos de um tesauro podem ser compostos por uma nica palavra ou por vrias palavras, formando um termo composto. Os termos de um tesauro so comumente denominados termos descritores, que Lancaster define como termos atribudos por um indexador a um documento para descrever seu assunto [2]. As relaes hierrquicas de um tesauro nada mais so que relaes de ordenao entre os termos, isto , envolvem a superordenao (acima de), subordinao (abaixo de) e coordenao (na mesma ordem, igual a). Fazendo uma analogia com uma famlia, pode-se dizer que uma me superordenada em relao a seus filhos, enquanto um filho subordinado sua me e os filhos de uma mesma me, entre si, so coordenados, ou irmos, conforme representado na Figura 1.

so importantes para a recuperao da informao. Continuando a analogia de famlia, pensemos na seguinte situao: uma mulher se casa com um homem, sendo provenientes de famlias diferentes e tm filhos deste casamento. O casamento uma espcie de relao associativa entre o homem e a mulher, que foge da hierarquia da famlia.
Tesauro

Termo1 Definio: Escopo:

Termo 2 Definio: Escopo:

Termos pertinentes ou permitidos

Sinnimo 1 Sinnimo 2 Sinnimo 3

Sinnimo 1 Sinnimo 2 Termos proibidos

Figura 2. Relaes de equivalncia e pertinncia de um tesauro. Busca com Tesauro Compreendido o conceito de um tesauro, podemos estabelecer a sua importncia, que se fundamenta no potencial de auxlio ao usurio da informao em encontrar documentos de acordo com suas necessidades ou expectativas. Diferentes usurios podem expressar suas necessidades de informao, ainda que seja a mesma, usando uma linguagem diferente, por exemplo, sinnimos, abreviaes, acrnimos etc [1]. O tesauro surge como uma alternativa para resolver estes problemas caractersticos do uso da linguagem natural, mapeando, por exemplo, os termos que representem o mesmo conceito, selecionando um termo apenas como padro e os restantes como sinnimos, alm de estabelecer relaes entre entes termos e outros a estes relacionados. O tesauro pode ainda representar a riqueza dos relacionamentos associativos e hierrquicos de tal maneira que usurios possam expressar sua necessidade de informao, limitando sua pesquisa a um nvel de especificidade mais restrito ou mais amplo do que aquele usado pelo indexador, melhorando os resultados da busca [1]. Alm disso, tcnicas e ferramentas da minerao de textos em estudo na inteligncia artificial e na lingstica computacional vm utilizando tesauros como instrumentos para extrao automtica de informao, a partir de conjuntos de textos (corpus) que resultam numa srie de aplicaes, tais como a indexao automtica, a traduo automtica interlngua, a sumarizao de textos etc [1]. Com isto, pode-se compreender

Superordenao

Mae

Subordinao

Filho 1

Filho 2

Filho 3

Coordenao

Figura 1. Relaes hierrquicas de um tesauro. As relaes de equivalncia envolvem o estudo e delimitao de termos diferentes com um mesmo significado e termos idnticos com significados diferentes, entre outras relaes de equivalncia entre termos j estabelecidos pela gramtica das lnguas, ou seja, sinnimos, antnimos, parnimos e homnimos. Junto s relaes de equivalncia so estabelecidas as relaes de pertinncia, que envolvem o estabelecimento de um termo padro, com conceito e escopo bem definidos. Desta forma, fica institudo que o termo padro ser pertinente e seus sinnimos proibidos. Isto impede a pesquisa pelos sinnimos, mas sempre remete o usurio, ao utilizar um termo proibido, ao termo pertinente ou permitido. A Figura 2 apresenta uma representao dessas relaes. As relaes associativas entre termos de um tesauro so aquelas que no se enquadram nas relaes hierrquicas, nem nas de pertinncia ou equivalncia e ainda assim, permanecem e

o motivo pelo qual o tesauro vem sendo to valorizado e utilizado em detrimento de terminologias mais simplificadas como os cabealhos de assuntos. MeSH Concentrando nossa abordagem em aplicaes de informtica em sade, deparamo-nos com o Medical Subject Headings (MeSH) [3], que tambm um destes instrumentos terminolgicos largamente utilizados e cujo domnio de estudo e atuao est delimitado s Cincias da Sade. O MeSH um cabealho de assunto especializado em cincias da sade, desenvolvido, publicado e disponvel online na internet pela National Library of Medicine (NLM). atualizado dinamicamente por especialistas de vrias reas do conhecimento. No MeSH, um descritor representa uma classe de conceitos, enquanto um conceito representa uma classe de termos sinnimos. A organizao do MeSH se d em 16 categorias de assuntos, sendo que cada uma se divide em subcategorias, nas quais os descritores subordinados so organizados hierarquicamente numa relao do mais genrico para o mais especfico [4]. Os principais usos do MeSH so a indexao de artigos, a classificao de itens de informao e a pesquisa em bancos de dados de literatura cientfica em sade, que tenham sido indexados pelo MeSH. A terminologia MeSH oferece um modo consistente para recuperar informao permitindo o uso de diferentes terminologias para os mesmos conceitos. A organizao dos termos descritores feita em uma estrutura hierrquica, a qual oferece um modo efetivo para se encontrar palavras-chave apropriadas para uma pesquisa. O seu idioma principal o ingls. Para mostrar a importncia do MeSH podemos citar a base de dados de literatura cientfica em sade MEDLINE/PubMed [5], indexada pelo MeSH, que contm mais de 16 milhes de registros indexados com taxa de crescimento de 500.000 artigos/ano, cobrindo aproximadamente 4.600 revistas biomdicas internacionais. O MeSH, em sua verso completa, est disponvel para download nos formatos XML e TXT para propsitos especficos de pesquisa cientfica e para uso por centros de informao para indexao de seus itens informacionais. Tambm encontra-se disponvel online para pesquisa de termos e suas relaes [6].

Objetivos Este trabalho apresenta uma proposta de modelagem de dados para o cabealho de assunto MeSH para transform-lo em um tesauro, utilizando como repositrio um banco de dados relacional e tcnicas de modelagem e projeto de banco de dados. Apresenta ainda os benefcios do uso do MeSH em forma de tesauro que podem ser maiores que seu uso em forma de cabealho de assunto. O objetivo desta converso a otimizao de operaes complexas efetuadas com os conjuntos de termos MeSH. Como exemplo, ser considerado o uso do MeSH em sua verso completa como instrumento para pesquisa cientfica de epistemologia da informtica em sade. Tal pesquisa visa identificar em um vasto conjunto de artigos cientficos os termos descritores ou palavras-chave pertinentes rea de informtica em sade, a partir dos termos MeSH. O conjunto resultante de descritores dever ser categorizado como termo cientfico ou termo tecnolgico. Ento ser possvel inferir se a informtica em sade se caracteriza mais como cincia ou como tecnologia ou uma mescla de ambos. Metodologia Fizemos o download do MeSH da internet em verso TXT e o transformamos para uma verso de banco de dados relacional, mas mantendo o modelo relacional estabelecido pela NLM na sua origem. Entretanto, a complexidade do modelo relacional da NLM com um grande nmero de tabelas pode ser um entrave s complexas operaes que se pretende realizar no processamento de textos, como se pode observar na Figura 3 Devido a isto, foi desenhado um modelo relacional de banco de dados, apresentado na Figura 4, que atenda s principais caractersticas de um tesauro de forma simplificada e buscando seguir as 4 primeiras formas normais, com base em um projeto conceitual e lgico adequados. Um modelo simplificado de banco de dados relacional para armazenamento e manipulao de um tesauro poder permitir melhor processamento das operaes, especialmente consultas SQL, necessrias ao estudo que se pretende aqui: compreender se a informtica em sade uma cincia ou uma tecnologia ou uma ou uma mescla de ambos.

Figura 3. Diagrama entidade-relacionamento do MeSH em formato original.

Figura 4. Diagrama Entidade-Relacionamento de um tesauro genrico. Um estudo estatstico que visa analisar uma amostra de artigos cientficos em informtica em sade utilizando tcnicas de minerao de textos e indexao e a contagem de um subconjunto de descritores resultantes; A seguir, o estudo terminolgico utilizando o MeSH vai permitir a seleo e anlise de conceitos em informtica em sade e a comparao entre estes termos e aqueles resultando do estudo estatstico; Um estudo epistemolgico envolvendo a anlise e extrao de conceitos da literatura cientfica em informtica em sade por meio de leituras e processos de anlise e sntese, que vai permitir a delimitao dos conceitos. Uma anlise comparativa entre os estudos estatstico-terminolgico, de cunho prtico, e o estudo epistemolgico, de cunho terico, permitir chegar a alguma concluso sobre a epistemologia da informtica em sade.Compreende-se que um modelo genrico de banco de dados relacional para tesauro pode contribuir para diminuir a quantidade de objetos e relacionamentos, simplificando o banco de dados para consultas complexas que envolvem JUNO (JOIN). O mesmo

Figura 5. Processo epistemolgico para delimitao cientfica ou tecnolgica da informtica em sade. O processo de caracterizao da informtica em sade como cincia ou tecnologia se divide em etapas, representadas na Figura 5:

pode ser feito com o objeto MeSH_2006, que contm termos descritores MeSH, com grandes quantidades de textos completos de artigos cientficos para rastreamento e recuperao destes termos dentro do texto completo, no escopo da informtica em sade. O resultado dessas contagens possibilita a anlise quantitativa e, posteriormente, qualitativa, do uso efetivo de termos da informtica em sade, sejam eles de cunho cientfico ou tecnolgico. Resultados O resultado desta pesquisa envolve a criao de um projeto conceitual de tesauro modelado em forma de banco de dados relacional e da anlise comparativa entre consultas realizadas no MeSH em seu formato original e no novo modelo proposto. O projeto conceitual proposto pode ser demonstrado no diagrama entidade-relacionamento representado na Figura 6. O que se pode observar no diagrama proposto que muitos dos objetos presentes no modelo tradicional do MeSH, tais como MESH_Entry, MESH_PA, MESH_Qualifier, MESH_EntryCombination e outros, tiveram seus conjuntos de dados introduzidos no objeto TS_Descritor, resultando numa tabela nica de termos descritores, cujas relaes se estabelecem de forma recursiva por meio das seguintes tabelas relacionais: TS_RElHier, que representa as relaes hierrquicas entre os descritores (descritor subordinado a); TS_RelAssoc, que representa as relaes associativas entre os descritores (descritor associado a); TS_RelPert, que representa as relaes de equivalncia e de pertinncia entre os descritores (descritor usado para).

Com isto, temos apenas 4 objetos no banco de dados, sendo TS_Descritor o objeto principal com o qual trabalharemos a maior parte do tempo para elaborao de consultas. Os outros 3 objetos so relacionamentos recursivos entre os descritores, ou seja: suas relaes hierrquicas, associativas e de equivalncia/pertinncia. A seguir, um exemplo de como se do as relaes entre os termos. Os termos Informtica em Sade e Telemedicina so descritores cadastrados na tabela TS_Descritor. Porm, existe entre estes 2 termos uma relao hierrquica, ou seja, o termo Informtica em Sade superordenado em relao ao termo Telemedicina e, por sua vez, o termo Telemedicina subordinado ao termo Informtica em Sade. Para que estas relaes sejam estabelecidas, no se faz necessrio recadastrar os mesmos termos na tabela TS_RElHier, pois esta tabela apresenta 2 chaves estrangeiras que formam uma chave primria composta. Estas chaves estrangeiras que compem a tabela TS_RElHier so provenientes do atributo chave TS_ID da tabela TS_Descritor: TSID_G, que representa o termo superordenado, que uma chave estrangeira proveniente do atributo TSID da tabela TS_Descritor TSID, que representa o termo subordinado, que uma chave estrangeira tambm proveniente do atributo TSID da tabela TS_Descritor. Supondo que o TSID do termo Informtica em Sade 25 e o TSID do termo Telemedicina 32, temos o seguinte registro na tabela TS_RElHier:
TSID_G 25 (Informtica em Sade) TSID 32 (Telemedicina)

O mesmo ocorrer na tabela relacional TS_RelAssoc, que s conter os devidos relacionamentos entre termos descritores nohierrquicos. Com a tabela TS_RelPert, haver apenas as relaes entre termos descritores (TSID) e seus equivalentes (TP termo proibido), tal como no exemplo:
TSID (ID do termo permitido) 25 (Informtica em Sade) 25 (Informtica em Sade) TP (termo equivalente mas proibido) eSade informtica mdica

Figura 6. Proposta de diagrama entidaderelacionamento para tesauro MeSH.

Desta forma, foram reduzidas as quantidades de objetos do sistema relacional e, consequentemente, das operaes com estes objetos e seus conjuntos de dados. Mais que isso, a maioria das operaes a serem realizadas com o tesauro MeSH sero feitas apenas com o objeto TS_Descritor. Porm, mesmo quando forem usadas as tabelas relacionais TS_RelAssoc, TS_RelHier e TS_RelPert, sero utilizadas as suas respectivas chaves estrangeiras, que so

numricas, para clculos e contagens. Como o computador tem mais facilidade e agilidade para trabalhar com os nmeros, neste caso os IDs que so os cdigos identificadores de registros de bancos de dados relacionais, as consultas e operaes a serem realizadas tambm com as tabelas relacionais sero mais eficientes. Discusso e Concluses Neste artigo ressaltamos a importncia do estudo e uso das terminologias para diversas reas de pesquisa que lidam com a informao e documentao, inclusive a informtica em sade. Elencamos tipos de terminologias utilizados como instrumento para indexao, classificao, busca e recuperao de informao, tais como os vocabulrios controlados, os cabealhos de assunto e os tesauros, que ressaltamos devido sua importncia e utilidade em aplicaes diversas. O tesauro uma terminologia sofisticada que apresenta um conjunto de termos de um domnio especfico assim como as relaes hierrquicas, associativas e de equivalncia e pertinncia entre estes termos, formando uma rede de informao ao mesmo tempo ntegra e flexvel para busca de informao. Por isto, acreditamos que o tesauro seja o instrumento terminolgico mais adequado pesquisa cientfica que envolva a indexao, busca e recuperao de informao. Vimos que o MeSH um importante instrumento para indexao, classificao, busca e recuperao de informao para as cincias da sade, alm de ser amplamente utilizado em ferramentas de aplicao da informtica em sade. Sendo o MeSH, em sua forma original, considerado como um cabealho de assunto devido sua estrutura interna, nosso objetivo foi apresentar um mtodo de transformao do MeSH em um tesauro, no intuito de otimizar operaes complexas efetuadas com os conjuntos de termos MeSH em pesquisas cientficas. Como exemplo, foi utilizada uma pesquisa sobre a epistemologia da informtica em sade, cujo objetivo identificar em um conjunto de artigos cientficos os termos pertinentes rea de informtica em sade, a partir dos termos MeSH, sendo cada um dos termos resultantes categorizado como cientfico ou tecnolgico, de onde se poder inferir se a informtica em sade se caracteriza mais como cincia, tecnologia ou uma mistura de ambos. Como resultado, apresentamos um diagrama entidade-relacionamento contendo a estrutura de dados do MeSH transformado em modelo de tesauro. Este modelo visa contribuir na reduo da quantidade de objetos e relacionamentos do sistema MeSH, e na simplificao do banco de dados para execuo de consultas complexas, especialmente as que envolvem JUNO.

Com isto, esperamos contribuir com novas pesquisas em informtica em sade que utilizem como instrumento a terminologia MeSH, porm, incorporando a esta terminologia os conceitos e a sofisticao de um tesauro, que nos parecem robustos e flexveis, para indexao, classificao, busca e recuperao de informao. Agradecimentos Os autores agradecem ao Prof. Dr. Mauro Biajz, professor do Departamento de Computao da Universidade Federal de So Carlos (UFSCar), que motivou o desenvolvimento deste trabalho. Referncias [1] Ebecken, N.F., Lopes, M.C.S., Costa, M.C.A. (2003), Minerao de textos, In: Sistemas inteligentes, Org.: Solange de Oliveira Rezende, Barueri, SP: Manole, p. 337-370. [2] Lancaster, F.W. (1972), Vocabulary control for information retrieval, Washington, Information Resources Press. [3] National Library of Medicine (2005), MeSH: Medical Subject Headings, USA, jan. [http://www.nlm.nih.gov/mesh/meshhome.html]. 2 Junho 2006. [4] National Library of Medicine (2005), MeSH Tree Structures, USA, nov. [http://www.nlm.nih.gov/mesh/intro_trees2006.htm l]. 2 Junho 2006. [5] NBCI (2006), PubMed, EUA. [http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db =PubMed]. 2 Junho 2006. [6] NLM (2005), Medical Subject Headings: files available to download. Nov. [http://www.nlm.nih.gov/mesh/filelist.html]. 2 Junho 2006. Contato Eliane Colepcolo, Prof. Dr. Ivan Torres Pisa e os demais autores recebem correspondncias no endereo: Departamento de Informtica em Sade, UNIFESP, Rua Botucatu, 862, CEP 04023062, Vila Clementino, So Paulo, SP. Telefones (11) 5576-4521 e 5574-5234. Os e-mails so colepicolo-pg@dis.epm.br e ivapisa@dis.epm.br.