Você está na página 1de 17

ARTIGOS

Aplicao de tcnicas infomtricas para identificar a abrangncia do lxico bsico que caracteriza os processos de indexao e recuperao da informao
Jaime Robredo Murilo Bastos da Cunha
INTRODUO Em um artigo que pode ser considerado como um clssico na matria, Whittaker1 definia, em 1989, a anlise das coocorrncias das palavras (em ingls, co-word analysis) como a utilizao do comportamentodas palavras como um meio para elucidar as estruturas das idias e outros problemas representados em conjuntos adequados de documentos Essa definio encontra seu . fundamento, de acordo com o mesmo autor, nos seguintes princpios: a) os autores dos artigos cientficos escolhem com cuidado os termos tcnicos que utilizam; b) quando diversos termos so utilizados no mesmo artigo, isso acontece, de fato, porque o autor reconhece ou supe que existe algum tipo de relao no trivial entre seus referentes; c) se um nmero significativo de autores reconhece o mesmo tipo de relacionamento entre determinados termos, pode-se admitir que esse relacionamento possui algum significado dentro da rea da cincia considerada. Se os pressupostos acima fazem sentido, nada impede utilizar as freqncias com que ocorrem os possveis pares de palavras relacionadas, em cada artigo integrante de um conjunto de artigos, como um meio para descrever a estrutura dos conceitos contidos nos artigos. O mesmo autor acrescenta uma quarta premissa: que as palavras-chave escolhidas por indexadores competentes como descritores do contedo dos artigos so de fato uma indicao confivel dos conceitos cientficos a que se referem, o que torna possvel o uso das palavras-chave como o elemento base para a anlise das coocorrncias das palavras . Mediante a anlise das coocorrncias entre pares de palavras, possvel estabelecer ndices estatsticos que representam a forade associao entre esses pares e, a partir dos valores encontrados, elaborar diversos tipos de representaes grficas (rvores, redes, agrupamentos diversos) e, assim, visualizar (ou, utilizando um anglicismo bem em voga, mapear o estado de um ) campo do conhecimento, em um determinado momento. Uma descrio bastante completa do desenvolvimento dos mtodos de anlise das coocorrncias entre pares de palavras, at 1986, pode-se encontrar na obra de Callon, Law e Rip2. Uma importante bibliografia mais atualizada encontra-se em uma recente comunicao de um dos autores do presente trabalho3. Dentre os numerosos autores que nos ltimos anos aplicaram a anlise das coocorrncias de palavras-chave ao estudo da situao ou da evoluo de diversas reas da cincia, merecem destaque, alm de Whittaker1, j citado, King4, Law e Whittaker5, Leydesdorff6, Callon, Courtial e Laville7.

Resumo
A anlise das coocorrncias entre pares de palavras permite estabelecer ndices estatsticos que representam a fora de associao entre esses pares e, a partir dos valores encontrados, mapear o estado de uma rea do conhecimento num determinado momento. A identificao de aglomerados de palavras-chave e a anlise da fora de ligao entre pares de palavras e expresses significativas integrantes dos aglomerados abre o caminho para importantes aplicaes que vo da construo de lxicos especializados at o desenvolvimento de instrumentos lgicos suscetveis de otimizar os processos de indexao automtica e recuperao da informao, passando pela possibilidade de acompanhar a evoluo dos temas de interesse da pesquisa cientfica. Apresenta-se uma aplicao da anlise das coocorrncias de pares de palavras-chave para identificao do mbito e da abrangncia do lxico bsico, que caracteriza os processos de indexao e recuperao da informao. Palavras-chave Lxico bsico; Indexao; Recuperao da informao; Tcnicas infomtricas.

Ci. Inf., Braslia, v. 27, n. 1, p. 11-27, jan./abr. 1998

11

Aplicao de tcnicas infomtricas para identificar a abrangncia do lxico bsico que caracteriza os processos de indexao e recuperao da informao

Neste trabalho, apresenta-se uma aplicao da anlise da coocorrncia de pares de palavras-chave para identificao do mbito e da abrangncia do lxico bsico que caracteriza os processos de indexao e recuperao da informao. O objetivo da pesquisa mostrar a possibilidade de identificar agrupamentos de palavras-chave que caracterizam determinados conceitos bsicos de um campo especfico. Em outras palavras, trata-se de uma tentativa de descer a um nvel de detalhamento maior (identificao de agrupamentos e/ou cadeias de termos significativos inter-relacionados suscetveis de caracterizar, de per se ou em conjunto, uma determinada rea de conhecimento) do contemplado por Diodato 8, quando visualiza simplesmente a anlise de coocorrncias como um mtodo de identificar, num determinado acervo, grupos de documentos que possuem certa afinidade no seu contedo. METODOLOGIA O corpus de termos e expresses significativas utilizado no presente estudo foi extrado do manuscrito da obra Glossrio de Termos Tcnicos de Cincia da Informao 9, mediante um processo de indexao automtica de 222 verbetes relacionados com os diversos aspectos da indexao e recuperao da informao, utilizando o sistema InfoDoc10,11. A indexao automtica rendeu 26 278 entradas no ndice, com freqncias variando entre 1 (15 979 termos) e 95 (1 termo). Para o estudo dos agrupamentos binrios, foi aplicada a equao se-guinte, utilizada por diversos autores: 12-18: Eij = (Fij)2 / Fi . Fj onde: Eij (coeficiente de equivalncia) um ndice que mede a foraou probabilidade de associao (coocorrncia) dos termos i e j no conjunto de verbetes, Fi e Fj so, respectivamente, as freqncias (ocorrncias) dos termos i e j, e Fij a freqncia com que o par de termos i e j aparecem juntos (coocorrncia) nos diversos verbetes.

O clculo de Eij foi realizado utilizando um programa, especialmente desenvolvido para este estudo, o qual recebe como entrada a relao de termos considerados significativos pelo InfoDoc, no processo de indexao automtica, com suas respectivas freqncias de aparecimento no conjunto de verbetes (tabela 1, a seguir) e gera uma tabela que indica, para os pares de termos (Fi e Fj) que ocorrem com freqncia igual ou maior que 2, os valores correspondentes freqncia de associao ou total de co-ocorrncias (Fij), no conjunto de verbetes, e ao coeficiente de equivalncia Eij (tabela 2, a seguir). Observe-se que o valor de Eij 1 (um) quando a ocorrncia de i implica a ocorrncia de j e vice-versa. Inversamente, seu valor 0 (zero) quando a presena de um dos termos exclui a ocorrncia do outro, ou seja, nenhum verbete indexado simultaneamente pelos dois termos. A observao dos fragmentos da tabela de ocorrncias e coocorrncias, representada na tabela 2, permite ver que, quando o nmero de coocorrncias menor que 2 (Fij < 2) e o nmero de ocorrncias dos termos que integram o par considerado muito dspar (por exemplo: Fi =11 e Fj = 59; Fi = 11 e Fj = 54, etc.), o valor de Eij inferior a 0,01 (Eij < 0,01) e aparece na tabela como 0.00, indicando que a possibilidade de coexistncia dos dois termos do par praticamente nula. Por essas razes, aplicando um critrio semelhante ao j aplicado anteriormente por Polanco 14-16 e, mais recentemente por Basevi17 e Lima18, que consiste em eliminar os termos e expresses de baixa freqncia (muito numerosos) e os de freqncia muito elevada (pouco numerosos), foram eliminados para formar os aglomerados ou agrupamentos (em ingls, clusters) os termos com freqncia inferior a 2 ou muito elevada (termos muito genricos, ou obviamente redundantes com o tema escolhido para estudo; por exemplo, assunto, documento, informao, item, palavra, termo etc.)*.
* Esses termos, alm de excessivamente genricos, podem, em certos casos, por sua natureza polissmica, conduzir a um aglomerado de termos associados que seria, na realidade, uma superposio de diversos aglomerados.

Desta forma, foram retidos em primeira instncia 381 termos que, com os termos a eles associados constituiriam possveis agrupamentos. Aps reunir em uma s entrada os termos ou expresses que so simples variaes mrficas de um mesmo conceito (por exemplo: arranjo e arranjo de documentos; contedo do documento e contedo dos documentos; autor e autoria; dependncia contextual e dependncia do contexto; ordem alfabtica e ordenao alfabtica etc.) e identificar os termos sinnimos ou quase sinnimos (por exemplo: KWIC e ndice KWIC; radical e raiz etc.) e eliminar como cabeade aglomerado aqueles termos ou expresses que se associam com um nmero muito pequeno de termos, normalmente inferior a 3 (por exemplo, chave, cdigo, comunicao direta, denotao, fala, indexador, interesse temtico, nominao, regra etc.), foram retidos, aproximadamente, 170 termos e expresses. Convm esclarecer que a supresso desses termos ou expresses da lista de cabeasde agrupamentos no significa de modo algum que no figurem na lista de termos associados a uma determinada cabea estatisticamente mais significativa. Assim, o termo armazenamento, que no se constitui em cabeade agrupamento, encontra-se entre os termos associados a acesso, o qual pode, com os critrios expostos, ser considerado como cabeade agrupamento. Da mesma forma, as expresses descrio temtica e lista de termos proibidos, entre outras, que no so cabeas encontram-se na lista de ter, mos ou expresses integrantes de aglomerados referentes, respectivamente, catalogao e indexao automtica. No anexo 1, encontra-se a relao de termos e expresses que poderiam ser considerados como possveis cabeas de agrupamentos, ordenados alfabeticamente, com indicao do nmero de termos que a eles se associam**.

** Na relao de termos do anexo 1, no foram agrupados, num s, todos os termos sinnimos ou quase sinnimos ( autor e autoria, KWOC e ndice KWOC etc.), j que os mesmos conceitos podem aparecer em formas diferentes nos diversos agrupamentos de termos.

12

Ci. Inf., Braslia, v. 27, n. 1, p. 11-27, jan./abr. 1998

Aplicao de tcnicas infomtricas para identificar a abrangncia do lxico bsico que caracteriza os processos de indexao e recuperao da informao

TABELA 1 Fragmentos da tabela de freqncias dos termos considerados significativos (Fi igual ou maior que 2), no processo de indexao automtica o Infodoc.

TERMO AACR-2 Acervo Acesso Acesso informao Acesso aleatrio Acesso ao documento Acesso direto Acesso em linha Acesso seqencial

FREQ. 2 6 15 7 2 4 3 2 2

TERMO Publicao Publicao peridica Qualidade de projeto Radical Raiz Recuperao da informao Recuperao de dados Recuperao de documento Referncia Referncia bibliogrfica Referncia cruzada Registro Registro bibliogrfico Registro de informao Registro documentrio Registro informativo . . Sigla Significao Significao diferente Significado Signo Signo lingstico Silncio Smbolo Smbolo de classificao Sinal Sinnimo Sistema Sistema conversacional Sistema de busca Sistema de classificao Sistema de indexao Sistema de informao Sistema de recuperao Sistema de recuperao da informao Sistema especialista Sistema informatizado . . Termo Termo de busca Termo de indexao Termo especfico Termo genrico Termo homnimo Termo polissmico Termo preferencial Termo proibido Tesauro Texto Texto completo Ttulo Ttulo completo

FREQ. 6 2 2 4 3 51 3 3 6 7 7 19 11 5 3 2

Catalogao Catalogao descritiva Catlogo Catlogo alfabtico de assunto Catlogo alfabtico de autores Catlogo alfabtico de ttulos Catlogo coletivo Catlogo de assunto Catlogo de autor Catlogo de ttulos Catlogo dicionrio Catlogo ideogrfico Catlogo sistemtico Categoria Categoria fundamental

8 2 17 2 2 2 3 2 2 2 2 2 3 5 6

Indexao Indexao automtica Indexao controlada Indexao coordenada Indexao hierrquica Indexao livre Indexao mecnica Indexao ps-coordenada Indexao pr-coordenada Indexao relacional Indexador ndice ndice alfabtico ndice alfabtico de assuntos ndice de classificao ndice KWIC ndice KWOC . . Lngua Linguagem Linguagem artificial Linguagem de indexao Linguagem documentria Linguagem formal Linguagem natural Lingstica

72 11 2 3 21 2 2 4 3 2 2 16 5 2 9 2 2

4 8 3 10 8 2 2 26 2 3 5 2 2 3 38 9 13 5 2 6 3

5 6 5 3 15 2 5 9

67 2 24 2 4 4 2 3 4 17 11 3 19 3

Ci. Inf., Braslia, v. 27, n. 1, p. 11-27, jan./abr. 1998

13

Aplicao de tcnicas infomtricas para identificar a abrangncia do lxico bsico que caracteriza os processos de indexao e recuperao da informao

TABELA 2 Fragmentos da tabela de freqncias dos termos considerados significativos (Fi e Fj igual ou maior que 2), com indicao das coocorrncias dos pares associados (F ) e dos coeficientes de equivalncia ou associao corresij pondente (E )
ij

TERMO i AACR-II AACR-II AACR-II AACR-II AACR-II AACR-II AACR-II AACR-II . . Formato Formato Formato Formato Formato Formato Formato Formato Formato Formato Formato Formato Formato Formato Formato Formato Formato Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico Registro bibliogrfico

Fi TERMO j 2 Acervo 2 Catlogo 2 Descrio bibliogrfica 2 Elemento essencial 2 Entrada catalogrfica 2 ISBD 2 Item 2 Norma de catalogao . . 2 rea de descrio fsica 2 Campo 2 Colao 2 Dado 2 Descrio bibliogrfica 2 Descrio fsica 2 Documento 2 Ilustrao 2 Incluso de dados 2 Indexao 2 Informao 2 ISBD 2 Item 2 Representao codificada 2 Representao da informao 2 Zona 2 Zona de colao 11 Acesso 11 Arquivo seqencial 11 Assunto 11 Base de dados 11 Busca bibliogrfica 11 Campo 11 Catalogao 11 Catlogo coletivo 11 Classe 11 Classe geral 11 Classificao 11 Coleo 11 Dado 11 Descrio bibliogrfica 11 Descritor 11 Documento 11 Entrada 11 Informao 11 Item 11 Item bibliogrfico 11 Nmero do documento 11 Objeto 11 Ordenao alfabtica 11 Ponto de acesso 11 Recuperao da informao 11 Recuperao do documento 11 Referncia 11 Registro 11 Representao codificada 11 Rudo 11 Segmento de registro 11 Smbolo numrico 11 Sistema de busca 11 Sistema de classificao 11 Unidade de informao 11 Unidade documentria

Fj 6 17 23 2 4 14 33 2

Fij 1 1 2 1 1 2 1 2

Eij 0.O8 0.03 0.O9 0.25 0.13 0.14 0.02 1.00

2 6 4 38 23 2 95 3 2 72 65 14 33 2 2 5 2 15 2 59 20 3 6 8 3 36 3 54 7 8 23 34 95 20 65 33 7 2 9 3 3 51 4 6 19 2 2 2 2 3 35 5 3

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 10 1 1 1 3 1 1 2 1 1 5 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1

0.25 0.08 0.13 0.01 0.02 0.25 0.01 0.17 0.25 0.01 0.01 0.04 0.02 0.25 0.25 0.10 0.25 0.01 0.03 0.00 0.02 0.03 0.02 0.01 0.03 0.00 0.03 0.00 0.00 0.02 0.00 0.00 0.00 0.00 0.00 0.07 0.00 0.05 0.01 0.03 0.03 0.00 0.02 0.02 0.00 0.05 0.05 0.05 0.05 0.03 0.00 0.07 0.03

14

Ci. Inf., Braslia, v. 27, n. 1, p. 11-27, jan./abr. 1998

APRESENTAO E DISCUSSO DOS RESULTADOS Na impossibilidade de apresentar a totalidade dos agrupamentos de termos (com todas suas inter-relaes) associados s cabeaslistadas no anexo 1, consideramos mais pertinente centrar a apresentao e discusso dos resultados em alguns exemplos significativos que mostram a potencialidade do mtodo de anlise da freqncia de coocorrncia de pares de palavras-chave para mapearuma determinada rea de conhecimento e identificar associaes conceituais do maior interesse para caracterizar os termos focais e o estado-da-arte da pesquisa cientfica nessa rea, em um determinado momento e, por extenso, verificar sua evoluo no tempo e no espao. No anexo 2, apresentam-se os aglomerados referentes a alguns termos e expresses associados a algumas cabeas So estas: . classificao; descrio bibliogrfica; indexao; recuperao da informao; Como exemplo de subaglomerados, detalhados no anexo 3, foram escolhidos os seguintes: catalogao (includo em descrio bibliogrfica); faceta (includo em classificao); indexao automtica (includo em indexao); ISBD (includo em descrio bibliogrfica); Ranganathan (includo em classificao e em faceta); tesauro (includo em indexao). Nos anexos 2 e 3, so indicados os valores das freqncias de uso dos termos individuais i e j (Fi e Fj), os valores da freqncia de associao de cada par de termos (Fij) e o coeficiente de equivalncia ou energiade associao de cada par (Eij).

A partir do exame dos termos e expresses que figuram nas listas dos anexos 1 a 3, torna-se evidente o interesse de estudos deste tipo para identificar sinnimos e quase sinnimos, ou de termos relacionados semanticamente, os quais se agrupam naturalmente dentro dos aglomerados. Parece intil insistir sobre a importncia desses fatos na construo de tesauros ou na elaborao e manuteno de todo tipo de dicionrios e lxicos que muito podem auxiliar, tanto no processo de indexao de documentos, quanto na busca e recuperao da informao. Como exemplo, pode-se mostrar as cadeias de termos a seguir: Indexao automtica - ndice KWIC KWIC - lista de termos proibidos - termos proibidos - ndice KWOC - KWOC etc. e Truncagem - raiz - radical - desinncia sufixo - prefixo etc. A ttulo de comentrio anedtico, oferecemos apreciao do leitor duas associaes encontradas (as quais, devido sua baixa freqncia, no so evidentes nas listas ou nos aglomerados apresentados como exemplo neste trabalho), que, ao nosso ver, merecem um breve comentrio. Trata-se da associao entre nmero de chamada e estante, e Garfield e citao, absolutamente lgicas, mas que no parece que tenham sido includas em nenhum tesauro ou outro tipo de vocabulrio controlado de que temos conhecimento. Tais associaes poderiam eventualmente facilitar uma pesquisa de informao em linguagem natural, em uma base de dados. Ainda no terreno anedtico, e falando em associaes evidenciadas pelos agrupamentos, interessante observar que, no estgio de avano do Glossrio de Termos Tcnicos de Cincia da Informao 9, no momento em que foram selecionados os verbetes para compor o corpus deste trabalho, h quase dois anos, os verbetes referentes indexao automtica parece que focalizavam esta entrada somente sob o ngulo do ndice KWIC, sem incluir ainda outros aspectos relevantes mais recentes.

Intil tambm insistir sobre a importncia de poder descobrirrelaes entre termos e expresses que no so evidentes primeira vista, dentro de uma viso rgida e estruturada hierarquicamente, como a que prevalece no desenvolvimento, manuteno e uso de tesauros e outros instrumentos terminolgicos controlados que impedem ver de, terminadas relaes semnticas naturais que vo surgindo simultaneamente ao desenvolvimento de quaisquer reas da cincia ou da tecnologia. Uma anlise mais aprofundada dos pares de termos associados e dos valores correspondentes de Fij e Eij permite maior aproximao do significado profundo dos aglomerados e das relaes entre seus componentes. Em geral, Eij tende a apresentar valor mais elevado quando a abrangncia do tema e a polissemia dos termos esto bem delimitados (ver, por exemplo, Ranganathan ou faceta, no anexo 3). Dentro de um mesmo aglomerado, maiores valores de Eij representam, em geral, maior afinidade entre os termos integrantes do par (ver aglomerados nos anexos 2 e 3). O valor 0.00 para Eij, que aparece em alguns casos, no significa, como foi frisado anteriormente, que a coocorrncia dos dois termos do par seja impossvel (se assim for, eles no apareceriam nas listagens), mas que o valor do coeficiente de associao inferior a 0.01, ou seja, que o par tem uma afinidade muito baixa. Um termo que integra dois ou mais aglomerados diferentes pode apresentar valores bastante diferentes de Eij, para o par formado por ele e a cabea do aglomerado, indicando diferentes afinidades entre os respectivos pares. Assim, o termo descritor, que integra, entre outros, os aglomerados referentes indexao e recuperao da informao, apresenta (ver anexo 2) nos pares correspondentes valores respectivos de 0.07 e 0.01, o que parece indicar que mais provvel utilizar o termo descritor em um contexto em que se fala de indexao do que em outro que trata de recuperao.

Ci. Inf., Braslia, v. 27, n. 1, p. 11-27, jan./abr. 1998

15

Aplicao de tcnicas infomtricas para identificar a abrangncia do lxico bsico que caracteriza os processos de indexao e recuperao da informao

Por outra parte, quando um termo ou expresso pode ser encontrado em diferentes contextos, observa-se que o valor de Eij, para vrios pares possveis tende a diminuir ao aumentar a disperso semntica Nesse caso, a . fora de associao entre os pares de termos parece estar mais bem representada pelos valores de Fij, em geral igual ou maior que 3. Assim, nos aglomerados indexao e recuperao da informao, observa-se que, entre o grande nmero de pares de termos com Eij igual ou menor que 0.02, aqueles que possuem Fij igual ou maior que 3 so, em geral, mais fortemente relacionados. A utilizao dessas observaes pode contribuir eficazmente para introduzir remissivas e referncias cruzadas, na elaborao e manuteno de tesauros e vocabulrios e, de modo especial, na elaborao e manuteno automticas de dicionrios de termos e expresses para indexao de textos com ajuda do computador e formulao de estratgias de busca em linguagem natural, para recuperao da informao. Para visualizar a estrutura dos aglomerados e as relaes entre seus elementos componentes, podem ser utilizados vrios tipos de representao grfica. Dentre eles, convm destacar a representao em rede (figura 1, a seguir). Nesse tipo de representao, possvel indicar a maior ou menor freqncia dos elementos componentes por crculos ou quadrados de tamanho proporcional aos valores das respectivas ocorrncias (Fi e Fj), bem como destacar a forade associao entre pares de termos (medida por Eij ou simplesmente por Fij), mediante linhas de enlace mais ou menos destacadas (por exemplo, linhas contnuas ou pontilhadas de espessuras diferentes). Informaes sobre a aplicao de outros tipos de representao mais complexos, que permitem distribuir, nos quatro quadrantes de um plano de coordenadas cartesianas, os diversos termos e expresses com indicao mais precisa da forade ligao entre os aglomerados e de sua importncia relativa ( centralidadee densidade mediante ), os chamados diagramas estratgicos que no se adequam ao propsito deste artigo, podem ser encontrados nos trabalhos de Whittaker 1, Callon,

Courtial e Laville7 e Cambrosio, Limoges, Courtial e Laville13, j citados, assim como nas publicaes de Courtial 19, Courtial e Law 20 , Courtial, Callon e Sigogneau 21, Huot, Quoniam, e Dou 22, e Amudbavall e Raghavan 23 ***. Neste trabalho, para no sobrecarregar nossa exposio, limitar-nos-emos a mostrar, a ttulo de exemplo, a representao grfica, em rede, do agrupamento referente a Ranganathan detalhado no anexo 3 (figura 2, a seguir). Observe-se que, como o tema est muito mais delimitado do que no caso, por exemplo, do aglomerado classificao, os valores de Eij so consideravelmente mais elevados (maior afinidade entre os pares de termos). Para ilustrar o desdobramento dos agrupamentos em subagrupamentos cada vez menores, foram reunidos no anexo 4 os agrupamentos correspondentes a: categoria fundamental; classificao dos dois pontos; energia; faceta fundamental; interesse temtico; personalidade; PMEST; tempo. Todos eles relacionados com faceta e/ ou Ranganathan. Os elementos integrantes do agrupamento faceta e dos
*** Centralidade (centrality) a medida estatstica da intensidade das ligaes para um determinado agrupamento. Mede a coerncia de um tpico e representada pelo valor mdio das ligaes que existem entre as palavras-chave que integram o aglomerado. Uma forma de medila calcular para cada aglomerado o valor mdio de suas ligaes internas. Densidade (density) a medida estatstica da fora das ligaes que associam as palavras integrantes de um aglomerado. Caracteriza o papel desempenhado por um determinado tema no desenvolvimento global da rea e representado pelo valor mdio das ligaes entre um aglomerado e outro aglomerado vinculado ao primeiro por meio de algumas de suas palavras-chave ou, em uma definio mais tcnica, a posio relativa de cada aglomerado dentro do mapaglobal da rea. Uma forma de calcul-la somar os quadrados de todas ligaes medidas pelo coeficiente de equivalncia que o une a outros aglomerados.

subagrupamentos acima podem ser combinados com os itens da figura 2 de maneira a formar uma rede espacial de todos os termos inter-relacionados. CONCLUSO O presente trabalho permitiu mostrar a potencialidade e interesse dos mtodos de anlise da coocorrncia de palavras ou expresses significativas para mapearum determinado campo do conhecimento, com slidas bases tericas e aplicaes do maior interesse, em um leque de possibilidades que cobre da elaborao, estudo, manuteno e uso de instrumentos terminolgicos os mais diversos, at a caracterizao de uma rea de pesquisa, o acompanhamento do desenvolvimento e evoluo de um campo da cincia ou da tecnologia em um determinado perodo, ou, ainda, o estudo comparativo do estado-da-arte de um campo especfico em vrias instituies ou em momentos diferentes, assim como a realizao de projees sobre a evoluo de uma rea da cincia, como demonstrado em diversos trabalhos j referenciados 2-4, 5, 7, 12, 13, 14, 16-23. Outras aplicaes, tais como a definio ou avaliao da poltica de aquisio de documentos por parte de uma grande biblioteca universitria ou de um centro de documentao especializado, podem encontrar seu fundamento em estudos infomtricos da anlise da associao entre palavras, comparando os contedos temticos dos documentos (livros, peridicos, atas de congressos, patentes etc.) com os programas curriculares, no primeiro caso, e com os programas de pesquisa, polticas institucionais e perfil dos usurios em ambos os casos, ou, ainda, analisando as citaes usadas na produo cientfica dos especialistas ligados organizao. Provavelmente, por no dizer com certeza, entre as reas de pesquisa fundamental e aplicada que devero conhecer uma grande expanso nos prximos anos, parecem encontrar-se justamente as aplicaes da anlise das associaes de palavras. Com efeito, a indexao de documentos que devem incorporar-se ao magma informacional da Internet (bases de dados, bibliotecas virtuais, documentos sobre um tema especfico, identificao de especialistas, sejam estes pessoas ou institui-

16

Ci. Inf., Braslia, v. 27, n. 1, p. 11-27, jan./abr. 1998

Aplicao de tcnicas infomtricas para identificar a abrangncia do lxico bsico que caracteriza os processos de indexao e recuperao da informao

FIGURA 1 Representao em rede de um agrupamento de termos. Diferentes tipos de linha representam foras de enlace diferentes entre pares de termos. Diferentes tamanhos dos crculos que representam os termos representam diferentes valores de ocorrncia.

i, FI Fij j, Fj

m, Fm

FIGURA 2 Representao do aglomerado referente a Ranganathan.


Classificao Conceito Assunto bsico Classe Categoria fundamental Classificao de dois pontos

Interesse temtico

Matria Ranganathan Energia PMEST Faceta

Tempo

Personalidade

Faceta fundamental

Ci. Inf., Braslia, v. 27, n. 1, p. 11-27, jan./abr. 1998

17

Aplicao de tcnicas infomtricas para identificar a abrangncia do lxico bsico que caracteriza os processos de indexao e recuperao da informao

es, notcias etc.), onde pela variedade de usurios e de fontes torna-se j absolutamente impossvel pensar na consulta de tesauros rgidos (sempre desatualizados em, pelo menos, dois anos), exigir a disponibilidade de novas ferramentas. Novos lxicos e dicionrios, que se atualizem automaticamente com base em princpios infomtricos solidamente fundamentados e que se incorporem aos motores de busca das bases de dados, devero estar disponveis imperativamente para serem incorporados aos sistemas, tanto na entrada como na recuperao, fazendo uma grande parte do trabalho que o usurio final ou o intermedirio da informao tm de realizar ainda no momento atual, e isso com o risco permanente de deixar escapar grande quantidade da informao procurada. A convergncia da informtica, da indexao automtica e do desenvolvimento de motores de busca incorporados s bases de dados parece constituir a chave dos desenvolvimentos futuros da informao globalizada24, 25.

REFERNCIAS BIBLIOGRFICAS 1. WHITTAKER, John. Creativity and Conformity in Science: Titles, keywords and Co-word Analysis. Social Studies in Science. v.19, 1989, p.473-496. 2. CALLON, Michel; LAW, John; Rip, Arie (eds). Mapping the Dynamics of Science and Technology: Sociology of Science in the Real World. Basingstoke, Hants: MacMillan, 1986. 3. ROBREDO, Jaime. On Informetrics as a Tool for Forecasting. In: 5TH BIENNIAL CONFERENCE OF THE INTERNATIONAL SOCIETY FOR SCIENTOMETRICS AND INFORMETRICS. River Forest. Il, 7-10 June 1995. Proceedings. Medford, NJ: Learned Information, 1995, p. 694. (Uma verso em portugus ser publicada em breve.) 4. KING, J. A Review of Bibliometric and other Science Indicators and the Role in Research Evaluation. Journal of Information Science, v.13, 1987, p.261276. 5. LAW, John; WHITTAKER, John. Mapping Acidification Research: A Test of the Coword Method. Scientometrics, v.23, 1992, p.417-461. 6. LEYDESDORFF, L. The Search of Epistemic Networks. Social Studies in Science. v.21, n.1,1991, p.75-110. 7. CALLON, M.; COURTIAL, J.P.; LAVILLE, F. Co-word Analysis as a Tool for Describing the Network of Interactions between Basic and Technological Research: The Case of Polymer Chemistry. Scientometrics, v.22, n.1, 1991,p.155-205. 8. DIODATO, Virgil. Dictionary of Bibliometrics. New York; London: Norwood: Haworth, 1994. ISBN 1-56024-832-1. 9. CAVALCANTI, Cordlia R.; CUNHA, Murilo B. da. Glossrio de Termos Tcnicos de Cincia da Informao . Braslia DF: Universidade de Braslia. (Em preparao.) 10. ROBREDO, Jaime. Indexao automtica de textos. In : 1 Encontro Nacional de Pesquisa em Cincia da Informao e Biblioteconomia. Belo Horizonte MG, 8-10 abr 1994. ANCIB. Anais. Campinas SP: ANCIB, 1994, p.15-17. 11. ROBREDO , Jaime. InfoDoc: Manual do Usurio. Braslia DF: Edio do autor, 1995. (Inclui disquete.) 12. LE MARC, M.; COURTIAL, J.P.; DROZDA SENKOVSKA, E.; PTARD, J.P.; Py, Y. The Dynamics of Research in the Psichology of Work from 1973 to 1987: From the Study of Companies to the Study of Professions. Scientometrics, v.21, n.1, 1991, p.60-68. 13. CAMBROSIO, A.; LIMOGES, C.; COURTIAL, J.P.; LAVILLE, F. Historical Scientometrics? Mapping over 70 Years of Biological Safety Research with Co-word Analysis. Scientometrics, v.27, n.2, 1993, p.119-143. 14. POLANCO, X. Scientometic Analysis of the Cognitive Sciences in Pascal. INIST Info, n.7, jul 1993.

15. POLANCO, X. Recherches sur les mthodes d analyse stratgique de lnformation scientifique e technique. In : Journe d tude sur les Systmes d Information labors: Bibliomtrie, Information Stratgique. Veille Technologique. le Rousse. Socit Franaise de Bibliomtrie Applique. 5-7 Jun 1991. Tirage--part. 16. POLANCO, X. et al. la recherche de la diversit perdue: est-il possible de mettre en vidence des lements htrognes d front de recherche? Ibidem. Tirageun -part. 17. BASEVI, T.H.M.M. Tendncias na aplicao de formatos, sistemas cooperativos e redes de intercmbio : uma viso infomtrica. Braslia DF: Universidade de Braslia/ Departamento de Cincia da Informao e Documentao, 1993. (Dissertao de mestrado.) 18. LIMA, A.C.C.C. Sistemas especialistas aplicados Cincia da Informao : tendncias para um futuro prximo baseadas em um estudo infomtrico da literatura. Braslia DF: Universidade de Braslia/Departamento de Cincia da Informao e Documentao, 1993. (Dissertao de mestrado.) 19. COURTIAL, J.P. A Co-word Analysis of Scientometrics. Scientometrics, v.31, n.3, 1994, p.251-260. 20. COURTIAL, Jean-Paul.; LAW, John. A CoWord Study of Artificial Intelligence. Social Studies of Science, v.19, 1989, p.301-311. 21. COURTIAL, J.P.; CALLON, M.; SIGOGNEAU, A. The use of Patents Titles for Identifying the Topics of Invention and Forecasting Trends. Scientometrics, v.26, n.2, 1993, p.231-242. 22. HUOT, Ch.; QUONIAM, L.; DOU, H. A. New Method for Analyzing Downloaded Data for Strategic Decision. Scientometrics, v.25, n.2, 1992, p.279-294. 23. AMUDBAVALLI, A.; RAGHAVAN, K.S. Coword Analysis of Literature on Information Retrieval. In: 5TH BIENNIAL CONFERENCE OF THE INTERNATIONAL SOCIETY FOR SCIENTOMETRICS AND INFORMETRICS. River Forest. Il, 7-10 June 1995. Proceedings . Medford, NJ: Learned Information, 1995, p.23-32. 24. ROBREDO, Jaime. Indexao e recuperao da informao na era das publicaes virtuais. In: 4 SEMINRIO DE BIBLIOTECONOMIA E CINCIA DA INFORMAO - GLOBALIZAO, INFORMAO E DESENVOLVIMENTO HUMANO SUSTENTVEL: um desafio para os profissionais da informao e da Comunicao. Goinia GO, 1-4 jun 1997. Universidade federal de Gois. Anais. (A ser publicado em breve.) 25. ROBREDO, Jaime. Indexao automtica e infometria: um casamento que est dando certo. In: 18 CONGRESSO BRASILEIRO DE BIBLIOTECONOMIAE DOCUMENTAO. So Lus MA, 20-24 jul 1997. Anais eletrnicos .

18

Ci. Inf., Braslia, v. 27, n. 1, p. 11-27, jan./abr. 1998

Aplicao de tcnicas infomtricas para identificar a abrangncia do lxico bsico que caracteriza os processos de indexao e recuperao da informao

The use of informetrics for identifying the scope of the basic terminology related to indexing and retrieval Abstract
Co-word analysis offers the possibility of statiscally measuring the associative strength between pairs of keywords and, by using the values found, of mapping the dynamics of a scientific field in a given moment. The identification of clusters of keywords and the analysis of the strength of the links between pairs of keywords in the clusters show the way for important applications, ranging from the building up of special lexicons, to the development of logical tools for optimyzing automatic indexing and retrieval processes, as well as the mapping of the evolution of interest on key topics in scientific research. An application of co-word analysis to identify the scope of the basic terminology related to indexing and retrieval is described. Keywords Basic vocabulary; Indexing; Information retrieval; Infometrical techniques. Artigo aceito para publicao em 17-2-98.

Jaime Robredo Pesquisador associado senior. Departamento de Cincia da Informao e Documentao. Universidade de Braslia. E-mail: jrobredo@brnet.com.br Murilo Bastos da Cunha Professor titular. Departamento de Cincia da Informao e Documentao. Universidade de Braslia. E-mail: murilobc@guarany.unb.br

Ci. Inf., Braslia, v. 27, n. 1, p. 11-27, jan./abr. 1998

19

Aplicao de tcnicas infomtricas para identificar a abrangncia do lxico bsico que caracteriza os processos de indexao e recuperao da informao

ANEXO 1 Relao dos termos considerados cabea de agrupamento


TERMO AACR-II Acervo Acesso Acesso a informao Acesso ao documento Anlise documentria rea de conhecimento Armazenamento de informao Arquivo Arquivologia Arranjo Assunto Assunto bsico Assunto composto Autor Autoria Banco de dados Base de dados Bibliografia Bibliometria Biblioteca Busca Busca da informao Cabealho de assunto Campo Catalogao Catlogo Catlogo alfabtico de autores Catlogo sistemtico Categoria fundamental Citao Citao bibliogrfica Classe Classe multidimensional Classificao Classificao bibliogrfica Classificao de segurana Classificao de dois pontos Classificao facetada Classificao unidimensional Coerncia da indexao Colao Coleo Computador Comunicao Conceito Conhecimento Consistncia na indexao Consulta Contedo temtico Contexto Dado Data Data de publicao Dependncia contextual Dependncia do contexto Descrio bibliogrfica Descritor Documento Edio Editor Entrada Entrada bibliogrfica Entrada de assunto Esquema de classificao Estratgia de busca FREQNCIA 2 6 15 7 4 5 4 3 16 4 5 59 5 3 17 5 11 20 11 2 12 7 11 13 6 8 17 2 3 6 8 4 36 2 54 7 2 5 3 2 2 4 7 7 5 30 6 3 5 13 5 38 2 4 2 2 23 34 95 4 2 20 3 5 23 8 TOTAL TERMOS ASSOC. 3 6 32 5 4 6 2 6 19 6 4 57 7 5 17 5 20 23 15 3 23 9 14 17 8 7 32 5 10 10 10 4 35 4 56 7 3 4 3 6 3 5 7 7 8 28 4 4 10 16 4 40 7 8 4 4 15 30 102 6 8 24 3 6 14 5

20

Ci. Inf., Braslia, v. 27, n. 1, p. 11-27, jan./abr. 1998

Aplicao de tcnicas infomtricas para identificar a abrangncia do lxico bsico que caracteriza os processos de indexao e recuperao da informao

Expresso Extenso Faceta Faceta fundamental Ficha Fichrio Garfield Gnero Homnimo Idia Imprensa Iindexao Indexao automtica Indexao coordenada Indexao ps-coordenada Indexao pr-coordenada ndice ndice alfabtico ndice de classificao ndice KWOC Informao Instrumento de busca ISBD Item Item bibliogrfico Item recuperado KWIC KWOC Lngua Linguagem Linguagem artificial Linguagem documentria Lingstica Lista Livro Lgica Lgica tradicional Lugar de publicao Matria Memria Mtodo de Indexao Multidimensionalidade Nome Norma de catalogao Notao Objeto Operador booleano Ordem alfabtica Ordenao de catlogo Pgina de rosto Palavra Palavra-chave Palavra significativa Permutao de palavras Personalidade Pesquisa documentria PMEST Polissemia Ponto de acesso Ps-coordenao Pr-coordenao PRECIS Preciso Predicvel Publicao Publicao peridica Radical Raiz Ranganathan Recuperao da informao Recuperao de documento

8 4 17 3 2 6 2 8 4 7 3 17 11 3 4 3 16 5 9 2 65 3 14 33 7 3 4 4 5 6 5 15 9 3 4 9 3 2 4 2 6 2 4 2 12 9 5 11 2 5 57 12 4 2 2 3 3 2 3 3 3 4 4 4 6 2 4 3 11 51 4

9 4 22 5 8 5 3 5 3 3 7 86 11 8 9 9 28 3 8 3 70 5 22 29 4 3 8 6 4 3 3 17 5 3 3 9 5 6 4 7 10 5 5 3 4 4 4 11 3 3 51 13 7 3 4 3 6 3 3 7 6 6 6 5 7 3 3 2 14 58 3

Ci. Inf., Braslia, v. 27, n. 1, p. 11-27, jan./abr. 1998

21

Aplicao de tcnicas infomtricas para identificar a abrangncia do lxico bsico que caracteriza os processos de indexao e recuperao da informao

Referncia Referncia bibliogrfica Referncia cruzada Registro Registro bibliogrfico Registro de informao Relao entre termos Relao semntica Remissiva Representao automtica Responsabilidade Resumo Revogao Sentido Srie Significao Significao diferente Significado Signo Smbolo Sintaxe Sistema Sistema de classificao Sistema de indexao Sistema de informao Sistema de recuperao Sistema de recuperao da informao Subclasse Subdiviso de assunto Subdiviso de classe Tema Tempo Termo Termo de busca Termo de indexao Termo genrico Termo homnimo Termo polissmico Termo preferencial Termo proibido Tesauro Texto Ttulo Unidade de informao Unidimensionalidade Unitermo Usurio Vocabulrio Zona

6 7 7 19 11 5 5 3 5 8 4 8 5 11 8 8 3 10 8 26 5 2 38 9 13 5 2 5 5 4 3 3 62 2 24 4 4 2 3 4 17 11 19 5 4 4 8 5 8

5 4 3 26 6 12 3 6 5 13 6 6 5 11 10 5 4 7 6 22 8 8 33 8 12 4 3 6 3 5 4 5 68 3 23 6 4 4 3 5 15 11 28 4 9 9 10 7 5

22

Ci. Inf., Braslia, v. 27, n. 1, p. 11-27, jan./abr. 1998

Aplicao de tcnicas infomtricas para identificar a abrangncia do lxico bsico que caracteriza os processos de indexao e recuperao da informao

ANEXO 2 Exemplos de aglomerados de termos significativos, com indicao do nmero de coocorrncias (Fij) e do valor do coeficiente de associao (Eij). Os valores entre parntese indicam as freqncias do termo cabea de aglomerado e dos termos associados.
CABEA AGRUPAMENTO DE Classificao (54) TERMOS ASSOCIADOS Arquivo (16) Assunto (59) Autor (17) Banco de dados (11) Biblioteca (12) Catalogao (8) Categoria fundamental (6) Citao (6) Classe (36) Classificao bibliogrfica (7) Classificao dos dois pontos (5) Conceito (30) Conhecimento (6) Contedo temtico (13) Descrio temtica (2) Elemento (6) Esquema de classificao (23) Faceta (17) Faceta fundamental (3) Indexao (72) ndice (16) Notao (12) Ranganathan (11) Recuperao da informao (51) Registro (19) Srie (8) Smbolo (26) Sistema de classificao (36) Sublcasse (5) Tabela de classificao (2) Tema (3) Tempo (3) Ttulo (19) AACR-II (2) Acervo (6) rea de edio (2) rea de publicao (3) rea especfica de material e tit. (2) Autoria (5) Biblioteca (12) Campo (6) Catalogao (8) Catlogo (17) Colao (4) ISBD (14) Responsabilidade (4) Zona (5) Zona de colao (2) Assunto (59) Autor (17) Base de dados (20) Busca de informao (11) Cabealho de assunto (13) Catlogo (17) Citao (8) Classificao (54) Conceito (30) Consistncia na indexao (3) Contedo temtico (13) Descritor (34) Entrada (20) Indexao automtica (11) Fij 2 15 2 2 2 3 4 2 14 2 3 6 3 2 1 3 13 5 2 7 3 5 5 3 3 3 9 16 2 2 2 2 2 2 3 2 2 2 2 2 3 3 3 2 12 3 4 2 17 3 3 3 3 3 3 7 6 3 9 13 4 5 Eij 0.00 0.07 0.02 0.01 0.01 0.02 0.05 0.01 0.10 0.00 0.03 0.02 0.03 0.01 0.01 0.03 0.14 0.03 0.02 0.01 0.01 0.04 0.04 0.00 0.01 0.02 0.06 0.12 0.01 0.04 0.02 0.02 0.00 0.09 0.07 0.09 0.06 0.09 0.03 0.01 0.05 0.05 0.02 0.04 0.44 0.10 0.14 0.09 0.07 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.02 0.04 0.09 0.07 0.01 0.03

Descrio bibliogrfica (23)

Indexao (72)

Ci. Inf., Braslia, v. 27, n. 1, p. 11-27, jan./abr. 1998

23

Aplicao de tcnicas infomtricas para identificar a abrangncia do lxico bsico que caracteriza os processos de indexao e recuperao da informao

Indexao coordenada (31) Indexao ps-coordenada (4) Indexao pr-coordenada (3) ndice (16) Linguagem de indexao (3) Linguagem documentria (15) Mtodo de indexao (6) Palavra (57) Palavra-chave (12) Ps-coordenada (3) Pr-coordenada (3) PRECIS (4) Recuperao da informao (51) Relao entre termos (5) Representao temtica (8) Significado (10) Smbolo (26) Sintaxe (5) Sistema de classificao (38) Sistema de indexao (9) Sistema de informao (13) Termo (67) Termo de indexao (24) Termo proibido (4) Tesauro (17) Texto (11) Ttulo (19) Uniformidade na indexao (2) Unitermo (4) Vocabulrio (5) Vocabulrio controlado (3) Recuperao da informao (51) Arquivo (16) Assunto (59) Banco de dados (11) Base de dados (20) Busca (7) Busca da informao (11) Classificao (54) Coleo (7) Conceito (30) Contexto temtico (13) Descritor (34) Documento recuperado (2) Estratgia de busca (8) Formulao da pergunta (2) Indexao (72) ndice (16) Item recuperado (3) Linguagem documentria (15) Preciso (4) Revogao (5) Smbolo (26) Sistema de informao (13) Ssistema de recuperao (5) Sistema de recuperao da informao (2) Termo de indexao (24) Vocabulrio controlado (3)

3 4 3 7 3 7 6 12 6 3 3 4 12 3 4 3 4 3 3 9 2 31 23 2 5 2 5 2 3 2 3 4 8 5 7 3 8 3 3 3 4 3 2 6 2 12 4 3 4 3 3 3 4 5 2 4 3

0.04 0.06 0.04 0.07 0.04 0.05 0.08 0.04 0.04 0.04 0.04 0.04 0.04 0.03 0.03 0.01 0.01 0.03 0.00 0.13 0.00 0.02 0.31 0.01 0.02 0.01 0.02 0.03 0.03 0.01 0.03 0.02 0.02 0.04 0.05 0.03 0.11 0.00 0.03 0.01 0.02 0.01 0.04 0.09 0.04 0.04 0.02 0.06 0.00 0.04 0.04 0.01 0.02 0.10 0.04 0.0 0.06

NOTA: no foram includos os termos dado, documento, informao, item, palavra, registro, termo por serem excessivamente genricos.

24

Ci. Inf., Braslia, v. 27, n. 1, p. 11-27, jan./abr. 1998

Aplicao de tcnicas infomtricas para identificar a abrangncia do lxico bsico que caracteriza os processos de indexao e recuperao da informao

ANEXO 3 Exemplos de subaglomerados de termos significativos, com indicao do nmero de co-ocorrncias (Fij) e do valor do coeficiente de associao (Eij). Os valores entre parntese indicam as freqncias do termo cabeade subaglomerado e dos termos associados.
CABEA AGRUPAMENTO DE Catalogao (8) TERMOS ASSOCIADOS Assunto (59) Catlogo (17) Classificao (54) Descrio bibliogrfica (23) Descrio temtica (2) Indexao (72) Referncia (6) Assunto (59) Assunto bsico (5) Assunto composto (3) Categoria fundamental (6) Classe multidimensional (2) Classe unidimensional (2) Classificao (54) Classificao dos dois pontos (5) Classificao facetada (3) Classificao unidimensional (2) Diviso de uma faceta (2) Foco (3) Isolado (2) Multidimensionalidade (2) Personalidade (2) Ranganathan (4) Relao semntica (3) Sistema de classificao (38) Subclasse (5) Subdiviso de classe (4) Termo (67) Unidimensionalidade (4) Indexao (75) Indexao mecanizada (2) ndice (16) KWIC (4) KWOC (4) Lista de termos proibidos (2) Palavra (57) Permutao de palavra (2) Termo (67) Termo de indexao (24) Ttulo (19) AACR-II (2) rea de descrio fsica (2) rea de distribuio (2) rea de edio (2) rea de publicao (2) rea de publicao, distribuio (3) rea especfica de material e tit. (2) Autoria (5) Colao (4) Data (2) Data de publicao (4) Descrio bibliogrfica (23) Distribuio (2) Distribuidor (2) Edio (4) Editor (2) Imprensa (3) ISSN (2) Lugar de publicao (2) Norma de catalogao (2) Responsabilidade (4) Fij 2 3 3 3 2 2 2 3 2 2 2 2 2 5 2 3 2 2 2 2 2 2 3 2 3 4 3 2 4 5 2 2 3 2 2 5 2 3 2 4 2 2 2 2 3 2 2 2 2 2 2 11 2 2 2 2 2 2 2 2 3 Eij 0.01 0.27 0.02 0.05 0,25 0.01 0.08 0.01 0.05 0.08 0.04 0.12 0.12 0.03 0.05 0.18 0.12 0.12 0.08 0.12 0.12 0.12 0.05 0.08 0.04 0.19 0.13 0.00 0.24 0.03 0.18 0.02 0.20 0.01 0.18 0.04 0.18 0.01 0.02 0.08 0.14 0.14 0.14 0.14 0,10 0.14 0.14 0.06 0.07 0.14 0.07 0.45 0.14 0.14 0.07 0.14 0.10 0.14 0.14 0.14 0.16

Faceta (17)

Indexao automtica (11)

ISBD (8)

Ci. Inf., Braslia, v. 27, n. 1, p. 11-27, jan./abr. 1998

25

Aplicao de tcnicas infomtricas para identificar a abrangncia do lxico bsico que caracteriza os processos de indexao e recuperao da informao

Zona (5) Zona de colao (2) Ranganathan (11) Assunto bsico (5) Categoria fundamental (6) Classe (36) Classificao (54) Classificao dos dois pontos (5) Conceito (30) Energia (3) Faceta (17) Faceta fundamental (3) Interesse temtico (2) Matria (4) Personalidade (2) PMEST (3) Tempo (3) Assunto (59) Conceito (30) Descritor (34) Elaborao de tesauro (2) Expresso (8) Indexao (72) Linguagem documentria (15) Termo (17) Termo genrico (4) Termo referencial (3) Termo proibido (4) Vocabulrio (5)

5 2 2 6 6 5 5 2 2 3 3 2 2 2 3 2 4 5 12 2 3 5 3 8 2 2 2 2

0.36 0.14 0.07 0.55 0.01 0.04 0.45 0.01 0.12 0.05 0.27 0.18 0.09 0.18 0.27 0.12 0.02 0.05 0.25 0.12 0.01 0.02 0.04 0.06 0.06 0.08 0.06 0.05

Tesauro (17)

NOTA: no foi includo o termo documento por ser excessivamente genrico.

26

Ci. Inf., Braslia, v. 27, n. 1, p. 11-27, jan./abr. 1998

Aplicao de tcnicas infomtricas para identificar a abrangncia do lxico bsico que caracteriza os processos de indexao e recuperao da informao

ANEXO 4 Exemplos de subaglomerados de termos significativos referentes aos aglomerados Faceta e Ranganathan (mostrados no anexo 3), com indicao do nmero de coocorrncias (Fij) e do valor do coeficiente de associao (Eij). Os valores entre parntese indicam as freqncias do termo cabeade subaglomerado e dos termos associados.
CABEADE AGRUPAMENTO Categoria fundamental (6) TERMOS ASSOCIADOS Classificao (54) Classificao dos dois pontos (5) Conceito (30) Energia (3) Faceta (17) Faceta fundamental (3) Matria (4) Personalidade (2) PMEST (3) Ranganathan (11) Classificao (54) Conceito (30) Ranganathan (11) Categoria fundamental (6) Classificao (54) Ranganathan (11) Categoria fundamental (6) Classificao (54) Classificao dos dois pontos (5) PMEST (3) Ranganathan (11) Ranganathan (11) Categoria fundamental (6) Classificao (54) Faceta (17) Ranganathan (11) Categoria fundamental (6) Classificao (54) Faceta fundamental (3) Matria (4) Ranganathan (11) Tempo (3) Assunto (59) Categoria fundamental (6) Classificao (54) PMEST (3) Ranganathan (11) Fij 4 4 2 2 2 3 2 2 3 6 3 2 5 2 2 2 3 2 2 2 3 2 2 2 2 2 3 2 2 2 3 2 2 2 2 2 2 Eij 0.05 0.53 0.02 0.22 0.04 0.50 0.17 0.33 0.50 0.55 0.03 0.03 0.45 0.02 0.02 0.12 0.50 0.02 0.27 0.44 0.27 0.18 0.33 0.04 0.12 0.18 0.50 0.02 0.44 0.33 0.27 0.44 0.22 0.22 0.22 0.44 0.12

Classificao dos dois pontos (5)

Energia (3)

FACETA FUNDAMENTAL (3)

INTERESSE TEMTICO (2) PERSONALIDADE (2)

PMEST (3)

TEMPO (3)

Ci. Inf., Braslia, v. 27, n. 1, p. 11-27, jan./abr. 1998

27

Você também pode gostar