Você está na página 1de 15

INDEXAO AUTOMTICA E MANUAL: REVISO DE LITERATURA*

Simone Bastos Vieira Subsecretria de Biblioteca Senado Federal 70 160 Braslia, DF

RESUMO Abordam-se as diversas pesquisas nacionais e estrangeiras que avaliam a qualidade da indexao manual e automtica, em relao s tcnicas e fontes empregadas para a extrao dos termos significativos e a capacidade de recuperao da linguagem de indexao, nas bases de dados.

1 - INTRODUO A indexao uma tcnica de anlise de contedo que condensa a informao significativa de um documento, atravs da atribuio de termos, criando uma linguagem intermediria entre o usurio e o documento. E um dos processos bsicos de recuperao da informao. Pode ser realizada pelo homem (indexao manual), ou por programas de computador (indexao automtica). Descrevem-se, nesta reviso, as vrias pesquisas, estrangeiras e brasileiras, e seus resultados sobre anlise comparativa entre indexao automtica e manual, anlise comparativa do uso eficiente do ttulo, resumo, texto integral, citaes e outras fontes para indexao e mtodos estatsticos de avaliao de recuperao da informao, atravs dos vocabulrios obtidos por indexao automtica e manual. No se abordaram estudos tericos, matemticos, lingsticos e histricos da indexao. A reviso de literatura estrangeira, ao contrrio da brasileira, no pretendeu ser exaustiva, devido ao grande volume de documentos. Abrangeu-se o perodo de 1970 a maio de 1 984. 2 - FUNDAMENTOS GERAIS DE INDEXAO O Sistema Mundial de Informao Cientfica (UNISIST), em um de seus grupos de estudo.
* Reviso de literatura extrada da dissertao Anlise comparativa entre indexao automtica e manual da literatura brasileira de Cincia da Informao aprovada pela Universidade de Braslia para obteno do grau de Mestre em Biblioteconomia e Documentao, em dezembro de 1984.

elaborou um documento com os princpios de indexao1. Esses princpios estavam voltados, especificamente, para a indexao manual, e pode-se dizer que so os mesmos adotados por vrios autores brasileiros 2 - 3- 4 e estrangeiros5' B' 7, 8' 9, 10. Esse documento foi a primeira tentativa internacional de se normalizar o processo de indexao. De acordo com o UNISIST1, a indexao a operao que descreve e identifica o contedo de um documento, atravs de termos. Os conceitos dos documentos podem ser representados por termos selecionados atravs da linguagem natural ou por smbolos. A indexao est diretamente relacionada com a descrio fsica do documento, e ambos constituem um registro bibliogrfico, proporcionando ao usurio informaes fsicas e de contedo do documento. Os dados so organizados da forma mais acessvel para a recuperao da informao. A indexao pode ser realizada em documentos, no seu todo ou em suas partes, e na estratgia de busca para recuperao em um sistema de informao. Durante a indexao manual os conceitos so extrados por um processo de anlise intelectual, que compreende basicamente trs fases: 1. compreenso do contedo do documento, atravs da leitura completa do texto ou do ttulo, do resumo e de outras partes que compem um documento. O UNISIST1 recomenda o uso no apenas do ttulo e/ou do resumo para indexar, pois nem sempre os mesmos contm os termos que identificam, suficientemente, o contedo;

Ci. Inf., Braslia, 17 (1): 43-57, jan./jun. 1988

43

Indexao automtica e manual: reviso de literatura. Simone Bastos Vieira

2. identificao dos conceitos, estabelecendo o ambiente lgico e as diferenas entre os fenmenos, os processos, as propriedades, as operaes, os equipamentos, etc. 3. seleo dos conceitos, observando alguns fatores como: exaustividade, especificidade e consistncia. O processo de indexao da estratgia de busca requer do profissional de informao a traduo da pergunta do usurio para a linguagem de indexao adotada. Normalmente se utilizam como instrumentos auxiliares tesauros, listas de cabealhos de assunto, listas de termos controlados, etc. Nesse processo essencial a interao usurio-indexador-sistema. Alguns sistemas utilizam, ainda, pesos e elos na recuperao e indexao. Essas fases podem ser melhor visulizadas na Figura 1.

experincia prvia, tcnica de indexao, ao conhecimento do assunto dos documentos, submisso s diretrizes da indexao adotadas pelo sistema. Quanto aos instrumentos de indexao utilizados pelos sistemas de informao, esto relacionados com a sua qualidade4, 8, 12,. O incio da indexao automtica deu-se no final da dcada de 50, quando Luhn13, 14 desenvolveu a idia de que o vocabulrio existente em um documento deveria se constituir na base para a anlise do seu contedo, sendo esta a melhor maneira de recuper-lo. A primeira aplicao realizada por Luhn 13 ' 14 foi para a produo do ndice Key Word in Context (KWIC), elaborado a partir da rotao automtica das palavras significativas dos ttulos. O processo de indexao automtica baseia-se, segundo Robredo 15 , "na comparao de cada palavra do texto com uma relao de palavras vazias de significado, previamente estabelecidas, que conduz, por eliminao, a considerar as palavras restantes do texto como palavras significativas". De acordo com o mesmo autor, esse processo pode identificar termos, pares de termos ou at frases significativas que expressem o contedo do documento, e pode-se dizer que semelhante ao processo de leitura-memorizao.

Documentos

Anlise Conceituai Indexao

Perfis dos [Termos _de

-Armazanagam

O processo de indexao automtica encontra-se melhor visualizado e detalhado na Figura 2.


Busca Perfis Doc. X Pedido

1
Vocabulrio Controlado

PE IDOS DE DOCUMEN OS
DO ARQUIVO Traduo da Perfis dos Pedidos da Busca)

indexao

A indexao automtica um processo que pode utilizar diferentes mtodos (ver item 3.3) desenvolvidos para programas de computador. Essa operao, ainda segundo Robredo15, objetiva, pois utiliza sempre os mesmos programas para extrao de termos significativos dos documentos. O aspecto de inconsistncia devido subjetividade da indexao manual eliminado, possibilitando uma melhor recuperao. Os aspectos de especificidade e exaustividade esto diretamente relacionados com as caractersticas das necessidades de informao delineadas pelos usurios dos sistemas de informao e pela deciso administrativa dos referidos sistemas. O processo de indexao automtica da estratgia de busca realizado pelos mesmos programas, assegurando assim a compatibilidade entre a linguagem utilizada na indexao e a utilizada na formulao da pergunta 16 .

Figura 1 - Processo de indexao manual, segundo Lancaster2 apud Cesarino & Pinto4 (p. 33) Pode-se dizer que a consistncia o ponto de estrangulamento na indexao manual. Segundo Pinheiro 11 , ela reflete similaridades e diferenas de termos atribudos pela subjetividade dos indexadores na fase de anlise de contedo. Tambm est diretamente relacionada, quanto aos indexadores, no que se refere ao seu desempenho, regularidade e imparcialidade de seleo dos conceitos,

44

Ci. Inf., Braslia, 17 (1): 43-57, jan./jun. 1988

Indexao automtica e manual: reviso de literatura. Simone Bastos Vieira

b = nmero total de documentos selecionados. Revocao =. -, sendo que:

a+ c
a = nmero de documentos pertinentes selecionados; c = nmero de documentos no pertinentes selecionados. Vickery18 menciona as seguintes funes das linguagens de indexao: a) recuperar documentos com contedo semelhante; b) recuperar documentos relevantes sobre um assunto especfico; c) recuperar documentos por grandes reas de assunto; d) possibilitar a converso dos termos de indexao entre diferentes linguagens; e e) auxiliar na escolha do termo adequado para a estratgia de busca. Cesariano & Pinto4, posteriormente, abordaram ainda os seguintes aspectos: a) representar o assunto de uma maneira consistente; e b) permitir a compatibilidade entre a linguagem do indexador e a do pesquisador. Segundo Robredo16 a indexao pode ser realizada basicamente em trs nveis, partindo do mais geral para o especfico: a) categorizao - representa o assunto que predomina; b) superficial - representa os conceitos principais de forma geral; c) profunda - representa todos os conceitos fundamentais. Os termos de indexao podem ser expressos atravs de linguagem: a) natural ou livre, utilizando os mesmos termos do autor; b) controlada, adotando termos aceitos e definidos previamente; c) codificada, utilizando cdigos previamente estabelecidos para expressar os conceitos significativos; e d) coordenada as relaes lgicas entre os termos, quando existentes, estabelecem-se atravs de: equivalncia ou sinonmia entre os termos; subordinao ou hierarquia- parte do genrico para o especfico e vice-versa; e coordenao ou associao - os conceitos esto relacionados idia de outro conceito. Os termos podem, de acordo com VicKery 18 , estar inter-relacionados por subgrupos de assunto, elos, pesos ou expressos em pequenas frases da linguagem natural.

>
1r
SUBSTITUIR RAIZ SUBSTITUIR SINNIMO POR DESCR1TOR NORMALIZADO SIGNIFICATIVA POR DESCRITOR NORMALIZADO

(*) DECISO a. NO SIGNIFICATIVO: INCLUIR NA TABELA DE PALAVRAS/RAZES VAZIAS b. SIGNIFICATIVO: INCLUIR NA TABELA DE RAZES SIGNIFICATIVAS

Figura 2 Processo de indexao automtica, segundo Robredo15 (p. 247). Foskett6 define a exaustividade como sendo a extenso com que se analisa um documento, a fim de se estabelecer exatamente todos os assuntos que esse documento referencia, e a especificidade como a extenso em que um sistema de informao permite ser preciso ao se especificar o assunto de um documento. Ambos os fatores, exaustividade e especificidade, esto relacionados, respectivamente, renovao e relevncia, que so as medidas de qualidade da recuperao da informao. A relevncia ou preciso definida por Saracevic 17 como a medida de contato efetivo entre a fonte e o destinatrio. Pode ser quantificada, tal como a revocao, atravs das seguintes frmulas matemticas, mencionandas por Robredo16: Relevncia = . ., sendo que:

a = nmero de documento relevantes selecionados;

Ci. Inf., Braslia, 17 (1): 43-57, jan./jun. 1988

45

Indexao automtica e manual: reviso de literatura. Simone Bastos Vieira

3 - REVISO DA LITERATURA ESTRANGEIRA 3.1 -ESTUDOS COMPARATIVOS ENTRE INDEXAO AUTOMTICA E MANUAL A comparao entre os dois tipos de indexao, automtica e manual, realizada para se verificar as diferenas e semelhanas entre os termos selecionados por programas de um computador e pelo homem. De acordo com os resultados obtidos, avalia-se a aplicabilidade de uma uma ou outra tcnica. Os testes de comparao podem ser divididos em testes de qualidade de indexao e de qualidade de recuperao. A grande maioria de testes comparativos entre descritores atribudos manual e automaticamente, segundo Salton19, 20, chega a um resultado aproximado de 60% de compatibilidade entre uma linguagem e outra. Salton , em um dos seus artigos, descreve uma frmula matemtica pela qual se obtm o coeficiente de avaliao entre dois vocabulrios: c a+ m-c Onde: q = valor comparativo entre dois vocabulrios; c = nmero de termos comuns; a = nmero de termos atribudos automaticamente; m= ' nmero de termos atribudos manualmente. CarroI & Roeloffs22 realizaram estudos comparativos entre indexao manual e automtica na rea de Cincia da Informao, aplicando a anlise de correlao estatstica. Verificaram que os termos obtidos pelos indexadores foram semelhantes aos da indexao automtica, mas, levando-se em conta os custos de contratao, treinamento de mo-de-obra especializada e a inconsistncia humana, a indexao automtica mais vivel. Vrios testes comparativos de revocao e preciso foram realizados para verificar o desempenho da recuperao, atravs de termos atribudos manual e automaticamente.
21

resumo. Salton19 verificou que numa indexao automtica somente com truncagem de palavras, a indexao manual torna-se mais efetiva cerca de 15% a 20%. Quando se utiliza um controle atravs de tesauros e dicionrios, a eficincia da indexao automtica semelhante da manual. Aplicando-se no momento da recuperao a tcnica de realimentao de relevncia na pergunta, a indexao manual menos eficiente. Boyce & Lockard23 aplicaram dois tipos de indexao manual e um tipo de indexao automtica, em textos integrais. Seus resultados demonstram que a indexao automtica foi mais consistente na revocaco com perguntas gerais e especficas. A indexao manual obteve melhores resultados de preciso com perguntas utilizando termos especficos, e a automtica com termos gerais. A indexao automtica to eficiente quanto a manual, concluram ao final. Van der Meulen & Janssen24 avaliaram comparativamente a indexao automtica do programa Information retreva/ System of Philips Research Laboratories (DIRECT), que utiliza ttulos e resumos, e a indexao manual desenvolvida pelo Information Service for Physics, Electrotechnology and Control (INSPEC). Criaram duas bases de dados, com os mesmos documentos, indexadas pelas duas tcnicas, e realizaram duas perguntas-teste. Verificaram, ao contrrio dos resultados mencionados anteriormente, que a indexao manual apresenta melhores ndices de revocao e preciso, cerca de 20% em relao automtica. Os autores justificaram esse resultado devido ao pequeno nmero de perguntas-teste efetuadas. Klngbiel& Rinker25 compararam a eficincia da indexao manual e da automtica realizada em ttulos e resumos pelo programa Machine-Aided Indexing (MAI). A indexao manual e a automtica obtiveram os mesmos ndices de revocao, mas a manual mostrou-se inferior na preciso. Barnes, Costantini & Perschke26 compararam a indexao manual e a automtica em ttulos e resumos do sistema SLC-II. O teste foi realizado em 5 000 documentos do INIS Atomindex. Na recuperao a indexao automtica mostrou-se mais eficiente do que a manual, e os termos existentes em uma estavam compatveis com os termos da outra. A revocao da indexao automtica apresentou um ndice de 90%. A maioria dos testes revela que a indexao automtica produz resultados de recuperao, no mnimo, equivalentes aos obtidos pela manual.

Salton19 e Boyce & Lockard23 realizaram suas experincias na rea mdica. O primeiro comparou os mesmos documentos indexados manualmente, utilizando vocabulrio controlado, e indexados automaticamente, pelo programa Automatic Document Analysis and retreval System (SMART), utilizando termos livres do

46

Ci. Inf, Braslia, 17 (1): 43-57, jan./jun. 1988

Indexao automtica e manual: reviso de literatura. Simone Bastos Vieira

Nos casos em que so aplicadas tcnicas mais sofisticadas na recuperao, a indexao automtica mostra-se, segundo Salton19, 20, ainda mais eficiente. Lancaster aponta alguns dos problemas relacionados com indexao manual: falta de especificidade ou coordenao falsa entre termos no vocabulrio; perguntas muito exaustivas ou muito especficas na formulao da pesquisa; insuficincia de exaustividade, ou exaustividade em excesso, ou ainda omisso de termos importantes na indexao dos documentos; e falta de interao do usurio com o sistema. Wessel28 acrescenta um outro problema. Na teoria, o indexador deveria produzir uma indexao superior realizada por programas de computador, mas na prtica a indexao manual apresenta muitas inconsistncias, para produzir efetivos instrumentos de recuperao da informao. 3.2 -ESTUDOS COMPARATIVOS ENTRE O TTULO E OUTRAS FONTES PARA INDEXAO AUTOMTICA Desde a criao do ndice KWIC por Luhn13, 14, a indexao automtica em ttulos tem sido questionada, tanto pela qualidade da indexao como pela qualidade da recuperao da informao. Vrios estudos foram realizados para testar a validade do ttulo como fonte, para extrao automtica de palavras significativas, como, por exemplo, as pesquisas sobre o crescimento de palavras significativas em ttulos, anlises comparativas qualitativas entre a indexao e recuperao por ttulos, resumos e texto integral, e a utilizao de indexao por ttulo para ndices de servios de alerta. Um dos primeiros estudos foi realizado por Maizell29, em 1960, testando o contedo dos ttulos dos artigos do Physics Abstracts. Ele concluiu que 63% dos ttulos continham informaes suficientes para indexao. Estudos semelhantes foram realizados por vrios autores, comparando palavras de ttulos, extradas automaticamente, e descritores obtidos atravs de indexao manual, existentes nos ndices de assunto de publicaes secundrias. Montgomery & Swanson30, em anlise realizada, encontraram um ndice de 86% dos ttulos
27

incorporados no Index Medicus com contedo suficientemente significativo para serem utilizados em indexao automtica. Ruhl31, em pesquisa na rea de Qumica, encontrou 57% de ttulos contendo todos os descritores existentes no ndice de assunto do Chemical Abstracts e somente 12% dos ttulos no continham trs ou mais palavras significativas. Kraft32, em ttulos de Direito, encontrou 64% de palavras significativas, e somente 10% no continham nenhuma palavra existente no ndice do Index to Legal Periodicals. Os ttulos tornaram-se mais significativos, segundo Tocatlian33, nos anos posteriores ao surgimento do KWIC. O crescimento de informaes significativas em ttulos estaria relacionado com a preocupao dos autores em torn-los mais relevantes, para serem utilizados em ndices tipo KWIC. Bird & Knight34 sugerem ainda outra justificativa: a necessidade de os autores tornarem seus ttulos mais precisos, para poderem se sobressair em relao exploso bibliogrfica existente. Ao examinar o crescimento de palavras em ttulos, Ghosh35 verificou um aumento significativo entre 1933 e 1972, quando 80% dos documentos poderiam ser recuperados por pesquisa somente no ttulo. Buxton& Meadows36 compararam ttulos, nas reas de cincias exatas e cincias sociais, e constataram um significativo aumento de palavras substantivas entre 1947 a 1973. Para eles, o aumento de substantivos nos ttulos pressupe aumento de palavras relacionadas com o contedo dos documentos. Verificaram que os ttulos de Qumica e Botnica possuam maior valor para a recuperao do que os das reas de Fsica, Medicina e Histria. Na rea de cincias sociais que se encontram ttulos com menor valor para a recuperao. Bloomfield37 avaliou comparativamente a qualidade da recuperao da indexao manual, da indexao automtica em ttulos e do KWIC. Concluiu, entre outros resultados, que o uso do resumo para enriquecer a indexao por ttulo gera um nmero elevado de descritores irrelevantes para a recuperao. Svenonius38 afirma que a indexao somente por ttulo apresenta uma preciso maior do que por resumo ou texto integral. De acordo com a autora, o bom desempenho da recuperao no est relacionado com a quantidade de descritores atribudos a um documento, mas sim qualidade dos mesmos.

Ci. Inf., Braslia, 17 (1): 43-57, jan./jun. 1988

47

Indexao automtica e manual: reviso de literatura. Simone Bastos Vieira

Salton19, 39, ao contrrio desses autores, no aconselha o uso somente de ttulos para indexao, pois verificou que menos eficiente para expressar o contedo, do que o uso, tambm, de resumos. Barker, Veal & Wyatt40, ao compararem a eficincia e o custo de busca bibliogrfica em ttulos, resumos e descritores na rea de Qumica, verificaram que o resumo e os descritores, obtidos manualmente, aumentam, respectivamente, em 68% e 35% a revocaco, mas diminuem em 23% e 10% a preciso. Os ttulos so relativamente mais precisos e menos exaustivos. Uma busca em linha utilizando ttulos enriquecidos por resumo ou descritores aumenta cerca de 20% o tempo de uso do computador e, conseqentemente, cresce o custo de impresso das referncias recuperadas, que inversamente proporcional ao ndice de revocaco. O ttulo o mais indicado, pela sua maior preciso e menor custo final ao usurio. Em 1975 Feinberg 41 escreveu um livro tratando de estudos comparativos entre o ndice KWIC e o ndice Key Word out of Context (KWOC), entre outros ndices de palavras permutadas e ndices elaborados por indexao automtica em ttulos. Afirma, como Svenonius38, que o nmero de descritores atribudos a um documento no est relacionado com a qualidade de indexao, e que um grande nmero de descritores pode, inclusive, prejudicar a recuperao. Segundo Feinberg41, uma das vantagens da indexao a partir do ttulo a preciso. Garfield42 e Neufeld et alii43 descreveram a aplicao de indexao automtica em ttulos para elaborao de ndices de assunto em boletins de alerta. Segundo os autores, essa tcnica foi a que ofereceu maior rapidez e preciso. Kwok44, partindo do pressuposto de que o ttulo no possui palavras estatisticamente suficientes para indexao automtica, prope como fator de enriquecimento o uso de ttulos citados nas referncias. Aps anlises comparativas entre o uso de ttulos citados com ttulos e resumos e somente com ttulos, verificou que o enriquecimento com ttulos citados oferece uma representao de contedo mais compacta, uniforme e possibilita estabelecer, de forma adequada, relaes associativas entre os descritores. Garfield45 prope para a indexao automtica o uso de ttulos das citaes existentes nos documentos. As citaes, segundo o autor, so ilustraes ou complementaes do que se deseja informar. So formas de estabelecerem-se

relaes entre trabalhos que possuam pontos em comum e, portanto, so timas fontes de indexao, melhores do que os ttulos. a tcnica aplicada na elaborao do ndice de assunto do Citation Index. Um dos mais recentes trabalhos desenvolvidos para testar comparativamente o desempenho da recuperao da informao, atravs de palavras extradas automaticamente em ttulos, resumos, textos integrais e outras fontes, foi realizado por Cleveland, Cleveland & Wise46. Os autores desenvolveram esta pesquisa baseados no alto custo e na impossibilidade prtica da indexao automtica em texto integral. Verificaram, aps testes de comparao entre oito combinaes de indexao automtica, que os ndices de revocaco e preciso apresentados em documentos indexados em fontes como resumos e ttulos so semelhantes aos obtidos por indexao em texto integral. 3.3 - MTODOS DE INDEXAO AUTOMTICA A indexao automtica uma operao que identifica, atravs de programas de computador, palavras ou expresses significativas dos documentos, para descrever de forma condensada o seu contedo. As palavras significativas so selecionadas automaticamente, atravs de metodologias especficas, adotadas de acordo com as polticas de indexao e recuperao da informao, desenvolvimento de software e capacidade de hardware dos sistemas de informao. As polticas de indexao e recuperao variam, respectivamente, de acordo com a exaustividade e preciso da anlise de contedo e com os ndices de revocaco e preciso do resultado da pesquisa. Ambas as polticas dependem, diretamente, das necessidades de informao, caracterizadas pelos diversos tipos de usurios a que um sistema de informao atende. Esta parte da reviso da literatura trata dos diversos mtodos de indexao automtica sem, no entanto, deter-se nos aspectos histricos de cada um. Esses aspectos encontram-se suficientemente analisados no artigo de reviso publicado por Batty47. 3.3.1 Mtodo de Freqncia ou Anlise estatstica O mtodo de freqncia de palavras foi o primeiro a surgir. Foi proposto por Luhn13, 14 em 1957 e 1958. O autor demonstrou

48

Ci. Inf., Braslia, 17 (1): 43-57, jan./jun. 1988

Indexao automtica e manual: reviso de literatura. Simone Bastos Vieira

em seus trabalhos que a freqncia de uma palavra em documentos est diretamente relacionada com a capacidade dessa palavra de/para representar o contedo do documento, a nvel de indexao e de recuperao da informao. As palavras mais adequadas para a indexao sero as que possurem mdia freqncia. O mtodo de freqncia trata da contagem automtica do aparecimento da palavra, que pode estar localizada, segundo Cleveland, Cleveland & Wise46, no ttulo, resumo, ttulo das referncias citadas, texto e em diversas combinaes entre estas unidades, como, por exemplo, em ttulo e resumo. Garfield45 acrescenta ainda a localizao das palavras significativas atravs da freqncia no ttulo das citaes. A contagem automtica do termo realizada atravs da ocorrncia e / ou co-ocorrncia da palavra. A freqncia pode ser estabelecida, de acordo com Soergel48 e Sparck Jones49, atravs da: a. ocorrncia total da palavra no documento - a palavra contada todas as vezes que aparece, fazendo-se o somatrio das vezes em que co-ocorre, posteriomente; b. ocorrncia nica da palavra no documento conta-se somente uma vez a palavra, independentemente do nmero de vezes que ela aparece; c. ocorrncia da palavra na coleo a contagem realizada somando-se seu aparecimento da coleo. Soergel48 diferencia, ainda, contagem de conceito. A contagem de conceito o somatrio das freqncias de ocorrncia de todas as palavras que determinam aquele conceito. A freqncia de ocorrncia de palavras ser utilizada para desenvolver a estrutura terminolgica, e a do conceito para desenvolver a estrutura classificatria. A freqncia pode ser realizada, tambm, em palavras truncadas ou em razes de palavras. Alguns sistemas utilizam esse tipo de freqncia para diminuir o rudo, evitando o aparecimento de mesmas palavras com diferentes desinncias gramaticais21, 50, 51, 52. O mtodo de freqncia possui outras aplicaes, alm da indexao automtica. Rosenberg53 utilizou a freqncia de co-ocorrncia de palavras como forma de aumentar o desempenho da indexao manual, fornecendo ao indexador uma lista de descritores candidatos extrados automaticamente pela anlise estatstica combinada com a anlise de associao entre palavras. Esses descritores, acompanhados de suas respectivas

freqncias, sero utilizados para indexar novos documentos. Henzler54 aplicou a anlise estatstica em um estudo quantitativo comparando o vocabulrio livre e o controlado, e concluiu que a linguagem controlada fornece uma maior perda de informao do autor para o usurio. O ideal seria combinar as duas linguagens de indexao. A maior aplicao desse mtodo, o de freqncia, para realizar a seleo automtica de descritores. A lei de distribuio de palavras em um texto, a lei de Zipf, surge como uma das tcnicas que complementam a escolha do descritor. Vrios autores aplicaram-na em seus experimentos. Svenonius38 aplicou a primeira lei de Zipf para verificar qual a freqncia que melhor se adapta seleo automtica de descritores. Os resultados encontrados demonstraram que palavras especficas, as de baixa freqncia, proporcionam maior preciso na recuperao; em contrapartida, as palavras de mdia freqncia proporcionam maior revocaco. Schuegraf & Heaps52, Pao50 e Rowbottom & Willet51 trabalharam com a lei de Zipf em razes de palavras. Os dois primeiros autores propem o uso de radicais de palavras para otimizar os custos da recuperao e, principalmente, de armazenamento da informao. Propem, tambm, um algoritmo para fragmentar automaticamente palavras eqidistantes. Rowbottom & Willet51 no aconselham a extrao de palavras aplicando a lei de Zipf em pequenos textos, tais como ttulos e resumos, pois a indexao no ser suficientemente exaustiva e precisa. 3.3.2 - Mtodos de atribuio de peso O mtodo de atribuio de peso aos descritores, segundo Salton39, uma forma de atribuir-lhes valores semnticos para torn-los mais precisos, sem no entanto diminuir sua capacidade de revocaco. baseado na freqncia de cada descritor. Luhn13, 14 foi, novamente, o precursor deste mtodo. Ele props um modelo relacionando diretamente a freqncia de uma palavra ou raiz de palavra ao valor dessa palavra para expressar o contedo dos documentos, ou seja, quanto maior a freqncia, maior peso a palavra receber. O peso pode ser atribudo, de acordo com Parker 55 , Salton, Wu & Yu56, Salton & Yang 57 , Sparck Jones58 e Soergel 48 , por:

Ci. Inf., Braslia, 17 (1): 43-57, jan./jun. 1988

49

Indexao automtica e manual: reviso de literatura. Simone Bastos Vieira

a) freqncia total ou freqncia nica a palavra recebe o mesmo valor do nmero de sua freqncia; b) fonte se a palavra se encontrar em um documento reconhecido como relevante, receber um peso maior do que outra existente em um documento menos relevante; c) por fonte e usurio o usurio quem julgar se o documento recuperado relevante ou no. Se for, os descritores utilizados na estratgia de busca tero, posteriormente, seu valor aumentado; e d) freqncia na coleo. A indexao automtica com pesos,proposta por Sparck Jones58, denominada por Salton & Yang57 de "freqncia inversa do documento", trabalha com a especificidade da palavra. As palavras de baixa freqncia so as mais especficas e recebem maior peso. As palavras de alta freqncia so os responsveis pelo rudo da recuperao da informao. Segundo Sparck Jones58, a extrao de um nmero grande de palavras por documento aumenta a quantidade de freqncia, mas no a qualidade dos novos descritores. Nesse mesmo trabalho Sparck Jones58 realizou estudos comparativo-qualitativos sobre o desempenho da recuperao atravs da atribuio de pesos por freqncia de ocorrncia e co-ocorrncia de palavras em documentos e ocorrncia de palavras na coleo. Verificou-se que o peso atribudo em relao coleo o mais problemtico. A anlise discriminatria de documentos uma das variaes do mtodo de atribuio de peso. SaltonS Yang57 e Salton, Wu & Yu56 aplicaram esta anlise na freqncia de palavras na coleo para aperfeioar a revocao e preciso da recuperao. A melhor palavra ser aquela que possuir capacidade de discriminao entre os vrios documentos semelhantes de uma coleo. Nesta tcnica as palavras que possuem mdia freqncia so as mais indicadas para a indexao do documento ou da pergunta. As palavras de alta e baixa freqncia so, respectivamente, raras e gerais em termos de ocorrncia e possuem um baixo poder de discriminao. O valor da palavra depender da maior ou menor distncia que provocar entre os documentos da coleo. Esse valor calculado atravs de uma frmula matemtica especfica. Dillon & Federhart59 aplicaram em sua pesquisa um outro tipo de anlise discriminatria para selecionar razes de palavras relativamente freqentes. Trabalharam, ao contrrio dos outros autores, anteriormente citados, s com razes que possuam alta freqncia de ocorrncia na coleo. As razes foram analisadas de acordo com os vrios significados semnticos e aplicou-se,

posteriormente, uma funo discriminatria para detectar, caracterizar e classificar os grupos semelhantes e diferentes. Salton & Yang57 e Salton, Wu& Yu56 analisaram a teoria da relevncia do usurio como mtodo de atribuio de peso. Esta uma tcnica que aplica a freqncia de ocorrncia de palavras no documento e na coleo. Requer uma realimentao constante, pois utiliza o julgamento da relevncia do usurio para atribuio de pesos. Robertson & Sparck Jones60, Yu & Salton61 e Harper & Van Rijsbergen62 propuseram frmulas matemticas para atribuio de pesos baseados na teoria de relevncia. Parker55 desenvolveu um modelo matemtico aplicado atribuio de peso pelo usurio, no momento da pergunta, utilizando palavras extradas por indexaco manual. 3.3.3 - Mtodo probabilstico O mtodo probabilstico utilizado por Carrol & Roeloffs 22 , Bookstein& Swanson63 e Harter64 aplica a freqncia de co-ocorrncia em palavras truncadas automaticamente. As palavras truncadas so extradas atravs de um critrio estatstico de distribuio binominal, denominado distribuio de Poisson. Aquelas palavras cuja freqncia de distribuio for descrita pela funo de Poisson sero no-significantes. Carrol & Roeloffs22 aplicaram esta tcnica para comparar a indexao automtica e a manual utilizando artigos da rea de Cincia da Informao. Bookstein & Swanson63 aplicaram, alm desta tcnica, a anlise de "cluster", concluindo que as palavras significativas tendem a se aproximarem mais do que as no-significativas e concentram-se mais nas reas de "cluster". Harter64 introduziu a noo de relevncia, aperfeioando o modelo proposto por Bookstein & Swanson63 e criou a distribuio de Poisson 2 para analisar, com maior profundidade, palavras tcnico-cientficas. As palavras so tratadas em dois nveis - significantes e significantes especializadas. Harter64, baseado em modelo matemtico por ele elaborado, definiu um algoritmo para medir a "indexabilidade" de uma palavra como reflexo do significado relativo das palavras.

50

Ci. Inf., Braslia, 17 (1): 43-57, jan./jun. 1988

Indexao automtica e manual: reviso de literatura. Simone Bastos Vieira

3.3.4 - Mtodo matemtico O mtodo matemtico baseado na identificao da freqncia de co-ocorrncia em pares de palavras em documentos, atravs de algoritmo. Tanimoto65, em 1958, foi o primeiro a propor este mtodo, mas para a classificao automtica. Esta idia foi aplicada indexao automtica, segundo demonstra Batty74, a partir dos anos 60. Steinacker66, em 1974, props um algoritmo para detectar frases ou grupos de palavras significativas. O algoritmo produz "cortes no texto" ao localiz-los e, posteriormente, ordena-os alfabeticamente construindo um ndice rolado das vrias combinaes entre as palavras de um mesmo corte. Entre as aplicaes dessa tcnica, podem ser citadas: criao de dicionrios, elaborao de tesauros e desenvolvimento, controle e manuteno de enciclopdias. 3.3.5 - Anlise de "cluster" A anlise de "cluster" foi introduzida, segundo Batty47, no incio dos anos 60 pelo Cambridge Language Research Unit (CLRU), para a classificao de documentos e elaborao de esquemas de classificao. A tcnica se baseia, de acordo com Salton21, no reconhecimento automtico, em um grupo de documentos, dos subgrupos de assunto que mais se assemelham entre si e entre outros subgrupos. Sparck Jones67 realizou um projeto de indexao automtica e recuperao baseado na anlise de "cluster". E aplicada em pattern of term, termos simples, pares de termos isolados em correlao matricial, termo a termo. 3.3.6 - Mtodo de associao entre palavras O mtodo de associao entre palavras, mencionado por Salton21, utiliza a freqncia de ocorrncia e co-ocorrncia de palavras ou pares de palavras para identificar o contedo dos documentos. As palavras isoladas e as que se co-associam so identificadas em sentenas. Se as co-associaes das mesmas palavras co-ocorrerem com determinada freqncia, ento, sero consideradas "descritores associados". O modelo associativo proposto por Jones, Giuliano & Curtice68 parte do princpio de que todas as

palavras significativas esto relacionadas linearmente. A primeira associao entre as palavras denominada relao contnua, a segunda representa relaes de sinonmia. Lesk69 comparou os resultados de recuperao em documentos indexados por anlise de freqncia e associao, e verificou que o mtodo associativo aumenta o desempenho da recuperao, alm de poder ser utilizado em construo e normalizao de terminologia para tesauros. 3.3.7 - Experimentos em avaliao de recuperao da informao em linguagens de indexao Pesquisa sobre medidas de desempenho de recuperao em linguagens documentrias comearam a se desenvolver, de acordo com Regazzi 70 , aps a Segunda Guerra Mundial, devido a necessidade de selecionar a informao til no caos documentrio instalado pela exploso bibliogrfica. A comunidade de pesquisadores realizou vrios estudos para descobrir a frmula ideal de se medir a eficincia de sistemas de recuperao da informao e os instrumentos utilizados para a identificao do contedo dos documentos. Bourne71 levantou, em sua reviso, as vrias formas encontradas para quantificar o desempenho da recuperao em linguagens de indexao. Encontrou, como fatores mais citados, as medidas de revocaco e preciso. Vrias instituies avaliaram seus sistemas de recuperao e indexao utilizando as duas medidas. Bourne71 apresenta um quadro histrico resumindo os projetos experimentais encontrados na literatura, a partir de 1954. Dentre estes destacam-se os projetos Cranfield e SMART, por serem os mais citados na literatura. O projeto Cranfield, como menciona Bloomfield72, subdivide-se em l e II; e ambos foram desenvolvidos sob a direo de C. W. Cleverdon, no College of Aeronautics, Inglaterra. O Cranfield l, iniciado em 1957, tinha como objetivos testar e comparar a capacidade de recuperao de quatro sistemas de classificao: Classificao Decimal Universal, Alphabetic Subject Index, uma classificao facetada e o Uniterm System of Coordinate Indexing. Cleverdon 73 mediu a eficincia de cada linguagem atravs dos ndices de revocaco e relevncia. Vrias crticas foram dirigidas ao projeto72, 74, tais como: algumas variveis no julgamento de

Ci. Inf., Braslia, 17 (1): 43-57, jan./jun. 1988

51

Indexao automtica e manual: reviso de literatura. Simone Bastos Vieira

relevncia no foram suficientemente controladas, e o nmero mnimo de palavras, entre 20 e 60, para descrever de forma adequada o contedo dos documentos, tal como proposto por CIeverdon73, no adequado para armazenagem e indexao manual. Em continuao s experincias do Cranfield l, conforme mencionam Bloomfield72 e Simmons75, Cleverdon criou, em 1967, o Cranfield II para testar trs linguagens de indexao. O primeiro tipo de indexao utilizou termos livres, o outro, termos controlados e o terceiro, conceitos simples. Os testes foram, novamente, baseados nas medidas de revocaco e preciso. Partiu da linguagem mais simples para a mais sofisticada, utilizando dicionrios de sinonmia, associaes entre conceitos e hierarquia de termos. Os resultados apresentados, segundo descreve Salton19, 20, demonstraram que a indexao com termos simples e livres mais eficiente do que as mais sofisticadas. Cleverdon73, atravs dessas experincias, props uma indexao, idealmente exaustiva, com 33 descritores por documento. Novamente, de acordo com Bloomfield72, foi questionada a viabilidade de um nmero to grande de descritores. Segundo Regazzi70, o maior mrito dos projetos Cranfield foi abrir as pesquisas na rea de avaliao de recuperao da informao entre diversas linguagens documentrias, alm de ter definido claramente como aumentar a revocaco e preciso dos sistemas de informao. O projeto SMART foi desenvolvido, a partir de 1965, por Salton21. Foi elaborado para realizar avaliaes de vrias linguagens de indexao, em termos de revocaco e preciso. Contm, tambm, um conjunto de programas para realizar indexao automtica em textos integrais. Vrios testes de avaliao de linguagem foram realizados no projeto SMART 21 , e possibilitaram algumas concluses: a) o uso de termos com peso , normalmente, mais efetivo do que termos sem peso; b) o uso de dicionrios de sinonmia melhor do que o controle por palavras truncadas; c) o uso de ttulos , normalmente, menos efetivo para a anlise de contedo do que o resumo; e d) a mais importante das concluses, segundo Salton 21 , e que foi, tambm, encontrada no Cranfield: as linguagens de indexao mais sofisticadas so menos eficientes do que as que utilizam termos livres e simples.

4 - REVISO DA LITERATURA NACIONAL A literatura brasileira sobre indexao automtica, comparada com a estrangeira , significativamente, menor. O que, provavelmente, reflete o pouco desenvolvimento desta tcnica no Pas. A indexao automtica de documentos, no Brasil, iniciou-se, praticamente, segundo Braga76, com a utilizao do programa KWIC para elaborar os ndices das bibliografias especializadas que o Instituto Brasileiro de Bibliografia e Documentao (IBBD), atual Instituto Brasileiro de Informao em Cincia e Tecnologia (IBICT), publicava. Os ndices de assunto, conforme menciona Oliveira77, eram elaborados por palavras-chave permutadas, retiradas, automaticamente, dos ttulos das obras, como incluso, se necessrio, de termos preestabelecidos para enriquecer os ttulos. A primeira experincia da utilizao do programa KWIC, de acordo com Zaher& Duarte78 e Zaher et alii79, foi para editar a Bibliografia Brasileira de Fsica, em 1968. Foi realizada por um grupo de especialistas do IBBD e do Centro Brasileiro de Pesquisas Fsicas. Pode-se dizer que este fato marca o incio da indexao automtica no Brasil. Aps as experincias do antigo IBBD com o programa KWIC, surgiram trabalhos que o questionavam80 ou o aplaudiam78 e relatos de experincias de sua utilizao, para a indexao e recuperao automtica da informao em bibliotecas81. Esses trabalhos esto concentrados entre 1 960 e 1 970. Aps 1 970 encontram-se algumas pesquisas que no tratam especificamente de indexao automtica, mas que servem como apoio ao desenvolvimento dessa tcnica. Estudos sobre a utilizao de ttulos e/ou resumos para indexao automtica foram realizados por Souza82 e Braga76. A primeira autora analisou ttulos de artigos de peridicos estrangeiros em Cincia da Informao e Biblioteconomia, simulando, manualmente, a tcnica do KWIC. Constatou um crescente aumento do nmero de palavras significativas nos ttulos dos artigos dos peridicos analisados, entre 1970 e 1980, anos posteriores criao do KWIC, e concluiu que existe uma tendncia de/para aumentar as palavras significativas nos ttulos. Braga76 prope, em sua dissertao, a utilizao do resumo como fator de enriquecimento do ttulo.

52

Ci. Inf., Braslia, 17 (1): 43-57, jan./jun. 1988

Indexao automtica e manual: reviso de literatura. Simone Bastos Vieira

Os ttulos, apesar de serem pontos de acesso ao contedo de documentos, so insuficientes para uma perfeita indexao e recuperao da informao. A autora concluiu que a proporo de palavras significativas do resumo da ordem de doze para cada uma existente no ttulo. Seu estudo foi realizado em ttulos de peridicos cientficos na rea de Qumica. Ela aplicou a tcnica do KWIC simulado: e para comparar as palavras dos ttulos e dos resumos, elaborou tabelas de freqncia de palavras. A anlise de freqncia de palavras utilizando leis bibliomtricas foi encontrada pela primeira vez na literatura brasileira em 1973. Maia83 aplicou a primeira e segunda leis de Zipf, esta ltima na forma enunciada por Booth34, assim como a frmula de transio de Goffman85, como fatores de anlise da informao em lngua portuguesa. As duas leis de Zipf estabelecem relaes entre a ordem de srie de uma palavra e a freqncia de seu aparecimento em texto suficientemente longo. Booth84 enuncia a primeira lei, atravs de uma frmula matemtica (r. f = c). Estabelece que, quando as palavras de um texto qualquer so ordenadas numa tabela, em ordem decrescente de freqncia de aparecimento, o produto da ordem na srie (r) da palavra por sua freqncia (f) uma constante (c). A frmula de transio de Goffman85 determina as ordens de srie nas quais devem-se encontrar as palavras significativas de um texto em lngua inglesa. Maia83 concluiu que as leis so aplicveis lngua portuguesa, apresentando para o portugus um valor diferente da constante "c", de lngua inglesa. Outros estudos bibliomtricos foram realizados utilizando as leis de Zipf, sendo alguns na rea de Lingstica documentria86, e outros utilizando a lei de Bradford 11 . Robredo87 utilizou a lei de Bradford, formulada por Brookes88, como instrumento de controle terminolgico estabelecendo "descritores de escopo" - termos de alta freqncia e baixa especificidade que caracterizam reas do conhecimento, "descritores de facetas" - termos de mdia freqncia e especificidade, caracterizam subreas de interesse, e os "descritores pontuais", os de baixa freqncia e alta especificidade, caracterizando um nmero limitado de documentos. O mtodo de freqncia de palavras em ttulos e ou resumos, para determinao de descritores e construo de ncleos de termos, foi aplicado por Robredo em vrios trabalhos89, 90, 15, 91, 92.

O Centro de Informaes Nucleares (CIN), segundo Barreiro93, aplica a tcnica de freqncia e uso de descritores para a seleo adequada do descritor em indexao manual e atualizao do tesauro INIS. A anlise estatstica e estudos de co-ocorrncia de frases e palavras significativas foram utilizados como metodologia por Queiroz94, para elaborao automtica de resumos, e por Torres Filho95, na elaborao de ndices automticos de livros tcnicos. Este autor props um algoritmo de freqncia. A indexao automtica, utilizando razes vazias e razes significativas foi proposta por Robredo16, 90 para aumentar a rapidez de processamento e a a preciso da recuperao da informao. Freund96 descreve, em artigo, tcnica semelhante. As razes so extradas automaticamente por anlise estrutural, atravs de um algoritmo especfico. A tcnica utilizada somente para a recuperao em linha, ou seja, para a indexao da pergunta e montagem da estratgia de busca. O autor fez, tambm, uma breve comparao entre a anlise estrutural e o truncamento arbitrrio de palavras. Na literatura brasileira encontram-se alguns trabalhos que aplicam a lingstica computacional indexao automtica em textos integrais. Citamos Haller97, 98 e Andreewsky & Ruas99. O primeiro autor desenvolveu seu programa na Universidade de Braslia. Esse programa consta de anlises morfolgica e sinttica das palavras do texto, para extrair os descritores. Possui vrios dicionrios, entre eles o de freqncia de palavras vazias e significativas e o de razes. Andreewsky & Ruas" utilizam mtodos lingsticos e estatsticos de atribuio de pesos para as palavras significativas. O programa uma adaptao para a lngua portuguesa do Systme Syntaxique et Probablliste d' Indexation et de Recherche d' Informations Textuelles (SPIRIT), desenvolvido pelo Centre National de Ia Recherche Scientifique (CNRS) para a lngua francesa. Possui algoritmos de anlise sinttica e anlise semntica, alm de diversos dicionrios. 5 - CONCLUSO As tcnicas de indexao automtica e manual prendem-se em maior ou menor grau s caractersticas dos programas e da filosofia de recuperao dos sistemas de informao. A aplicabilidade de uma tcnica ou de outra foi testada atravs de vrios experimentos, em

Ci. Inf., Braslia, 17 (1): 43-57, jan./jun. 1988

53

Indexao automtica e manual: reviso de literatura. Simone Bastos Vieira

diversas reas do conhecimento e em vrias lnguas. Ambas as tcnicas foram consideradas eficientes. Em alguns casos h maior aceitao da indexao automtica, em outros, da manual. Depende das lnguas, das reas do conhecimento em que foram aplicadas e das fontes de informao utilizadas na extrao do termo que expressar o assunto do documento. De maneira geral as pesquisas demonstraram um aumento de palavras significativas nos ttulos aps o surgimento do ndice KWIC, principalmente, na rea de cincias exatas. O que torna o ttulo uma fonte a ser considerada para indexao. O resumo , tambm, fonte importante, mesmo que cause em determinadas situaes uma menor preciso de recuperao. O texto integral, para indexao automtica, , praticamente, invivel, devido ao alto custo de digitao e armazenamento. As linguagens que utilizam termos livres, sem pr-coordenaco, possibilitam uma maior flexibilidade na montagem da estratgia de busca, fornecendo uma recuperao mais precisa. A anlise de freqncia e a atribuio de valores ou pesos aos termos e pares de termos so fatores que aumentam a preciso da resposta em buscas em linha, alm de serem instrumentos vlidos para a elaborao de tesauros. No Brasil, os estudos experimentais iniciaram-se no final da dcada de 60, com a elaborao de ndices KWIC para bibliografias, mas no foi dada continuidade a esses estudos. No final da dcada de 70, as pesquisas de indexao automtica recomearam atravs de estudos individuais, realizados em cursos de ps-graduao, concentrando-se na anlise de freqncia, anlise semntica 3 sinttica do termo. As pesquisas de avaliao de linguagem de indexao para a recuperao esto menos desenvolvidas. A tendncia mundial, segundo Lancaster100: "ser a do aumento contnuo de bases de dados textuais, com a eliminao da tcnica de indexao manual e o desenvolvimento de vocabulrios controlados a posterior!". Artigo recebido em 9 de novembro de 1987.
REFERNCIAS BIBLIOGRFICAS 1 The UNISIST draft on indexing principies: test and comments. International Classification, 4(1):29-34, May 1977.

CAVALCANTI, Cordlia Robalinho. Indexao & Tesouro; Metodologia e Tcnicas. Ed. prelim. Braslia, ABDF, 89p. CAVALCANTI, Cordlia Robalinho. Metodologia de indexao. Braslia, 1 976. 8f. CESARINO, M. A. da N. & PINTO, M. C. M. F. Anlise de assunto. Revista de Biblioteconomia de Braslia, S (1):32-43, Jan./Jun. 1980.

BORKO, H. Toward a theory of indexing. Information Processing and Management, 73 (6):355-66, 1977. 6 FOSKETT, A. C. The subject approach to Information. 3. ed. London, C. Bingley, 1977. 476p. 7 FUGMANN, R. On the practice of indexing and its theoretical foundations. International Classification, 7 j 1): 13-20, Apr. 1 980.
8

HUTCHINS, W. J. Languages of indexing and Classification: a linguistic study of structures and functions. Stevenage, Peter Perenigrus Ltd., 1975. 148p.

^ JONES, Kevin P. How do we index a report of some Aslib Informatics Group Activity. Journal of Documentation, 39 (1):1-23, Mar. 1983.
10

JONKER, F. Indexing theory, indexing methods and research services. New York, Scarecrow Press, 1964. 124p.

11 PINHEIRO. Lena Vnia Ribeiro. Medidas de consistncia indexao: interconsistncia. Cincia da Informao, 7 (2):109-14, 1978. 12 LEONARD, L. E. Inter-indexer consistency studies. 1954 1975: a review of the literature and summary of study results. Illinois, University of Illinois, Graduate School of Library Science, 1977. 51 p. (Occasional papers). 13 LUHN, H. P. The automatic creation of literature abstracts. IBM Journal of Research and Development. 2: 1 59-1 65, 1958.
14

LUHN, H. P. A statistical approach to mechanized encoding and searching of literary information. IBM Journal of Research and Development, 1 (4|:309-17. Oct. 1957.

15 ROBREDO, Jaime A indexao automtica de textos: o presente j entrou no futuro. In: Machado, U. O., ed. Estudos Avanados em Biblioteconomia e Cincia da Informao. Braslia, ABDF, 1982. v. 1, p. 236-74.
16

ROBREDO. Jaime Documentao de hoje e de amanh. Braslia ABDF, 1976. VIII, 172p. SARACEVIC, Tefko. Relevance; a review of and z framework for think the notion in information science. Journal of American Society for Information Science, 26 (6): 321-43, Nov./Dec. 1975. VICKERY, B, C. Structure and function in retrieval languages. Journal of Documentation, 27 (2):69-82, June 1971. SALTON, G. A comparison between manual and automatic indexing systems, Computing Reviews, 10 ,(6):274, June. 1969.

17

54

Ci. Inf., Braslia, 17 (1): 43-57, jan./jun. 1988

Indexao automtica e manual: reviso de literatura. Simone Bastos Vieira

20 SALTON, G. A new comparison between conventional indexing and automatic text processing. Journal of the American Society for Information Science, 23 (2):75-84, Mar./Apr. 1972.
21

38

SVENONIUS, Elaine. An experiment n index term frequency. Journal of the American Society for Information Science, 23 (2):1 09-21, Mar./Apr. 1972.

SALTON, G. Automatic text analysis: automatic document indexing and classification methods are examined and their effectiveness assessed. Science, 168 (3929):335-43, 17 Apr. 1970. CARROLL, John M. & ROELOFFS, Robert. Computer selection of keywords using word-frequency analysis. American Documentation, 20 (3):227-33, July 1969.

^ SALTON, G. Automated language processing. Annual Review of Information Science and Technology, 3:169-99, 1968. BARKER, F. H.: VEAL, D. C. & WYATT, B. R. Comparative efficiency of searching titles, abstracts and index terms in a free-text data base. Journal of Documentation, 28 (1):22-36, Mar. 1972. FEINBERG, H. Title derivatve indexing techniques: a comparative study. Metuchen, Scarecrow Press. 1973. 297 p. GARFIELD, E. A weekly subject index for Current Contents/ Life Sciences. In: ANNUAL MEETING OF THE MEDICAL LIBRARY ASSOCIATION, 71., San Diego, June 11-15, 1972. NEUFELD, M. L. et alii. Automatic title word indexing for a weekly current awareness service. In: ANNUAL MEETING OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE, 36, Los Angeles, October 21-25, 1973. v. 10. Innovative Development in Information Systems: their benefits and costs. Ed. by Helen J. Waldron & F. Raymond Long. Washington, DC, ASIS and Westport, Conn., Greenwood Press, 1973. pp. 167-8. KWOK, K. L. Cited titles: a new source of keyword extraction for automatic document classification and retrieval. In: ASIS ANNUAL MEETING, 37. Atlanta, 13-17 Oct., 1 974. Proceedings. Washington, ASIS, 1974. v. 11, pp, 56-57. GARFIELD, E. A conceptual review of citation indexing. In: Citation indexing its theory and application in Science Technology, and Humanities. New York, John Wiley and Sons, 1978, p. 1-5. CLEVELAND, D. B.; CLEVELAND, A. D. & WISE, O. B. Less than fulltest indexing using a non-boolean searching model. Journal of the American Socienty for Information Science, 35 (1): 19-28, 1984. BATTY, C. D. The automatic generation of index languages. Journal of Documentation, 25 (2):142-51, June 1969. SOERGEL, Dagobert. Automatic and semi-automatic methods as an aid in the construction of indexing languages and thesauri. International Classification, 1 (1):34-9, May 1974. SPARCK JONES, Karen. Indexing term weighting. Information Storage and Retrieval, 9 (11 ):61 9-33, Nov. 1973. AO, Miranda Lee. Automatic text analysis based on GoffmarVs transition phenomena of word ocurrences. Journal of the American Society for Information Science, 29 !3):121-4, May. 1978.

40

22

41 23

BOYCE, Bert. & LOCKARD, Marta. Automatic and manual indexing performance in a small file of medicai literatura. Bu/etin of Medicai Library Association, 63 (4):378-85, Oct. 1975. VAN DER MEULEN. W. A. & JANSSEN. P. J. F. C. Automatic versus manual indexing. Information Processing and Management, 13 |1):13-21. 1977.

42

24

43 25

KLINGBIEL, Paul H. & RINKER, Catherine C. Evaluation of Machine-Aided Indexing. Information Processing and Management, 12 (6):351-66, 1976. BARNES, C. l.; COSTANTINI, L.& PERSCHKE, S. Automatic indexing using the SLC II Sustem. Information Processing and Management, 14 (2):107-119, 1978. LANCASTER, F. W. Evaluation of the operating efficiency of Medlars: final report. Bethesda, National Library of Medicine, 1968.

26

27

44

8 WESSEL, A. E. Indexing and analysis of information-some preliminary computs. In: Computer/aided information retrieval. Los Angeles, Melville Publishing Company, 1975, p. 1-10 MAIZELL, R. Value of titles for indexing purposes. Revue de Ia Documentation, 27:1 26-7, 1 960. MONTGOMERY, C. & SWANSON, D. R. Title indexing. American Documentation, 73:359-64, 1962.

45

29

30

46

31 RUHL, M. J. Chemical documents and their titles: human concept indexing vs KWIC - Machine indexing./lmemjan Documentation, 15 |2):1 36-41, Apr. 1964.
32

47

KRAFT, D. H. A comparison of keyword in context (KWIC) indexing of titles with a Subject Heading Classification System. American Documentation, /5(1):48-52, Jan. 1964.

48

33 TOCATLIAN J. J. Are titles of Chemical papers becoming rnore informative? Journal of the American Society for Information Science, 27:345-50, 1970.
34

49

BIRD. P. R . & KNIGHT, M. A. Word count statistics of scientific papers. Information Scientist, P(2):67-9,1975.

35 GHOSH, Jata S. Content representation in document titles: a case study with prostaglantin lit erature.Aslib Proceedings, 26(2):83-6, Feb. 1974.
36

BUXTON, A. B. & MEADOWS, A. J. The variation in the information content of titles of research papers with time and discipline. Journal of Documentation, 33 (1):46-52, Mar. 1977. BLOOMFIELD, M. Evaluation of indexing 2. The Simulated Machine Indexing Experiments. Special Libraries, 61 (9|:501-7. Nov. 1970.

51 ROWBOTTOM, Mary E. & WILLET, Peter. The effect of

subject matter on the automatic indexing of full text. Journal ofthe American Society for Information Science, 33 (3):1 39-41, May 1982.
52

37

SCHUEGRAF, Ernest. & HEAPS, l. Indexing for associative processing. Canadian Journal of Information Science. 5:93-101, May 1980.

Ci. Inf., Braslia, 17 (1): 43-57, jan./jun. 1988

55

Indexao automtica e manual: reviso de literatura. Simone Bastos Vieira

53 ROSENBERG, Victor. A study of statistical measures for predicting terms used to index documents. Journal of American Society for Information Science, 22 (1):41-50, Jan./Fab. 1971. 54 HENZLER, R. G. Free orcontrolled vocabularies: some statistical user-oriented evaluations of biomedical information systems. International Ctassifcation, 5 (1):21-6, Mar. 1978. 55 PARKER, Lorraine M. Purgail8. Towards a theory of document learning. Journal of the American Society for Information Science, 34 (1): 16-21, Jan. 1983.
56

69 LESK, M. E. Word-word associations in document retrieval systems. In: CORNELL UNIVERSITY. Department of Computer Science. Report n ISR-13 to the National Science Foundation. Ithaca, N. Y. Jan. 1968. Section 9.
70

REGAZZI, J. J. Evaluating indexing systems: a revew after Cranfield, The Indexer, 12 (1):14-21, Apr. 1980. BOURNE, C. P. Evaluation of indexing systems. Annual Peview of Information Science and Techonology, 7:171-90, 1966.

71

SALTON, G.; WU, H.& YU, C. T. The measurement of term importance in automatic indexing. Journal of the American Society for Information Science, 32 (3):1 75-86, May 1981. SALTON, G. & YANG, C. S. On the specification of term values in automatic indexing. Journal of Documentatior, 29 (4):351-72, Dec. 1973.

2 BLOOMFIELD, M. Evaluation of indexing 4. A Review of the Cranfield Experimenta. Speciai Libraries, 62 (1): 24-9, Jan. 1971. CLEVERDON. C. W. Report on the testng analysis of an investigation into comparative efficiency of indexing systems. Cranfield, College of Aeronautics, ASLIB, Cranfield Research Project, 1962. n.p. CUADRA, C. A. & KATTER, R. V. Experimental studies of relevance judgements. Final Report, v. 1 Project. Summary. Santa Monica, System Development Corp., 1967. (TM-3520 0001 700).

57

73

58 SPARCK JONES, Karen. A statistical interpretation of term specificity and its application in retrieval. Journal of Documentation, 28 |1):11-21, Mar. 1972.
59

74

DILLON, Martin FEDERHART, Peggy. The use of discrimnant analysis to select content-bearing words. Journal of the American Society for Information Science, 33 (4):245-53, July, 1982. ROBERTSON, S. E. & SPARCK JONES, J. Relevance weighting of research terms. Journal of the American Society for Information Science, 27:129-146, 1976. YU, C. T. & SALTON, G. Precision weighting-an effective automatic indexing method. Journal of Association for Computing Machinery, 23:76-88, 1 976. HARPER, D. J.& VAN RIJSBERGEN, C. J. An evaluation of feedback in document retrieval using co-ocurrence data. Journal of Documentation, 34(3):189-216, 1978. BOOKSTEIN, A. & SWANSON, D. R. A decision theoretic foundation for indexing. Journal of American Society for Information Science, 26 (1):45-50, 1975.

5 SIMMONS, R. F. Automated language processing. Annual Revew of Information Science and Technology, 7:137-69, 1966. BRAGA, L. M. Palavras de ttulos e resumos como acesso ao contedo do documento: uma anlise numrica. Rio de Janeiro, URFJ/IBICT, 1982. 181 p. (Dissertao). OLIVEIRA, Elvia A. Automao da Bibliografia Brasileira de Cincias Sociais. In: CONGRESSO REGIONAL DE DOCUMENTAO, 3., REUNIO FID/CLA 11., Lima, 1972. Anais. Rio de Janeiro, IBBD, 1972. p. 59-61. ZAHER, C. R.& DUARTE, Y. C. Sistema Kwic versus descritores. In: CONGRESSO SOBRE DOCUMENTAO, 2.; FID/CLA Reunio 9., Rio de Janeiro, 1 969. /Ina/s. Rio de Janeiro, IBBD, 1969. p. 195-206.

60

76

61

77

62

78

63

64 HARTER, Stephen P. A probabilistic approach to automatic Keyword indexing. Journal of the American Society for Information Science, 26 (4):1 97-206, July-Aug. 1975; 26 (5):280-289, Sept./0ct. 1975. 65 TANIMOTO, T. T. An elementary mathematical theory of classification and predication, IBM, 1958. n. p. 66 STEINACKER, Ivo. Indexing and automatic significance analysis. Journal of American Society for Information Science, 25 (4):237-41, July/Aug. 1974.
67

79 ZAHER, C. L. et alii. Automao da informao em Fsica no Brasil. In: SEMINRIO SOBRE INFORMTICA, Rio de Janeiro, 1968. Anais. Rio de Janeiro, IBBD, 1969. p. 39-52. 80 KNIGHT, G. N. Treinamento em indexao: um curso da Society of Indexers, Rio de Janeiro, FGV, 1974. 216 p.
81

SPARCK JONES, Karen. The role of automatic indexing in operational online retrieval systems. In: FID CONGRESS, 39., Edinburg, 25-28 September 1978. New trends in documentation. London, Aslib, 1980. p, 33-8. JONES, P. E.; GIULIANO, V. E. & CURTICE, R. M. Papers on automatic language processing linear models for associative retrieval, Report ESD-TR-67-202. Ad Little, Inc., Cambridge, 1967. v. 2

MACHADO, Norma & HAMAR, Alfredo A. Sistema de arquivamento e indexao por computador, do acervo de programas de um Centro de Processamento de Dados. In: CONGRESSO REGIONAL DE DOCUMENTAO, 2., REUNIO FID/CLA, 9., Rio de Janeiro, 1 969. Anais. Rio de Janeiro, IBBD, 1970. p. 237-41. SOUZA, Elana Santos. Estudo dos ttulos de artigos de peridicos da rea de Biblioteconomia e Cincia da Informao na dcada ps KWIC: 1960 a 1970. Cincia da Informao, 7 (2):115-7. 1978.

82

68

83 MAIA, E. L e S. Comportamento bibliomtrico da lngua

portuguesa como veculo de representao da informao. Cincia da Informao, 2 (2):99-1 38, ! 973.

56

Ci. Inf., Braslia, 17 (1): 43-57, jan./jun. 1988

Indexao automtica e manual: reviso de literatura. Simone Bastos Vieira

84

BOOTH, A. D. A "Law" of ocurrences for words of law frequency. Information and Control, W (4):386-93, 1967.

94 QUEIROZ, Mucio G. S. Um estudo comparativo de processos estatsticos para obteno automtica de resumos. Rio de Janeiro, PUC, 1973. (Dissertao).
95

85 GOFFMAN, W. A general theory of communication. In: SARACEVIC, T. Introduction to Information science. New York, Bowker, 1970. pp. 726-47.
86

RIBEIRO, L. A. Aplicao dos mtodos estatsticos e da teoria da informao e da comunicao na anlise lingstica: estudo da linguagem jornalstica. Cincia da Informao, 3 (2):151-4, 1974. ROBREDO. J. Otimizao dos processos de indexao dos documentos e recuperao da informao mediante o uso de instrumentos de controle terminolgico. Cincia da Informao, 11 (1]:3-18, 1982.

TORRES FILHO, Paulo Roberto Pinheiro. Um sistema semi-automtico para o apoio indexao de documentos tcnicos. Rio de Janeiro, PUC, 1983. 82 p. (Dissertao).

96 FREUND, George Eduardo. Anlise estrutural para aumentar a eficincia de pesquisa online. Cincia da Informao. 11 (1):19-26, 1982. 97 HALLER, Johann. Anlise automtica de textos em sistemas de informao. Revista de Biblioteconomia de Braslia, 11 (1):105-113, jan./jun. 1983.
98

87

88 BROOKES, B. C. Bradford's law and the bibliographv of science. Nature, 224:953-56, 1 969. 89 BINAGRI. Guia brasileiro de pesquisa agrcola em andamento. Braslia, 1978. 2v. (Projeto PNUD/FAO/BRA/72/020. DOC./TEC. 78/061 e DOC./TEC./78062). 90 ROBREDO, J. A indexao automtica como mecanismo bsico no processo de transferncia da informao In: CONGRESSO LATINO-AMERICANO DE BIBLIOTECONOMIA E DOCUMENTAO, 1., Salvador, 21-26 set., 1 980. Anais, 19 p.
91

HALLER, Johann. Processamento de textos em linguagem natural. In: CONGRESSO NACIONAL DE INFORMTICA, 15., Rio de Janeiro, out. 1982. (Trabalhos apresentados). Rio de Janeiro, 1982. 9 p. ANDREEWSKY. Alexandre S RUAS, Vitoriano. Indexao automtica baseada em mtodos lingsticos e estatsticos e sua aplicabilidade lngua portuguesa Rio de Janeiro, PUC - Dl. 1 982. 31 p.

99

100 LANCASTER, F. W. Trends in subject indexing from 1957 to 2000. In: FID CONGRESS, 39., Edinburgh, 25-28 September 1978. New trends in documentation and Information. London, Aslib, 1980. p. 223-33.

ROBREDO, J. et alii. Construo de um ncleo de thesaurus em agricultura baseado no uso real dos descritores In: REUNIO BRASILEIRA DE CINCIA DA INFORMAO, 1.. Rio de Janeiro, 1975. Anais. Rio de Janeiro, IBICT, 1978. v. 1. pp. 289-303.

AUTOMATIC AND MANUAL INDEXING: A LITERATURE REVIEW. ABSTRACT Presents several national and foreign research works which evaluate the quality of the manual and automatic indexing related to the techniques and sources employed for the extraction of significant terms and the retrieving capabilities of the indexing language in the data bases.

92 ROBREDO, J. et alii. Elaboracin de un thesaurus agrcola baseado en criterios de eficiencia del lenguaje en et proceso de comunicacin. Braslia, SNIDA, 1975. 23 p. 93 BARREIRO, S. C. experincia em indexao do Centro de Informaes Nucleares. In: REUNIO BRASILEIRA DE CINCIA DA INFORMAO,!., Rio de Janeiro, 1 975. .Anais. Rio de Janeiro, IBICT. 1978, pp. 237-45.

Ci. Inf., Braslia, 17 (1): 43-57, jan./jun. 1988

57