Você está na página 1de 285

F. W.

Lancaster

Indexao e resumos
Teoria e prtica

Segunda edio revista e atualizada

Lancaster, F. W. 1933Indexao e resumos : teoria e prtica / F. W. Lancaster ;


traduo de Antonio Agenor Briquet de Lemos. 2 ed. Ver.
atual. Braslia, DF : Briquet de Lemos / Livros, 2004.
Ttulo original: Indexing and adstracting in theory and
practice.
Bibliografia
ISBN 85-85637-24-2
1. Indexao. 2. Resumos Redao. I. Ttulo.

Desde sua primeira edio em 1991, este livro encontrou excelente acolhida entre os
profissionais da informao. Sua traduo brasileira inaugurou as atividades editoriais de
Briquet de Lemos / Livros, em 1993. Esta terceira edio, cujo original foi publicado nos EUA
em 2003, foi inteiramente revista e atualizada, tendo sido includos dois novos captulos: sobre
bases de dados de imagens e sons, e indexao na internet.
Trata-se de texto que alcanou a categoria de clssico na matria e que recomendado
praticamente em todos os cursos de biblioteconomia e cincia da informao. Alm disso, sua
utilidade incontestvel para profissionais que, entre outras atividades, trabalhem na
produo e manuteno de bases de dados, construo de portais na internet, intranets e em
programas de gesto do conhecimento. A parte sobre resumos reveste-se de particular
interesse no apenas para produtores de bases de dados, mas tambm para editores de
peridicos cientficos.
F. W. Lancaster professor emrito da Graduate School of Library and Information
Science da University of Illinois (EUA). Reconhecido internacionalmente como um dos maiores
expoentes da biblioteconomia e cincia da informao, teve a primeira edio desta obra
premiadas, em 1992, pela American Society for Information Science, como o melhor livro de
cincia da informao. Premiao que voltou a ser concedida a trs outros ttulos de sua
autoria.

Como referenciar os captulos do livro?


LANCASTER, F. W. Ttulo do captulo. In: ________. Indexao e resumos: teoria e prtica.
Braslia, DF: Briquet de Lemos/Livros, 2004. Cap. Nmero do captulo, p. Pgina inicial-Pgina
final.
OBS.: preencha todos os campos (basta dar um clique em cima de cada um)
com os dados necessrios e copie depois todo o modelo de referncia acima e cole
no local desejado.
Pginas inicial e final de cada captulo no livro original impresso de onde se extraiu o
texto
Divise
s

Parte 1
Teoria,
princpio
se
aplica
es

Parte 2
Prtica

Apndic
es

Captulo

Ttulo

Pgina
Inicial

Pgina
Final

Introduo

Princpios da indexao

23

A prtica da indexao

24

49

ndices pr-coordenados

50

67

Coerncia da indexao

68

82

Qualidade da indexao

83

99

Resumos: tipos e funes

100

112

A redao do resumo

113

134

Aspectos da avaliao

135

157

10

Mtodos adotados em servios impressos de indexao e


resumos

158

185

11

Como melhorar a indexao

186

198

12

Da indexao e redao de resumos de obras de fico

199

213

13

Bases de dados de imagens e sons

214

248

14

Buscas em textos

249

283

15

Indexao automtica, redao automtica de resumos e


processos afins

284

338

16

A indexao e a internet

339

357

17

O futuro da indexao e redao de resumos

358

368

18

Exerccios de indexao

369

382

19

Exerccios de redao de resumos

383

391

Sntese de princpios de redao de resumos

392

393

Anlise de contedo modular

394

396

Sumrio

Prefcio................................................................................................................6
Agradecimentos..................................................................................................7
Uma nota sobre terminologia (e a redescoberta da roda)...................................8
Lista de figuras..................................................................................................11
Parte 1 Teoria, princpios e aplicaes............................................................14
Captulo 1 - Introduo...................................................................................14
Captulo 2 Princpios da indexao...............................................................17
Extenso do registro........................................................................................................... 17
Etapas da indexao de assuntos.......................................................................................18
Atinncia............................................................................................................................. 21
Traduo.............................................................................................................................. 24
Vocabulrios controlados..................................................................................................... 25
Indexao como classificao............................................................................................. 25
Especificidade do vocabulrio............................................................................................. 26

Captulo 3 A prtica da indexao................................................................28


Exaustividade da indexao................................................................................................ 30
Princpio da especificidade.................................................................................................. 34
Outras diretrizes.................................................................................................................. 35
ndices ps-coordenados..................................................................................................... 36
Instrumentos auxiliares da indexao.................................................................................37

Captulo 4 ndices pr-coordenados.............................................................46


Classificao em ndices de assuntos..................................................................................52
Nvel de coordenao.......................................................................................................... 56
ndices de final de livro....................................................................................................... 57
ndices pr-coordenados versus ndices ps-coordenados..................................................57

Captulo 5 Coerncia da indexao..............................................................58


Fatores que influem na coerncia........................................................................................59
Coerncia na anlise conceitual versus coerncia na traduo...........................................63

Captulo 6 Qualidade da indexao..............................................................67


Como reconhecer uma boa indexao..............................................................................69
Fatores que influem na qualidade da indexao..................................................................70
A qualidade est relacionada coerncia?..........................................................................72
A utilidade dos estudos de coerncia..................................................................................73
A qualidade medida com o emprego de um padro............................................................74

Captulo 7 Resumos: tipos e funes............................................................78


Finalidade dos resumos....................................................................................................... 80
Resumos modulares............................................................................................................ 82
Minirresumos....................................................................................................................... 85
Resumos telegrficos.......................................................................................................... 85

Captulo 8 A redao do resumo..................................................................86


Contedo e formato............................................................................................................ 87
Resumidores........................................................................................................................ 91
Qualidade e coerncia na redao de resumos...................................................................92
Questes de compatibilidade.............................................................................................. 95
O boletim interno................................................................................................................ 96
Inclinao para um assunto.................................................................................................99

Captulo 9 Aspectos da avaliao...............................................................100


Cobertura.......................................................................................................................... 100
Recuperabilidade............................................................................................................... 106
3

Previsibilidade................................................................................................................... 109
Atualidade......................................................................................................................... 111
Normas.............................................................................................................................. 112
Outros aspectos concernentes avaliao.......................................................................112

Captulo 10 Mtodos adotados em servios impressos de indexao e


resumos........................................................................................................114
ndices alfabtico-especficos............................................................................................114
ndices classificados.......................................................................................................... 118
Outros ndices................................................................................................................... 124
ndices de citaes............................................................................................................ 131
Concluso.......................................................................................................................... 134

Captulo 11 Como melhorar a indexao...................................................137


Indexao ponderada........................................................................................................ 137
Elos entre termos.............................................................................................................. 138
Indicadores de funo....................................................................................................... 139
Subcabealhos.................................................................................................................. 143
Dispositivos da linguagem de indexao...........................................................................144

Captulo 12 Da indexao e redao de resumos de obras de fico........146


A fico em particular....................................................................................................... 148
Redao de resumos......................................................................................................... 152

Captulo 13 Bases de dados de imagens e sons........................................156


Indexao de imagens...................................................................................................... 156
Abordagens baseadas no contedo...................................................................................159
Imagens na Rede Mundial.................................................................................................164
Resumos de imagens........................................................................................................ 165
Atributos da imagem......................................................................................................... 166
Com base em conceitos ou em contedo?........................................................................168
Metadados e vocabulrios de indexao...........................................................................170
Bases de dados de sons.................................................................................................... 170
Recuperao de msica.................................................................................................... 173
Sistemas multimdias........................................................................................................ 174
Concluses........................................................................................................................ 176

Captulo 14 Buscas em textos....................................................................178


Um pouco de histria........................................................................................................ 178
Recursos auxiliares de busca............................................................................................180
Linguagem natural versus vocabulrio controlado: algumas consideraes gerais...........180
Reviso de estudos afins: antes de 1980..........................................................................184
Reviso de estudos afins: a partir de 1980........................................................................189
Sistemas hbridos.............................................................................................................. 191
O vocabulrio ps-controlado............................................................................................ 192
Abordagens atuais............................................................................................................. 194
O que foi concretizado?..................................................................................................... 195
Perguntas e respostas....................................................................................................... 197
Descoberta de conhecimento............................................................................................ 197
Concluses........................................................................................................................ 198

Captulo 15 Indexao automtica, redao automtica de resumos e


processos afins.............................................................................................199
Indexao por extrao automtica..................................................................................200
Indexao por atribuio automtica................................................................................202
Estudos anteriores sobre indexao..................................................................................202
Outras formas de classificao.......................................................................................... 204
Redao automtica de resumos......................................................................................208
Operaes automticas de recuperao.........................................................................212
Abordagens atuais............................................................................................................. 214
Concluses........................................................................................................................ 227

Captulo 16 A indexao e a internet.........................................................232


Servios de busca na Rede................................................................................................232
4

Recursos de recuperao..................................................................................................233
Metadados......................................................................................................................... 236
Resumos na Rede.............................................................................................................. 238
Spamming de ndice e outras trapaas.............................................................................239
Vinculao de hipertexto/hipermdia.................................................................................240
Classificao na internet................................................................................................... 241
Portais............................................................................................................................... 242

Captulo 17 O futuro da indexao e redao de resumos.........................244


Abordagens profissionais................................................................................................... 246
Abordagens alternativas.................................................................................................... 247
Abordagens automticas................................................................................................... 248
Concluso.......................................................................................................................... 248

Parte 2 Prtica...............................................................................................250
Captulo 18 Exerccios de indexao..........................................................250
Itens a serem indexados................................................................................................... 250
Indexao e explicaes do autor.....................................................................................253

Captulo 19 Exerccios de redao de resumos..........................................259


PARTE 1............................................................................................................................. 259
Resumos deste autor......................................................................................................... 259
PARTE 2............................................................................................................................. 261
Resumos............................................................................................................................ 261
Comentrios deste autor................................................................................................... 263

Apndice 1 Sntese de princpios de redao de resumos.........................265

Princpios gerais................................................................................................................ 265


Princpios relativos ao contedo........................................................................................265

Apndice 2 Anlise de contedo modular com mdulos temticos...........267


Entradas de ndice............................................................................................................. 268

Prefcio
A primeira edio desta obra, que recebeu o prmio de melhor livro do ano sobre cincia
da informao, outorgado pela American Society for Information Science, foi publicada em
1991; a segunda foi lanada em 1998. Ambas foram bem-recebidas pelos crticos, e o livro tem
sido amplamente utilizado como texto didtico na Amrica do Norte, no Reino Unido e em
outros pases.
Entre 1991 e 1998 este campo passou por mudanas notveis, o que suscitou a
necessidade de novos captulos, principalmente sobre a internet e a indexao e elaborao de
resumos para bases de dados de imagens e sons. As mudanas verificadas a partir de 1998
foram menos marcantes. No entanto, ocorreram avanos que definiam a necessidade de uma
terceira edio.
Todo o texto foi atualizado, embora os captulos iniciais, que tratam mais de princpios
bsicos, permaneam bem similares aos da segunda edio. Em compensao, alguns dos
captulos finais foram substancial ou completamente reescritos. Refiro-me aos captulos 13-17
que tratam, respectivamente, de bases de dados de imagens e sons, buscas em textos,
indexao automtica e atividades afins, indexao e a internet, e o futuro da indexao e da
redao de resumos.
No alterei muitas das figuras porque acho que as que foram utilizadas na segunda
edio ainda continuam totalmente vlidas para ilustrar os aspectos que desejo mostrar. Isso
ainda mais verdadeiro no que tange ao captulo 10, sobre servios impressos de indexao e
resumos. Embora pudesse ter atualizado as pginas apresentadas como amostras, pareceu-me
bastante desnecessrio faz-lo.
Embora a indexao e redao de resumos fossem antigamente tidas como processos
que somente interessavam a bibliotecas e a algumas editoras, sua relevncia e utilidade so
reconhecidas hoje em dia de modo muito mais amplo, pois, obviamente, encontram aplicao
em todos os tipos de recursos de informao em formato digital. Assim, esta edio, embora
continue sendo destinada fundamentalmente ao uso como texto didtico em escolas de
biblioteconomia e cincia da informao (e programas afins), ainda se reveste de interesse
para um pblico muito maior: produtores de bases de dados de todos os tipos, bem como
aquelas pessoas interessadas em outras reas, como o projeto de intranets, desenvolvimento
de portais, sistemas de gerenciamento da informao, e gesto do conhecimento em geral.
Acho que devo dizer algo acerca das fontes citadas. O autor de uma recenso da primeira
edio criticou-me por continuar citando fontes antigas. Apesar de ter feito um esforo para
atualizar por completo as fontes citadas (at o comeo de 2003), no tenho por que me
desculpar por continuar citando material antigo e at muito antigo. Para mim inconcebvel
que um livro sobre este assunto deixe de citar (por exemplo) Cutter (1876) e Ranganathan
(dcada de 1930). Ademais, muitas pessoas que hoje escrevem sobre esses temas parecem
no ter interesse nem conhecer as primeiras contribuies feitas a este campo. Acredito que
seja importante, principalmente para os estudantes, compreender como este campo se
desenvolveu e reconhecer que muitas das idias atualmente apresentadas como novas podem
ser encontradas, de fato, na literatura de trinta ou mais anos passados, em forma um tanto
similar.
Do mesmo que nas edies anteriores, esta no procura lidar com os ndices de livros
isolados, que aparecem no final dos livros impressos. Trata-se de assunto bem estudado em
outras obras escritas por pessoas com muito mais experincia do que eu nessa rea especfica.
Esta edio deve ainda ser vista como um texto de natureza introdutria. Embora creia
que os captulos 1-12 sejam bastante abrangentes, j sobre os temas focalizados nos captulos
13-15 foram escritos livros completos, de modo que esses captulos, em particular, devem ser
lidos como introdues a esses temas.
F.W. LANCASTER
Urbana, Illinois (EUA)
Maro de 2003

Agradecimentos
Encontra-se consignada nas legendas das figuras a permisso para utilizao de vrias
figuras de diferentes fontes. Alm disso, quero agradecer a: Elsevier Science pela permisso
para citar alguns trechos extensos de textos publicados em Information Processing and
Management; OCLC Inc. pela permisso para reproduzir longas passagens de um artigo de
ONeill et al. (2001); John Wiley and Sons pela permisso para citar vrios trechos extensos de
material publicado no Journal of the American Society for Information Science and Technology
(e seus antecessores); Information Today Inc. (<www.infotoday.com> pela permisso para
reproduzir extensas citaes de Rock (2001), de EContent e de Online; IBM pela permisso para
reproduzir uma longa citao do IBM Systems Journal; Thomas Craven pela permisso para
reproduzir citaes de vrios de seus artigos; Getty Research Institute por extensas citaes de
Layne (2002); IOS Press pela permisso de reproduzir urna extensa citao de Nielsen (1997);
e ACM Publications pela permisso de fazer citao de Wactlar et al. (2002).
Os termos e definies extrados da iso 5963:1985 so reproduzidos com a permisso da
International Organization for Standardization (ISO). Esta norma pode ser obtida junto a
qualquer membro da 150 e no stio na Rede da secretaria central da ISO no seguinte endereo:
<www.iso.org>. O detentor do direito autoral a ISO.
Por fim, quero agradecer a vrias pessoas por sua ajuda nesta edio: Bella Weinberg por
ter me chamado a ateno para algumas fontes que, de outra forma, me teriam passado
despercebidas; Bryan Heidorn por ter lido um primeiro rascunho do captulo 13; Susanne
Humphrey e Lou Knecht por atualizarem as informaes de que dispunha acerca da National
Library of Medicine; June Silvester, do Center for Aero Space Information; Chandra Prabha pelas
informaes do OCLC; o pessoal da Library and Information Science Library da University of
Illinois (e especialmente Sandy Wolf), por sua paciente ajuda na localizao de material para
mim, e Kathy Painter pelo seu trabalho, tradicionalmente excelente, de colocar a reviso do
texto em formato eletrnico.
F.W. LANCASTER
Urbana, Illinois
Abril de 2003

Uma nota sobre terminologia (e a redescoberta da roda)


Tenho trabalhado em bibliotecas ou em torno delas h muitos anos. Durante grande parte
desse tempo estive envolvido, de uma ou outra forma, com a anlise de assuntos. Em 1957,
comecei a trabalhar redigindo resumos, que abrangiam uma ampla gama de material cientfico
e tecnolgico, para um boletim de resumos para a indstria, tarefa que exigia tambm um
nvel minucioso de indexao temtica dos itens resumidos. Em 1958, assumi o trabalho de
editor desse boletim. Anteriormente tivera experincia com a classificao de livros numa
biblioteca pblica, alm de redigir anotaes, sobre caractersticas locais, a serern includas
nas fichas catalogrficas (na dcada de 1950 a catalogao cooperativa ou centralizada ainda
no era a norma). Por volta de 1961 estava envolvido no campo da recuperao da
informao, e publiquei meu primeiro artigo em 1963 e o primeiro livro em 1968.
Em outras palavras, tem sido muito longa minha participao nas reas de anlise
temtica/recuperao da informao, presenciei inmeras mudanas e conheci muitos dos
principais atores deste palco em particular.
At o final da dcada de 1940 e comeo da dcada de 1950, o campo que hoje
lembramos como recuperao da informao era domnio quase exclusivo da profisso de
bibliotecrio. A realizao de duas importantes conferncias internacionais, alm do
reconhecimento de que os computadores poderiam aportar uma contribuio importante ao
problema da recuperao da informao, tornaram o campo mais atraente e para ele
acorreram pesquisadores de muitas outras reas.
Ao longo de um perodo de mais de 50 anos, as contribuies bibliografia sobre
recuperao da informao tiveram origem em praticamente todos os campos acadmicos,
inclusive matemtica, cincia da computao, psicologia, estatstica, direito e medicina
(informtica mdica).
Embora rostos novos e novos enfoques sejam sempre bem-vindos, lamentvel que
muitos dos que hoje trabalham neste campo no tenham nenhuma formao prvia e, por isso,
nenhum alicerce slido sobre o qual construir. O maior problema causado pelo fato de que
muitos dos que atualmente trabalham com recuperao da informao parecem
completamente ignorantes do fato de que outros processos diferentes dos totalmente
automticos foram aplicados, com algum sucesso, recuperao da informao durante mais
de 100 anos, e que de fato existe uma bibliografia sobre recuperao da informao alm
daquela da comunidade de informtica. Exemplo gritante encontra-se em Agosti et al. (1995),
que definem as etapas da indexao como extrao de termos [term extractionl, remoo de
termos proibidos- [stop-terni remova], fuso [conflation] e ponderao [weighting].
Muitas idias surgidas hoje possuem claros antecedentes na literatura de 30 ou 40 anos
atrs, mas esses trabalhos pioneiros so completamente desconhecidos para os pesquisadores
atuais. Um caso pertinente a pesquisa sobre mapas visuais ou navegadores [browsers] para
facilitar a navegao em sistemas de hipermdia (por exemplo, Fowler et al., 1996; Zizi, 1996)
que basicamente uma redescoberta dos mapas semnticos [semanhic roadmaps] de Doyle
(1961).
O campo da recuperao de imagens parece ser o pior de todos em matria de
reinventar a roda. Por exemplo, um artigo de Schreiber et al. (2001) descreve um esquema
para indexao de fotografias (denominam-no anotao fotogrfica baseada na ontologia
[ontology-based photo annotation], que se baseia essencialmente num conjunto bastante
simples de facetas. Parece que acreditam que a anlise de facetas surgiu com eles ou, pelo
menos, com Outros que trabalham na mesma rea. Ironicamente, o trabalho deles foi
publicado num peridico dedicado a sistemas inteligentes.
Os cientistas da computao que escrevem sobre recuperao da informao parecem
reconhecer e citar somente Outros cientistas da computao que escrevem sobre recuperao
da informao. Exemplo bvio o reconhecimento e a citao quase unnimes de Salton como
a autoridade em medidas de revocao e preciso na avaliao de atividades de recuperao
da informao. Gerard Salton, por mais importante que tenha sido no campo da recuperao
da informao, com a maior certeza no foi o introdutor dessas medidas, que, de fato,
remontam dcada de 1950.
Esse fenmeno de redescobrimento foi salientado por Holmes (2001), ele prprio um
cientista da computao, que nos faz lembrar a advertncia feita por George Santayana para
quem aqueles que no podem recordar o passado esto condenados a repeti-lo. Holmes,
partindo disso, acrescenta:

[...] o que pensamos que sejam inovaes muitas vezes so meras repeties [...] nossa
profisso pode desenvolver-se de modo mais rpido e melhor por meio de inovaes
cumulativas, construindo sobre os alicerces de seu passado ao invs de ignor-lo (p. 144).

Ele afirma que, em particular, as obras de Vannevar Bush e Hans Peter Luhn, que datam
de 40 ou 60 anos, contm idias que desde ento so reinventadas.
Minha pior experincia com esse problema especfico ocorreu h vrios anos, quando
deparei com um artigo escrito por um cientista europeu, essencialmente um matemtico,
acerca de assunto sobre o qual eu publicara anteriormente. Quando escrevi para mostrar que
ele deixara de citar meu trabalho anterior, e diversos outros de autoria de outros
pesquisadores, ele contestou, folgadamente, para dizer que nunca pesquisava na literatura, a
no ser que estivesse escrevendo um artigo de reviso! Que espcie de no-cincia egosta
essa?
Outro resultado da multiplicidade de profisses que agora contribuem para a literatura de
anlise temtica/recuperao da informao est na substituio, sem necessidade, da
terminologia, apropriada e reconhecida, da profisso bibliotecria. Exemplo bvio
metadados. O Oxford English Dictionary (em linha) registra 1968 como o ano do aparecimento
dessa palavra. Na poca foi usada para designar dados que descreviam conjuntos de dados
(numricos ou estatsticos). Desde ento tornou-se praticamente um substituto para descrio
bibliogrfica, denominao esta perfeitamente razovel, com a qual convivamos h muitos e
muitos anos e que aceita em normas internacionais. Algum, claro, poderia argumentar
que bibliogrfico aplica-se apenas a livros. Sua extenso, porm, a outras formas
documentrias (como em base de dados bibliogrficos e referncia bibliogrfica) convive
conosco h muito tempo.
Alguns autores, com certeza, chamaram ateno para o mesmo problema. Milstead e
Feldman (1999), por exemplo, argumentam convincentemente:
Quer o chamemos de catalogao. indexao ou metadados. o conceito familiar aos
profissionais da informao. Agora, o mundo eletrnico por fim o descobriu. Faz alguns anos,
somente uns poucos filsofos haviam ouvido falarem metadados. Hoje em dia, difcil
encontrar uma publicao sobre recursos eletrnicos que ignore essa palavra. [...] Como o
personagem que passou toda a vida escrevendo prosa sem saber que o fazia, 1 os
bibliotecrios e indexadores vm h sculos produzindo e normalizando metadados.
Ignorando este legado, uma imensa variedade de outros atores ingressaram recentemente
nesse campo, e muitos deles no tm qualquer idia de que algum mais antes deles j
tenha estado ali, feito aquilo. Sistemas diferentes esto sendo desenvolvidos para tipos
diferentes e s vezes os mesmos de informao, disso resultando uma atmosfera catica de
normas conflitantes (p. 25).

No obstante, parecem dispostas a aceitar a nova terminologia.


Pessoas de nosso prprio campo, que certamente deveriam saber mais (e ser mais
responsveis), colaboram com essa situao. Por exemplo, Greenberg (2003) nos diz que a
gerao de metadados por seres humanos ocorre quando uma pessoa, como um criador
profissional de metadados ou um fornecedor de contedo, produz metadados. Para ela criador
profissional de metadados o catalogador ou indexador, conforme admite depois em seu
artigo (embora ela tambm inclua web inaster nesta categoria). Fiquei profundamente
chocado (e de modo algum satisfeito) ao saber que gastei vrios anos de minha vida como
criador profissional de metadados, se bem que inocente disso.
Muitos que escrevem sobre recuperao de imagens usam o termo anotao para
designar a atribuio de rtulos de texto, como palavras-chave, que identificam o que a
imagem representa, o que, evidentemente, e indexao. Isso duas vezes lamentvel
porque anotao [annotation], h muitos anos, empregada para designar o que ,
fundamentalmente, um resumo muito sucinto (que aparecia antigamente em fichas de
catlogos). Liu e Li (2002) mencionam termos de indexao atribudos a videoclipes como
etiquetas de anotao [atinotation tags]. Parece que elas constituem uma descrio
semntica [semantic description] e so obtidas por meio de extrao semntica [semantic
extraction] que, provavelmente, significa identificao do assunto tratado.
Parte dessa confuso terminolgica se deve a desleixo no trabalho editorial. Faz pouco
deparei com um artigo em que a palavra indexation, que estava at no ttulo, era usada como
sinnimo de indexing. O vocbulo indexation realmente existe na lngua inglesa, mas
empregado apenas em contexto econmico (por exemplo, em relao a certas variveis, como
aumento ou reduo de salrios e juros s mesmas taxas do ndic de custo de vida); quase
com certeza no sinnimo de indexing. Os autores, neste caso, tm uma desculpa porque
1

Monsieur Jourdan, personagem de Le bourgeois gentilhomme, de Molire. (N.T.)

so franceses (indexation o equivalente francs de indexing), mas no h desculpa para os


editores de um peridico em lngua inglesa se permitirem tal incorreo. Aguardo agora que a
palavra indexation venha a substituir indexing na literatura de cincia da computao.
Santini (2002), outro cientista da computao, conclamou seus colegas de profisso a ser
mais responsveis no uso da linguagem. E adverte que:
O irrefrevel uso incorreto da linguagem em informtica ameaa levar nossa profisso a se
isolar da sociedade e tornar incompreensveis nossas realizaes (p. 128).

Santini concorda com o ponto que venho tentando expor:


Outras palavras fazem mais sentido, mas esto sendo inexplicavelmente abandonadas em
favor de vocbulos menos apropriados (p. 126).

Dentre os termos que ele destaca para serem desprezados esto data warehouse
[armazm de dados] e data inart [mercado de dados] em vez de data- base [base de dados].
Uma palavra que enfrento cena dificuldade em aceitar inining [minerao] (como em
data inining, text mining, speech inining ou Web mining [minerao de dados, minerao de
texto, minerao de fala ou minerao da Rede], que amide usada como sinnimo de
knowledge discovery [descoberta de conhecimento]. Meu pai passou muitos anos da vida
numa mina de carvo do norte da Inglaterra, trabalhando como cavouqueiro. Eram longas
horas de trabalho, e durante a maior parte do ano s lhe era possvel ver a luz do dia uma vez
por semana. Muitas vezes, cavoucava o carvo num veio molhado, deitado na gua, de costas
ou de lado, numa galeria de teto muito baixo. No tenho certeza de que esse tipo de extrao
trabalhosa, na semi-escurido, seja a analogia que os data miners [mineradores de dados]
queiram realmente usar.
Minha maior queixa, porm, o fato de o substantivo 'classiflcation haver sido
praticamente substitudo por (pasme-se!) taxonomy (pasme-se duas vezes!!), ontology ou
at (pasme-se trs vezes!!!) taxonoinized set of terms [conjunto taxonomizado de termos]. A
maneira como estes termos so definidos em artigos recentes mostra claramente que so
empregados como sinnimos de classification scheme [esquema de classificao].
Caracterstico disso um artigo de Hovy (2003) que define:
[...] uma ontologia simplesmente como um conjunto taxonomizado de termos, que variam
desde termos muito gerais na parte superior [...] at termos muito especializados na parte
inferior (p. 48).

A ontologia de Hovy toma-se uma coiwept hierarchy [hierarquia de conceitos] em


Meng et al. (2002), que a definem como um grande nmero de conceitos organizados em
mltiplos nveis, de modo que os conceitos em nveis superiores possuem significados mais
amplos do que os de nveis inferiores. Quando fiz o curso de biblioteconomia, zilhes de anos
atrs, essas definies teriam sido definies exatas, embora muito simplistas, de classificao
hierrquica.
Soergel (1999) tambm execrou a substituio de classificao por ontologia e o fez
com muita propriedade:
Uma classificao, qualquer que seja seu nome, continua sendo uma classificao. O
emprego de termo diferente sintomtico da falta de comunicao entre as comunidades
cientficas. Ignora-se amplamente o vasto corpo de conhecimentos, que se desenvolveu em
torno das classificaes bibliogrficas e mais geralmente da cincia da informao, sobre a
estrutura das classificaes e as maneiras de represent-las, bem como o imenso capital
intelectual consubstanciado em muitos esquemas de classificao e tesauros. Sistemas
grandes e teis vm sendo construdos com mais esforo do que seria necessrio. Exemplos
so o cyc ontology (<www.cyc.com/cyc2- l/intro-public.html>), cuja apresentao poderia ser
bastante
melhorada,
ou
wordNct
(<cogsci.princeton.edu/wn>
ou
<www.notredame.ac.jplcgi-bin/wn.cgi>), uni sistema maravilhoso cuja construo teria
lucrado com a aplicao da experincia com a construo de tesauros e cuja hierarquia (de
conceitos) synset deveria ser tornada mais facilmente acessvel com o emprego de mtodos
clssicos de representao de classificao. Outro exemplo o ANSI Ad Hoc Group on
Ontology SLandards (<wwwksl.stanford.cdu/onto_std/index,html>), que parece no contar
entre seus membros com nenhum cientista da informao interessado em classificao (p.
1120).

A classificao como atividade tambm est sendo substituida na literatura de cincia


da informao pela categorizao (como em categorizao de textos), mas isso, apesar de
aborrecer, no parece ser to escandaloso.
10

Alguns termos da nova terminologia so superficialmente atraentes. Fui razoavelmente


receptivo ao vocbulo summarization [sumarizao] (porque poderia ser usado para abarcar
abstracting [redao de resumos], extracting [extratao] e at mesmo annotation
[anotao]) at que descobri que um livro importante sobre o assunto (Endres-Niggemeyer,
1998) inclui a indexao temtica como uma forma de sumarizao. Embora um conjunto de
termos de indexao possa, de fato, funcionar como uma espcie de resumo do contedo, a
sumarizao no , com certeza, o principal objetivo da indexao.
Neste livro, sempre que possvel, ative-me terminologia antiga. Por razes de clareza,
usei alguns poucos termos novos, como metadados, mas o fiz com relutncia.

11

Lista de figuras
Figura 1 A funo da elaborao de ndices e resumos no quadro mais amplo da recuperao
da informao........................................................................................................................... 15
Figura 2 O problema da recuperao de itens pertinentes de uma base de dados.................15
Figura 3 Efeito da extenso do registro sobre a recuperabilidade...........................................18
Figura 4 Exemplo de um documento indexado segundo diferentes pontos de vista...............19
Figura 5 Anlise conceitual traduzida em trs vocabulrios controlados.................................27
Figura 6 As duas dimenses da indexao de um documento................................................31
Figura 7 Rendimentos decrescentes na indexao..................................................................33
Figura 8 Sistema de recuperao da informao representado como uma matriz..................38
Figura 9 Formulrio de indexao utilizado antigamente pela National Library of Medicine. . .39
Figura 10 Formulrio caracterstico da indexao de Mooers..................................................40
Figura 11 Parte de vocabulrio especializado sobre computadores digitais utilizado pelo U. S.
Patent and Trademark Office..................................................................................................... 41
Figura 12 Seo do microtesauro do Air Pollution Technical Information Center......................42
Figura 13 Tela de etiquetas no DCMS......................................................................................43
Figura 14 Registro de indexao pronto no DCMS...................................................................44
Figura 15 Exemplo de entradas de Medical subject headings annoted alphabetic list (2003)
.................................................................................................................................................. 44
Figura 16 Exemplo de entradas de Tumor key, um vocabulrio de entradas especializado
antigamente utilizado pela National Library of Medicine...........................................................45
Figura 17 Entradas de um ndice SLIC.....................................................................................47
Figura 18 Entradas de ndice baseado na alternao sistemtica (modelo da Excerpta Medica)
.................................................................................................................................................. 48
Figura 19 Exemplo de entradas de um ndice KWIC................................................................49
Figura 20 Amostra das entradas de um ndice KWOC.............................................................50
Figura 21 Formato alternativo de um ndice KWOC usado no Diabetes-Related Literature
Index, suplemento de Diabetes, volume 12, 1960.....................................................................51
Figura 22 Exemplo de entradas do British Technology lndex...................................................55
Figura 23 Sistema de relaes de Farradane...........................................................................56
Figura 24 Termos (04 - J) atribudos ao mesmo documento por cinco indexadores diferentes (a
- e)............................................................................................................................................. 58
Figura 25 Possveis fatores que influem na coerncia da indexao.......................................59
Figura 26 Relao entre coerncia e quantidade de termos atribudos...................................60
Figura 27 Efeito da quantidade de termos atribudos sobre a coerncia do indexador (dois
indexadores).............................................................................................................................. 61
Figura 28 Dois enfoques diferentes na indexao de um artigo intitulado..............................64
Figura 29 Dois enfoques diferentes na indexao de um artigo intitulado..............................64
Figura 30 Dois enfoques diferentes na indexao de um artigo intitulado..............................65
Figura 31 Dois enfoques diferentes na indexao de um artigo intitulado..............................65
Figura 32 Diferenas na anlise conceitual de um artigo intitulado........................................66
Figura 33 Fatores que influem nos resultados de uma busca numa base de dados................68
Figura 34 Exemplo da perda de um item importante por causa de mera omisso do indexador
.................................................................................................................................................. 69
Figura 35 Fatores que podem afetar a qualidade da indexao..............................................70
Figura 36 Coerncia do indexador relacionada aos interesses dos usurios...........................72
Figura 37 Padro de indexao para um artigo mdico, mostrando escores relativos
atribuio de vrios tipos de termos.......................................................................................... 75
Figura 38 Escores de dois indexadores em comparao com o padro da figura 37...............75
Figura 39 Resumo indicativo................................................................................................... 78
Figura 40 Resumo informativo................................................................................................79
Figura 41 Exemplo de um resumo crtico................................................................................80
Figura 42 Gabarito para um resumo estruturado....................................................................81
Figura 43 Resumo em diagrama de bloco de um artigo hipottico junto com um resumo
convencional para comparao............................................................................................... 82
Figura 44 Resumos modulares................................................................................................ 83
Figura 45 Entradas de ndices modulares................................................................................83
Figura 46, Parte 1 Comparao de minirresumo, resumo de autor e resumos publicados em
Chemical Abstracts e Biological Abstracts (ver a parte 2 da figura)..........................................84
Figura 46, Parte 2...................................................................................................................... 84
Figura 47 Princpios para redao de resumos, do Defense Documentation Center (1968)....87
12

Figura 48 Exemplo de resumo altamente formatado...............................................................89


Figura 49 Informaes essenciais de que necessitam os clnicos para avaliar a relevncia e a
qualidade de artigos e, portanto, para sua incluso em resumos estruturados.........................89
Figura 50 Fundamentos da redao de resumos.....................................................................91
Figura 51 Resultados hipotticos de um teste de previsibilidade de relevncia......................92
Figura 52 Regras, destinadas a resumidores, concernentes s caractersticas de
recuperabilidade dos resumos................................................................................................... 98
Figura 53 Crescimento da literatura cientfica sobre AIDS, 1982-1987 (Fonte: MEDLINE).....103
Figura 54 Literatura sobre AIDS: cobertura por idioma, 1982-1987 (Fonte: MEDLINE)..........103
Figura 55 Literatura sobre AIDS: cobertura por pas, 1982-1987 (Fonte: MEDLINE)..............103
Figura 56 Nmero de peridicos que publicam artigos sobre AIDS, 1982-1987 (Fonte:
MEDLINE)................................................................................................................................. 103
Figura 57 Disperso da literatura de peridicos sobre AIDS em 1987 (Fonte: MEDLINE).......104
Figura 58 Grfico da disperso da literatura sobre AIDS.......................................................105
Figura 59 Peridicos cientficos que publicaram a maioria dos artigos sobre AIOS, 1982-1987
(Fonte: MEDLINE)..................................................................................................................... 105
Figura 60 Exemplo hipottico da distribuio de itens sobre supercondutores sob termos
num ndice impresso............................................................................................................... 107
Figura 61 Distribuio de itens sobre imunologia celular no porco sob termos no Index
Medicus................................................................................................................................... 108
Figura 62 Disperso de itens sob termos de indexao........................................................108
Figura 63 Exemplo de entradas do Cumulated Index Medicus (1996)...................................115
Figura 64 Exemplo de entradas do Medical subject headings (1996)....................................116
Figura 65 Exemplo de entradas da estrutura hierrquica (Tree structures) do Medical subject
headings (1996)...................................................................................................................... 117
Figura 66 Exemplo de entradas do ndice de autores do Cumulated Index Medicus.............117
Figura 67 Exemplo de entradas do Applied Science and Technology Index, 1986.................118
Figura 68 Exemplo de entradas do volume anual do Engineering Index (1993)....................119
Figura 69 Exemplo de entradas do ndice de assuntos do Engineering Index (1993)............120
Figura 70 Exemplo de entradas do Library and Information Science Abstracts (antes de 1993)
................................................................................................................................................ 121
Figura 71 Exemplos de entradas do ndice de assuntos do Library and Information Science
Abstracts (antes de 1993)....................................................................................................... 122
Figura 72 Categorias de assuntos usadas pelo Library and Information Science Abstracts
(1997)...................................................................................................................................... 123
Figura 73 Exemplo de entradas do Library and Information Science Abstracts.....................124
Figura 74 Exemplo de entradas do ndice de assuntos do Library and Information Science
Abstracts................................................................................................................................. 125
Figura 75 Exemplo de entradas do ndice de assuntos do Chemical Abstracts......................126
Figura 76 Exemplo de entradas do ndice de palavras-chave do Chemical Abstracts............127
Figura 77 Exemplo de entradas do ndice de frmulas do Chemical Abstracts......................128
Figura 78 Exemplo de resumos de Sociology of Education Abstracts....................................129
Figura 79 Exemplo de entradas de ndice do Sociology of Education Abstracts....................129
Figura 80 Exemplo de entradas do ndice de assuntos do Epilepsy Abstracts.......................130
Figura 81 Diferenas na apresentao de referncias entre o British Technology Index (BTI) e
o Current Technology Index (CTI) de um item sobre cadinhos [ladles] para fornos a arco eltrico
[arc furnaces] na produo de ao [steel]...............................................................................130
Figura 82 Exemplo de entradas PRECIS do British Education lndex.......................................131
Figura 83 Exemplo de entradas do Social Sciences Citation lndex........................................132
Figura 84 Exemplo de entrada do ndice de fontes do Social Sciences Citation Index...........132
Figura 85 Exemplo de entrada do ndice de assuntos Permuterm do Social Sciences Citation
Index....................................................................................................................................... 133
Figura 86 Exemplo de pgina do Current Contents...............................................................134
Figura 87 Exemplo de entradas do ndice de palavras-chave do Current Contents...............135
Figura 88 O sistema de indicadores de funo do EJC...........................................................140
Figura 89 Infixos semnticos do sistema da Western Reserve University..............................141
Figura 90 Indicadores de funo do sistema da Western Reserve University utilizados na
indexao da literatura de metalurgia.....................................................................................142
Figura 91 Resumo telegrfico armazenado em formato eletrnico.......................................142
Figura 92 Os dispositivos de preciso criam classes menores; os dispositivos de revocao
criam classes maiores............................................................................................................. 145
Figura 93 Exemplo de entrada da base de dados de fico Book House...............................150
13

Figura 94 Exemplo de um romance indexado com o emprego do mtodo de Pejtersen........150


Figura 95 Duas sinopses possveis de As aventuras de Pedro, o Coelho, de Beatrix Potter...153
Figura 96 Exemplo de uma entrada de Masterplots II (1986)................................................154
Figura 97 Estruturas lingsticas para orientar a anotao e indexao de fico................155
Figura 98 Principais nveis de abstrao na base de dados de um museu de arte................157
Figura 99 Exemplo do registro catalogrfico de uma pintura................................................158
Figura 100 Consulta formulada a uma base de dados meteorolgicos. A consulta pede um
complexo sistema de baixa presso sobre a Nova Zelndia com sistemas de alta presso a
leste e oeste............................................................................................................................ 161
Figura 101 Dois mapas meteorolgicos recuperados em resposta consulta da figura 100.162
Figura 102 Consulta incremental numa base de dados de imagens......................................163
Figura 103 Comparao entre resumo e indexao com vocabulrio controlado..................183
Figura 104 Os prs e contras do texto livre versus vocabulrio controlado...........................184
Figura 105 Exemplo de entrada da base de dados TERM......................................................193
Figura 106 Os problemas fundamentais da recuperao da informao...............................200
Figura 107 Exemplo de entradas de tesauro extradas por mtodos automticos................207
Figura 108 Ligaes de citaes/referncias.........................................................................208
Figura 109 Exemplo de um auto-resumo de Luhn (Luhn 1958).............................................210
Figura 110 Exemplo de extrato produzido pelo sistema ADAM de redao automtica de
resumos................................................................................................................................... 211
Figura 111 Mapa de relaes textuais baseado em Salton et al. (1997)...............................213
Figura 112 Busca inicial numa base de dados de um servio de atendimento a clientes......226
Figura 113 Pesquisa por mais informao em base de dados de servio de atendimento a
clientes.................................................................................................................................... 227
Figura 114 Casos com ordenao mais alta selecionados com base em consulta crtica e
respostas dos clientes s perguntas........................................................................................228
Figura 115 Resumo de caso com a ao recomendada ao cliente........................................228

14

Parte 1 Teoria, princpios e aplicaes


Captulo 1 - Introduo
O propsito principal da elaborao de ndices e resumos construir representaes de
documentos publicados numa forma que se preste a sua incluso em algum tipo de base de
dados. Essa base de dados de representaes pode ser impressa (como numa publicao de
indexao/resumos; por exemplo, o Chemical Abstracts ou o Engineering lndex), em formato
eletrnico (quando a base de dados muitas vezes ser o equivalente aproximado de um servio
impresso), ou em fichas (como num catlogo convencional de biblioteca).
A funo das operaes de indexar / resumir, no mbito maior das atividades de
recuperao da informao, acha-se esquematizada na figura 1. Em primeiro lugar, o produtor
da base de dados seleciona da populao de documentos recm-publicados aqueles que
atendam a certos critrios para sua incluso na base de dados. O mais bvio desses critrios
o assunto de que trata o documento. Outros critrios, no entanto, como o tipo de documento, a
lngua em que se acha escrito, ou sua origem, tambm so importantes. No caso das bases de
dados que lidam principalmente com artigos de peridicos, os critrios de seleo comumente
estaro centrados no peridico e no no artigo; ou seja, alguns peridicos sero includos e
outros no (embora alguns peridicos sejam indexados em sua inteireza e outros o sejam de
forma seletiva). A cobertura proporcionada por muitas bases de dados , em grande medida,
determinada por razes de custo-eficcia. Particularmente no caso de bases de dados que
abranjam um campo altamente especializado, elas somente incluiro aqueles peridicos que
publicam prioritariamente artigos sobre os assuntos de interesse.
Os itens selecionados para incluso na base de dados sero descritos de vrias formas.
Os processos de catalogao descritiva (que no aparecem na figura 1) identificam autores,
ttulos, fontes, e outros elementos bibliogrficos; os processos de indexao identificam o
assunto de que trata o documento; e o resumo serve para sintetizar; o contedo do item. Os
termos utilizados na indexao sero com freqncia extrados de algum tipo de vocabulrio
controlado, como um tesauro (o vocabulrio do sistema da figura 1), mas, em vez disso,
podem ser termos livres (por exemplo, extrados do prprio documento). 1
Estas atividades de descrio criam representaes dos documentos numa forma que se
presta para sua incluso na base de dados. Os prprios documentos normalmente sero
destinados a um tipo diferente de base de dados (o acervo de documentos) como o caso das
estantes de uma biblioteca.
Os membros da comunidade a ser atendida utilizaro a base de dados,
fundamentalmente, para satisfazer a diferentes necessidades de informao. Para lograr isso,
devem converter uma necessidade de informao em algum tipo de estratgia de busca, a
qual pode ser to simples quanto a escolha de um nico termo para consultar um ndice
impresso ou um catlogo em fichas, ou exigir a combinao de muitos termos numa estratgia
mais elaborada e complexa, empregada para consultar uma base de dados mantida
localmente ou conectada em linha a alguma rede de computadores.
O que se almeja, evidentemente, ao fazer uma busca numa base de dados, encontrar
documentos que sejam teis para satisfazer a uma necessidade de informao, e evitar a
recuperao de itens inteis. Relevante e pertinente so termos freqentemente
empregados para se referir a itens teis, e foram definidos de diferentes formas. H muito
desacordo sobre o que realmente significam relevncia e pertinncia (Lancaster e Warner,
1993). Neste livro considerarei como sinnimas as expresses til, pertinente e relevante
para uma necessidade de informao. Ou seja, um documento pertinente (til) aquele que
contribui para satisfazer a uma necessidade de informao.
O problema da recuperao da informao est representado graficamente na figura 2. O
retngulo inteiro representa uma base de dados e os itens que contm. Os itens com sinal de
adio (+) so aqueles que um consulente hipottico consideraria teis para atender a uma
necessidade de informao atual, e os itens com sinal de subtrao (-) so aqueles que no
consideraria teis. Para qualquer necessidade especfica de informao haver muito mais
itens - do que itens +. Na realidade, se se desenhasse o diagrama em escala, seria quase
certo que os onze itens teis estariam acompanhados de toda uma muralha de itens inteis. O

Os termos utilizados podem, genericamente, ser designados como termos de indexao, embora, muitas vezes, seja
tambm empregada a palavra descritores, em particular quando ns estamos referindo a termos de um tesauro.
Neste livro, ambas as expresses so usadas de modo l:l(uivaknlc.

15

problema est em recuperar tantos itens teis quantos for possvel, e o menor nmero possvel
de itens inteis.

Figura 1 A funo da elaborao de ndices e resumos no quadro mais amplo


da recuperao da informao

Figura 2 O problema da recuperao de itens pertinentes de uma base de


dados

O menor dos dois retngulos internos da figura 2 representa os resultados de uma busca
realizada na base de dados, que recuperou 57 itens, seis dos quais foram teis e 51 inteis. A
relao entre itens teis e o total de itens recuperados (6/57 ou cerca de 10% neste caso)
comumente denominada coeficiente de preciso. O ndice empregado habitualmente para
expressar a extenso com que todos os itens teis so encontrados o coeficiente de
revocao. No presente exemplo, o coeficiente de revocao de 6/11 ou cerca de 54%.
Nessa situao, provavelmente seria preciso, para melhorar a revocao, fazer uma
busca mais genrica. Essa busca representada pelo maior dos dois retngulos internos. Ao
fazer a busca de modo mais genrico, aumentou-se a revocao para 8/11 (73%), mas a
preciso caiu ainda mais para 8/112, ou cerca de 7%. Uma caracterstica lamentvel, inerente

16

recuperao da informao, que uma melhoria da revocao em geral implica perda de


preciso e vice-versa.
A figura 2 sugere outro fenmeno. Talvez fosse possvel fazer uma busca suficientemente
genrica para localizar todos os itens teis (isto , alcanar 100% de revocao); entretanto a
preciso seria provavelmente inaceitvel. Ademais, quanto maior for a base de dados, menos
aceitvel ser uma baixa preciso. Embora o usurio esteja disposto a examinar, por hiptese,
57 itens, a fim de encontrar seis que lhe sejam teis, talvez se sinta muito menos inclinado a
examinar 570 resumos para encontrar 60 que sejam teis. Em bases de dados muito grandes
torna-se, portanto, progressivamente mais difcil alcanar um nvel de revocao aceitvel com
um nvel de preciso satisfatrio, uma situao que chegou a um ponto crtico quando se
procura informao na internet.
Neste livro emprego o termo revocao [recall] para designar a capacidade de recuperar
documentos teis, e preciso para designar a capacidade de evitar documentos inteis.
Existem outras medidas do desempenho para buscas realizadas em bases de dados (ver, por
exemplo, Robertson, 1969), algumas das quais so matematicamente mais exatas, porm a
revocao e a preciso compem o quadro geral e ainda parecem ser as medidas bvias a
serem utilizadas para expressar os resultados de qualquer busca que simplesmente divida uma
base de dados em duas partes (recuperados e no recuperados). 1 A figura 1 deixa evidente
que so muitos os fatores que determinam se uma busca numa base de dados ou no bem
sucedida. Entre tais fatores encontra-se a cobertura da base de dados, sua poltica de
indexao, sua prtica de indexao, sua poltica e prtica de redao de resumos, a qualidade
do vocabulrio empregado na indexao, a qualidade das estratgias de busca, e assim por
diante. Este livro no enceta qualquer esforo no sentido de tratar de todos esses fatores
(ainda que todos estejam inter-relacionados), mas se concentra nas atividades importantes de
descrio do documento ou, pelo menos, aquelas que dizem respeito ao contedo dos
documentos.
Em princpio, a base de dados representada na figura 1 poderia ser a totalidade do
contedo da Rede Mundial (World Wide Web) (doravante denominada simplesmente a Rede).
No entanto, o diagrama no representa a situao da Rede to bem quanto representa bases
de dados, como o catlogo de uma biblioteca universitria ou uma base de dados de registros
bibliogrficos de a11igos de peridicos, como a base de dados MEDLINE da National Library of
Medicine. Uma vez que qualquer organizao ou qualquer pessoa pode criar uma pgina na
Rede, no est em causa nenhum processo de seleo real. Ademais, embora os stios da Rede
possam incluir algum tipo de dado descritivo sobre seu contedo (normalmente denominados
metadados; ver a nota que precede imediatamente este captulo), muitos no o fazem, e os
dados descritivos so parte integrante das prprias pginas da Rede, no se encontrando
numa base de dados separada. Alm do que, a indexao e a elaborao de resumos de
contedos da Rede por seres humanos constituem mais a exceo do que a regra, de modo
que a maior parte das buscas ali feitas ocorre no texto integral dos stios acessados por
determinado mecanismo de busca. Nos casos em que so realizadas operaes de indexao
ou resumo, o provvel que sejam efetuadas automaticamente por meio de vrias etapas de
processamento informatizado. Esses procedimentos automticos, junto com as buscas em
textos completos e o caso especfico da Rede, so tratados nos captulos finais deste livro.
Embora a figura 1 no corresponda exatamente situao encontrada na Rede, a figura 2, sim.
Isto , o problema de busca mostrado ali igualmente pertinente s buscas feitas na Rede,
exceto que multiplicada por ordens de grandeza.

Uma busca que classifique os resultados em ordem de relevncia provvel exige uma medida um tanto diferente, a
qual, com efeito, compara a classificao [ranking] obtida com uma classificao ideal.

17

Captulo 2 Princpios da indexao


Embora o ttulo deste livro se refira indexao, seu alcance limita-se, de fato,
indexao de assuntos e redao de resumos. A indexao de assuntos e a redao de
resumos so atividades intimamente relacionadas, pois ambas implicam a preparao de uma
representao do contedo temtico dos documentos. O resumidor redige uma descrio
narrativa ou sntese do documento, e o indexador descreve seu contedo ao empregar um ou
vrios termos de indexao, comumente selecionados de algum tipo de vocabulrio
controlado.
O principal objetivo do resumo indicar de que trata o documento ou sintetizar seu
contedo. Um grupo de termos de indexao serve ao mesmo propsito. Por exemplo, o
seguinte conjunto de termos proporciona uma idia bastante razovel sobre os assuntos
tratados num relatrio hipottico:
Centros de Informao
Compartilhamento de Recursos
Catlogos Coletivos
Catalogao Cooperativa
Redes em Linha
Emprstimos entre Bibliotecas

Em certo sentido, essa lista de termos pode ser vista como uma espcie de minirresumo.
Serviria a tal propsito se todos os termos fossem reunidos num ndice publicado, copiados
pela impressora ou mostrados na tela para representar um item recuperado numa base de
dados, como resultado de uma busca em linha.
De modo mais evidente, os termos atribudos pelo indexador servem como pontos de
acesso mediante os quais um item localizado e recuperado, durante uma busca por assunto
num ndice publicado ou numa base de dados eletrnica. 1 Assim, num ndice impresso, convm
que se possa encontrar o item hipottico mencionado anteriormente sob qualquer um dos seis
termos. Num sistema de recuperao informatizado, evidentemente, seria natural encontr-lo
sob qualquer um desses termos ou, de fato, sob qualquer combinao deles.
A diferena entre indexao e redao de resumos est se tornando cada vez mais
difusa. Por um lado, uma lista de termos de indexao pode ser copiada pela impressora ou
mostrada na tela de modo a constituir um minirresumo. Por outro lado, o texto de resumos
pode ser armazenado num sistema informatizado de modo a permitir a realizao de buscas
por meio da combinao de palavras que ocorram nos textos. Esses resumos podem ser
utilizados no lugar de termos de indexao, permitindo o acesso aos itens, ou complementar os
pontos de acesso proporcionados pelos termos de indexao. Em certa medida isso modifica a
funo do resumidor, que deve agora preocupar-se no s em redigir uma descrio clara e de
boa qualidade do contedo do documento, mas tambm em criar um registro que seja uma
representao eficaz para fins de recuperao.
Se a indexao e a redao de resumos fossem consideradas como atividades
inteiramente complementares, a natureza da atividade de indexao sofreria algum tipo de
mudana. Por exemplo, o indexador se concentraria na atribuio de termos que
complementassem os pontos de acesso existentes no resumo. Tal complementaridade, porm,
deve ser inteiramente reconhecida e compreendida pelo usurio da base de dados. Do
contrrio, um conjunto de termos de indexao isolados daria uma imagem bastante
equivocada do contedo de um item.
Extenso do registro
Uma das propriedades mais importantes de uma representao de contedo temtico
sua extenso. O efeito da extenso do registro acha-se exemplificado na figura 3. No lado
esquerdo da figura, encontram-se vrias representaes do contedo de um artigo de
peridico na forma de texto narrativo; no lado direito, esto duas representaes na forma de
listas de termos de indexao.
1

Outros autores empregam terminologia diferente para designar a indexao e os termos de indexao sem que isso
altere de modo relevante o significado adotado neste livro. Por exemplo, Anderson (1985) v os termos como
indicadores de contedo; indexao como o processo de indicar o contedo e caractersticas afins de um
documento. OConnor (1996) prefere o termo apontamento [pointing]: os termos de indexao so apontadores;
indexao a tarefa de atribuir apontadores teis a fontes de informao.

18

O ttulo contm uma indicao geral sobre aquilo de que trata o artigo. O resumo breve
oferece mais detalhes, indicando que o artigo apresenta resultados da pesquisa e identificando
as principais questes analisadas. O resumo ampliado vai mais alm, identificando todas as
questes focalizadas na pesquisa e informando sobre o tamanho da amostra utilizada no
estudo.
Quanto mais informaes so apresentadas, mais claramente a representao revela o
alcance do artigo, tornando-se mais provvel que venha a indicar para o leitor se esse artigo
satisfaz ou no a uma necessidade de informao. Por exemplo, algum talvez esteja procura
de artigos que mencionem as atitudes norte-americanas em relao a vrios lderes rabes. O
ttulo no traz indicao alguma de que esse tpico especfico seja analisado, e o resumo
breve, ao focalizar outros tpicos, sugere que talvez isso no acontea. somente o resumo
ampliado que mostra que o artigo inclui informaes sobre esse assunto.
Tambm, quanto maior a representao, mais pontos de acesso ela proporciona. Se as
palavras do ttulo fossem os nicos pontos de acesso, esse item provavelmente no seria
localizado em muitas buscas para as quais poderia ser considerado uma resposta vlida.
medida que se aumenta a extenso da representao tambm se aumenta a recuperabilidade
do item. provvel que somente com o resumo ampliado fosse possvel recuperar esse item
durante uma busca de informaes sobre as atitudes norte-americanas em face dos lderes
rabes.
Ttulo
Pesquisa nacional de opinio pblica sobre as atitudes
norte-americanas a respeito do Oriente Mdio

Indexao (seletiva)
OPINIO PBLICA
PESQUISAS POR TELEFONE
ESTADOS UNIDOS
ATITUDES
ORIENTE MDIO

Resumo (breve)
Uma pesquisa realizada por telefone em 1985 apresenta
opinies sobre tpicos como: a ajuda norte-americana a
Israel e ao Egito; se os EUA devem tomar o partido de
Israel, das naes rabes, ou de nenhum destes; se a
OLP deve participar de uma conferncia de paz; e se um
Estado palestino independente um pr-requisito para
a paz.

Indexao (exaustiva)
OPINIO PBLICA
PESQUISAS POR TELEFONE
ESTADOS UNIDOS
ATITUDES
ORIENTE MDIO
ISRAEL
EGITO
NAES RABES
ORGANIZAO PARA A LIBERTAO DA
PALESTINA
CONFERNCIAS DE PAZ
PAZ
ESTADO PALESTINO
AJUDA EXTERNIA
LDERES POLTICOS

Resumo (ampliado)
Em 1985 foram feitas entrevistas por telefone com uma
amostra probabilstica de 655 norte-americanos.
Obtiveram-se respostas s seguintes questes: o
estabelecimento de um Estado palestino essencial
para a paz; deve ser reduzida a ajuda norte-americana
a Israel e ao Egito; os EUA devem participar de uma
conferncia de paz que inclua a OLP; os EUA no devem
favorecer nem Israel nem as naes rabes, mas, sim,
manter relaes amistosas com eles? Tambm se
expressaram opinies sobre os principais lderes do
Oriente Mdio (Hussein, Arafat, Peres, Mubarak, Fahd,
Assad), especialmente seus esforos pela paz, e se os
entrevistados achavam que possuam ou no
informaes suficientes sobre os diversos grupos
nacionais da regio.
Figura 3 Efeito da extenso do registro sobre a recuperabilidade

A mesma situao aplica-se indexao. A indexao seletiva, que inclua apenas cinco
termos, apresenta uma indicao muito geral daquilo de que trata o artigo (aproximadamente
equivalente, neste caso, ao ttulo) e um nvel de acesso muito limitado. A indexao mais
19

exaustiva proporciona uma indicao muito melhor do assunto especfico de que trata o artigo,
bem como possibilita muito mais pontos de acesso.
Etapas da indexao de assuntos
A indexao de assuntos envolve duas etapas principais:
1. Anlise conceitual, e
2. Traduo.
Intelectualmente so etapas totalmente distintas, embora nem sempre sejam
diferenadas com clareza e possam, de fato, ocorrer de modo simultneo.
A anlise conceitual, em primeiro lugar, implica decidir do que trata um documento - isto
, qual o seu assunto. Os termos que aparecem na lista direita, na figura 3, representam a
anlise conceitual de um artigo feita por este autor aquilo que, segundo sua opinio, constitua
o assunto do artigo.
Esta afirmativa sobre anlise conceitual est bastante simplificada. A indexao de
assuntos normalmente feita visando a atender s necessidades de determinada clientela - os
usurios de um centro de informao ou de uma publicao especfica. Uma indexao de
assuntos eficiente implica que se tome uma deciso no somente quanto ao que tratado num
documento, mas tambm por que ele se reveste de provvel interesse para determinado grupo
de usurios. Em outras palavras, no h um conjunto correto de termos de indexao para
documento algum. A mesma publicao ser indexada de modo bastante diferente em
diferentes centros de informao, e deve ser indexada de modo diferente, se os grupos de
usurios estiverem interessados no documento por diferentes razes.1
O indexador, ento, deve formular vrias perguntas sobre um documento:
1. De que trata?
2. Por que foi incorporado a nosso acervo?
3. Quais de seus aspectos sero de interesse para nossos usurios?
Esta situao acha-se bem exemplificada na figura 4. Esse exemplo hipottico refere-se a
relatrio publicado pela National Aeronautics and Space Administration (NASA) a respeito de
um vo espacial tripulado. Ao incorporar esse relatrio sua prpria base de dados, a NASA
provavelmente estar interessada em todas as suas facetas e o indexar exaustivamente,
procurando abranger todos os seus aspectos, talvez em nvel razoavelmente genrico. Uma
parte do relatrio refere-se ao traje usado pelos astronautas, mencionando alguns compostos
novos de borracha sinttica empregados em partes desse traje. Isto faz com que o relatrio
seja interessante para uma fbrica de borracha. Ao ser incorporado ao acervo de documentos
dessa fbrica, o relatrio ser indexado, porm, de modo bastante diferente. Sero usados
termos altamente especficos para indexar os compostos novos, e o termo genrico TRAJES
ESPACIAIS talvez seja empregado para indicar determinada aplicao para esses compostos.
Uma empresa metalrgica poder interessar-se pelo mesmo relatrio por um motivo diferente:
ele menciona uma nova tcnica de soldagem desenvolvida para unir certas ligas na construo
do veculo espacial. Neste caso, ser indexado sob os termos relativos a soldagem, os termos
apropriados para metais e talvez o termo de aplicao genrica VECULOS ESPACIAIS. A fbrica
de borracha indexa o relatrio de forma muito diferente daquela adotada pela empresa
metalrgica, e nenhum desses conjuntos de termos se assemelha lista mais exaustiva
adotada pela prpria NASA.
E assim porque assim tem que ser. Quanto mais especializada a clientela de um centro
de informao maior a probabilidade de que a indexao possa e deva ser feita sob medida,
ajustando-se com preciso aos interesses do grupo. Somente entre instituies de carter mais
genrico, como, por exemplo, bibliotecas universitrias gerais, que existe a possibilidade de
uma delas indexar um documento exatamente da mesma forma que outra. Fidel (1994)
emprega a expresso indexao centrada no usurio para designar o princpio da indexao
que se baseia nos pedidos que so esperados de determinada clientela.

Dabney (1986a) admitiu isso ao fazer uma distino entre indexao orientada para o documento e indexao
orientada para a consulta. Acha-se tambm implcito no mtodo chamadogedanken proposto por Cooper (I978).

20

Figura 4 Exemplo de um documento indexado segundo diferentes pontos de


vista

Hjorland (2001) concorda que a indexao deve ser moldada para se ajustar s
necessidades de determinada clientela:
Uma vez que qualquer documento pode, em princpio, proporcionar respostas a uma
infinidade de questes, as anlises de assuntos devem estabelecer prioridades baseadas nos
grupos de usurios especficos atendidos (ou servios especficos proporcionados na ecologia
da informao). O assunto de um documento assim relativo ao objetivo do servio de
informao especfico. Defino assunto [...] como os potenciais epistemolgicos ou
informativos dos documentos. A melhor anlise temtica a que faz o melhor prognstico
quanto ao uso futuro do documento (p. 776).

Este aspecto foi tambm examinado por Bates (1998):


[...] o desafio para o indexador tentar antecipar quais os termos que as pessoas que
possuem lacunas de informao de vrios tipos procurariam nos casos em que o registro de
que dispem, de fato, fica a meio caminho de satisfazer a necessidade de informao do
usurio. Quando se pensa em tal desafio, possvel perceber que se trata de algo muito
peculiar. Quais os tipos de necessidades de informao que as pessoas teriam e as levariam
a querer informaes que o registro, de fato, contm? (p. 1187).

Mai (2001), que se vale da semitica na anlise do processo de indexao temtica, faz
uma descrio lcida das dificuldades que caracterizam o esforo de reconhecer por que
determinado documento viria a ter interesse para futuros usurios:
Seria quase impossvel, naturalmente, para qualquer pessoa ou, neste caso, qualquer
indexador, precisar todas as idias e significados que estivessem associados a qualquer
documento, posto que sempre haver idias e significados potenciais que diferentes pessoas
em diferentes momentos e lugares podero descobrir nesse documento. Alm do que, seria
quase impossvel prever com exatido quais das inmeras idias e significados que
estivessem associados ao documento seriam especificamente teis para os usurios ou
dariam ao documento alguma utilidade duradoura. da mxima importncia reconhecer e
aceitar essa indefinio fundamental. O indexador deve compreender, desde o incio, que
jamais descobrir todas as idias e significados que estariam associados ao documento e
que, portanto, no possvel descrever todas essas idias e significados (p. 606).

Layne (2002), referindo-se especificamente indexao de imagens no campo da alie,


tambm admite a necessidade de indexao diferente, com terminologia diferente, para
pblicos diferentes:
O segundo aspecto da escolha do vocabulrio para imagens artsticas est em que uma
imagem pode interessar a vrias disciplinas com diferentes vocabulrios. Por exemplo, O
nascimento de Esa e Jac teria interesse para historiadores da medicina que desejassem
usar o vocabulrio mdico, ao invs de um vocabulrio mais comum, na busca de imagens.
Evidentemente, no prtico empregar todos os vocabulrios possveis quando da criao
de acessos temticos para imagens artsticas. Mas, se se souber ou houver a inteno de que
determinado acervo de imagens artsticas ser usado por determinada disciplina, talvez
valha a pena ponderar quanto ao uso de um vocabulrio especializado alm do vocabulrio
geral. Por exemplo, uma imagem de tulipas seria indexada como tulipas ou mesmo flores
para usurios comuns, e os nomes cientficos das espcies, como Tulipa turkestanica, seriam
empregados como termos de indexao, caso houvesse botnicos entre os usurios
pretendidos (p. 15).

21

Para certos tipos de materiais, a indexao orientada para o usurio pode at ser mais
importante do que o no caso de artigos de peridicos, livros ou relatrios tcnicos. Por
exemplo, certos autores, como Shatford (1986) e Enser (1995), salientam que diferentes
grupos de usurios podem ver os acervos de imagens de modo bastante diferente. O que levou
Brown et al. (1996) a sugerirem a necessidade de um tratamento democrtico da indexao,
em que os usurios acrescentariam aos registros termos de sua prpria escolha, quando isso
fosse necessrio e apropriado.
Hidderleye Rafferty (1997) apresentam um mtodo de tratamento democrtico da
indexao. Uma amostra de usurios recebe um objeto (livro, aI1igo, imagem) junto com uma
indexao desse objeto que reflete uma viso pblica (por exemplo, um conjunto de termos
extrados de um tesauro por indexadores experientes). Os usurios alteram a viso pblica de
modo a refletir sua prpria viso particular. Com base em mltiplas vises particulares de um
conjunto de objetos, surge uma nova viso pblica. Adota-se um processo de. harmonizao
para chegar viso pblica final. Esse processo leva em conta quantos usurios associaram
determinado termo a determinado objeto. Em especial, os autores defendem um tratamento
democrtico da indexao de obras de fico porque, como salientam, o texto ficcional pode
ser lido de muitas maneiras diferentes.
Mtodos colaborativos ou democrticos so, no mais das vezes, recomendados para o
caso da indexao de imagens (ver o captulo 13).
Os mtodos colaborativos de indexao so, obviamente, mais viveis em ambiente de
biblioteca digital. Isto , usurios de uma biblioteca podem oferecer novos termos de
indexao aos itens que consultam, e esses termos fornecidos pelos usurios sero ento
armazenados em novo campo do registro. Villarroel et al. (2002) propem um enfoque em que
os usurios destacam sees do texto digital que consideram importantes, e esse destaque
pode levar reviso dos pesos (ver captulo 11) relativos aos termos de indexao ou
palavras do texto.
H uma importante lio a tirar dos princpios da indexao orientada para o usurio.
preciso que os indexadores saibam muito mais do que os princpios da indexao. Devem, em
especial, estar inteiramente a par dos interesses da comunidade atendida e das necessidades
de informao de seus membros. Na realidade, recomenda-se, usualmente, que o indexador
no fique nos bastidores, mas que tambm procure desempenhar outras atividades, inclusive
a de bibliotecrio de referncia, onde participam de buscas nos registros que criaram.
Pode-se avanar ainda mais com o princpio da indexao orientada para o usurio ao
sustentar que, em relao a determinado acervo de documentos e determinado grupo de
usurios, qualquer conjunto ideal de termos de indexao ser ideal somente em determinado
ponto no tempo. Passados alguns anos, o mesmo grupo de usurios poder precisar de acesso
ao mesmo acervo (ou outro bastante semelhante) a partir de perspectivas diferentes. Um
exemplo bvio seria uma coleo de relatrios tcnicos dentro de uma instituio de pesquisa:
as mudanas de prioridades e os interesses de pesquisa da instituio podem alterar a forma
como a coleo til para a comunidade. Isso pode ser verdade, em especial, no caso de
pesquisas interdisciplinares. De fato, pode-se alegar que, num mundo ideal, um acervo seria
organizado (isto , indexado) em torno dos interesses de determinado projeto de pesquisa.
Quando o projeto mudasse, o acervo seria reorganizado em torno das novas exigncias.
Naturalmente, o custo da reindexao e reorganizao em geral torna essa proposta
economicamente pouco atraente. Weinberg (1992) salientou a impermanncia do acesso
temtico e o fato de ser relativo. No entanto, ela baseia essa afirmao no fato de que os
vocabulrios (por exemplo, cabealhos de assuntos, classificaes) mudam e no no fato de
que as necessidades e interesses dos usurios mudam.
Mai (2000) tambm adverte que a indexao orientada para o usurio somente pode
estar voltada para determinado conjunto de usurios em determinado ponto no tempo:
Se se focalizar exclusivamente o aspecto da representao, ignorando os usurios futuros,
corre-se o risco de representar os documentos de uma forma que no ter qualquer serventia
para os usurios. Um indexador que no d muita ateno aos usurios poder optar por
representar assuntos de documentos que no tenham interesse para eles, ou usar um
vocabulrio diferente do vocabulrio deles, ou representar o assunto em nvel que seja muito
genrico ou muito especfico para eles. No entanto, se o indexador der excessiva ateno aos
usurios do sistema, poder representar os documentos numa forma tal que a representao
temtica dos documentos somente atenda aos usurios atuais e s necessidades de
informao atuais (p. 294).

22

Atinncia
Nas consideraes anteriores no se fez qualquer tentativa para definir a expresso de
que trata um documento: a expresso de que trata era simplesmente um sinnimo para tem
por assunto. Ou seja, usou-se de que trata um documento para designar o mesmo que os
assuntos de um documento. Estas expresses talvez no sejam muito precisas e no fcil
definir trata de e tem por assunto. Apesar disso, so expresses que soam aceitveis para a
maioria das pessoas, sendo por elas compreendidas. No pretendo partir para uma discusso
filosfica sobre o significado de trata de ou atinncia. 1 Vrios autores j o fizeram. E nem
assim conseguiram esclarecer a situao, pelo menos no que tange atividade da indexao
de assuntos. Beghtol (1986) e Hutchins (1978) recorrem ambos lingstica do texto ao
examinar esta questo; Maron (1977) adota um enfoque probabilstico, e Swift et al. (1978) so
cautelosos ao salientar que a atinncia na indexao talvez no coincida com a atinncia que
as pessoas que esto em busca de informaes tm em mente. Wilson (1968) chega ao ponto
de sugerir que a indexao de assuntos se defronta com problemas intratveis, visto ser to
difcil decidir do que trata um documento.
Moens et al. (1999) afirmam que um texto no possui uma atinncia intrnseca, mas que
tambm possui diferentes significados de acordo com o uso particular que uma pessoa pode
fazer da atinncia em dado momento.
Layne (2002) faz distino entre de-ncia [of-ness] e atinncia [aboutness] no caso de
imagens artsticas:
Menos bvio do que a de-ncia [of-ness] de uma obra de arte, mas muitas vezes mais
instigante, aquilo de que trata a obra de arte o [...] s vezes, a atinncia [about-ness] de
uma obra de arte relativamente bvia, como na Alegoria da justia, de Georg Penczo [...]
Essa a imagem de [of] uma mulher despida que segura uma espada e uma balana, mas o
ttulo nos diz que a imagem uma figura alegrica que representa a justia ou, em outras
palavras, que a imagem trata do [is about] conceito abstrato de justia. No desenho de
Goya Despreciar los insultos [...] a atinncia um pouco menos bvia, mas claro que essa
obra possui algum significado alm simplesmente do que mostra de. De fato, uma descrio
do que contm - um homem, talvez o prprio Goya, gesticulando para dois anes
uniformizados - no basta realmente para dar sentido imagem; ela simboliza algo mais,
trata de algo mais: a relao entre Espanha e Frana no incio do sculo XIX ou, mais
especificamente, a atitude pessoal de Goya em relao ocupao da Espanha pela Frana
(p. 4).

Ela acredita que essa distino vlida e que, na recuperao, deveria ser possvel
separar uma da outra:
[...] possibilita recuperar, por exemplo, exatamente aquelas imagens que sejam da morte e
excluir as que tratam da morte. Tambm permite a subdiviso de grandes conjuntos de
imagens recuperadas com base nessas distines. Por exemplo, uma pesquisa sobre morte
como assunto recuperaria imagens subdivididas em grupos baseados em se a imagem
representa explicitamente a morte ou se trata do tema da morte (p. 13).

Bruza et al. (2000) focalizam a atinncia de uma perspectiva lgica. Tentam formalizar a
relevncia lgica mediante a formalizao de propriedades do senso comum que descrevem a
relao de atinncia o Tambm trabalham com a no-atinncia e a interao entre atinncia
e no-atinncia. No contexto da recuperao da informao, a no-atinncia constitui
realmente uma situao mais simples porque a grande maioria dos itens em qualquer base de
dados evidentemente no guarda qualquer relao possvel com qualquer consulta ou
necessidade de informao (isto , so naturalmente itens no-atinentes).
O tema da atinncia est relacionado muito de perto com o da relevncia isto , a relao
entre um documento e uma necessidade de informao ou entre um documento e um
enunciado de necessidade de informao (uma consulta). O tema da relevncia/pertinncia
produziu um grande volume de debates e publicaes. Encontra-se em Mizzaro (1998) um
apanhado muito completo. Hj01land (2000) salienta que a relevncia dependente dos
pressupostos tericos que orientam o comportamento da pessoa que busca informao.
Conforme Harter (1992) ressaltou, no entanto, um documento pode ser relevante para
uma necessidade de informao sem tratar dessa necessidade de informao. Por exemplo,
se escrevo sobre o tema das barreiras comunicao, uma histria do latim talvez tenha
alguma relevncia, principalmente se lidar com a utilizao atual do latim pela Igreja Catlica e
1

O autor emprega os termos ingleses about e aboutness o primeiro traduzimos por trata de e o segundo por
atinncia o Outros traduzem aboutness por tematicidade, temtica, acerca-de, ser acerca-de, ser sobre algo,
etc. (N.T.)

23

comas instituies que hoje em dia se esforam para promover seu uso mais amplo. No
obstante, ainda que possa inspirar-me nessa fonte ao escrever meu artigo, poucas pessoas
alegariam que ele trata da comunicao internacional, sendo improvvel que venha a ser
indexado desta forma, a menos que o autor faa meno explicitamente ao aspecto da
comunicao internacional.
Wong et al. (2001) tratam atinncia como sendo mais ou menos sinnimo de
relevncia:
[...] se um dado documento. O trata do pedido Q, ento existe uma alta probabilidade de que
D ser relevante em relao necessidade de informao associada. Assim, o problema da
recuperao da informao se reduz deciso acerca da relao de atinncia entre
documentos e pedidos (p. 338).

Eles relacionam a atinncia diretamente s medidas de revocao e preciso.


Continuam a aparecer na literatura artigos sobre atinncia. Hj0rland (2001) e Bruza et al.
(2000) so exemplos. Embora possam apresentar algum interesse acadmico (Hj0rland d-se
ao trabalho de tentar diferenar termos como assunto, tpico, tema, domnio, campo e
contedo), no tm qualquer importncia prtica para o indexador, que far bem se ignorar
essas diferenas semnticas e simplesmente atribuir ao item os rtulos que o tornaro
utilmente recupervel pelos membros de uma comunidade-alvo.
Em outras palavras, ser que precisamos realmente compreender o que atinncia a
fim de indexar de maneira eficiente? No bastar que sejamos capazes de reconhecer que um
documento tem interesse para determinada comunidade pelo fato de contribuir para nossa
compreenso dos tpicos x, Ye z? O reconhecimento de que realmente contribui para isso
exemplifica o processo que chamamos anlise conceitual, enquanto o processo de traduo
envolve uma deciso sobre quais dos rtulos disponveis melhor representam x, Ye Z.
Conceito outra palavra sobre a qual alguns autores gostam de filosofar (ver, por exemplo,
Dahlberg [1979]). Neste livro emprego-a para referir-me a um assunto estudado por um autor
ou representado de alguma outra forma (por exemplo, numa fotografia ou outra imagem).
Anlise conceitual, portanto, significa nada mais do que a identificao dos assuntos
estudados ou representados num documento. Preschel (1972) adota uma abordagem muito
prtica. Para ela, conceito significa matria indexvel, e anlise conceitual a percepo
pelo indexador de matria indexvel. Tinker tambm adota uma posio prtica (1966):
Ao atribuir um descritor [isto , um termo de indexao] a um documento, o indexador
declara que tal descritor possui alto grau de relevncia para o contedo do documento; quer
dizer, ele declara que o significado do descritor est fortemente associado a um conceito
incorporado ao documento, e que adequado rea temtica do documento (p. 97).

Wooster (1964) ainda mais pragmtico, ao se referir indexao como a atribuio de


termos provavelmente relacionados de alguma forma com o contedo intelectual do
documento original, para ajudar voc a encontr-lo quando precisar.
No vejo nada de errado nessas definies ou descries pragmticas da indexao
temtica. Os puristas sem dvida tergiversaro sobre elas argumentando que expresses como
matria indexvel, relevncia, significado, associado a, conceito, adequado a,
relacionado com e contedo intelectual no se acham definidas precisamente de modo a
satisfazer a todos. No entanto, se tivermos de chegar a um acordo quanto definio exata
dos termos antes de encetar qualquer tarefa, improvvel que cheguemos muito longe, seja
na indexao seja em qualquer outra atividade.
Weinberg (1988) levanta a hiptese de que a indexao frustra o pesquisador porque ela
lida apenas de forma genrica com aquilo de que trata um documento e no focaliza aquilo
que ele proporciona de novidade a respeito do tpico. Ela afirma que esta distino se reflete
na diferena entre atinncia e aspecto, entre tpico e comentrio ou entre tema e
rema. Ela no consegue convencer que essas distines sejam realmente teis no contexto
da indexao ou que seja possvel para os indexadores sustentar essas distines.
Swift et al. (1978) examinam as limitaes de um enfoque baseado na atinncia na
indexao em cincias sociais, e recomendam que os documentos sejam indexados de acordo
com os problemas com os quais paream estar relacionados. difcil perceber como a
distino que fazem difere da distino, feita anteriormente neste captulo, entre do que trata
um documento e por que um determinado usurio ou grupo de usurios teria interesse nele.
Crowe (1986) afirma que o indexador deve remeter ao ponto de vista subjetivo do autor. Um
de seus exemplos trata do tpico da depresso, o qual pode ser estudado em livros ou artigos
a partir de diferentes pontos de vista (por exemplo, tratamento por meio de psicoterapia, por
meio de medicamentos, etc.). Outra vez torna-se difcil vislumbrar como isso difere da prtica
24

habitual da indexao, como, por exemplo, o emprego de subcabealhos pela National Library
of Medicine.
Breton (1981) alega que os engenheiros pouco recorrem s bases de dados porque os
indexadores rotulam os documentos com os nomes de materiais ou dispositivos, enquanto
mais provvel que os engenheiros precisem fazer as buscas a partir dos atributos ou das
funes desempenhadas por esses materiais ou dispositivos. Em outras palavras, eles
gostariam de localizar um material ou dispositivo que satisfizesse a algum requisito atual
(quanto resistncia, condutividade, resistncia corroso, ou coisa que o valha) sem terem
de nome-lo. Isso no constitui uma condenao da indexao de assuntos de per si, mas das
polticas de indexao adotadas pela maioria dos produtores de bases de dados. Se se diz que
um novo material ou uma liga descrita num relatrio possui certa resistncia trao, esta
propriedade pode ser indexada (por exemplo, atribuindo o termo RESISTNCIA TRAO),
porm o valor especfico dessa propriedade (isto , a resistncia alcanvel) no seria
indexado pela maioria dos produtores de bases de dados, embora se possa mencion-lo no
resumo. Naturalmente, no h razo para que os valores no sejam indexados (por exemplo, o
termo RESISTNCIA TRAO poderia ser subdividido em vinte termos mais especficos, cada
um representando uma ordem de valores de resistncia trao) e eles estariam em algumas
bases de dados, assim como os ndices de uma empresa para seus prprios arquivos de
contratos, ndices de compilaes de dados, ou certas bases de dados de patentes. Algumas
das objees de Breton, ento, seriam contestadas mediante a indexao em nvel muito mais
alto de especificidade. Tambm possvel indexar as funes, desde que as que possivelmente
se apliquem a um dispositivo sejam identificadas pelo autor e haja termos apropriados no
vocabulrio da base de dados. Porm, totalmente irracional alimentar a expectativa de que o
indexador seja capaz de reconhecer aplicaes que no foram especificamente afirmadas pelo
autor.
Posteriormente, Breton (1991) relatou pesquisas sobre um sistema de indexao que
concretizava suas idias e pretendia ajudar no processo de inveno. O sistema experimental
resultou da indexao de milhares de produtos industriais segundo as funes que
desempenham e seus atributos distintivos. Os atributos incluam coisas como mais leve,
mais barato, mais seguro e mais forte.
Alguns autores sugerem que possvel melhorar a recuperao em certos contextos por
meio da indexao somente de determinadas caractersticas de um texto. Por exemplo, Oh
(1998) sugere que, em psicologia, a indexao apenas de fatos empricos (nomes de
variveis, valores de correlao e informao sobre o nvel de significncia) melhoraria as
condies de recuperao. Embora uma indexao altamente especializada como essa seja
justificvel em raras situaes, improvvel que seja uma exigncia da maioria e
provavelmente ser muito mais dispendiosa do que uma abordagem mais convencional.
Virou moda nos ltimos anos considerar o problema da recuperao da informao como
sendo fundamentalmente uma questo de comparar o estado anmalo de conhecimento de
um consulente com o estado de conhecimento mais coerente dos autores (ver, por exemplo,
Belkin et al., 1982), implicando isso que os problemas residem mais na sada do sistema
(busca) do que na entrada. H um certo equvoco nisso. Se aceitamos que a indexao mais
eficiente quando se orienta para as necessidades de determinado grupo de usurios, a funo
do indexador ser prever os tipos de pedidos para os quais determinado documento ser
provavelmente uma resposta til. Talvez isso ainda seja mais difcil do que prever quais os
tipos de documentos que tm probabilidade de corresponder de modo til a determinado
pedido, o que constitui, em certo sentido, a funo de quem faz a busca. Poder-se-ia argir,
ento, que o estado anmalo de conhecimento aplica-se mais ao lado de entrada do sistema
de recuperao do que sua sada. Olafsen e Vokac (1983) vem essa particularidade com
clareza:
O indexador tem de fazer conjeturas sobre quais consultas sero formuladas pelo futuro
usurio do sistema. Independentemente do grau de habilidade aplicada a esse exerccio de
adivinhao, ainda assim sero conjeturas, e o usurio recorre ao sistema levando sua
prpria questo concreta, e as associaes que faz podem ser diferentes das do indexador
(p. 294).

Estes autores tambm cometem um exagero de simplificao ao se referirem s questes


trazidas pelo usurio como concretas, quando, de fato, muitas delas estaro longe disso.
Apesar de tudo, talvez estejam certos ao sugerirem que os problemas de uma eficiente entrada
de dados num sistema de recuperao superam os problemas concernentes sada. Conforme
Fairthorne (1958) salientou, h muitos anos: A indexao o problema fundamental bem
como o obstculo mais dispendioso da recuperao da informao.
25

Em algumas aplicaes da indexao talvez seja possvel ser bastante mais preciso no
que se refere ao que deva ser consideradoindexvel. Ao tratar da indexao de uma
enciclopdia; Preschel (1981) oferece as seguintes diretrizes:
Toda informao textual de natureza substantiva deve ser indexada. Define-se como
substantiva a informao que abranja de 8 a 10 linhas de texto ou que seja singular ou
notvel e que quase com certeza no ocorra em outro lugar da enciclopdia (p. 2). 1

Em outras situaes nem sempre possvel tanta preciso.


Com efeito, a questo sobre de que. trata um item torna-se muito mais difcil quando se
examina a indexao de obras de criao, como textos de fico ou filmes de longa-metragem,
ou imagens em geral. Nesses contextos, a atinncia ser vista em prximos captulos.
Naturalmente, toda a questo da atinncia tornou-se muito mais complexa no atual
ambiente de hipertexto/hipermdia. Quando um item pode ser vinculado [linked] a muitos
outros, j no existe mais clareza sobre onde um comea e o outro acaba. Um documento trata
apenas daquilo com que lida diretamente, ou trata tambm dos tpicos abordados nos itens a
ele associados? Pouco se escreveu sobre a indexao de hipertextos de per si, embora nela se
toque com certa extenso na literatura de hipertexto/hipermdia. Savoy (1995) e Salton et al.
(1997) examinam possveis mtodos para o estabelecimento automtico de vnculos [links] de
hipertexto, o ,que pode ser considerado uma forma de indexao automtica. Em captulos
posteriores trataremos desse tema.
Traduo
Traduo, a segunda etapa da indexao de assuntos, envolve a converso da anlise
conceitual de um documento num determinado conjunto de termos de indexao. A esse
respeito, faz-se uma distino entre indexao por extrao (indexao derivada) e indexao
por atribuio. Na indexao por extrao, palavras ou expresses que realmente ocorrem no
documento so selecionadas para representar seu contedo temtico. Por exemplo, o item da
figura 3 poderia ser indexado com os seguintes termos:
OPINIO PBLICA
PESQUISAS POR TELEFONE
ESTADOS UNIDOS
ATITUDES
ORIENTE MDIO

ISRAEL
EGITO
AJUDA
PAZ

Todos os quais aparecem no ttulo ou no resumo. Uma forma primitiva de indexao


derivada, conhecida como Uniterm, empregava apenas termos formados por uma nica
palavra para representar o contedo temtico. Se fosse estritamente observado, o sistema
Uniterm acarretaria alguns resultados esquisitos, como a separao de Oriente Mdio em
ORIENTE e MDIO.
A indexao por atribuio envolve a atribuio de termos ao documento a partir de uma
fonte que no o prprio documento. Os termos podem ser extrados da cabea do indexador;
por exemplo, ele decidiria que os termos AJUDA EXTERNA e RELAES EXTERIORES, que no
aparecem explicitamente em nenhum dos resumos, seriam termos bons de usar no documento
da figura 3.
Mais freqentemente, a indexao por atribuio envolve o esforo de representar a
substncia da anlise conceitual mediante o emprego de termos extrados de alguma forma de
vocabulrio controlado.
Vocabulrios controlados
Um vocabulrio controlado essencialmente uma lista de termos autorizados. Em geral,
o indexador somente pode atribuir a um documento termos que constem da lista adotada pela
instituio para a qual trabalha. Comumente, no entanto, o vocabulrio controlado mais do
que uma mera lista. Inclui, em geral, uma forma de estrutura semntica. Essa estrutura
destina-se, especialmente, a:
1. Controlar sinnimos, optando por uma nica forma padronizada, com remissivas
de todas as outras;
2. Diferenar homgrafos. Por exemplo, PERU (PAS) um termo bastante diferente
de PERU (AVE); e
1

Esta citao de um texto indito reproduzida com autorizao de Funk & Wagnalls.

26

3. Reunir ou ligar termos cujos significados apresentem uma relao mais estreita
entre si. Dois tipos de relaes so identificados explicitamente: as hierrquicas e
as no-hierrquicas (ou associativas). Por exemplo, o termo MULHERES
OPERRIAS relaciona-se hierarquicamente com MULHERES (como uma espcie
deste termo) e com DONAS DE CASA (tambm uma espcie do termo MULHERES),
bem como est associado a outros termos, como EMPREGO ou FAMLIAS
MONOPARENTAIS, que aparecem em hierarquias bem diferentes.
So trs os tipos principais de vocabulrios controlados: esquemas de classificao
bibliogrfica (como a Classificao Decimal de Dewey), listas de cabealhos de assuntos e
tesauros. Todos procuram apresentar os termos tanto alfabtica quanto sistematicamente.
Nas classificaes, o arranjo alfabtico secundrio, na forma de um ndice que remete para o
arranjo principal, que hierrquico. No tesauro, o arranjo explcito dos termos alfabtico, mas
existe uma estrutura hierrquica implcita, incorporada lista alfabtica por meio de
remissivas. A tradicional lista de cabealhos de assuntos similar ao tesauro por ser de base
alfabtica, mas difere dele porque incorpora uma estrutura hierrquica imperfeita e por no
distinguir claramente as relaes hierrquicas das associativas. Os trs tipos de vocabulrio
controlam sinnimos, distinguem homgrafos e agrupam termos afins, mas empregam
mtodos um tanto diferentes para alcanar estes objetivos.
Um estudo mais completo dessas questes encontra-se em Lancaster (1986).
Indexao como classificao
Na bibliografia de biblioteconomia e cincia da informao, faz-se, s vezes, uma
distino entre as trs expresses indexao de assuntos, catalogao de assuntos e
classificao. Catalogao de assuntos refere-se comumente atribuio de cabealhos de
assuntos para representar o contedo total de itens bibliogrficos inteiros (livros, relatrios,
peridicos, etc.) no catlogo das bibliotecas. Indexao de assuntos expresso usada de
modo mais impreciso; refere-se representao do contedo temtico de partes de itens
bibliogrficos inteiros, como o caso do ndice de final de livro. Assim, uma biblioteca pode
catalogar um livro sob o cabealho de assunto CES, para indicar seu contedo temtico
global; o contedo pormenorizado somente revelado pelo ndice de assuntos no final do livro.
A distino entre as expresses catalogao de assuntos e indexao de assuntos, uma delas
referindo-se a itens bibliogrficos inteiros e a outra a partes de itens, artificial, enganosa e
incongruente. O processo pelo qual o contedo temtico de itens bibliogrficos representado
em bases de dados publicadas - em formato impresso ou eletrnico - quase invariavelmente
chamado de indexao de assuntos, quer se estejam examinando itens total ou parcialmente.
Assim, o ndice de assuntos, por exemplo, do Chemical Abstracts remete a livros ou relatrios
tcnicos inteiros, bem como a partes de itens bibliogrficos (captulos de livros, trabalhos
publicados em anais de eventos, artigos de peridicos). Por outro lado, as bibliotecas podem
optar por representar em seus catlogos partes de livros (por exemplo, captulos ou artigos); a
isto se denomina comumente catalogao analtica. Quando aplicada ao contedo temtico,
esta atividade seria a catalogao analtica de assuntos.
A situao fica ainda mais confusa ao se examinar o termo classificao. Os bibliotecrios
costumam empregar esta palavra para designar a atribuio de nmeros de classificao
(extrados de um esquema de classificao - por exemplo, o Decimal de Dewey (CDD), o
Decimal Universal (CDU), o da Library of Congress (LC) - a itens bibliogrficos, especialmente
com a finalidade de arrum-los nas estantes das bibliotecas, em mveis de arquivo, etc. O
catlogo de assuntos de uma biblioteca, porm, pode ser organizado alfabeticamente
(catlogo alfabtico de assuntos ou catlogo,dicionrio) ou organizado segundo a seqncia de
um esquema de classificao (catlogo sistemtico). Suponhamos que o bibliotecrio tome um
livro e decida que trata de aves. Ele lhe atribui o cabealho de assunto AVES.
Alternativamente, pode atribuir o nmero de classificao 598. Muitos se refeririam primeira
operao como catalogao de assuntos e segunda como classificao, uma distino
totalmente absurda. A confuso ainda maior quando se percebe que indexao de assuntos
pode envolver o emprego de um esquema de classificao ou que um ndice impresso de
assuntos pode a.dotar a seqncia de um esquema de classificao.
Estas diferenas termino lgicas so muito inexpressivas e s servem para confundir (ver
Acton, 1986, para um exemplo tpico). O fato que a classificao, em sentido mais amplo,
permeia todas as atividades pertinentes ao armazenamento e recuperao da informao.
Parte dessa confuso terminolgica se deve incapacidade de distinguir entre as etapas de
anlise conceitual e de traduo na indexao.
27

Suponhamos que um especialista em informao tenha em mo um item bibliogrfico e


decida que ele trata do assunto robs. A atividade intelectual que tal deciso implica a
mesma, qualquer que seja o tipo de documento que tenha em mo - livro, parte de livro,
peridico, artigo de peridico, anais de evento, trabalho apresentado em evento, seja o que for.
O especialista classificou o item, isto , colocou-o na classe conceitual de documentos que
tratam de robs.
Como vimos antes, o processo de traduo envolve a representao da anlise conceitual
mediante um termo ou termos extrados de um vocabulrio. Um termo atribudo a um item
constitui simplesmente um rtulo que identifica determinada classe de itens. Esse rtulo
poderia ser o termo INTELIGNCIA ARTIFICIAL, extrado de um tesauro, de uma lista de
cabealhos de assuntos ou do prprio documento, uma palavra equivalente de outra lngua, ou
um rtulo como 006.3 extrado de um esquema de classificao.
O processo que consiste em decidir do que trata um item e de atribuir-lhe um rtulo que
represente esta deciso conceitualmente o mesmo, quer o rtulo atribudo seja extrado de
um esquema de classificao, de um tesauro ou de uma lista de cabealhos de assuntos, quer
b item seja uma entidade bibliogrfica completa ou parte dela, quer o rtulo seja
subseqentemente arquivado em ordem alfabtica ou em outra seqncia (ou, com efeito, no
arquivado de modo algum), quer o objeto do exerccio seja organizar documentos em estantes
ou registros em catlogos, ndices impressos ou bases de dados eletrnicas.
No campo do armazenamento e recuperao da informao, a classificao de
documentos refere-se formao de classes de itens com base no contedo temtico.
Tesauros, cabealhos de assuntos e esquemas de classificao bibliogrfica so
essencialmente listas dos rtulos com os quais se identificam e, porventura, se organizam
essas classes. O processo da busca.de informao implica decidir quais classes consultar num
ndice impresso, catlogo em fichas ou base de dados eletrnica. A busca pode compreender o
exame de uma nica classe (por exemplo, tudo que aparea sob o cabealho ROBS) ou
abranger combinaes de vrias classes (por exemplo, itens que apaream sob ROBS e
tambm sob INTELIGNCIA ARTIFICIAL). Quantas combinaes so possveis ou com qual
facilidade vrias classes podem ser combinadas algo que depende muito do formato da
ferramenta que estiver sendo utilizada na busca, principalmente se for impressa ou em
formato eletrnico.
Em suma, a indexao de assuntos conceitualmente idntica catalogao de
assuntos. A atividade que isso compreende a classificao de assuntos, ou seja, formar
classes de objetos com base em seu contedo temtico. Neste texto, emprega-se indexao de
assuntos ou mesmo indexao, por razes de comodidade, para designar todas as atividades
de classificao de assuntos.
Especificidade do vocabulrio
A figura 5 mostra uma anlise conceitual feita para um artigo de peridico, bem como a
traduo desta anlise conceitual em trs tipos diferentes de vocabulrio. O artigo trata da
utilizao de robs na indstria, especificamente, suas aplicaes na fabricao e manuseio de
materiais. Tambm examina o emprego de tcnicas de inteligncia artificial no projeto e
operao de robs, bem como os problemas especficos inerentes a fazer com que os robs se
movimentem adequadamente (isto , problemas de locomoo).
Com relao a todos esses aspectos, a anlise conceitual pode ser traduzida
efetivamente para qualquer um dos vocabulrios. Observe-se que as idias transmitidas pela
anlise conceitual da figura 5 so abrangi das coletivamente pelos grupos de termos listados
nos trs vocabulrios. Por exemplo, os trs nmeros de classificao da CDD, tomados em
conjunto, abrangem o contedo temtico desse artigo, de modo claro e completo, embora no
haja uma relao unvoca entre os elementos individuais da anlise conceitual e os termos da
CDD. Embora edies anteriores da CDD no permitissem muita sntese das notaes (isto , a
construo de nmeros), edies posteriores permitem isso cada vez mais. Assim, 670.4272
(robs em operaes de fabricao) pode ser subdividido por 004-006. Uma vez que 006.3
representa inteligncia artificial, os nmeros podem ser combinados para formar o nmero
altamente especfico 670.427263.
A anlise conceitual da figura 5 abrangida de modo igual, completa e especificamente,
em cada vocabulrio, quando se consideram grupos inteiros de termos. No nvel de um nico
termo, claro, existem de fato diferenas. Se apenas um termo pudesse ser atribudo a esse
artigo, a CDD seria melhor do que os outros vocabulrios, pois possvel construir um nico
nmero de classificao que expresse o tpico principal desse artigo.

28

Este exemplo ilustra dois aspectos importantes. Primeiro, o tipo de vocabulrio controlado
(esquema de classificao, cabealhos de assuntos, tesauro) no o fator mais importante a
influir na etapa de traduo da indexao. Muito mais importantes so o alcance (abrangncia)
e a especificidade do vocabulrio. Neste exerccio de indexao, os trs vocabulrios podem
abranger o assunto muito bem, embora de modo um tanto diferente. O segundo aspecto que o
exemplo ilustra que, embora a especificidade seja uma propriedade muito importante de um
vocabulrio controlado, pode ser obtida de diferentes formas em diferentes vocabulrios.
importante considerar, em especial, as propriedades de combinaes de termos de indexao
mais do que as propriedades de termos isolados.
Anlise
conceitual

Classificao Decimal
de Dewey

Robs
industriais
Inteligncia
artificial

670.427263
Inteligncia artificial
aplicada a robs em
operaes de
fabricao

Operaes de
fabricao

Library of Congress
Subject Headings

INSPEC Thesaurus

ROBOTS, INDUSTRIAL

INDUSTRIAL ROBOTS

ARTIFICIAL
INTELLIGENCE

ARTIFICIAL
INTELLIGENCE

MANUFACTURING
PROCESSES
AUTOMATION

MANUFACTURING
PROCESSES

Manuseio de
materiais

621.86 Equipamento
de manuseio de
materiais

MATERIALS HANDLING

MATERIALS HANDLING

Locomoo

531.112 Cinemtica

ROBOTS - MOTION

KINEMATICS

Figura 5 Anlise conceitual traduzida em trs vocabulrios controlados

Vejamos, por exemplo, um artigo sobre os servios de sade mental. O Vocabulrio A


contm o descritor especfico SERVIOS DE SADE MENTAL, enquanto o Vocabulrio B possui o
termo SERVIOS DE SADE, mas no o termo mais especfico. Porm, B tambm inclui o termo
SADE MENTAL, de modo que a idia de servios de sade mental abrangida
especificamente pela indexao sob SERVIOS DE SADE e SADE MENTAL. Sobre este tpico,
portanto, o Vocabulrio B to especfico quanto A. OS vocabulrios C e D so menos
especficos: C contm o termo SADE MENTAL, mas no possui termo algum para servios de
sade, enquanto D traz SERVIOS DE SADE, mas carece de um termo para sade mental, de
modo que nenhum dos dois apresenta a possibilidade de expressar especificamente a idia de
servios de sade mental. No momento de realizar uma busca nos sistemas representados
pelos diferentes vocabulrios, seria possvel obter resultados efetivos em A e B, mas seria
impossvel limitar a busca em C e D - ou seria recuperado tudo sobre sade mental, ou tudo
sobre servios de sade.
Este captulo tratou dos princpios da indexao apenas teoricamente, pois no usou
como modelo nenhum servio de informao. provvel que grandes servios de informao
produzam suas prprias diretrizes de indexao, que merecem ser examinadas para se ver
como as regras so aplicadas em determinado contexto. Um bom exemplo a estudar o
manual de indexao e resumos do Sistema Internacional de Informao Nuclear (Brk et al.,
1996).

29

Captulo 3 A prtica da indexao


A o indexador raramente dado o luxo de poder ler um documento atentamente do
comeo ao fim. A exigncia de indexar determinada quantidade de itens por dia haver de lhe
impor que se satisfaa comumente com uma leitura que estar longe de ser completa.
Usualmente, recomenda-se um misto de ler e passar os olhos pelo texto. As partes a serem
lidas atentamente so as que apresentam maior probabilidade de dizer o mximo sobre o
contedo no menor tempo: ttulo, resumo, sinopse e concluses. Os ttulos das sees e as
legendas das ilustraes ou tabelas tambm merecem maior ateno. Convm passar os olhos
pelo restante do texto, para confirmar se as partes mais condensadas contm uma imagem
exata do que trata o documento. No entanto, o indexador deve, habitualmente, levar em conta
o documento inteiro (partes lidas, partes que foram vistas de relance), e os termos atribudos
precisam refletir o todo. A exceo seria quando somente parte do documento (por exemplo,
um documento longo com mltiplos assuntos) interessasse ao grupo de usurios a ser
atendido.
Jones (1976), citando Anderson (1971), salienta que certas partes de um documento so
particularmente gratificantes para o indexador: Pargrafos de abertura (de captulos ou
sees) e frases de abertura e encerramento de pargrafos parecem ser especialmente ricos
em palavras indexveis. Isso confirma as concluses de Baxendale (1958) em seu trabalho
sobre o desenvolvimento de processos de indexao automtica de documentos.
Uma norma internacional sobre indexao de assuntos (Methodsfor examining
documents, 1985) oferece outras instrues sobre como analisar um documento:
Muitas vezes impraticvel fazer uma leitura completa, que nem sempre necessria,
porm o indexador deve assegurar-se de que nenhuma informao til lhe passou
despercebida. As partes importantes do texto devem ser examinadas cuidadosamente,
dando-se especial ateno s seguintes:
a) Ttulo;
b) Resumo, se houver;
c)

Sumrio;

d) Introduo, as frases e pargrafos de abertura de captulos, e as concluses;


e) Ilustraes, grficos, tabelas e respectivas legendas;
f)

Palavras ou grupos de palavras que apaream sublinhados ou grafados com tipos


diferentes.

Todos esses elementos devem ser examinados e avaliados pelo indexador durante a anlise
que faz do documento. No recomendvel fazer a indexao a partir exclusivamente do
ttulo, e, se houver um resumo, no deve ser visto como um substituto satisfatrio do exame
do texto. Os ttulos podem ser enganosos; tanto os ttulos quanto os resumos podem ser
inadequados; em muitos casos nenhum dos dois uma fonte confivel do tipo de informao
que o indexador requer (p. 2).

Em seu abrangente estudo sobre como os indexadores realmente executam suas


atividades, Oliver et al. (1966) descobriram que a maioria adota, efetivamente, um mtodo de
ler/passar os olhos:
O maior grupo de indexadores (cerca de 85% do total) afirmou que examinam rotineiramente
o documento inteiro. Esses indexadores, porm, salientaram que certas partes do documento
eram examinadas mais atentamente do que outras. Essas partes incluam resumo,
introduo, sinopse, concluses, metodologia, resultados e tabelas e grficos. Se uma ou
mais de uma dessas sees condensadas fosse considerada adequada pelo indexador, ele
poderia examinar de relance ou simplesmente folhear outras partes do documento. Os
principais motivos para examinar o corpo do documento foram para constatar se alguma
coisa passara despercebida, oferecer maior profundidade da indexao, e dirimir quaisquer
dvidas ou questes (p. 4-14).

Posteriormente, Chu e OBrien (1993) observaram que indexadores novatos utilizavam


bastante os resumos, quando existiam, para determinar o assunto dos artigos. Embora hajam
observado mais de cem indexadores, o estudo abrangeu apenas trs artigos.
Tudo isso se apia no pressuposto de que possvel ler o documento a ser indexado.
Conforme ressalta a ISO 5963 (Methods for examining documents, 1985), procedimentos
diferentes se aplicaro a outros tipos de itens:
30

Documentos no-impressos, como os meios audiovisuais, visuais e sonoros, inclusive objetos


tridimensionais, exigem procedimentos diferentes. Nem sempre possvel, na prtica,
examinar um registro em sua inteireza (por exemplo, projetando um filme). A indexao,
ento, comumente feita a partir de um ttulo e/ou de uma sinopse, embora ao indexador
deva ser dada a oportunidade de assistir ou ouvir o que se acha gravado, caso a descrio
escrita seja inadequada ou parea inexata (p. 2).

Um livro de Sauperl (2002) descreve como os catalogadores nas bibliotecas identificam o


assunto de um livro e escolhem os cabealhos e nmeros de classificao que lhe sero
atribudos. Baseia-se na observao minuciosa do trabalho de doze pessoas.
A indexao de fontes em formato eletrnico apresenta problemas especiais. Browne
(2001), por exemplo, chamou ateno para os problemas relativos indexao de stios da
Rede:
A primeira etapa na indexao de um stio da Rede ter uma noo do volume e do tipo de
material a ser indexado. No caso das provas tipogrficas de um livro, possvel segur-las
com uma das mos e folhe-las rapidamente. Na Rede isso impossvel, de modo que se
obrigado a examinar sistematicamente o stio, anotando o tipo de informao, a quantidade
de informaes e a qualidade dos vnculos de navegao. Verifica-se o tamanho dos arquivos
em megabytes. Solicita-se ao responsvel pelo stio [webmaster] que fornea o maior
nmero possvel de informaes sobre os arquivos, inclusive quantos autores colaboraram
com pginas. Quanto mais autores, mais variaes sero previstas, e maior ser a
amostragem a ser feita (p. 32).

O motivo para se examinar o documento , naturalmente, a deciso sobre o que incluir


na indexao (nas palavras de Preschel (1972), isso constitui a identificao da matria
indexvel).1
Conforme sugerido no captulo 2, o indexador, para fazer isso com eficincia, precisa
conhecer muito bem os interesses da comunidade servida pelo ndice. Numa instituio
especfica, os indexadores podem ser orientados no sentido de procurar nos documentos
certos elementos predefinidos; caso ocorram, devero ser includos na indexao. Conforme o
tipo de instituio, esses elementos importantes incluem: materiais de fabricao,
temperaturas envolvidas, grupo etrio envolvido, nvel de escolaridade, etc. Em certos casos,
os elementos mais importantes so pr-impressos no formulrio de indexao, lembrando ao
indexador que os termos apropriados devem ser usados, se se aplicarem a determinado
documento. Por exemplo, a National Library of Medicine emprega etiquetas [checktags] desse
tipo para indicar grupos etrios, gnero, tipos de animais utilizados em experincias, etc.
Essa etapa de anlise conceitual da indexao no deve ser influenciada pelas
caractersticas do vocabulrio a ser usado na etapa de traduo. Isto , o indexador decide,
primeiramente, quais os assuntos que precisam ser representados; s depois (a todo momento
talvez) que verificar se o vocabulrio permite ou no represent-los adequadamente. Em
outras palavras, o indexador no deve ignorar um assunto porque sabe ou desconfia que no
pode ser expresso adequadamente. possvel que um exame mais meticuloso do vocabulrio
mostre que estava equivocado. Ademais, uma funo importante do indexador contribuir
para o aperfeioamento do vocabulrio controlado, comunicando suas deficincias aos
responsveis por sua manuteno. improvvel que isso ocorra se o indexador for estimulado
a pensar com os termos controlados. A propsito, discordo totalmente da ISO 5963, que
afirma que tanto a anlise quanto a transcrio devem ser realizadas com o auxlio de
instrumentos de indexao, como tesauros e esquemas de classificao. A transcrio,
claro, no se realiza sem essas ferramentas, mas a anlise independe totalmente delas.
Um fator afim a lembrar que a terminologia usada pelo autor pode no corresponder
exatamente aos termos do vocabulrio controlado. Mesmo que os termos empregados pelo
autor coincidam com os termos controlados, a maneira como so utilizados pode ser diferente.
Por exemplo, um autor emprega o termo epidemiologia de forma muito imprecisa, mas o
vocabulrio define-o de modo mais preciso, e sua atribuio ser errnea, apesar de ter sido
usado pelo autor. So as idias com que lida o autor, e no as palavras por ele empregadas,
que devem ser indexadas.
Hjorland (2001) trata da seguinte forma a etapa da traduo na indexao:
Uma deciso posterior refere-se a quais descritores do vocabulrio controlado sero
atribudos ao documento. Tal deciso pode (e deve) ser vista da perspectiva inversa: sob
quais descritores pareceria relevante para o usurio encontrar esse documento? (p. 777).
1

Ver Milstead (1984) para outras consideraes sobre como examinar um texto para identificar sua matria
indexvel.

31

Embora concorde inteiramente com que a indexao esteja relacionada s necessidades


de determinado grupo de usurios, acho que Hjorland pode estar confundindo as etapas de
anlise conceitual e traduo. durante a primeira que se identificam as necessidades dos
usurios. Isto , o indexador decide quais aspectos do documento provavelmente interessaro
aos usurios. Em seguida, o indexador seleciona os termos controlados que melhor
representam esses aspectos.
Exaustividade da indexao
Os fatores que influem no desempenho de um sistema de recuperao da informao e
que so diretamente atribuveis indexao podem ser assim categorizados:
1. Poltica de indexao
2. Exatido da indexao
Anlise conceitual
Traduo
As decises quanto poltica so tomadas pelos gestores do servio de informao,
estando, portanto, fora do controle do indexador individual; os fatores relativos exatido se
esto sob o controle do indexador individual.
A principal deciso poltica diz respeito exaustividade da indexao, a qual
corresponde, grosso modo, ao nmero de termos atribudos em mdia. O efeito da
exaustividade foi anteriormente exemplificado na figura 3. A indexao exaustiva implica o
emprego de termos em nmero suficiente para abranger o contedo temtico do documento
de modo bastante completo. A indexao seletiva, por outro lado, implica o emprego de uma
quantidade muito menor de termos, a fim de abranger somente o contedo temtico principal
do documento. Quanto mais termos forem utilizados para indexar um documento mais
acessvel ele se tornar e, provavelmente, mais vezes ser recuperado. Um centro de
informao procurar indexar exaustivamente se seus usurios solicitarem com freqncia a
realizao de buscas completas. Um consulente que precise localizar todos os itens que, de
alguma forma, tratem da OLP ter a expectativa de recuperar o documento mostrado na figura
3, mas isso somente ser possvel se a indexao tiver sido razoavelmente exaustiva.
As decises da poltica, no que se refere exaustividade, no devem assumir a forma de
limites absolutos quantidade de termos a serem atribudos. Ao invs disso, essa poltica
poderia sugerir uma faixa de termos; por exemplo, a maioria dos documentos ser indexada
com 8 a 15 termos. Num grande centro de informao, que lide com muitos tipos diferentes de
documentos, a poltica pode variar segundo o tipo de documento. Por exemplo, o centro de
informao de uma grande empresa estabeleceria a seguinte poltica:
Relatrios tcnicos da prpria empresa15-25 termos
Outros relatrios tcnicos
10-15 termos
Patentes
15-20 termos
Artigos de peridicos
5-10 termos
E assim por diante. Alternativamente, a poltica tomaria como base o contedo temtico,
sendo os assuntos de maior interesse da empresa indexados com uma quantidade maior de
termos.
Embora uma base de dados indexada exaustivamente costume possibilitar buscas
exaustivas (alta revocao),1 provvel que a indexao exaustiva saia mais cara do que a
indexao seletiva. Ademais, a indexao exaustiva redundar em menor preciso das buscas.
Quer dizer, ser recuperado um nmero maior de itens que o consulente considera como no
sendo pertinentes a sua necessidade de informao. Isso pode acontecer devido a dois
motivos:
1.
O nmero de falsas associaes aumentar conforme aumente o nmero de
termos atribudos. Por exemplo, o item da figura 3 seria recuperado durante uma
busca sobre pesquisas por telefone no Egito, embora nada tenha a ver com este
tpico.
2.
Quanto mais termos forem empregados para indexar um item, mais ele ser
recuperado em resposta a assuntos de busca que nele so tratados somente de forma
muito secundria. provvel que o item da figura 3 seja recuperado numa busca de
artigos que tratem de lderes polticos dos estados rabes, porm a pessoa que
solicita essa busca pode decidir que ele contribui to pouco para este tema que
dificilmente seria considerado til.
1

Isso foi demonstrado em numerosas ocasies; por exemplo, por Boyce e McLain (1989).

32

A idia de exaustividade tambm se aplica a um sistema de recuperao que funcione


com base em buscas feitas em textos (ver captulo 13). O ttulo do documento da figura 3 no
constitui uma representao muito exaustiva de seu contedo temtico. A exaustividade
cresce medida que aumenta o nmero de palavras presentes na representao.
O termo profundidade freqentemente empregado para designar a quantidade de
termos atribudos a um documento. Quer dizer, emprega-se profundidade em lugar de
exaustividade. Ambos os termos so imprecisos e podem ser enganosos. Para compreender
melhor o efeito do aumento do nmero de termos usados na indexao de um documento,
imaginemo-lo como se possusse duas dimenses, como mostra a figura 6. Digamos que o
indexador consiga identificar dez assuntos afins que so estudados no documento. Considerase isso como sendo o mbito de abrangncia do documento. Se o indexador tentar incluir todos
esses assuntos, a indexao ser tida como exaustiva (isto , ela uma representao
exaustiva do contedo temtico). Quanto mais assuntos forem includos mais exaustiva ser a
indexao. Por outro lado, quanto menos assuntos forem includos mais seletiva ser a
indexao. Evidentemente, a indexao exaustiva exigir o emprego de maior nmero de
termos.
A segunda dimenso do documento, do ponto de vista da indexao, denominada
especificidade na figura 6. Isto , alguns assuntos identificados seriam indexados em mais de
um nvel de especificidade. Suponhamos que o primeiro assunto seja arquitetura de catedrais,
que seria indexado sob o termo ARQUITETURA RELIGIOSA, que no suficientemente
especfico. Para aumentar a especificidade, o indexador acrescentaria um segundo termo,
CATEDRAIS. O emprego conjunto dos dois termos representa precisamente o assunto estudado.
Por outro lado, a incluso de ARQUITETURA DA HABITAO aumentaria a exaustividade e no a
especificidade. pois estaria introduzindo um novo conceito na indexao.
Em outras palavras, a incluso de mais termos de indexao aumentaria a exaustividade
de uma representao ou aumentaria sua especificidade. Por conseguinte, embora seja
verdadeiro dizer que a exaustividade corresponde grosso modo ao nmero de termos
atribudos, no h uma relao unvoca exata entre exaustividade e nmero de termos. Neste
livro, exaustividade refere-se ao mbito de abrangncia da indexao exemplificado na figura
6. Profundidade um termo menos satisfatrio porque denota o oposto de abrangncia e se
aplica de modo mais apropriado dimenso da especificidade mostrada na figura 6.
A quantidade de termos atribudos ao documento constitui realmente uma questo de
custo-eficcia. Em geral, quanto mais exaustiva for a indexao maior ser o custo, 1 e no
.muito razovel indexar num nvel de maior exaustividade que as necessidades dos usurios
do servio no justifique. Ser preciso um nvel mais alto de exaustividade se forem formulados
muitos pedidos de buscas realmente exaustivas. No caso de serem feitos muitos pedidos de
buscas que realmente cubram o assunto de modo completo, ser necessrio um alto nvel de
exaustividade. Se essas buscas que procuram exaurir o assunto forem a exceo e no a regra,
bastar um nvel muito mais baixo de exaustividade.
claro que quanto mais termos forem empregados por documento (isto , maior for a
exaustividade), maior ser a probabilidade de ele ser recuperado e maior ser o nmero de
caractersticas que o distingam de outros documentos. Mas a distribuio de itens entre os
termos tambm afetar a discriminao: termos que se aplicam a muitos documentos no
oferecero muita discriminao; os que se aplicarem a poucos documentos sero bons
discriminadores.

Na realidade, naturalmente, isso um exagero de simplificao. Quando tem em mos um documento prolixo, o
indexador talvez precise de mais tempo para incluir de modo exaustivo seu contedo. Em outros casos, talvez seja
mais rpido usar muitos termos ao invs de tentar selecionar alguns poucos de um grupo em que eles podem estar
estreitamente relacionados ou serem coincidentes. Em geral, no entanto, quanto mais termos forem usados, mais
dispendioso ser dar-lhes entrada na base de dados e process-las subseqentemente. Alm disso, aumentar a
quantidade de termos aumentar substancialmente os custos dos ndices em formato de fichas ou impressos.

33

Figura 6 As duas dimenses da indexao de um documento

Wolfram e Zhang (2002) empregaram simulao em computador para estudar os efeitos


da variao tanto dos nveis de exaustividade quanto das distribuies dos termos (o nmero
mdio de itens aos quais um termo se aplica). Sua concluso foi que:
Baixa exaustividade e distribuies de termos pouco profundas produzem menos
diferenciao entre documentos, pois menos termos so atribudos por documento e mais
termos comuns so compartilhados entre documentos, disso resultando maior nmero de
termos de baixo valor representativo. Exaustividade mais alta oferece maiores oportunidades
para o acrscimo ao documento de termos adicionais mais distintivos. Igualmente, uma
distribuio de termos mais profunda, quando se encontra um ndice mdio menor de
atribuio de termos especficos ao item, acentua a distinguibilidade do documento. Quando
se tm alta exaustividade para descrever de modo mais completo o documento e
distribuies de termos mais profundas, definindo conjuntos de termos mais exclusivos,
encontram-se as menores densidades de documentos, o que facilita distinguir os documentos
entre si. Os resultados de cada modelo demonstram ser possvel obter densidades espaciais
similares de documentos com diferentes combinaes de exaustividade de indexao e
distribuies de termos. Por exemplo, a combinao de alta exaustividade/distribuio de
termos pouco profunda e baixa exaustividade/distribuio de termos profunda resultou em
nveis similares de densidade espacial de documentos (p. 950-951).

Os mtodos de indexao e redao automticas de resumos (ver captulo 15) baseiamse grandemente em critrios estatsticos (a contagem de ocorrncias de palavras no texto), de
modo que possvel aplicar medidas de densidade (isto , o nmero de termos de indexao
ou a extenso do resumo em relao extenso do texto). Connolly e Landeen (2001)
propem e aplicam medida similar (nmero de entradas do ndice em relao ao nmero total
de linhas de texto) aos ndices do final de livros.
bvio que, medida que as bases de dados crescem de tamanho, a quantidade de
itens que aparecem sob qualquer termo tambm tende a crescer. Torna-se necessrio,
portanto, indexar com o emprego de mais termos (e tambm torn-los cada vez mais
especficos) de modo que a indexao seja mais discriminativa para possibilitar pesquisas em
que se alcance um nvel adequado de revocao com nvel tolervel de preciso.
Lamentavelmente, isso no tem sido levado em conta na prtica da catalogao de assuntos
entre a comunidade bibliotecria dos EUA. O contedo temtico dos livros representado em
nvel muito genrico e superficial (em mdia, menos de duas combinaes de cabealho de
assunto/ subcabealho por item, conforme ONeill e Aluri, 1981). Mesmo que isso fosse
aceitvel h 50 anos, quando os acervos eram bem menores, e ainda o seja no caso de
acervos muito pequenos, hoje praticamente intil em catlogos que abranjam vrios milhes
de itens. A converso de catlogos em fichas para catlogos em linha proporcionou aos
usurios uma grande vantagem potencial - a possibilidade de fazer buscas com termos em
combinaes lgicas. O valor potencial disso, porm, reduz-se grandemente devido ao baixo
nvel de exaustividade das representaes constantes do catlogo. Por conseguinte, as
pesquisas em linha nos catlogos de grandes bibliotecas universitrias freqentemente
resultam na recuperao de centenas de itens, a maioria dos quais talvez seja totalmente
imprestvel para o consulente (Lancaster et al., 1991). Esse fenmeno da recuperao
volumosa estimulou a realizao de muitas experincias sobre como fazer buscas em grandes
catlogos de forma mais discriminativa (ver, por exemplo, Prabha, 1991), tais como a
delimitao por data, lngua e outros critrios. O fato de a maioria dos catlogos permitir
buscas nas palavras dos ttulos (e s vezes nos nmeros de classificao), bem como nos
cabealhos de assuntos, parece ter tido, surpreendentemente, reduzido efeito na
exaustividade da representao, uma vez que as palavras dos ttulo, os cabealhos de
assuntos e os nmeros de classificao em geral se repetem (Xu e Lancaster, 1998).
34

Vrios estudos examinaram a extenso com que os cabealhos de assuntos nos catlogos
em linha de acesso pblico [OPACS] repetem as palavras-chave dos ttulos dos livros. Voorbij
(1998), por exemplo, analisou essa questo num contexto holands. De fato, ele procurava
comprovao de que a atribuio de descritores aos livros, um processo dispendioso, valia a
pena. Ou seja, em que eles contribuem que as palavras-chave do ttulo no o faam? Os
descritores de assuntos conseguiram recuperar quase duas vezes mais itens relevantes do que
as palavras-chave. No s muitos ttulos so indicadores inadequados daquilo de que trata um
livro, mas, salienta Voorbij, o mesmo assunto pode aparecer nos ttulos representado de muitas
maneiras diferentes. O controle de vocabulrio imposto pelos cabealhos de assuntos
importante. Esse estudo foi realizado nas humanidades e cincias sociais, que podem, em
mdia, apresentar ttulos menos descritivos ou completos do que acontece nas cincias rgidas.
A figura 7 mostra a lei dos rendimentos decrescentes aplicada indexao. No exemplo
hipottico desse servio de informao, a atribuio em mdia de X termos satisfar a cerca de
80% das necessidades dos usurios. A fim de elevar esse percentual para 90-95% seria preciso
uma exaustividade muito maior na indexao. A posio do ponto X nessa curva e o que X
representa em nmero de termos dependero muitssimo de questes especficas do sistema.
Os gestores do servio de informao elaboram diretrizes sobre exaustividade da indexao
que resultam do seu conhecimento das necessidades dos usurios. Essas diretrizes costumam
basear-se na intuio, embora seja possvel realizar experimentos controlados em que se
comparem amostras de necessidades de informao com uma coleo de documentos
indexados com quantidades variadas de termos.

Figura 7 Rendimentos decrescentes na indexao

Evidentemente, a idia de um nvel ideal de exaustividade aplicvel a todos os itens de


uma base de dados um tanto enganosa, uma vez que se aplicariam valores ideais
extremamente diferentes a diferentes documentos, dependendo dos pedidos efetivamente
formulados pelos usurios do sistema (Maron, 1979). A exaustividade ideal inteiramente
dependente dos pedidos.
Para alguns tipos de itens indexveis, ser excepcionalmente difcil chegar a um acordo
sobre de que eles tratam. Em relao a eles, no ser fcil alcanar consenso e coerncia na
indexao, e, por isso, talvez precisem ser indexados em nvel exaustivo que atenda a
diferentes pontos de vista. Isso acontece, por exemplo, na indexao de imagens, que podem
ser vistas pelos indexadores em nveis diferentes, desde o altamente concreto at o altamente
abstrato (Enser, 1995).
Intner (1984) mostrou que, ao decidir sobre o que incluir e quantos termos usar, o
indexador poderia realmente exercer uma forma de censura, talvez deixando de cobrir algum
aspecto do trabalho que ele desaprova. A situao inversa, naturalmente, consiste em usar
uma quantidade injustificvel de termos para fazer com que um item seja recuperado o maior
nmero possvel de vezes, tentao capaz de ocorrer se estiver associado sua recuperao
algum ganho financeiro ou de outro tipo. Tal fenmeno tem sido observado no ambiente da
internet (ver captulo 16), onde denominado spoofing ou spamming. Price (1983) talvez
tenha sido o primeiro a reconhecer isso como um problema em potencial.
Bell (1991 a) estuda uma situao semelhante em relao aos ndices do final de livros:
os indexadores, ou possivelmente os editores, podem revelar um vis ao omitir certos tpicos
do ndice, ao reforar as idias do autor (ou o contrrio), ou ao introduzir as prprias atitudes
do indexador. Apresenta vrios exemplos.
A quantidade de termos atribudos a um documento um fator crtico para definir se
determinado item ser ou no recuperado. Outros fatores afins, porm, tambm participam
35

disso. Obviamente, quase certo que a quantidade de itens recuperados venha a declinar
medida que mais termos forem combinados numa relao do tipo e, numa estratgia de busca.
claro que a extenso com que os termos podem ser combinados com xito numa busca
depende grandemente da quantidade de termos usados na indexao. Tomando-se um
exemplo trivial, a combinao de trs termos (A. B. C) pode recuperar um grande nmero de
itens quando se emprega na indexao uma mdia de 20 termos por item, mas improvvel
que recupere muitos deles numa base de dados em que somente trs termos sejam atribudos
em mdia a cada item. (Devido a razes antes mencionadas, no recuperaria muitos, se que
recuperaria algum, numa busca feita num catlogo de biblioteca em linha.) Quanto mais
seletiva for a indexao mais necessidade haver de combinar termos numa relao do tipo
ou, a fim de melhorar a revocao. As interaes entre exaustividade de indexao e as
caractersticas das estratgias de busca foram estudadas por Sparck Jones (1973). Estudos
sobre o efeito da exaustividade em mtodos mais automticos de recuperao (ver captulo
15) encontram-se em Shaw (1986, 1999a,b) e Burgin (1991,1995).
Em muitos servios de informao a indexao visa a duas finalidades um tanto
diferentes: a) permitir que se tenha acesso a um item num ndice impresso, e b) permitir que
se tenha acesso a esse mesmo item numa base de dados eletrnica. Nessas circunstncias,
exige-se do indexador que indexe de acordo com certo nvel de exaustividade preestabelecido
para a segunda das finalidades acima, e que selecione um subconjunto dos termos de
indexao (talvez entre dois e quatro) assim atribudos, os quais serviro de pontos de acesso
no ndice impresso. Os termos desse subconjunto sero aqueles que o indexador considerar
como os que melhor representam os aspectos mais importantes do documento. Isto pode ser
visto como uma forma tosca de indexao ponderada: um termo recebe um de dois pesos principal (contedo temtico fundamental, para o ndice impresso) ou secundrio (todos os
outros termos). No captulo 11 examina-se mais detidamente a indexao ponderada.
Princpio da especificidade
O princpio que, isoladamente, o mais importante da indexao de assuntos, e que
remonta a Cutter (1876), aquele segundo o qual um tpico deve ser indexado sob o termo
mais especfico que o abranja completamente. Assim, um artigo que trate do cultivo de
laranjas ser indexado sob LARANJAS e no sob FRUTAS CTRICAS ou FRUTAS.
Normalmente, seria melhor utilizar vrios termos especficos, ao invs de um termo que
seja mais genrico. Se um artigo descreve o cultivo de limes, limas e tangerinas ser mais
bem indexado sob os trs termos especficos do que sob o termo mais genrico FRUTAS
CTRICAS. O termo FRUTAS CTRICAS ser usado apenas para artigos que tratem das frutas
ctricas em geral, e para aqueles que tratem praticamente de todas as frutas ctricas. Esta
diretriz pode ser estendida situao na qual se trata de vrias frutas ctricas, mas no com
muitos detalhes (a juzo do indexador) que justifiquem o emprego dos termos especficos. Em
alguns casos, tambm, a clientela atendida pelo indexador pode estar interessada apenas em
determinadas frutas. Nesta situao seria vlido indexar apenas estas e no incluir termos
correspondentes s outras frutas.
Alguns estudantes de indexao cometem o equvoco de indexar de modo redundante.
Tendo indexado um artigo sobre laranjas sob o termo LARANJAS, sentem necessidade de
tambm atribuir-lhe o termo FRUTAS CTRICAS e at mesmo FRUTAS. No h necessidade
disso. Na verdade, trata-se de uma prtica de indexao medocre. Se os termos genricos
forem atribudos toda vez que for utilizado um termo especfico, ficar difcil diferenar artigos
genricos de artigos especficos. Por exemplo, o usurio que consulta um ndice sob o termo
FRUTAS espera encontrar itens sobre frutas em geral, e no sobre frutas especficas.
Nos sistemas manuais de recuperao que antecederam os sistemas informatizados, de
fato era preciso desdobrar as entradas dos termos especficos para os genricos respectivos;
por exemplo, o emprego do termo LARANJAS ao se indexar um item implicava que tambm lhe
seriam atribudos os termos FRUTAS CTRICAS, FRUTAS e talvez at mesmo PRODUTOS
AGRCOLAS. A razo disso era permitir as buscas genricas. Se no fosse assim, seria
praticamente impossvel realizar uma busca completa sobre, por exemplo, todas as frutas.
Quando, no entanto, se projeta um sistema informatizado de modo apropriado, torna-se
desnecessrio esse desdobramento para os nveis genricos, pelo menos quando se utiliza um
vocabulrio controlado. Convm, por exemplo, que haja a possibilidade de solicitar ao
computador que faa uma busca sobre o termo FRUTAS e tudo que estiver abaixo dele na
estrutura hierrquica (todos os termos especficos, TES, no caso de um tesauro).
Em geral, portanto, no se deve contar com que os termos FRUTAS CTRICAS e LARANJAS
sejam aplicados ao mesmo item. A nica situao que justificaria esta combinao seria aquela
36

onde houvesse um artigo que tratasse de trutas ctricas em geral, mas que inclusse extensas
consideraes sobre laranjas, ou outro que tratasse de frutas ctricas e em que as laranjas
fossem o exemplo (por exemplo, a irrigao de frutas ctricas com exemplos tomados da
irrigao de laranjais).
O indexador deve ter em mente que possvel conseguir especificidade mediante
combinaes de termos. Se no houver nenhum termo que sozinho possa representar o tpico,
busca-se uma combinao apropriada de termos no vocabulrio controlado. Eis alguns
exemplos hipotticos:
Literatura Francesa Medieval
indexado sob LITERATURA MEDIEVAL e LITERATURA FRANCESA
Bibliotecas Mdicas
indexado sob BIBLIOTECAS ESPECIALIZADAS e CINCIAS MDICAS
Literatura Canadense
indexado sob LITERATURA e CANAD
leo de Amendoim .
indexado sob LEOS VEGETAIS e AMENDOIM
Observe-se que o indexador deve procurar a combinao mais apropriada para cada
caso. Teoricamente, Literatura Medieval Francesa seria expresso por meio de LITERATURA
MEDIEVAL e FRANA, mas a combinao de LITERATURA MEDIEVAL e LITERATURA FRANCESA
exprime a idia de modo mais exato. Da mesma forma, combinou-se CINCIAS MDICAS com
BIBLIOTECAS ESPECIALIZADAS e no com BIBLIOTECAS, para expressar a idia de bibliotecas
mdicas, pois estas so evidentemente especializadas, e combinou-se AMENDOIM com LEOS
VEGETAIS e no com LEOS, uma vez que o leo de amendoim um leo vegetal.
s vezes, o vocabulrio controlado no inclui um termo no nvel de especificidade exigido
por determinado documento. Nesse caso o indexador adotar o termo mais especfico
existente (por exemplo, FRUTAS CTRICAS, ao invs de FRUTAS, para um artigo sobre laranjas).
Ele pode tambm sugerir equipe responsvel pela manuteno do tesauro que existe a
necessidade de termos mais especficos nessa categoria.
Outras diretrizes
O processo da indexao de assuntos parece ser refratrio a regras rigorosas. Alm do
princpio da especificidade, no foram desenvolvidas regras verdadeiras sobre a atribuio de
termos, apesar de haver muitas acerca do que fazer com os termos de indexao depois de
atribudos (por exemplo, como estabelecer a seqncia em que so listados, a fim de formar
cabealhos num ndice impresso).
Muitas teorias sobre indexao foram formuladas, algumas das quais passadas em
revista por Borko (1977), porm, costumam no ser teorias de verdade, e oferecem pouca
ajuda prtica para o indexador.
Fugmann (1979, 1985) apresentou vrios axiomas sobre indexao e proviso de
informao, mas nem todos tm relao direta com a indexao como tal. O nico princpio de
indexao verdadeiro at agora formulado, denominado indexao compulsria, afirma que o
indexador deve utilizar os termos mais apropriados de que disponha para descrever o contedo
temtico de um documento. Como isso significa, normalmente, os termos mais especficos,
trata-se essencialmente de uma reiterao do princpio da especificidade. A maior parte dos
axiomas de Fugmann corresponde realmente a fatores que influem no desempenho de
sistemas de recuperao da informao e no a elementos de uma teoria da indexao,
embora vrios deles tenham implicaes para a indexao. Por exemplo, o axioma da
definibilidade tem relao com a capacidade de definir clara e inequivocamente uma
necessidade de informao. Isso pode, evidentemente, ser estendido capacidade de definir o
contedo temtico de documentos de modo claro. e inequvoco. O axioma da previsibilidade
diz que o xito de uma busca num sistema de recuperao depende grandemente da
previsibilidade com que descrito o contedo temtico, o que aponta para a importncia da
coerncia na indexao. O axioma da fidelidade diz que outro fator que influi no desempenho
a capacidade de definir com rigor e exatido o contedo temtico (das necessidades de
informao e, por extenso, dos documentos), que tem a ver mais com o vocabulrio usado
para indexar do que com a prpria indexao.
No consegui, de fato, encontrar uma teoria verdadeira, qualquer que fosse, aplicvel ao
processo de indexao, embora haja algumas (ver, por exemplo, Jonker (1964)) relativas s
caractersticas dos termos de indexao. Ademais, creio ser possvel identificar apenas duas

37

regras bsicas da indexao: uma, que se refere etapa de anlise conceitual, e a outra,
etapa de traduo, a saber:
1.
Inclua todos os tpicos reconhecidamente de interesse para os usurios do
servio de informao, que sejam tratados substantivamente no documento.
2.
Indexe cada um desses tpicos to especificamente quanto o permita o
vocabulrio do sistema e o justifiquem as necessidades ou interesses dos usurios.
Estas regras esto, naturalmente, sujeitas a interpretao. Por exemplo, o que
substantivamente de fato significa? Uma orientao possvel diria que o assunto X deve ser
indexado quando se supe que a maioria dos usurios que buscam informaes sobre X
considerariam esse item como sendo de interesse. claro que substantivamente no uma
propriedade que possa ser expressa ou medida com rigor. Se um dado assunto merece ou no
ser indexado algo que depender grandemente de trs fatores: a) a quantidade de
informaes apresentadas sobre o assunto, b) o grau de interesse no assunto, e c) a
quantidade de informaes j existentes sobre o assunto: uma meno breve e isolada de um
composto merece ser indexada se sabe que esse composto bastante recente; anos depois
seria necessrio um volume muito maior de informaes para justificar sua incluso.
A expresso necessidades ou interesses dos usurios, na segunda regra, implica que o
princpio da especificidade pode e deve ser modificado quando se sabe que os usurios de um
sistema ou ferramenta de informao, em certas circunstncias, seriam mais bem servidos por
meio da indexao de determinado tpico em nvel mais genrico. Por exemplo, numa base de
dados de medicina os artigos de veterinria aplicada a ces seriam indexados sob os nomes
das respectivas raas caninas. Por outro lado, artigos sobre o uso de ces em experincias de
laboratrio seriam simplesmente indexados sob CES, mesmo quando a raa especfica fosse
mencionada.
Um corolrio da primeira regra acima que assuntos que no sejam examinados no
documento no devem ser considerados pelo indexador. Embora isso parea bvio e banal, no
necessariamente assim. Alguns indexadores, principalmente os que se consideram
especialistas num assunto, podem sentir-se tentados a ver num documento coisas que jamais
passaram pelas intenes do autor (por exemplo, aplicaes de um dispositivo que extrapolam
as alegadas no documento). Embora uma das funes importantes de certos especialistas em
informao (como os que atuam na indstria) seja chamar a ateno dos usurios do servio
de informao para aplicaes potenciais, isso, de fato, no constitui funo do indexador.
muito melhor que se atenha ao texto e s afirmaes do autor. O ERIC processing manual de
1980 traz bons conselhos a respeito disso:
Indexe o documento que tem em mos, no o documento que o autor gostaria de ter escrito
ou pretende escrever no futuro. No confunda suposies ou menes a implicaes e
possibilidades com o verdadeiro contedo (p. VII-13).

Resultados no alegados pelo autor no devem, claro, ser confundidos com resultados
negativos, pois estes comumente merecem ser indexados. Por exemplo, se um estudo mostra
que certo material no se presta para ser utilizado em determinada aplicao, a aplicao
mencionada deve ser definitivamente includa na indexao, caso sejam contemplados outros
critrios (por exemplo, o volume de informaes fornecidas).
Em aplicaes mais especializadas, os indexadores podem ser estimulados a buscar
inferncias. Por exemplo, Schroeder (1998), reportando-se a experincia no General Motors
Media Archives, ressalta a importncia de uma camada de inferncia na indexao de
imagens. Por exemplo, uma fotografia de determinado veculo pode mostr-lo atravessando
um terreno acidentado, sendo ento necessrio identificar no somente o veculo mas tambm
empregar termos que indiquem sua capacidade de desempenho em locais pedregosos.
Klement (2002) faz uma distino entre indexao de sistema aberto e indexao de
sistema fechado. A ltima (cujo exemplo mais evidente so os ndices de final de livro) referese a ndices de um nico item; esses ndices so no-contnuos. A indexao de sistema
aberto, ao contrrio, aplica-se a inmeros itens e contnua, como o caso da indexao de
artigos de peridicos em bases de dados como, por exemplo, o MEDLINE. Quando a indexao
se aplica a muitos itens, e contnua, os termos adotados nas entradas do ndice devem ser
padronizados. A padronizao no constitui de fato um problema na indexao de sistema
fechado, embora seja obviamente necessrio utilizar uma terminologia uniforme, coerente, em
toda a extenso do ndice. A indexao de sistema fechado pode usar termos que so nocontnuos: Leonardo da Vinci, morre pode ser perfeitamente apropriado nesse tipo de ndice,
38

sendo improvvel que aparea num ndice de sistema aberto (embora Leonardo da Vinci
aparea).
ndices ps-coordenados
O contedo temtico objeto de um documento e representado pelos termos de indexao
que lhe so atribudos possui carter multidimensional. Vejamos, por exemplo, um artigo que
trate da migrao de mo-de-obra de Moambique para as minas da frica do Sul e que
indexado sob os seguintes termos:
MOAMBIQUE
FRICA DO SUL
TRABALHADORES MIGRANTES
MINEIROS
RELAES ECONMICAS

Embora os termos sejam aqui apresentados em forma de lista, representam, na


realidade, uma rede de relaes:

Convm recuperar esse documento durante uma busca que envolva qualquer um dos
termos tomados isoladamente ou qualquer combinao entre eles: quaisquer dois termos,
quaisquer trs, quaisquer quatro, ou todos os cinco Um sistema de recuperao da informao
que permite que uma busca combine os termos de qualquer maneira freqentemente
denominado ps-coordenado (outras denominaes empregadas tm sido ps-combinao ou
manipulatrio).
Os sistemas ps-coordenados surgiram na dcada de 1940, quando foram implantados
com a utilizao de vrios tipos de fichas. Um sistema informatizado moderno, funcionando em
linha, pode ser visto como um descendente direto desses sistemas manuais. Pode-se imaginlo conceitualmente como uma matriz semelhante mostrada na figura 8.
Os arquivos de um sistema em linha incluem dois elementos principais:
1. Um conjunto completo de representaes de documentos: a referncia bibliogrfica
acompanhada normalmente de termos de indexao ou um resumo, ou ambos.
2. Uma lista de termos que mostra quais os documentos indexados sob eles (s vezes
chamada arquivo invertido ou arquivo de lanamentos). Os documentos so
identificados por nmeros de registro como mostra a figura 8.
Pode-se demonstrar o que se passa durante uma busca em linha consultando a matriz da
figura 8. Suponhamos que quem faz a busca entra com MOAMBIQUE num terminal e que este
termo representado por P no diagrama. O sistema responde indicando que sete itens foram
indexados sob tal termo. A pessoa entra com TRABALHADORES MIGRANTES (L no diagrama) e
recebe a informao de que quatro itens aparecem sob este termo. Se ela pedir agora que seja
feita a combinao de L com P, o sistema comparar os nmeros dos documentos nas duas
listas e indicar que trs itens satisfazem a esse requisito. Atendendo solicitao do
interessado, o computador localiza esses registros pelos seus nmeros de identificao (4, 8,
10) e os mostra na tela do monitor ou os imprime.
Esse processo permanece o mesmo independentemente de quantos termos se achem
envolvidos e quais sejam as relaes lgicas especificadas por quem faz a busca. Se for pedido
F ou G, o sistema indicar que cinco itens satisfazem condio. Quem faz a busca solicita
ento que esta lista de cinco itens seja combinada com a lista sob N - isto , (F ou G) e N - do

39

que resulta a recuperao de trs itens. A respeito dos sistemas ps-coordenados possvel
afirmar que:
1. Os termos podem ser combinados entre si de qualquer forma no momento em que se
faz a busca.
2. Preserva-se a multidimensionalidade das relaes entre os termos.
3. Todo termo atribudo a um documento tem peso igual nenhum mais importante do
que outro (embora a indexao ponderada, estudada em captulo posterior, possa ser
utilizada).
Estas caractersticas no se aplicam a ndices pr-coordenados, que sero objeto do
prximo captulo.
Instrumentos auxiliares da indexao
O indexador precisa contar com alguma forma de anotao dos resultados da operao
de indexao. So quatro as possibilidades:
1. Anotao no prprio documento
2. Preenchimento de algum tipo de formulrio impresso em papel
3. Gravao numa fita de udio
4. Preenchimento de um formulrio mostrado na tela de um monitor em linha

Figura 8 Sistema de recuperao da informao representado como uma


matriz

Embora hoje em dia a norma seja indexar diretamente em linha, com o emprego de
algum tipo de tela estruturada, antigamente eram comuns outras possibilidades que ainda so
adotadas em certos lugares.
Em certas instituies o indexador simplesmente marca o documento que tem em mos,
e um datilgrafo transcreve o que ele marcou. Esta forma de trabalho s convm,
normalmente, se adota um mtodo de indexao relativamente simples, como, por exemplo,
enriquecimento de ttulos associado incluso de uma quantidade relativamente pequena de
termos ou cdigos de indexao.
At que os sistemas em linha se tornassem comuns, era corriqueiro o indexador dar
entrada aos termos num formulrio impresso. A figura 9, por exemplo, mostra uma verso do
formulrio que era adotado pela National Library of Medicine. Observe-se o emprego de
etiquetas [checktags], que so termos potencialmente aplicveis a inmeros documentos da
base de dados.

40

Figura 9 Formulrio de indexao utilizado antigamente pela National Library


of Medicine

Sua pr-impresso no formulrio eficiente e econmica, pois o indexador s precisa


ticar os que se aplicarem a cada caso. Isto no s poupa tempo ao indexador, mas tambm faz
com que se lembre de que esses termos devem ser atribudos sempre que se aplicarem a
determinado documento. Devido a essa forma de advertncia, as etiquetas so atribudas de
modo mais coerente do que outros termos (Lancaster, 1968a; Funk et al., 1983).

41

Figura 10 Formulrio caracterstico da indexao de Mooers


Reproduzido de Brenner & Mooers (1958) com permisso de Van Nostrand Reinhold

Em ambientes onde se pratica uma indexao altamente especializada, talvez seja


possvel pr-imprimir o.vocabulrio controlado completo no formulrio de indexao,
permitindo assim que todos os termos se tornem basicamente etiquetas. O pioneiro desse
mtodo foi provavelmente Mooers. A figura 10 (conforme Brenner e Mooers, 1958) mostra um
formulrio caracterstico da indexao de Mooers. Observe-se como os descritores so
agrupados sistematicamente. Ao analisar o documento, o indexador considera basicamente
cada descritor da tabela como potencialmente aplicvel. Com efeito, o indexador formula a si
mesmo as perguntas propostas pelo prprio formulrio de indexao. Se, por exemplo, a
resposta pergunta existem cargas aerodinmicas? for sim (isto , o documento em exame
trata de cargas especficas), o indexador levar isso em considerao atribuindo o descritor, ou
descritores, mais apropriado para carga aerodinmica. A lista de descritores, apresentada
dessa forma, simplifica o processo de indexao porque poupa ao indexador uma parte de seu
esforo intelectual. As utilizaes potenciais que um documento de interesse pode ter para a
instituio so representadas pela lista de perguntas orientadoras que foi criteriosamente
compilada por pessoal cientfico graduado. O indexador simplesmente segue as dicas dadas
nessa lista.
Antigamente, o U. S. Patent and Trademark Office desenvolveu pequenos sistemas de
recuperao limitados a uma nica classe ou a um nmero restrito de classes na rea de
patentes: Foram criados vocabulrios especializados para essas classes, suficientemente
sucintos para que fossem impressos em poucas folhas. A figura 11 mostra parte de um desses
vocabulrios, destinado subclasse de patentes que tratam de computadores digitais de uso
geral. Igual s tabelas de descritores de Mooers, todo o vocabulrio pode ser facilmente
examinado, evitando que o indexador deixe passar despercebido um termo importante, e
eliminando a necessidade de dar entrada aos termos num formulrio de indexao. Neste caso,
encontram-se disponveis mltiplos exemplares da lista de termos, e uma patente indexada
simplesmente traando-se um crculo em volta dos termos apropriados ou seus cdigos num
exemplar da lista. Todo o processamento posterior requer apenas trabalho de rotina. O
microtesauro do Air Pollution Technical Information Center, descrito por Tancredi e Nichols
(1968), foi tambm criado para ser utilizado traando-se um crculo em volta dos termos. Uma
parte desse microtesauro mostrada na figura 12.
Tambm se logrou xito em algumas instituies onde o indexador passou a ditar os
termos num gravador de fita para serem posteriormente transcritos por datilgrafos. Este
mtodo de fato apresenta alguns problemas. Podem ocorrer muitos erros de datilografia
quando se emprega um extenso vocabulrio tcnico, estranho ao datilgrafo, o que exige um
42

trabalho de reviso muito cuidadoso. Alguns indexadores no conseguem trabalhar bem dessa
maneira porque tm dificuldades em se lembrar quais foram os termos que j atriburam a um
item.
Hoje em dia, porm, a maioria dos produtores de bases de dados adota processos de
indexao em linha. Assim, aparecem no monitor vrias telas formatadas e o indexador vai
inserindo os dados nos campos apresentados. Essa modalidade de operao oferece grandes
vantagens em relao s suas predecessoras: o indexador pode receber vrios tipos de
mensagens, alguns de seus equvocos podem ser reconhecidos por programas de deteco de
erros que o advertem imediatamente, alm de dispensar a etapa rotineira intermediria,
quando se converte o trabalho do indexador para formato eletrnico. Ademais, existe a
possibilidade de o indexador passar do modo de entrada de dados para o de recuperao, e
assim valer-se de casos precedentes para se orientar quanto a certas decises concernentes
indexao. Quer dizer, o indexador acessa a base de dados, para verificar como um termo foi
usado antes ou como um documento mais antigo, afim a outro que est sendo examinado, foi
indexado.

Figura 11 Parte de vocabulrio especializado sobre computadores digitais


utilizado pelo U. S. Patent and Trademark Office
Reproduzida com permisso do U. S. Patent and Trademark Office

43

Figura 12 Seo do microtesauro do Air Pollution Technical Information Center


Apud American Documentation (Tancredi & Nichols [1968])
Copyright 1968 John Wiley & Sons, Inc. Reproduzida com permisso de John Wiley &
Sons, Inc.

Um tpico sistema de indexao em linha, conhecido como DCMS (Data Creation and
Maintenance System), utilizado pela National Library of Medicine para entrada de dados na
base MEDLINE. O trabalho do indexador consiste em preencher vrias telas no monitor. Ver,
por exemplo, a figura 13, que mostra uma tela com a verso atual das etiquetas. Observe-se
que o indexador ticou (I) as etiquetas que se aplicam a esse artigo do American Journal of
Human Genetics, a saber, adult, middle age, aged, human, male, e female. A figura 14 mostra
a tela seguinte com as etiquetas selecionadas pelo indexador. Vrios descritores (cabealhos
de assuntos sozinhos ou com subcabealhos) foram selecionados pelo indexador. O sistema
44

oferece a possibilidade de enviar mensagens ao indexador. Por exemplo, se for usada a


etiqueta pregnaney, o DCMS informar auto-maticamente ao indexador para acrescentar
female e o advertir para usar animal ou human. O DCMS tambm advertir para o emprego
de certas etiquetas, com base num nmero limitado de palavras que ocorrem nos ttulos ou
resumos. Por exemplo, se a palavra feline aparecer no texto, o indexador ser advertido para
examinar a possibilidade de usar a etiqueta cats.

Figura 13 Tela de etiquetas no DCMS

O DCMS tem outras caractersticas que facilitam o processo de indexao. O vocabulrio


(Medical Subject Headings) pode ser visualizado na tela e o indexador pode selecionar termos
sem ter que redigit-los. Para qualquer um dos termos que for selecionado o sistema pode ser
solicitado a mostrar na tela do monitor uma anotao explicativa ou, alternativamente, uma
lista dos subcabealhos que podem ser usados com esse termo. O sistema tambm levar
(mapear) de um termo no-aprovado para um aprovado por meio das remissivas includas
no Medical Subject Headings.
Obviamente, o vocabulrio controlado usado por um servio de informao ser
ferramenta de importncia crucial para o indexador. Dever ser organizado e apresentado de
forma a oferecer ao indexador um auxlio positivo na seleo dos termos mais apropriados para
determinada situao. Embora tenha estreita relao com o tema da indexao, a construo e
as propriedades dos vocabulrios controlados so questes que esto fora do mbito deste
livro. Foram tratadas com detalhes em outras publicaes (Lancaster, 1986; Soergel, 1974).
Um tesauro publicado incorpora normalmente um limitado vocabulrio de entradas na
forma de remissivas do tipo ver, usar ou ver sob. Um grande centro de informao poder
desenvolver um vocabulrio de entradas separado para uso local pelos indexadores,
consulentes e lexicgrafos. Esse vocabulrio poder estar disponvel em formato impresso ou
em linha.

45

Figura 14 Registro de indexao pronto no DCMS

Por exemplo, a National Library of Medicine (NLM) lana mo de vrias ferramentas, ricas
em componentes de vocabulrio de entradas e diretrizes para indexao. A mais bvia o
navegador eletrnico MeSH Browser. Esta ferramenta, feita para a Rede, destina-se a ser usada
por indexadores, catalogadores de assuntos e especialistas em buscas e muito mais
elaborada do que os Medical Subject Headings, que tem por finalidade servir de guia no uso do
Index Medicus impresso. Outra ferramenta, em formato impresso, Medical Subject Headings Annotated Alphabetic List. A figura 15 mostra algumas entradas desta verso anotada. Essa
ferramenta bastante complexa possui componentes de vocabulrio de entradas (por exemplo,
depth intoxication [intoxicao profunda] remete para inert gas narcosis [narcose por gs
inerte] bem como outras diretrizes ou instrues para indexao: termos relacionados (ver, por
exemplo, o fato de que depressive disorder [transtorno depressivo] deve ser diferenado de
depression [depresso], termos que eram usados antigamente (por exemplo, no perodo de
1973-1990 o termo dermacentor somente existia para buscas em linha; para impresso no
Index Medicus esse organismo devia ser indexado tambm sob o cabealho mais genrico
ticks [carrapatos]) mesmo algumas definies (ver, por exemplo, dermabrasion
[dermabraso]).

46

Figura 15 Exemplo de entradas de Medical subject headings annoted


alphabetic list (2003)

Entre os vocabulrios de entradas mais especficos desenvolvidos pela NLM est o Tumor
key [Chave de tumores], que orientava sobre indexao de doenas neoplsicas. A figura 16
mostra entradas desse vocabulrio. Observe-se como pode ser considerado um verdadeiro
vocabulrio de entradas que inclui tanto remissivas unidirecionais quanto multidirecionais. Por
exemplo, cisto teratide [teratoid cyst] deve ser indexado sob teratoma, porm
cistoadenocarcinoma do ducto biliar [bife duct cystadenocarcinoma] ser indexado sob
cystadenocarcinoma
[cistoadenocarcinoma]
e
tambm
sob
cholangiocarcinoma
[colangiocarcinoma]. Esses vocabulrios especializados no so mais mantidos pela NLM.

47

Figura 16 Exemplo de entradas de Tumor key, um vocabulrio de entradas


especializado antigamente utilizado pela National Library of Medicine

A maioria dos tesamos publicados inclui componentes de vocabulrios de entradas, mas


improvvel que possuam a riqueza (ou complexidade) do exemplo da figura 15.
As obras de referncia publicadas so muito teis para o indexador, principalmente na
definio do significado de termos pouco comuns. Particularmente importantes so os
dicionrios e enciclopdias especializados e gerais, bem como os glossrios de todos os tipos.
Bakewell (1987) elaborou uma lista de obras de referncia de interesse potencial para o
indexador, porm hoje ela se apresenta muito desatualizada. Em algumas instituies o
trabalho do indexador conta com o auxlio do acesso em linha a bancos de dados
terminolgicos.

48

Captulo 4 ndices pr-coordenados


A flexibilidade inerente aos sistemas ps-coordenados deixa de existir quando os termos
de indexao so impressos em papel ou fichas catalogrficas convencionais. Os ndices
impressos e os catlogos em fichas so pr-coordenados; suas caractersticas so as seguintes:
1. difcil representar a multidimensionalidade das relaes entre os termos.
2. Os termos somente podem ser listados numa determinada seqncia (A, B, C, D, E), o
que implica que o primeiro termo mais importante do que os outros.
3. No fcil (seno completamente impossvel) combinar termos no momento em que
se faz uma busca.
A forma mais rudimentar de um sistema de recuperao da informao talvez seja o
tradicional catlogo em fichas utilizado h sculos nas bibliotecas. Vejamos o item mencionado
anteriormente: um livro sobre migrao de mo-de-obra de Moambique para as minas da
frica do Sul. Suponhamos que lhe tenham sido atribudos trs cabealhos de assuntos:
MOAMBIQUE, FRICA DO SUL e TRABALHADORES MIGRANTES. A descrio bibliogrfica do
livro apareceria sob todos os trs cabealhos num catlogo alfabtico de assuntos em formato
de fichas. Isso faz com que se tenha acesso ao livro sob qualquer um desses cabealhos. Ser,
entretanto, extremamente difcil realizar uma busca a respeito de qualquer combinao desses
termos. Por exemplo, um usurio que esteja procurando livros sobre as relaes polticas ou
econmicas entre Moambique e frica do Sul precisaria examinar todas as entradas sob o
cabealho MOAMBIQUE ou sob o cabealho FRICA DO SUL. Mesmo que o fizesse, no
reconheceria necessariamente os itens pertinentes. Se procurasse sob MOAMBIQUE,
provavelmente s reconheceria que um livro era pertinente se o mesmo contivesse em seu
ttulo o termo frica do Sul (e vice-versa, se procurasse sob FRICA DO SUL), ou se no p da
ficha catalogrfica aparecessem os outros cabealhos atribudos ao livro (seria improvvel que
os consultasse, a menos que fosse um usurio de catlogos muito experiente). Outra
possibilidade seria procurar sob todas as entradas com MOAMBIQUE e todas as entradas com
FRICA DO SUL para tentar encontrar ttulos que ocorressem sob ambas - um processo muito
enfadonho, se houver muitas entradas para consultar.
possvel melhorar essa situao nos catlogos em fichas mediante o emprego de um
cabealho como subcabealho (isto , os termos so pr-coordenados numa entrada). Assim,
ter-se-la uma entrada como a seguinte:
Moambique - Relaes Econmicas

ou mesmo
Moambique - Relaes Econmicas - frica do Sul

Os subcabealhos, no entanto, costumam ser adotados de maneira relativamente


parcimoniosa nos catlogos de bibliotecas, e seria raro o catlogo que reunisse toda uma
seqncia1 de termos como na seguinte entrada pr-coordenada:
Moambique, Relaes Econmicas, frica do Sul, Trabalhadores Migrantes, Mineiros.

mais provvel que entradas detalhadas como essa apaream em ndices impressos do
que em catlogos em fichas. A este respeito, os ndices impressos so considerados
ferramentas de recuperao mais eficientes do que os catlogos convencionais de bibliotecas.
Em certos ndices impressos, o usurio percorreria as entradas sob Moambique para verificar
se alguma delas tambm menciona a frica do Sul. Exemplos de vrias formas de ndices
impressos encontram-se no captulo 10.
Mas uma entrada como essa do exemplo apresenta um problema bvio: ela proporciona
acesso ao documento somente para quem estiver procurando sob o termo MOAMBIQUE, sem
dar acesso numa busca relativa frica do Sul, mineiros ou trabalhadores migrantes. Para que
sejam oferecidos pontos de acesso adicionais preciso criar mais entradas no ndice.
No existe maneira alguma pela qual um ndice impresso possa proporcionar, de forma
econmica, o mesmo nvel de acesso ao documento que proporcionado por um sistema de
recuperao ps-coordenado. Conforme mostramos anteriormente, um sistema pscoordenado permite o acesso por meio de qualquer combinao de termos atribudos ao
documento. O nmero de combinaes 2n-1, onde n representa o nmero de termos. Assim,
para um item indexado sob cinco termos, haver 25-1 combinaes, ou seja, um total de 31.
1

Por isso, esse tipo de indexao s vezes chamado indexao em seqncia [string indexing] (Craven, 1986).

49

Teoricamente, ento, um ndice impresso proporcionaria todas as combinaes de cinco


termos, se imprimisse 31 entradas. Seria economicamente invivel criar um ndice impresso
que contivesse tantas entradas para cada item, e a quantidade de entradas aumentaria
dramaticamente medida que aumentasse o nmero de termos - existem 255 combinaes de
oito termos!
Alm do mais, como os termos devem ser impressos um em seguida ao outro numa
entrada (isto , numa seqncia linear), aos ndices impressos preside a permutao e no a
combinao. Por exemplo, a seqncia MOAMBIQUE, FRICA DO SUL no a mesma de
FRICA DO SUL, MOAMBIQUE. O nmero de permutaes n fatorial, sendo n o nmero de
termos. Por exemplo, o nmero de permutaes de oito termos 40320 (8x7x6x5x4x3x2x1).
A situao dos ndices impressos no to desoladora quanto essas consideraes do, a
entender. Vrios programas de computador foram desenvolvidos para gerar automaticamente
um conjunto de entradas de ndice a partir de uma seqncia de termos. Um desses processos
conhecido como SLIC. (Selective Listing in Combination [Listagem Seletiva em Combinao].
O programa, criado por Sharp (1966), primeiro organiza a seqncia de termos em ordem
alfabtica. Esta seqncia (ver figura 17) torna-se a primeira entrada do ndice. O programa
gera, ento, todas as demais entradas julgadas necessrias, obedecendo a duas regras
simples:
1. Os termos so sempre listados em ordem alfabtica.
2. As seqncias redundantes so eliminadas (por exemplo, a entrada Trabalhadores
Migrantes, Mineiros no ser necessria se j houver Trabalhadores Migrantes,
Mineiros, frica do Sul).
Quando esta regra obedecida, a quantidade de entradas cai de 21L 1 para 2n-1 .
frica do Sul
Mineiros, frica do Sul
Mineiros, frica do Sul, Moambique
Relaes Econmicas, frica do Sul
Relaes Econmicas, frica do Sul, Mineiros
Relaes Econmicas, frica do Sul, Mineiros, Moambique
Relaes Econmicas, frica do Sul, Mineiros, Moambique, Trabalhadores
Migrantes
Relaes Econmicas, frica do Sul, Mineiros, Trabalhadores Migrantes
Relaes Econmicas, frica do Sul, Moambique
Relaes Econmicas, frica do Sul, Trabalhadores Migrantes
Relaes Econmicas, Trabalhadores Migrantes, Moambique, frica do Sul,
Trabalhadores Migrantes, frica do Sul,
Trabalhadores Migrantes, frica do Sul, Mineiros
Trabalhadores Migrantes, frica do Sul, Mineiros, Moambique
Trabalhadores Migrantes, frica do Sul, Moambique
Figura 17 Entradas de um ndice SLIC

O mtodo SLIC engenhoso, pois permite todas as justaposies teis de termos, pelo
menos enquanto estes forem mantidos em ordem alfabtica. Mas tambm tem suas
desvantagens: ainda gera um nmero bastante grande de entradas; o consulente, para usar o
ndice com eficincia, deve reorganizar mentalmente os termos de busca em ordem alfabtica
(por exemplo, encontrar Trabalhadores Migrantes, Moambique, mas no Moambique,
Trabalhadores Migrantes); perde o contexto para os termos situados perto do incio da ordem
alfabtica (por exemplo, quem procurasse todas as entradas sob frica do Sul no teria idia
alguma sobre o assunto deste item).
Outros ndices baseiam-se num conjunto de entradas que se obtm sistematicamente
mediante alternao [cycling], rotao ou deslocamento [shunting]. Na alternao, cada termo
numa seqncia movido para a posio mais esquerda, a fim de se tornar um ponto de
entrada, sendo os demais termos listados depois dele:
ABCOE
BCOEA
COEAB
OEABC
EABCO

Note-se que, aps o termo de entrada, vm primeiro os termos que o seguiam na


seqncia original e, depois, os que originalmente o precediam. No ndice alternado, a
50

sucesso de termos numa seqncia no precisa dispor-se segundo uma ordem evidente,
embora estejam freqentemente ordenados alfabeticamente e possam ser ordenados
sistematicamente (como se ver adiante).
A rotao essencialmente o mesmo que a alternao, exceto que o termo de entrada
ressaltado de alguma forma (por exemplo, grifado ou sublinhado), em vez de ser deslocado
para a posio mais esquerda:
ABCOE
ABCOE
ABCDE
ABCDE
ABCOE
Tanto a alternao quanto a rotao proporcionam um certo contexto para um termo,
mas as relaes entre alguns dos termos ainda permanecem obscuras ou ambguas. Um ndice
baseado no deslocamento emprega uma apresentao em duas linhas na tentativa de reduzir
a ambigidade (isto , ser mais preciso ao mostrar como um termo se relaciona com outro),
como nos exemplos:
A

B.A
B.C.D

C.D

O principal exemplo disso, que o PRECIS, ser examinado mais adiante. 1


Um mtodo simples para produzir um ndice impresso, baseado na ordem alfabtica e na
alternao sistemtica de termos para que ocupem a posio de entrada, conforme utilizado
nas sries da Excerpta Medica, encontra-se exemplificado na figura 18. Mais uma vez, a
primeira entrada resulta da colocao de todos os termos em ordem alfabtica. As entradas
adicionais derivam da movimentao de cada termo, sucessivamente, para a posio de
entrada, sendo os demais termos listados depois dele (sempre em ordem alfabtica) como uma
seqncia de modificadores. Ainda que isso no enseje todas as justaposies possveis de
termos, na realidade oferece algumas vantagens evidentes em comparao com o SLIC: mais
econmico (no h mais entradas do que a quantidade de termos atribudos) e cada entrada
conta com seu contexto completo. Nesse tipo de ndice impresso possvel reconhecer dois
tipos de termos: os que geram entradas de ndice e os que no as geram. Os termos que no
iro gerar entradas so marcados de alguma forma pelo indexador (ou so reconhecidos
automaticamente). Tais termos sero utilizados apenas como modificadores. Aparecem no final
da seqncia de termos e so reconhecidos por estarem fora da ordem alfabtica e talvez
impressos com diferente estilo de letra (ver o exemplo bibliografia na figura 18).
frica do Sul, Mineiros, Moambique, Relaes Econmicas, Trabalhadores Migrantes,
Bibliografia
Mineiros, frica do Sul, Moambique, Relaes Econmicas, Trabalhadores Migrantes,
Bibliografia
Moambique, frica do Sul, Mineiros, Relaes Econmicas, Trabalhadores Migrantes,
Bibliografia
Relaes Econmicas, frica do Sul, Mineiros, Moambique, Trabalhadores Migrantes,
Bibliografia
Trabalhadores Migrantes, frica do Sul, Mineiros, Moambique, Relaes Econmicas,
Bibliografia
Figura 18 Entradas de ndice baseado na alternao sistemtica (modelo da
Excerpta Medica)

Os ndices exemplificados nas figuras 17 e 18 pressupem o emprego de termos de


indexao e no de texto livre, embora, em princpio, possam ser produzidos por computador
depois que, mediante programas, tenham sido extradas do texto narrativo frases
significativas. Alguns mtodos ainda mais simples de produo de ndices impressos foram
criados para trabalhar com textos e, especialmente, palavras que ocorrem nos ttulos dos
documentos. Os mtodos mais adotados so o KWIC (keyword in context) [palavra-chave no
contexto], KWOC (keyword out of context) [palavra-chave fora do contexto] e suas variantes.
O ndice KWIC (Luhn, 1959) um ndice rotado, derivado, em sua forma mais comum, dos
ttulos de publicaes. Cada palavra-chave que aparece num ttulo torna-se ponto de entrada,
1

A terminologia relativa a ndices pr-coordenados no se acha realmente padronizada. Por exemplo, Craven (1986)
parece que no faz distino entre alternao e rotao.

51

destacada de alguma forma, aparecendo, normalmente, realada no centro da pgina como no


exemplo da figura 19. As palavras restantes do ttulo aparecem envolvendo a palavra-chave.
O ndice KWIC constitui o mtodo mais simples de produo de ndices impressos por
computador, no entanto, tem alguma eficincia, pois cada palavra-chave vista em seu
contexto. Por exemplo (figura 19); possvel percorrer as entradas para crystals [cristais] em
busca das que paream tratar das propriedades elsticas ou plsticas dos cristais. Os ndices
KWIC normalmente remetem apenas para alguma forma de nmero de documento, sendo
preciso reportar-se a esse nmero a fim de obter informaes bibliogrficas completas sobre o
item representado.
Note-se que o programa de computador que gera o ndice identifica as palavras-chave
mediante um processo reverso: reconhece as que no so palavras-chave (constantes de uma
lista de palavras proibidas) e impede que sejam adotadas como pontos de entrada. Os
vocbulos dessa lista de palavras proibidas tm funo sinttica (artigos, preposies,
conjunes, etc.), mas, em si mesmos, no possuem contedo temtico. O ndice KWIC um
mtodo barato de obter certo nvel de acesso temtico ao contedo de uma coleo. til na
medida em que os ttulos sejam bons indicadores de contedo (por isso, provvel que
funcione melhor com certos assuntos ou tipos de materiais do que com outros), embora, em
princpio, no haja motivo para que os ndices KWIC no derivem de outro texto, como, por
exemplo, frases de resumos ou at seqncias de cabealhos de assuntos. Muitos estudos
foram feitos sobre a utilidade dos ttulos na recuperao (ver Hodges, 1983, e Hjorland e
Nielsen, 2001). Os ttulos podem tambm ficar mais informativos com o acrscimo ou
enriquecimento. Isto , outras palavras so acrescentadas ao ttulo, normalmente entre
parnteses, para explic-lo ou torn-lo uma descrio mais completa do contedo do item.

Figura 19 Exemplo de entradas de um ndice KWIC


Reproduzido de KWIC Index of Rock Mechanies Literature, com permisso do American
Institute of Mining, Metallurgical and Petroleum Engineers, Inc.

O ndice KWOC similar ao KWIC, exceto que as palavras-chave que se tornam pontos de
acesso so repetidas fora do contexto, comumente destacadas na margem esquerda da pgina
(figura 20) ou usadas como se fossem cabealhos de assuntos (figura 21). Faz-se s vezes uma
diferena entre ndices KWOC e ndices KWAC (keyword and context [palavra-chave e
contexto]). Quem adota essa distino chama de ndices KW AC os ndices mostrados nas
figuras 20 e 21. Um ndice KWOC seria ento aquele em que a palavra-chave usada como
ponto de entrada no se repete no ttulo mas substituda por um asterisco (*) ou outro
smbolo. difcil justificar essa prtica inslita (empregar um smbolo para substituir a palavrachave), de modo que a distino entre KWOC e KW AC no muito til. H diversas variantes
de KWIC/KWOC, inclusive o KWIC duplo (Petrarca & Lay, 1969). Afins famlia KWIC/KWOC so
os ndices de termo permutado, mais bem exemplificados pelo ndice Permuterm, relacionado
aos ndices de citaes produzidos pelo Institute for Scientific Information. No ndice Permuterm
52

cada palavra-chave do ttulo ligada, uma por vez, com outra palavrachave nesse ttulo, por
exemplo:
CRISTAIS
ALUMNIO
20071
ANLISE
18024
COBALTO
00409
CRESCIMENTO 20071
DESLOCAES 04778
EQUILBRIO
17853
FERRITE
04778
HEXAGONAIS
30714
Com esse tipo de ndice fcil associar palavras-chave durante a busca, ao percorrer, por
exemplo, a coluna de cristais para verificar se algum dos ttulos pode tratar de cristais de
cobalto. Note-se que todas as palavras-chave do ttulo aparecem reunidas em pares (por
exemplo, o documento que tem em comum o nmero 04778 indica que os termos cristais,
deslocaes e ferrite ocorrem no mesmo ttulo) e cada palavra-chave torna-se ponto de
entrada no ndice: alumnio ser ponto de entrada, e tambm anlise, equilbrio e assim por
diante.
De certo modo afim ao grupo de ndices KWIC/KWOC/permutado tem-se o ndice
articulado de assuntos, exemplificado pelo ndice de assuntos do Chemical Abstracts. Este tipo
de ndice usa uma breve descrio narrativa do documento para gerar as entradas. Esta
descrio pode ser um enunciado redigido pelo indexador ou, em seu lugar, um ttulo ou frase
extrada do texto. Certas palavras ou frases que aparecem nesse enunciado so selecionadas
como pontos de entrada no ndice, mantendo-se o restante do enunciado como um modificador
que proporciona o contexto necessrio.
Armstrong e Keen (1982) descrevem o processo de elaborao de entradas para um
ndice articulado da seguinte forma:
Os termos de entrada so reordenados de tal modo que cada um deles se liga a seu vizinho
original por meio de uma palavra funcional ou pontuao especial, conservando-se assim a
estrutura similar de uma frase, ainda que muitas vezes disposta em ordem diferente (p.6).

Os seguintes exemplos, extrados de Armstrong e Keen, demonstram o princpio:


Indexao de Peridicos de Qumica por Pesquisadores
Peridicos de Qumica, Indexao de, por pesquisadores
Qumica, Peridicos de, Indexao de, por pesquisadores

53

Figura 20 Amostra das entradas de um ndice KWOC


Reproduzida de U.S Government Thechnical Reports Volume I, 1963, com permisso do
National Technical Information Service

Note-se que mantida a sintaxe do texto original de modo que o significado do


enunciado original no fica obscuro. Esses enunciados de indexao podem ser preparados
pelo indexador, obedecendo a um conjunto prescrito de regras, ou podem ser desenvolvidos
programas de computador que geram essas entradas (Armitage & Lynch, 1968; Lynch & Petrie,
1973).

54

Figura 21 Formato alternativo de um ndice KWOC usado no Diabetes-Related


Literature Index, suplemento de Diabetes, volume 12, 1960.
Copyright@ 1960 by the American Diabetes Association. Reproduzido com permisso

Um exemplo de ndice articulado de assuntos, que , de fato, o mesmo descrito


minuciosamente por Armstrong e Keen (1982), o NEPHIS (Nested Phrase Indexing System
[Sistema de Indexao de Frase Encaixada]), criado por
Craven (1977). Em sua forma mais simples, o indexador emprega colchetes angulares
para indicar uma frase encaixada numa frase maior e que ser usada para gerar entradas de
ndice. Por exemplo, a frase
Produtividade das Pesquisas de <Especialistas do Sono>

gerar as duas entradas seguintes:


Produtividade das Pesquisas de Especialistas do Sono
Especialistas do Sono, Produtividade das Pesquisas de

Craven elabora este princpio simples com o acrscimo de outros smbolos e convenes
a serem utilizados pelo indexador para criar entradas de ndice que sejam coerentes e
inequvocas, alm de teis. O trabalho de Armstrong e Keen (1982) nos d uma idia das
possibilidades deste mtodo de indexao relativamente simples. Bastante semelhante ao
NEPHIS o sistema PASI (Pragmatic Approach to Subject Indexing [Mtodo Pragmtico de
Indexao de Assuntos]) descrito por Dutta e Sinha (1984).
55

Vale a pena citar brevemente outro sistema de indexao. O SPINDEX (Selective


Permutation Index [ndice de Permutao Seletiva]), criado para a indexao de fundos
arquivsticos, originalmente no passava de um ndice KW AC ou KWOC (Burke, 1967). Em
verses posteriores, sofreu alteraes para produzir entradas de ndice de dois nveis, que
consistiam em palavras-chave principais e qualificadoras, como nos exemplos ARIZONA,
Questes indgenas, e QUESTES INDGENAS, Arizona (Cook, 1980). Lamentavelmente, a sigla
SPINDEX, com o significado de Subject Profile lndex [ndice de Perfil de Assuntos], foi tambm
usada para um formato diferente por parte de produtores de vrios ndices impressos, inclusive
o American Bibliographical Center (que edita Historical Abstracts e Americal History and Life).
Este mtodo, depois denominado ABCSPINDEX (American Bibliographical Centers Subject
Profile Index) para diferen-lo do SPINDEX, com o qual no tem relao, parece ser
praticamente idntico aos ndices alternados utilizados pela Excerpta Medica (Falk & Baser,
1980).
Classificao em ndices de assuntos
Todos os ndices at aqui examinados adotam mtodos que so alfabticos, mas no
sistemticos. Outros tipos de ndices exigem que as entradas sejam construdas segundo
princpios lgicos. Esses mtodos remontam a Cutter (1876), que estabeleceu regras para
questes como entrada direta versus entrada invertida (Histria da Antiguidade ou
Antiguidade, Histria?). Kaiser (1911) introduziu um enfoque mais elaborado, que reconhecia
trs categorias de termos: concretos, processos e termos de localidade. Concretos so termos
relativos a coisas, reais ou imaginrias, e processos abrangem atividades. Kaiser
determinava que os enunciados de indexao apresentassem os termos em seqncia
sistemtica e no em ordem alfabtica. S eram permitidas trs seqncias:
1. Concreto-Processo (como em Tubos-Soldagem ou Tubos de Ao-Soldagem)
2. Localidade-Processo (como em Argentina - Comrcio)
3. Concreto Localidade - Processo (como em Caf - Brasil - Exportao)
A fim de obedecer s regras de Kaiser, o indexador deveria evidenciar um termo concreto
que se achasse implcito. Por exemplo, o termo dessalinizao tornar-se- ia gua Dessalinizao.
Atribui-se a Ranganathan o mais importante desenvolvimento que teve lugar depois
disso. Embora seu nome esteja fundamentalmente ligado s teorias da classificao e a seu
prprio esquema de classificao bibliogrfica, a Colon Classification [Classificao dos Dois
Pontos], Ranganathan tambm prestou importante contribuio prtica moderna da
indexao alfabtica de assuntos. Sua indexao em cadeia constitui uma tentativa de obter
um processo de desenvolvimento coerente do ndice alfabtico de assuntos do catlogo
sistemtico (em forma de fichas ou de livro). Os princpios de seu esquema de classificao,
bem como suas teorias da classificao, fogem ao escopo deste livro. Bastaria dizer que uma
das principais caractersticas dos esquemas de classificao elaborados de conformidade com
os princpios de Ranganathan a sntese ou construo de nmeros. Quer dizer, o nmero
de classificao que representa um assunto complexo obtido pela reunio dos elementos
notacionais que representam assuntos mais simples. Por exemplo, o tpico confeco de
roupas de l na Alemanha no sculo XIX representado pela notao AbCfHYqZh, na qual Ab
representa roupas, Cfl, H confeco , Yq Alemanha, e Zh sculo XIX, sendo todos estes
elementos notacionais retirados de diferentes partes do esquema de classificao e
combinados numa seqncia (ordem preferida ou ordem de citao) especificada pelo
compilador do esquema.
bvio que o ndice alfabtico de um catlogo sistemtico elaborado segundo esses
princpios deve ser desenvolvido de forma coerente, seno resultar em algo catico e
impossvel de usar. A soluo dada por Ranganathan a este problema - a indexao em cadeia
- implica que se indexe cada degrau da cadeia hierrquica, do mais especfico at o mais
genrico. Assim, um item representado pela classificao AbCfHYqZh geraria as seguintes
entradas no ndice:
Sculo XIX, Alemanha, Confeco, Artigos de L, Roupas AbCfHYqZb
Alemanha, Confeco, Artigos de L, Roupas AbCfHYq
Confeco, Artigos de L, Roupas AbCfH
Artigos de L, Roupas AbCf
Roupas Ab

56

Evidentemente, o usurio desse tipo de ndice deve fazer a busca obedecendo tambm a
uma seqncia predefinida de termos. Por exemplo, se estivesse procurando informaes sobre
roupas na Alemanha no sculo XIX, de pouca valia lhe seria esse ndice ao consultar o termo
roupas.
Ao determinar a seqncia em que os nmeros de classificao so combinados num
esquema de classificao analtico-sinttico (freqentemente denominado, um tanto
equivocadamente, facetado), Ranganathan chegou a cinco categorias fundamentais e a uma
frmula de reuni-las. As categorias, Personalidade, Matria, Energia, Espao e Tempo, so
combinadas nesta seqncia e a formula s vezes denominada simplesmente PMEST [onde
o S corresponde letra inicial de space, espao em ingls].
O modo mais fcil de descrever a Personalidade como a coisa em si. Matria o
material de que a coisa composta. Energia a ao realizada na ou pela coisa. Espao
onde a ao se verifica, e Tempo quando ela ocorre. A seqncia AbCfHYqZh obedece
ordem PMEST. Por conseguinte, a entrada num ndice em cadeia de um item categorizado
dessa forma ser o inverso dessa ordem.
A seqncia lgica das facetas estabelecida por Ranganathan para a construo de
nmeros pode ser tambm adotada em catlogos e ndices alfabticos de assuntos. Poder-sela, assim, elaborar uma entrada de ndice lgica, de acordo com a frmula PMEST, da seguinte
forma:
Roupas: Artigos de L: Confeco: Alemanha:
Sculo XIX

Infelizmente, a frmula PMEST um pouco simplista. Ao indexar assuntos altamente


complexos, possvel que uma categoria ocorra mais de uma vez (por exemplo, a tenso
exercida sobre uma estrutura pode levar ao rachamento dessa estrutura, o que implica duas
ocorrncias diferentes da categoria energia); algumas das categorias precisam ser
subdivididas mais ainda (por exemplo, para indicar diferentes tipos de atividades); ademais, a
frmula PMEST no trata claramente de certos atributos que so importantes na indexao,
tais como as propriedades dos materiais.
As teorias de Ranganathan, no entanto, tiveram profundo efeito nas prticas modernas
da indexao de assuntos. Isso se verifica de modo patente, na obra de Coates (1960), que
postula um catlogo ou ndice despido da rigidez dos cabealhos de assuntos preestabelecidos.
Uma entrada de assunto deveria ser totalmente coextensiva com o contedo temtico
estudado, como no exemplo:
Linhas de Transmisso de Eletricidade, Cabos Areos, Condutores,
Rompimento, Preveno, Manuteno

Coates utiliza uma frmula de importncia para estabelecer a seqncia em que os


termos componentes .sero reunidos. A seqncia bsica que adota Coisa, Parte, Material,
Ao, Propriedade, a qual, porm, pode ser modificada em determinadas circunstncias. O
cabealho utilizado acima, por exemplo, adota a seqncia Coisa, Espcie, Parte, Ao, Agente.
Os processos desenvolvidos por Coates foram adotados pelo British Technology Index
(posteriormente denominado Current Technology Index), do qual ele foi o primeiro editor. A
figura 22 mostra exemplos de entradas desse ndice. Observe-se que um item aparece uma
nica vez no ndice. Proporcionam-se acessos adicionais por meio de remissivas.
Pode-se tambm ponderar que as teorias de Ranganathan exerceram influncia sobre o
PRECIS (Preserved Context Index System [Sistema de Indexao de Contexto Preservado]),
desenvolvido por Austin (Austin, 1984). No PRECIS, programas de computador geram um
conjunto completo de entradas de ndice e remissivas a partir de uma seqncia de termos e
cdigos de instruo fornecidos pelo indexador para cada item. O contedo temtico de um
documento descrito por meio de uma srie de termos colocados numa seqncia
dependente do contexto. Austin e Digger (1977) utilizam o seguinte exemplo:
ndia, Indstria algodoeira, Pessoal, Treinamento

Alega-se que a lgica disso est em que cada termo essencialmente dependente do
termo que o antecede imediatamente. Assim, treinamento aplica-se somente ao contexto de
pessoal, pessoal aplica-se somente ao contexto da indstria algodoeira, e esta se aplica
somente ao contexto da ndia.

57

No PRECIS, as relaes entre os termos componentes de uma entrada do ndice so


evidenciadas numa disposio em duas linhas:
Pessoal. Indstria algodoeira. ndia
Treinamento

Isso justificado com o argumento de que proporciona uma forma prtica de mostrar,
simultaneamente, a relao entre o termo empregado como ponto de entrada no ndice e os
termos que so: a) de contexto mais amplo, e b) de contexto mais restrito. No exemplo acima,
Pessoal modificado por Indstria algodoeira e ndia a fim de mostrar o contexto mais
amplo, enquanto Treinamento apresentado como um dependente de Pessoal.
Como se v neste exemplo, uma entrada PRECIS contm trs componentes:

O termo guia o ponto de entrada no ndice, sendo impresso em negrito, o qualificador


apresenta o contexto mais amplo, e a exposio mostra os termos de contexto mais restrito.
Embora a posio de guia esteja evidentemente sempre ocupada, as outras posies nem
sempre precisam estar ocupadas.
Entradas do tipo geral acima exemplificado podem ser geradas por computador a partir
de uma srie de termos apresentados numa seqncia dependente de contexto. Assim, a
seqncia ndia, Indstria algodoeira, Pessoal, Treinamento geraria as seguintes entradas:
ndia
Indstria algodoeira. Pessoal. Treinamento
Indstria algodoeira. ndia
Pessoal. Treinamento

Infelizmente o processo no to simples quanto o que sugere este nico exemplo. H


muitos casos em que a seqncia numa srie de termos no revela, por si mesma e de modo
inequvoco, as dependncias. Na realidade, um indexador que utilize o PRECIS dever
empregar operadores (cdigos afixados aos termos componentes), a fim de representar sem
ambigidade as relaes entre os termos. Para o exemplo mostrado antes a seqncia de
entrada seria
(0) ndia
(1) indstria algodoeira
(p) pessoal
(2) treinamento
Onde (2) representa ao de transio, (P) objeto de ao, parte do sistema - chave,
(o) localizao, e (1) sistema-chave (objeto da ao transitiva). Estes operadores mostram a
funo que um termo desempenha em relao a outros termos (proporcionando uma espcie
de sintaxe) e assim podem ser considerados como indicadores de funo ou operadores de
funo.
Austin e Digger apresentam uma lista de 26 operadores desse tipo. claro que a
utilizao desse esquema torna bastante complicada a operao de indexao e eleva seu
custo, alm de exigir, para implant-lo, um extenso manual de instrues para a indexao.
De algum modo relacionado com o PRECIS h o sistema POPSI (Postulatebased Permuted
Subject Indexing [Indexao Permutada de Assunto com Base em Postulados]) (Bhattacharyya,
1981), inspirado nas teorias de Ranganathan sobre classificao.
O esquema de indexao de Farradane (1967, 1980), anterior ao PRECIS, guarda
semelhana com este por tambm utilizar um esquema de indicadores de funo. Enquanto o
PRECIS emprega suas funes exclusivamente como meio de gerar por computador
enunciados de indexao coerentes, as funes so reservadas no sistema de Farradane para
indicar relaes precisas entre os termos. Estas relaes se baseiam nos trabalhos de
psicologia experimental do raciocnio, de Piaget, Vinacke, Isaacs e outros autores, e
corroboradas pelo trabalho de Guilford sobre a estrutura do intelecto.
No esquema de Farradane h nove relaes explcitas, cada uma representada por um
operador. O conjunto completo dos operadores encontra-se na figura 23. O esquema
58

representa estdios de desenvolvimento do raciocnio extrados da psicologia infantil, isto , os


estdios pelos quais a criana se desenvolve ao associar e diferenar objetos. H dois
conjuntos de gradao: em mecanismos associativos e em mecanismos discriminativos. O
primeiro estdio associativo a percepo simples sem referncia ao tempo; o segundo a
associao temporria entre idias; e o terceiro a associao fixa (permanente) de idias. Os
estdios de discriminao so: coincidncia simples (conceitos difceis de discriminar), nodistinto (conceitos que tm muito em comum) e conceituao distinta (conceitos que podem
ser completamente discriminados).

Figura 22 Exemplo de entradas do British Technology lndex


Reproduzido com gentil permisso de CSA

Constrem-se os enunciados de indexao mediante a reunio de termos (isolados),


usando esses operadores. Um enunciado de indexao, formado por termos relacionados entre
si por meio de operadores, denominado um analeto. Eis alguns exemplos simples:
Aves /* Migrao
Minrio de ferro / - Fundio

e outro mais complexo:


Vidro / (Oxignio/) Flor / - Substituio

que representa a substituio do oxignio pelo flor no vidro. Utiliza-se uma apresentao
bidimensional, quando necessrio, como em:
Beterrabas / - Armazenamento.
/;

O armazenamento de beterrabas
lavadas

Lavagem

59

Rato /*

{Sucrose}

Ratos alimentados com

{leo de coco} /-Alimentao

sucrose com leo de coco

Farradane (1977) comparou seu sistema de indexao relacional com o PRECIS, o NEPHIS
e o POPSI, aos quais se refere de modo impreciso como capazes de produzir ndices
permutados. Alega ser possvel converter por computador seus diagramas bidimensionais em
entradas de ndices alfabticos permutados.

Figura 23 Sistema de relaes de Farradane


Reproduzido de Farradane (1980) com gentil permisso de CSA

Gardiner et al. (1995) reconhecem a influncia de Farradane em sua abordagem das


buscas em bases de dados de textos. Isto , seus procedimentos de busca procuram textos em
que os termos desejados parecem relacionar-se entre si na forma exata exigida pelo enunciado
de busca.
O Symbolic Shorthand System [Sistema Taquigrfico Simblico] (Selye, 1966; Selye e
Ember, 1964) outro sistema de indexao que expressa relaes entre termos mediante
indicadores de funo. O indexador extrai os termos de um esquema de classificao, que
compreende 20 classes principais, organizado predominantemente com base no sistema do
corpo humano. Em todo o esquema so empregados smbolos mnemnicos [vlidos para a
lngua inglesa, N.T.] para representar os assuntos. Por exemplo, Adr representa a glndula adrenal, Hypt hipotlamo, BMR a taxa de metabolismo basal, e assim por diante. O principal
indicador de funo de Selye uma flecha () que mostra a direo da ao, como em:
Cer

ACTH

Efeito do hormnio adrenocorticotrfico sobre o crebro

ou no exemplo mais complexo:


Adr

Hyp

ACTH + TX

Efeito sobre a ad-renal da hipofisectomia em


associao com o hormnio adrenocorticotrfico e a
tiroxina

Outros indicadores de funo mostram outras relaes. Por exemplo, o smbolo < usado
para indicar contedo ou componente (Glu < B representa acar no sangue) e os dois pontos
(:) para a funo de comparao. Contedos temticos bastante complexos podem ser
representados de modo conciso e inequvoco neste sistema, conforme mostram os seguintes
exemplos:
R

(B/Rb

R/DUCK)/Rat

(Injeo de substncia renal do pato no sangue de coelho e injeo do soro assim obtido
em ratos, produzindo alteraes renais)
Glu < B (:Ur)

CON

(Efeito da cortisona sobre o contedo de acar no sangue comparado como contedo de


acar na urina)
Nvel de coordenao
Estabeleceu-se uma distino entre sistemas pr-coordenados e ps-coordenados. Na
realidade, porm, provvel que um sistema de recuperao da informao moderno
incorpore caractersticas de pr-coordenao, bem como recursos de ps-coordenao.
Possivelmente haver certa pr-coordenao no vocabulrio utilizado na indexao. Por
60

exemplo, o descritor CRESCIMENTO POPULACIONAL, que se encontra em um tesauro,


representa a pr-coordenao dos termos CRESCIMENTO e POPULAO. Em alguns sistemas, o
indexador conta com a possibilidade de utilizar certos termos como subcabealhos de outros.
Assim, ele pode criar:
CRESCIMENTO POPULACIONAL / ESTATSTICA

Finalmente, a pessoa que faz a busca pode combinar termos livremente em relaes
lgicas, como, por exemplo, recuperar itens indexados sob CRESCIMENTO POPULACIONAL /
ESTATSTICA e tambm sob AMRICA DO SUL:
Ocorre, ento, uma certa coordenao (de conceitos ou termos que os representam) nas
caractersticas do vocabulrio, e mais alguma coordenao talvez ocorra no momento da
indexao. Pode-se considerar isso como formas de pr-coordenao, uma vez que a
coordenao est incorporada nos registros que do entrada numa base de dados. O nvel final
de coordenao aquele que se realiza por meio da manipulao de termos quando da
realizao de uma busca (isto , ps-coordenao).
Embora este captulo tenha apresentado exemplos de vrios tipos de ndices prcoordenados, certamente no esgotou todas as possibilidades. Encontra-se uma anlise mais
completa das caractersticas dos ndices pr-coordenados em Keen (1977a) e Craven (1986).
Keen (1977b) tambm examina o tema da estratgia de busca aplicada a esses ndices.
ndices de final de livro
Ainda que muitos dos princpios examinados neste livro sejam vlidos para ndices de
todos os tipos, sua ateno se concentra principalmente na indexao destinada a bases de
dados de itens bibliogrficos - indexao ps-coordenada para bases de dados em formato
eletrnico, e indexao pr-coordenada para aquelas em forma impressa. No se tentou
apresentar instrues minuciosas sobre a indexao de livros como peas isoladas. Este tpico
encontra-se bem estudado em outras publicaes (por exemplo, Mulvany, 1994; Guidelines for
indexes, 1997). Diodato (1994) apresenta resultados de estudo sobre preferncias dos usurios
em matria de ndices de livros; so comparadas as opinies de bibliotecrios e pessoal
docente.
Os estudos mais completos sobre ndices de livros parecem ser os relatados por Bishop et
al. (1991) e Liddy et al. (1991). Nesse par de estudos afins, o primeiro analisa as caractersticas
de uma amostra de ndices (formato, arranjo e questes similares), enquanto o segundo
examina as polticas das editoras (por exemplo, quem elabora o ndice, exigncias formais);
este artigo tambm inclui algumas informaes sobre caractersticas dos ndices e concluses
relativas ao projeto como um todo. Liddy e Jrgensen (1993a) usaram estudantes como
voluntrios, a fim de verificar como realmente utilizavam o ndice de um livro.
ndices pr-coordenados versus ndices ps-coordenados
Os ndices impressos do tipo que foi examinado neste captulo podem ser muito eficazes
na localizao de um ou alguns itens sobre um assunto de modo bem rpido. Alguns autores,
porm, parecem exagerar ao louvar as virtudes dos ndices pr-coordenados. Criticam a
recuperao ps-coordenada com o argumento de que seus resultados so medocres (ver
Weinberg, 1995, por exemplo), como, por exemplo, excessiva irrelevncia, embora isso possa
ocorrer com todos os mtodos, e que muitos usurios tm dificuldade para compreender a
lgica das buscas. Essa ltima alegao certamente verdadeira, mas tambm verdade que
muitas pessoas enfrentam enorme dificuldade para entender e usar o mais simples dos ndices
impressos (ver, por exemplo, Liddy e Jrgensen, 1993a,b). Diante da opo, os usurios das
bibliotecas parecem preferir, de modo esmagador, as buscas ps-coordenadas em bases de
dados eletrnicas em comparao com o uso dos ndices impressos (ver, por exemplo, Massey
- Burzio, 1990), embora, de fato, possam obter resultados muito inferiores em suas buscas (ver
p. 121-127 de Lancaster e Sandore, 1997).

61

Captulo 5 Coerncia da indexao


E mais do que evidente que a indexao um processo subjetivo e no objetivo. Duas
(ou mais) pessoas possivelmente divergiro a respeito do que trata uma publicao, quais
aspectos merecem ser indexados, ou quais os termos que melhor descrevem os temas
selecionados. Ademais, uma mesma pessoa decidir de modo diferente quanto indexao em
momentos diferentes. A coerncia na indexao refere-se extenso com que h concordncia
quanto aos termos a serem usados para indexar o documento. A coerncia interindexadores
refere-se concordncia entre indexadores, enquanto a coerncia intra-indexador refere-se
extenso com que um indexador coerente consigo mesmo.
J foram adotadas ou propostas vrias medidas diferentes para a coerncia, e sobre as
quais existe uma boa reviso bibliogrfica feita por Leonard (1975). Talvez a medida mais
comum seja a simples relao AB/ (A + B), onde A representa os termos atribudos pelo
indexador a, B representa os termos atribudos pelo indexador b, e AB representa os termos
com os quais a e b concordam. Vejamos a situao retratada na figura 24. Cinco pessoas
indexaram o mesmo item, com o nmero de termos atribudos variando de quatro (indexador
b) a oito (indexador e). Podem-se comparar os termos atribudos por qualquer par de
indexadores. Hooper (1965) refere-se aos valores da coerncia de pares como pares de
coerncia (pcs). Para os indexadores a e b, o PC 3/6 ou 0,5 (existem seis termos exclusivos
atribudos e trs deles foram atribudos por ambos). Cada par do grupo tratado da mesma
forma) a. A partir dos dados apresentados so derivados os seguintes PCs: ab, (0,5); ac, 4/7
(0,57); ad, 4/6 (0,75); ae, 4/9 (0,44); bc, 3/7 (0,43); bd, 2/7 (0,29); be, 4/8 (0,5); cd, 3/8 (0,37);
ce, 5/9 (0,56); de, 3/10 (0,30).
Obtm-se uma medida da coerncia intergrupal por meio da determinao da mdia dos
resultados para cada par de indexadores. Para o grupo a-e a coerncia global de
aproximadamente 0,47.
Se a seqncia de termos na figura 24 reflete prioridade na atribuio de termos,
verifica-se que existe concordncia razovel quanto aos termos mais importantes. Todos os
cinco indexadores atribuem o termo A, e quatro deles atribuem tanto A quanto B. Verifica-se
muito menos concordncia quanto aos aspectos secundrios do documento ou quais os termos
a serem atribudos a esses aspectos. Observe-se tambm como a quantidade de termos
atribudos influi no escore da coerncia: quanto mais termos atribudos (pelo menos at certo
ponto), menor tender a ser a coerncia. Zunde e Dexter (1969 b) e Rolling (1981) sugerem
que as medidas de coerncia deveriam levar em conta a importncia de diversos termos para
o contedo temtico do documento. A incoerncia na atribuio de termos de menor
importncia ser muito menos significativa do que a incoerncia na atribuio de termos de
maior importncia, e isso se refletiria em qualquer mtodo de pontuao.
a
A
B
C
f)
E

b
A
B
E
F

c
A
C
f)
E
F
G

d
A
B
C
f)
H

e
A
B
f)
E
F
G
I
J

Figura 24 Termos (04 - J) atribudos ao mesmo documento por cinco


indexadores diferentes (a - e)

Os dados da figura 24 poderiam tambm representar a coerncia intraindexador: a


situao em que uma pessoa indexa o mesmo documento em cinco ocasies diferentes.
Cooper (1969) considera a coerncia interindexadores de modo diferente: no nvel do
termo. Quer dizer, ele mede o grau com que um grupo de indexadores concorda com a
atribuio de determinado termo a um documento. Com relao a esse termo, a coerncia
interindexadores definida como a proporo de indexadores que atribuem o termo menos a
proporo daqueles que no o atribuem do exemplo da figura 24 h 100% de concordncia
quanto ao termo A, enquanto a concordncia quanto a B tem um valor de 60% (80%-20%), a
concordncia quanto a C tem um valor de 20 (60%-40%), e assim por diante.
J foram realizados muitos estudos sobre coerncia interindexadores, embora hoje no
sejam to comuns quanto no passado; eles costumam mostrar que muito difcil alcanar alto
nvel de coerncia. Hooper (1965) fez um resumo de 14 estudos diferentes e encontrou valores
62

que variavam de 10% a 80%. Para os seis estudos em que pde recalcular os valores a partir
dos dados fornecidos (para ter certeza de que a coerncia seria calculada da mesma forma
para cada um), os resultados variaram de 24% a 80%.
Praticamente todos os estudos sobre coerncia interindexadores at hoje realizados
tratam cada termo como igual, embora, conforme sugerido antes, fosse mais sensato atribuir
um peso maior coerncia na atribuio dos termos mais importantes. Outra complicao
est no fato de que, com certos tipos de vocabulrios controlados e procedimentos de
indexao, seria possvel a ocorrncia de uma coincidncia parcial. Por exemplo, dois
indexadores concordariam com o mesmo cabealho principal, mas no com o subcabealho.
Vejamos o exemplo a seguir em que as letras maisculas representam cabealhos e o asterisco
marca os cabealhos que o indexador considera mais importantes:
Indexador 1
*A/b
*B/b/c
c/f
D/f
E

Indexador 2
* A/C
*B/C
c/f
D/r
F
G

Indexador 3
*A/b
B/C
*D/f
F
*H/q
I

Trata-se de uma situao realista. Por exemplo, ela se assemelha de perto prtica de
indexao da National Library of Medicine onde mais de um subcabealho pode ser atribudo a
um termo e os descritores principais so diferenados dos menos importantes.
claro que esse tipo de indexao apresenta problemas importantes na realizao de
estudos de coerncia. Aqui deixa de ter significado o mtodo simples do par de coerncia. Na
indexao desse tipo, dever-se-ia dar mais crdito a uma perfeita concordncia entre dois
indexadores. Por exemplo, os indexadores 1 e 3 mereceriam grande crdito pelo fato de ambos
concordarem com a combinao A/b de cabealho principal/subcabealho e de que este seria
um descritor principal. Embora seja possvel desenvolver um mtodo de pontuao numrica
para expressar a coerncia (5 pontos para uma perfeita concordncia cabealho
principal/subcabealho, 10 pontos para uma concordncia de cabealho principal/subcabealho
se ambos os indexadores o utilizarem como descrito r mais importante, e assim por diante);
difcil chegar a um acordo sobre qual seria o escore, e mais difcil ainda interpretar o que o
escore realmente significa. mais provvel que esse tipo de pontuao seja aplicvel a
estudos de qualidade de indexao, que objeto do prximo captulo.
Fatores que influem na coerncia
Essa variabilidade nos escores da coerncia leva a se indagar quais so os fatores que
tm maior efeito na determinao da coerncia na indexao? Na figura 25 procuram-se
identificar possveis fatores.
J se mencionou a quantidade de termos atribudos. Se se pedisse aos indexadores que
atribussem termos, em ordem de importncia percebida, ao contedo temtico do
documento, provavelmente obter-se-ia razovel grau de concordncia no que concerne aos
termos do alto da lista. Na medida em que se descer nessa lista, essa concordncia certamente
diminuir. Em outras palavras, certo que haver mais concordncia quanto aos tpicos do
documento considerados principais do que quanto aos tpicos considerados de menor
importncia que meream ser includos.
Isso, porm, talvez seja um pouco simplista. A figura 26 sugere uma relao possvel
entre coerncia e quantidade de termos atribudos. Supondo que os termos sejam atribudos
em ordem de prioridade, levanta-se a hiptese de que a concordncia atingir o ponto mais
alto no nvel de dois termos e em seguida comear a cair gradualmente at o ponto onde
tenham sido atribudos tantos termos que a concordncia voltar a aumentar. Isto
exemplificado na figura 27.
1. Quantidade de termos atribudos.
2. Vocabulrio controlado versus indexao com termos
livres
3. Tamanho e especificidade do vocabulrio.
4. Caractersticas do contedo temtico e sua
terminologia
5. Fatores dependentes do indexador

63

6. Instrumentos de auxlio com que conta o indexador


7. Extenso do item a ser indexado

Figura 25 Possveis fatores que influem na coerncia da indexao

Essa figura apresenta listas ordenadas segundo a importncia dos termos atribudos
pelos indexadores a e b. Isto , a acha que A o termo mais importante, B o que se segue
em ordem de importncia, e assim por diante. Outra forma de examinar isso dizer que, se o
indexador a pudesse atribuir somente um termo ao documento, esse termo seria A. Cada
indexador finalmente atribui 16 termos. Observe-se que, embora os indexadores concordem
com os dois termos do alto da lista, eles no concordam com o primeiro desses termos. Isso
no constitui surpresa. Muitos documentos envolvem uma relao entre dois conceitos
principais. Talvez seja possvel estar de acordo sobre quais so esses conceitos, mas no
concordar com qual deles assumir precedncia. Por exemplo, num artigo sobre soldagem de
titnio, o metal ou o processo que deve assumir precedncia? ( claro que decises como
essa tm muito a ver com as caractersticas da base de dados. Numa que seja dedicada
exclusivamente ao titnio, o termo titnio tem pouco ou nenhum valor.) Isso se parece um
pouco com apostar em ces (ou cavalos) de corrida: amide mais fcil adivinhar quais os dois
animais que terminaro nas primeiras duas posies do que adivinhar qual ser o primeiro.
Depois que todos os 16 termos foram atribudos alcanou-se uma perfeita concordncia.
Isto se deve a um efeito de saturao. H somente um nmero determinado de termos que se
aplicariam de modo plausvel a qualquer item, pelo menos se esses termos forem extrados de
um vocabulrio controlado. Se forem atribudos termos em nmero suficiente, acabar-se- por
alcanar uma elevada coerncia. Observe-se, contudo, que a coerncia baixa entre o nvel de
dois termos e o nvel de dezesseis termos. Por exemplo, depois de cinco termos, o PC 5/6
(0,83), depois de dez termos de 6/14 (0,43), e assim sucessivamente.
A relao apresentada na figura 26 parece, portanto, plausvel, embora no haja sido
confirmada experimentalmente. Pelo menos a forma da curva plausvel, se se levam em
considerao os resultados alcanados por muitos indexadores. No caso de poucos
indexadores, naturalmente, o declnio da coerncia seria provavelmente menos suave (por
exemplo, haveria maior coerncia com quatro termos do que com trs).

Figura 26 Relao entre coerncia e quantidade de termos atribudos

Harris et al. (1966) relatam resultados que diferem um pouco dos formulados
hipoteticamente na figura 26. A coerncia foi maior depois de 10 termos do que depois de
64

cinco, mas declinou nos nveis de 20 e 30, voltando a aumentar quando foram atribudos 40
termos. Afirmam que encontraram poucos indcios de algum efeito de saturao, mas seus
indexadores utilizavam palavras-chave no-controladas e no as selecionavam de um conjunto
limitado de termos controlados. Fried e Prevel (1966) descobriram um declnio da coerncia
com a quantidade de termos atribudos, mas Leonard (1975) encontrou indicaes
inconclusivas sobre este ponto - verdadeiro para uma base de dados, mas no para outra.
Num estudo sobre coerncia em bases de dados agrcolas, Reich e Biever (1991)
encontraram prova do efeito da exaustividade sobre a coerncia: numa amostra de artigos
indexados com uma mdia de 8-9 termos de um tesauro, a coerncia foi de 24%; chegou a
45% numa amostra que possua uma mdia de 5-6 termos do tesauro.

Figura 27 Efeito da quantidade de termos atribudos sobre a coerncia do


indexador (dois indexadores)

O segundo fator que influi sobre a coerncia (figura 25) o tipo de vocabulrio utilizado
na indexao. Uma das principais vantagens proclamadas para se adotar um vocabulrio
controlado que ele melhorar a coerncia na representao do contedo temtico.
Entretanto, a relao entre controle de vocabulrio e coerncia do indexador no to
imediata quanto pareceria primeira vista. Suponhamos que eu rena alguns artigos de
medicina e pea a um grupo de estudantes de nvel mdio que os indexem. Primeiro, exijo que
faam a indexao extraindo palavras e frases dos prprios documentos. Eu pressuporia que
haveria neste caso um razovel nvel de coerncia. Provavelmente, os estudantes se
comportaro mais ou menos da mesma forma que um computador se comportaria ao realizar
essa tarefa: procuraro palavras ou frases que ocorrem freqentemente e/ou aparecem no
ttulo ou em outros lugares de destaque.
Numa segunda etapa desse exerccio, peo aos estudantes que traduzam a indexao
que fizeram com termos livres para termos selecionados no Medical subject headings (MeSH)
da National Library of Medicine. Quase com certeza haver uma queda da coerncia. Nesta
situao, o vocabulrio controlado ter um efeito contrrio. Isso se d porque as expresses
textuais selecionadas nem sempre sero idnticas aos termos controlados. Os estudantes tero
dificuldade em selecionar os termos controlados apropriados porque carecem de
conhecimentos suficientes de medicina e de sua terminologia e porque alguns dos termos
controlados tero adquirido um significado especial (indicado em nota explicativa) atribudo
pelos compiladores do vocabulrio. Um vocabulrio controlado deve melhorar a coerncia da
indexao a longo prazo, mas somente pode ser aplicado de modo coerente por indexadores
experientes que dominem o contedo temtico e estejam totalmente familiarizados com os
termos.
Outra coisa para a qual preciso atentar que um vocabulrio controlado deve melhorar
a coerncia da indexao em relao a um grupo de documentos, mas bem possvel que a
diminua no nvel de um nico documento. Quer dizer, a terminologia adotada num artigo
reveste-se de uma coerncia interna -- o autor costuma no empregar uma variedade de
termos para descrever o mesmo tpico, pelo menos em artigos de natureza tcnica ou
especializada. bastante possvel, contudo, que haja divergncia entre dois indexadores a
respeito de qual o termo controlado a ser adotado para representar esse tpico. Por outro lado,
autores diferentes empregam terminologias diferentes, e, desse modo, o vocabulrio
65

controlado, ao reduzir o leque de opes, exerce um efeito benfico sobre a coerncia da


indexao quando se trata de um grupo grande de documentos.
Se a coerncia interindexadores baixa quando duas pessoas indexam itens que
empregam o mesmo vocabulrio, ser natural, obviamente, que haja coerncia ainda menor
quando os mesmos itens so indexados em diferentes bases de dados porque variaes nos
vocabulrios utilizados acrescentam outra dimenso ao problema. Qin (2000), por exemplo,
reuniu um grupo de artigos sobre resistncia a antibiticos e comparou a indexao deles no
MEDLINE com a indexao baseada em citaes feita no Science Citation Index (Key Words
Plus). Naturalmente, a similaridade foi baixa, mesmo quando a similaridade parcial era o
critrio adotado, embora as trs palavras-chave usadas como termos de indexao que
ocorreram com mais freqncia fossem conceitualmente equivalentes aos dois cabealhos de
assuntos do MEDLINE de maior freqncia.
Convm salientar, de passagem, que no to simples quanto pareceria primeira vista
fazer uma comparao entre indexao com termos livres e indexao com termos
controlados. Um termo controlado ou no atribudo. Na indexao com termos livres,
entretanto, defrontamo-nos com o problema de ter que decidir se duas expresses so ou no
so idnticas. Por exemplo, considera - se corrente eltrica como igual a corrente elctrica,
ou como se avalia uma situao em que um indexador escolhe o termo literatura francesa
medieval e um outro utiliza literatura medieval e literatura francesa? Isso, claro, nos faz
remontar distino entre anlise conceitual e traduo. Mais adiante se mencionar o efeito
dessas duas etapas sobre a coerncia.
Fugmann (1985) levanta uma questo muito interessante relativa coerncia. Salienta
que, enquanto os estudos sobre coerncia se concentram na seleo de termos para
determinado documento, a pessoa que busca informao est mais preocupada com a
coerncia entre os documentos. Isso implica que talvez seja til um tipo diferente de anlise de
coerncia, que mensure a extenso com que o mesmo tpico indexado coerentemente numa
base de dados.
O terceiro fator identificado na figura 25 corresponde ao tamanho e especificidade do
vocabulrio. Quanto maior o vocabulrio, maior ser a probabilidade de ser especfico, e
quanto maior for sua especificidade, mais difcil ser utiliz-lo de modo coerente (Tinker, 1966,
1968). Por exemplo, h mais probabilidade de dois indexadores concordarem que um
documento trata de corroso do que de concordarem quanto ao tipo de corroso que
estudado. Quanto mais sutis forem os matizes de significado que um vocabulrio possa
expressar, mais difcil ser alcanar-se coerncia. Na minha avaliao do MEDLARS (Lancaster,
1968a), inclu um breve estudo sobre coerncia. Descobri que a coerncia na atribuio de
cabealhos de assuntos (MeSH) era de 46,1 % quando os resultados de trs indexadores eram
divididos proporcionalmente entre um total de 16 artigos. Quando eram tambm ,utilizados
subcabealhos, a coerncia, no entanto, caa para 34,4%. Em estudo anterior verificou-se que
os indicadores de funo causavam efeito ainda mais drstico na reduo da coerncia da
indexao (Lancaster, 1964), resultado esse que foi confirmado por Sinnett (1964) e Mullison et
al. (1969).
Em seu estudo sobre coerncia da indexao em bases de dados agrcolas, Reich e Biever
(1991) concluem que A coerncia [...] parece ser mais difcil de alcanar medida que
aumenta a especificidade do vocabulrio.
Slamecka e Jacoby (1963) fazem uma distino entre vocabulrios prescritivos e
sugestivos. Estes oferecem ao indexador certa margem na escolha de termos, enquanto os
primeiros praticamente no lhe deixam qualquer opo. Com base em alguns experimentos
com vocabulrios de diferentes tipos (cabealhos de assuntos, tesauro, esquema de
classificao), concluram que:
A coerncia interindexadores melhora significativamente com a utilizao de instrumentos de
indexao prescritivos que contenham um mnimo de relaes semnticas variveis entre os
termos. O emprego de instrumentos de indexao que ampliem a liberdade semntica do
indexador, no que concerne escolha de termos, prejudicial confiabilidade da indexao.
A qualidade da indexao tem muito a ganhar com vocabulrios que formalizem as relaes
de modo a prescrever uniforme e invariavelmente a escolha dos termos de indexao (p. 30).

Assinale-se que eles parecem considerar coerncia e qualidade como mais ou menos
equivalentes. Este aspecto ser estudado no captulo seguinte.
natural que os vocabulrios prescritivos resultem em maior coerncia. De fato, parece
provvel que se alcance o mximo de coerncia com a atribuio de termos pr-impressos
num formulrio de indexao (como o caso das etiquetas da National Library of Medicine)
que lembrem ao indexador que devem ser utilizados sempre que forem aplicveis. Leonard
66

(1975) apresentou algumas indicaes que corroboram isso, do mesmo modo que Funk et al.
(1983).
Leininger (2000), baseando-se em 60 itens acidentalmente indexados em duplicata na
base de dados PsyCINFO, verificou 66% de coerncia na atribuio de etiquetas, enquanto a
coerncia total (considerados todos os termos) foi de apenas 55%. O resultado mais
surpreendente foi que s houve 44% de coerncia na atribuio de cdigos genricos de
classificao. Com s 22 classes e 135 subclasses, e uma mdia de apenas 1,09 atribuies
por registro (a maioria dos +.registros classificada apenas numa nica classe e poucos num
mximo de duas), seria natural que houvesse maior coerncia. A explicao mais provvel
que muitos artigos de psicologia parecem igualmente relevantes para duas ou mais categorias:
embora indexadores diferentes concordem em qual de duas ou trs categorias classificar um
documento, haveria muito menor concordncia quanto nica melhor categoria. De novo as
corridas de galgos e cavalos.
O quarto fator identificado na figura 25 corresponde natureza do contedo temtico do
documento e, mais particularmente, sua terminologia. de se supor que ocorra maior
coerncia na indexao de tpicos mais concretos (por exemplo, objetos fsicos, pessoas
designadas pelo nome), e que ela declinar medida que se lidar cada vez mais com
abstraes. Tibbo (1994) salienta que os autores da rea de humanidades tendem a ser
imprecisos em sua terminologia, preferindo textos densos ao invs de legveis. Entretanto,
Zunde e Dexter (1969a) no verificaram aumento da coerncia com a facilidade de leitura do
documento. Certos materiais podem suscitar problemas especiais no que tange coerncia da
indexao. No caso de obras de criao, como livros de fico, filmes de longa-metragem e
alguns tipos de fotografias, provvel que haja um nvel excepcionalmente elevado de
desacordo em relao quilo de que trata a obra e como index-la. Diferentes grupos de
pessoas tero interesses bem distintos por esses materiais. Por exemplo, estudiosos das artes
e do cinema talvez queiram uma indexao que seja bastante diferente daquela desejada pelo
pblico em geral. Markey (1984) e Enser (1995) apresentam indcios que sugerem que a
indexao de imagens pode produzir nveis de coerncia excepcionalmente baixos.
O quinto fator tem a ver com os indexadores como indivduos. quase certo que dois
indexadores com formao bastante similar (educao, experincia, interesses) tenham mais
probabilidade de concordar com o que deve ser indexado do que dois outros com formao
muito diferente. Relacionados a isso esto o tipo e a durao do treinamento. Se todos os
indexadores participam do mesmo programa rigoroso de treinamento, isso contribui para
reduzir a importncia da formao prvia como fator que influi na coerncia. Tambm
importante o conhecimento do contedo temtico com que se lida. Se dois indexadores
tiverem quase o mesmo nvel de conhecimento especializado, sero mais coerentes entre si do
que se um deles for muito entendido na matria e o outro tiver apenas um conhecimento
superficial do contedo temtico. Mais importante do que o conhecimento especializado em si
mesmo seria, contudo, o conhecimento minucioso das necessidades e interesses dos usurios
a serem servidos.
Jacobye Slamecka (1962) encontraram maior coerncia entre indexadores experientes do
que entre iniciantes que trabalhavam com patentes; os experientes tambm usavam menor
quantidade de termos. Leonard (1975) constatou que a coerncia aumentava com a
experincia dos indexadores, mas no achou correlao positiva entre coerncia e formao
educacional. Quer dizer, maior conhecimento do contedo temtico (presumido a partir da
formao educacional) no aumentava a coerncia. Korotkin e Oliver (1964), em experimento
com resumos de psicologia, no descobriram diferenas significativas na coerncia entre dois
grupos de indexadores, sendo que um deles dominava o contedo temtico e o outro no.
Neste caso, porm, o estudo ocorreu sob vrias restries artificiais que iriam influir no
resultado: no foi usado vocabulrio controlado, foram empregados resumos e no artigos
completos, e os indexadores foram instrudos a atribuir exatamente trs termos (nem mais,
nem menos) a cada item.
Um estudo posterior, de Bertrand e Cellier (1995), tambm examinou o efeito da
experincia do indexador. Inclua, porm, tantas variveis que se torna difcil interpretar seus
resultados.
Dados encontrados em Stubbs et al. (1999) ilustram o efeito que um indexador radical
(isto , atpico) pode provocar nos escores de coerncia.
Outro fator apontado na figura 25 refere-se aos instrumentos auxiliares utilizados pelo
indexador. Se um grupo de indexadores compartilhar o mesmo conjunto de ferramentas de
indexao (dicionrios, glossrios, manuais), haver uma tendncia de que estes instrumentos
contribuam para melhorar a coerncia no grupo. O mais importante seria algum tipo de

67

vocabulrio de entradas, elaborado pelo prprio centro de informao, que servisse para
correlacionar os termos que ocorrem nos documentos com os termos controlados apropriados.
Finalmente, a extenso do item indexado influi na coerncia: quanto menor o item,
menor ser a quantidade de termos que a ele se aplicaro de modo plausvel. No causa
espcie que Harris et al. (1966) hajam verificado que a coerncia era maior na indexao de
questes (breves enunciados textuais) do que na indexao de artigos de peridicos. Rodgers
(1961), Fried e Prevel (1966), Leonard (1975), e Hork (1983) tambm encontraram indcios de
coerncia declinante com a extenso do documento, enquanto Tell (1969) constatou que a
coerncia quando se indexava a partir do texto integral dos artigos era menor do que quando
se indexava a partir dos ttulos ou dos resumos.
Coerncia na anlise conceitual versus coerncia na traduo
O tipo de estudo de coerncia examinado neste captulo empana a distino, que se faz
na indexao, entre as etapas de anlise conceitual e de traduo. Preschel (1972), porm,
procurou separar essas duas etapas, a fim de determinar se era mais provvel os indexadores
concordarem com sua anlise conceitual do que com a traduo em termos de indexao. Os
resultados de sua pesquisa indicaram que era muito mais provvel que os indexadores
concordassem com o que seria indexado (anlise conceitual) do que como os conceitos seriam
descritos (traduo). importante, porm, reconhecer que, nesse estudo, os indexadores no
usaram um vocabulrio controlado, mas criaram seus prprios rtulos verbais para os tpicos.
Resultados bem diferentes seriam alcanados se a influncia normalizadora de um vocabulrio
controlado houvesse estado presente.
As figuras 28-31 mostram exemplos de conjuntos de termos de indexao atribudos a
artigos por dois indexadores diferentes. Em todos os casos o vocabulrio adotado foi o
Thesaurus of ERIC descriptors. Todos so exemplos reais de enfoques alternativos na
indexao. A indexao foi feita, como dever de casa, por alunos da Graduate School of Library
and Information Science da University of Illinois. Os exemplos foram selecionados de um
conjunto maior reunido pelo autor ao longo de anos. Os alunos tinham a liberdade de escolher
os artigos que quisessem indexar, e era uma obra de puro acaso mais de um estudante
escolher o mesmo artigo. Eles so aqui transcritos porque exemplificam alguns dos problemas
que ocorrem na busca da coerncia entre indexadores.

Figura 28 Dois enfoques diferentes na indexao de um artigo intitulado


Quando os circunstantes apenas observam

A figura 28 um exemplo extremo: somente um termo em comum entre 16 atribudos. O


artigo trata do fenmeno de pessoas que se recusam a intervir quando testemunham um
crime. Observe-se como os dois indexadores encaram o artigo de diferentes perspectivas - B
mais do ponto de vista social e legal, e A mais do ponto de vista psicolgico.
O exemplo da figura 29 no muito melhor. Quanto aos termos mais importantes, os
indexadores concordam apenas em relao a um deles. O artigo trata de um programa,
oferecido por biblioteca pblica, para instruir pais de crianas em idade pr-escolar sobre
literatura adequada a esse grupo etrio. O indexador B v isso como educao pr-escolar,
embora sejam os pais e no os filhos que recebam instruo, enquanto A (provavelmente de
modo mais correto) acha que educao de adultos pais. O indexador B, embora estudante de
biblioteconomia, no indica que o programa acontece numa biblioteca. O indexador A, por
outro lado, no indica que o artigo refere-se a crianas muito pequenas. Note-se como os dois
escolheram termos relacionados muito prximos: interesses de leitura versus atitudes diante

68

da leitura, gosto pela literatura versus crtica literria, materiais de leitura versus seleo de
materiais de leitura.

Figura 29 Dois enfoques diferentes na indexao de um artigo intitulado


Um curso de literatura infantil para pais

Isso exemplifica os problemas inerentes ao uso de um vocabulrio controlado que contm


muitos termos bastante afins ou parcialmente coincidentes, principalmente quando os
indexadores no esto totalmente a par do alcance pretendido desses termos.
A figura 30 mostra maior coerncia, uma vez que dois dos termos mais importantes
coincidem. Apesar disso, ocorrem algumas diferenas de traduo. O indexador A expressa
cursos ps-graduados de educao mediante o emprego dos termos faculdades de educao
e ensino superior, enquanto B seleciona faculdades de educao e ensino de ps-graduao.
De igual modo, quando B emprega atitudes dos docentes, A adota opinies, e quando B usa
relao professor-aluno, A emprega relao interprofissional e orientadores pedaggicos.
difcil acreditar nos resultados da indexao da figura 31. No existe termo algum em
comum entre os doze atribudos. Mais uma vez demonstram-se a claramente os problemas
decorrentes do emprego de termos afins e/ou coincidentes: so usados cinco termos sobre
leitura, mas todos diferem entre si. Neste caso, porm, a indexao de A bastante medocre:
no menciona o nvel educacional e o item indexado de modo muito genrico sob ensino
audiovisual quando, especificamente, trata de televiso. Quando o documento foi indexado
ainda no havia no tesauro o termo televiso com legenda fechada.
Os oito estudantes annimos, cujo trabalho comparado nas figuras 28-31, no eram
indexadores altamente experientes, embora fossem inteligentes e interessados e estivessem
motivados. bastante provvel que indexadores de maior experincia, principalmente com
maior traquejo na utilizao desse tesauro, houvessem alcanado resultados mais coerentes.
De qualquer modo, os exemplos servem para ilustrar alguns dos obstculos a uma indexao
coerente.

Figura 30 Dois enfoques diferentes na indexao de um artigo intitulado


Orientao em cursos de ps-graduao em educao

69

Figura 31 Dois enfoques diferentes na indexao de um artigo intitulado


Televiso com legenda fechada: uma nova ferramenta para o ensino da leitura

A figura 32 outra trapalhada. A dois estudantes registraram palavras e expresses que


representam sua anlise conceitual de um artigo, antes de tentarem traduzi-la em termos
controlados. A comparao muito instrutiva. Exceto o fato de ambos os conjuntos de termos
se referirem a romances sentimentais, parecem ter pouco em comum. A interpretao de A
tranqila e romntica, enquanto o mnimo que se pode dizer de B que grosseira. A inclui
somente trs termos negativos (conflito, dominncia, ressentimento), enquanto B inclui muitos
termos radicais. O fato de serem possveis tais interpretaes radicalmente diferentes do
significado de um artigo depe, talvez, a favor do emprego da indexao como instrumento
auxiliar da psicoanlise.
Embora duas ou mais pessoas possam no concordar rigorosamente com os termos que
sero atribudos a um documento, este fenmeno no privilgio exclusivo da indexao.
Saracevic et al. (1988) constataram que os termos empregados para um mesmo pedido por
diferentes especialistas em buscas revelavam uma coincidncia extraordinariamente reduzida. 1
Alm disso, itens recuperados por diferentes especialistas em buscas apresentavam pouca
coincidncia e cada especialista costumava encontrar alguns itens relevantes no encontrados
pelos outros.2 Saracevic sugere a necessidade de buscas mltiplas, feitas por diferentes
pessoas, para o mesmo pedido, cujos resultados sejam reunidos e postos numa ordem
classificada: os itens recuperados pela maioria dos especialistas ficaro no topo dessa
classificao e aqueles recuperados apenas por um especialista ficaro na parte inferior. Pela
mesma razo, um mtodo ideal de indexao envolveria um trabalho de equipe, alcanando-se
consenso sobre cada documento como resultado de discusses entre um grupo de
indexadores. Ainda que este mtodo tenha sido possvel em alguns poucos locais altamente
especializados (como os sistemas especializados existentes dentro do V.S. Patent and
Trademark Office), ele excessivamente dispendioso para a maioria das aplicaes. Brown et
al. (1996), entre outros, propuseram um mtodo democrtico de indexao de imagens, em
que os usurios da base de dados de imagens contribuam com termos.

Fidel (1985) tambm verificou que experientes especialistas em buscas mostravam pouca concordncia na seleo
de termos a serem empregados em buscas complexas. Anteriormente, Lilley (1954) e Bates (1977) mostraram que
usurios de catlogos em fichas tambm costumam no concordar muito quanto aos termos a serem utilizados na
consulta a esses catlogos.
2
Katzer et al. (1982) constataram que representaes diferentes de documentos faziam com que fossem recuperados
diferentes conjuntos, os quais apresentavam pouca duplicidade mesmo quando as representaes eram muito
similares.

70

Figura 32 Diferenas na anlise conceitual de um artigo intitulado


O ato em extino: um estudo dos romances sentimentais

Bates (1986) sugere que a indexao indeterminada e probabilstica e que isso mais
ou menos inevitvel, estando arraigado na natureza da mente humana. Ao invs de lamentar
o fato de que talvez jamais seja provvel alcanar um elevado nvel de coerncia na indexao,
pelo menos quando nela esto envolvidos indexadores human9s, devemos concentrar ateno
na compensao disso na etapa final do processo, ou seja, no momento da busca. A busca no
deve basear-se na coincidncia exata de termos, mas em mtodos que ordenem os
documentos segundo o grau com que coincidem com alguma forma de enunciado de busca. A
pessoa que executa as buscas deve dispor de diversos instrumentos auxiliares que lhe
permitam selecionar dentre uma variedade de mtodos para gerao de associaes
semnticas entre termos.
Embora muitos estudos sobre coerncia hajam sido realizados ao longo dos anos, muito
poucas pesquisas foram feitas sobre por que diferentes indexadores selecionam diferentes
termos, o que sabidamente um tipo mais difcil de investigao. Dois artigos correlatos, de
David et al. (1995) e Bertrand-Gastaldy et al. (1995), versam sobre este problema, mas
chegam a concluses bastante nebulosas.
Indexao coerente no necessariamente o mesmo que indexao de alta qualidade. A
qualidade da indexao ser examinada no prximo captulo, onde tambm se faz uma
comparao entre qualidade e coerncia.

71

Captulo 6 Qualidade da indexao


A indexao no constitui um fim em si mesma. Define-se de modo muito pragmtico a
boa indexao como a indexao que permite que se recuperem itens de uma base de dados
durante buscas para as quais sejam respostas teis, e que impede que sejam recuperados
quando no sejam respostas teis. Cooper (1978) vai um pouco alm:
Justifica-se a atribuio de um termo a um documento se a utilidade mdia associada a essa
atribuio for positiva, e injustificada se for negativa (p. 110).

Ele usa aqui a palavra utilidade mais ou menos como sinnimo de benefcio.
Conforme as relaes esquematizadas na figura 1 do a entender, diversos subsistemas
interagem no controle do desempenho de um sistema de recuperao da informao. Outro
modo de examinar isso em termos de uma seqncia de eventos que regem o desempenho
da busca. Isso exemplificado na figura 33.
Na situao tpica de um centro de informao, uma necessidade de informao
desponta na mente de um usurio desse centro e ele vai conversar sobre ela com um
especialista em informao. Podemos nos referir ao resultado desse dilogo como um pedido
(isto , o entendimento por parte do especialista daquilo que o usurio realmente precisa).
Com base nesse pedido, o especialista em informao prepara uma estratgia de busca,
valendo-se para isso de termos de indexao, palavras do texto ou uma combinao de ambos.
A estratgia de busca ento confrontada com a base de dados ( claro que, em muitos casos,
a estratgia de busca e o cotejo com a base de dados estaro entrelaados, pois a estratgia
ser desenvolvida interativamente em linha). Como resultado da busca certos itens so
recuperados. Estes so peneirados pelo especialista em informao, a fim de eliminar todo
item que lhe parea evidentemente irrelevante, sendo entregue ao usurio um conjunto final
de documentos ou referncias.
O diagrama, naturalmente, representa buscas delegadas, ou seja, aquelas em que os
clientes solicitam a um especialista em informao que localize para eles certas informaes.
Embora isso fosse a norma h uns vinte anos, cada vez mais deixa de ser assim, pois
crescente o nmero de pessoas que realizam suas prprias buscas em bases de dados
acessveis em linha, principalmente naquelas fontes acessveis na Rede.
Com exceo do primeiro e ltimo passos, porm, o diagrama ainda representa os fatores
importantes que afetam o desempenho de uma busca temtica numa base de dados. No caso
de buscas no-delegadas, a necessidade de informao diretamente convertida numa
estratgia de busca num terminal sem passar pela etapa intermediria do pedido.
V-se claramente, no diagrama, que muitos fatores influem na qualidade da busca,
medida, por exemplo, pela revocao e preciso. Antes de mais nada, o especialista em
informao precisa entender o que que o usurio realmente precisa. Se o pedido for uma
representao imperfeita da necessidade de informao, passa a ser quase irrelevante que
todos os demais elementos vocabulrio, estratgia de busca, indexao, etc. - sejam
satisfatrios.
Admitindo-se que o pedido se aproxime razoavelmente da necessidade de informao, o
fator seguinte a influir no desempenho ser a qualidade da estratgia de busca. As principais
influncias a este respeito so experincia, inteligncia e criatividade do especialista que faz a
busca. O vocabulrio da base de dados, contudo, tambm essencial. Se for adotado um
vocabulrio controlado, no se poder realizar uma busca que seja mais especfica do que o
vocabulrio permite, embora se possa alcanar especificidade adicional com o emprego de
palavras do texto. Infelizmente, difcil imaginar todos os termos necessrios consecuo de
uma busca completa. O problema em todas as buscas tentar manter o equilbrio entre
revocao e preciso. O que se precisa comumente obter o mximo de revocao, porm
mantendo um nvel aceitvel de preciso.
Quando a estratgia de busca cotejada com a base de dados, a qualidade da prpria
base torna-se, evidentemente, um dos fatores principais a influir no desempenho. neste
ponto, obviamente, que a qualidade da indexao se torna fundamental. Os elementos do
vocabulrio tambm influem na indexao, pois o indexador no pode lanar mo de termos
que no existam no vocabulrio.

72

Figura 33 Fatores que influem nos resultados de uma busca numa base de
dados

A eficcia de uma triagem do resultado, caso se efetue esta operao, depender


fundamentalmente de dois fatores:
1. Em que medida o especialista que faz a busca entende aquilo de que o usurio
realmente precisa.
2. Em que medida as representaes de documentos armazenadas na base de dados
indicam de que tratam os documentos.
No convm fazer aqui uma anlise minuciosa de todos os fatores que influem no
desempenho de um sistema de recuperao, conforme esquematizado na figura 33, mas
apenas examinar os fatores atribuveis indexao. Uma falha de indexao pode ocorrer na
fase de anlise conceitual ou na de traduo.
As falhas de anlise conceitual seriam de dois tipos:
1. Deixar de reconhecer um tpico que se revista de interesse potencial para o grupo
usurio atendido.
2. Interpretar erroneamente de que trata realmente um aspecto do documento,
acarretando a atribuio de um termo (ou termos) inadequado.
As falhas de traduo tambm seriam de dois tipos:
1. Deixar de usar o termo mais especfico disponvel para representar um assunto.
2. Empregar um termo que seja inadequado para o contedo temtico devido falta de
conhecimento especializado ou por causa de desateno.
Na prtica, naturalmente, o avaliador de um sistema de informao no pode traar
algumas dessas distines. Por exemplo, se o termo X for atribudo a um item quando no
deveria s-lo, no h como saber se o indexador interpretou equivocadamente qual seria o
assunto do documento, se no entendeu realmente o significado ou alcance de x, ou se
simplesmente atribuiu esse termo por descuido.
Se um indexador deixar de atribuir X quando este termo deveria ser atribudo, bvio
que ocorrero falhas na revocao. Se, por outro lado, for atribudo y quando X que deveria
s-lo, ocorrero falhas tanto na revocao quanto na preciso. Quer dizer, o item no ser
recuperado quando de buscas de X, embora devesse s-lo, e ser recuperado em buscas de Y,
quando no deveria s-lo.
O descuido que leva omisso de um termo que deveria ser atribudo ao documento
pode ter profundo efeito nos resultados de uma busca, mesmo quando o termo omitido
aparentemente no importante. A figura 34 apresenta um exemplo simples disso, baseado
num dos inmeros que foram revelados durante a avaliao do MEDLARS (Lancaster, 1968a). O
artigo trata do efeito sobre o desenvolvimento do crtex cerebral de nascimento ocorrido em
73

situao de escurido e permanente privao da luz. O indexador contempla todos os aspectos


principais, menos o relativo ao desenvolvimento. Esta simples omisso ser de grande
importncia. Neste caso, o artigo considerado altamente relevante para um pedido de
informao sobre fatores que influem no desenvolvimento do sistema nervoso central. O
especialista em buscas somente usaria o termo desenvolvimento para ter acesso a este
tpico, pois seria irreal supor que pudesse prever que fatores seriam esses, e assim este artigo
importante no seria recuperado.
No estudo sobre o MEDLARS, foram observados alguns exemplos de indexadores que
empregaram termos incorretos, porm um nmero bem maior de casos de omisso de termos
importantes por parte dos indexadores. Esta provavelmente uma situao comum em outros
servios de informao.

Figura 34 Exemplo da perda de um item importante por causa de mera


omisso do indexador

Como reconhecer uma boa indexao


A anlise feita at agora neste captulo implica que a qualidade da indexao somente
pode ser aferida ex post facto, isto , como resultado da experincia na operao de um
sistema de recuperao e mais especificamente sua avaliao. Em grande parte isso
verdadeiro. Um conjunto de termos de indexao atribudos a um documento no pode ser
julgado correto ou incorreto em sentido absoluto. Ou seja, no existe nenhum conjunto
melhor de termos. Alegar que tal conjunto existe implica uma prescincia de todos os pedidos
que sero feitos base de dados na qual o documento se acha representado.
Ocorrem, porm, realmente erros de indexao, e seria possvel ao indexador experiente
(ou revisor) descobrir pelo menos alguns desses erros antes da incluso de um registro numa
base de dados e assim impor certo controle de qualidade ao processo. Esse indexador
identificaria os seguintes tipos de erros:
1. O indexador infringe a poltica, especialmente a relativa exaustividade da
indexao.
2. O indexador deixa de empregar os elementos do vocabulrio da forma como devem
ser utilizados (por exemplo, uma combinao incorreta de cabealho
principal/subcabealho).
3. O indexador deixa de utilizar um termo no nvel correto de especificidade. Na maioria
dos casos isso significar que o termo selecionado no o mais especfico existente.
4. O indexador emprega um termo obviamente incorreto, talvez porque no possua
conhecimento especializado (por exemplo, combustveis lquidos para foguetes
quando o documento trata mesmo de combustveis gasosos).
5. O indexador omite um termo importante.
Em primeiro lugar, o revisor comumente no despender, ao conferir a indexao de um
item, tempo igual ao despendido pelo indexador. Talvez seja relativamente fcil reconhecer um
termo incorreto, o qual provavelmente salta aos olhos do indexador experiente, porm seria
bastante difcil perceber a omisso de um termo importante, a menos que fosse muito bvio
(por exemplo, quando o termo aparece no ttulo).
possvel testar o trabalho dos indexadores de uma maneira mais rigorosa do que
simplesmente passando os olhos pelos termos atribudos, que o mximo que se pode esperar
de uma operao rotineira de checagem. O mtodo mais evidente consiste em realizar uma
simulao de uma avaliao real. Consegue-se isso da seguinte forma:
1. Selecione um grupo de documentos dentre os que compem o fluxo normal de
entrada, antes que cheguem s mos dos indexadores.

74

2.

3.
4.
5.

Para cada documento elabore, digamos, trs questes para as quais o item seja
considerado uma resposta importante. Uma das questes se basearia no tema
central do documento enquanto as outras estariam centradas nos temas secundrios,
mas ainda assim importantes.
Faa com que experientes analistas de buscas elaborem estratgias de busca para
cada uma dessas questes. claro que esses analistas no devem ser as mesmas
pessoas cuja indexao estar sendo examinada.
Faa com que os itens sejam indexados da forma rotineira.
Compare a indexao com as estratgias de busca, a fim de determinar se os itens
relevantes so recuperveis ou no com os termos atribudos.

Como mtodo para avaliar o desempenho de um grupo de indexadores, esse


procedimento funcionar bastante bem se a amostra de documentos for suficientemente
grande e se forem utilizadas as melhores estratgias de busca possveis. Todo o teste seria
realizado ao longo de uma srie de semanas. Seria conveniente, naturalmente, que o mesmo
conjunto de documentos fosse indexado vrias vezes, uma vez por cada indexador, de modo
que o desempenho dos indexadores fosse comparado sobre uma base comum. Isso, porm,
nem sempre possvel devido especializao de assuntos dentro do grupo.
Em grandes servios de informao, que dependem do trabalho de muitos indexadores,
especialmente quando a indexao descentralizada, provavelmente ser essencial implantar
alguma forma de controle de qualidade. Se o volume de documentos indexados for muito
grande, talvez seja economicamente invivel verificar todos os registros antes que dem
entrada na base de dados, e assim seria necessria alguma forma de amostragem. Seria
possvel, mas no suficiente, fazer uma amostragem completamente aleatria dos registros,
principalmente se o ndice de erros for provavelmente baixo. Isso exige um processo
automtico de marcar os registros para que sejam inspecionados por especialistas, com base
no fato de que tais registros parecem suspeitos.
Todeschini desenvolveu um mtodo engenhoso para identificar esses registros suspeitos
(Todeschini e Farrel, 1989); Todeschini e Tolstenkov, 1990). Esse mtodo vem sendo empregado
na Agncia Internacional de Energia Atmica, em Viena, para o controle de qualidade da base
de dados INIS (Todeschini, 1997), e se tornou possvel devido ao fato de os itens includos na
base de dados serem indexados com descritores extrados do tesauro INIS (uma mdia de
aproximadamente 11 termos por item em 1990), alm de serem classificados numa dentre 237
categorias genricas de assuntos. Em essncia, o sistema capaz de identificar registros em
que os descritores a eles atribudos sejam atpicos dos descritores fortemente relacionados
com a categoria onde foi anteriormente classificado. Se os descritores atribudos a
determinado documento, que houver sido colocado na categoria x, forem atpicos do perfil do
descritor anterior atribudo a x, esse registro ser um bom candidato reviso de controle de
qualidade, pois a classificao ou a indexao pode estar errada.
Fatores que influem na qualidade da indexao
Lamentavelmente no foram muitas as pesquisas realizadas sobre os fatores que
apresentam maior probabilidade de influir na qualidade da indexao. Na figura 35 apresentase uma tentativa de identificar esses fatores, mas ela se baseia mais no senso comum ou na
intuio do que em provas concretas.
Os indexadores devem ter algum conhecimento do contedo temtico tratado e entender
sua terminologia, embora no precisem necessariamente ser especialistas no assunto. Na
realidade, algumas instituies tm enfrentado problemas com indexadores que so
especialistas demais, pois sua tendncia interpretar o texto de modo excessivo e talvez
extrapolar aquilo que o autor afirma (por exemplo, indexar uma aplicao possvel que no
esteja identificada especificamente no artigo) ou mesmo revelar preconceitos ao no indexar
afirmaes que relutam em aceitar (ver Intner, 1984, e Bell, 1991a, para comentrios sobre
vis e censura na indexao). A falta de conhecimento do assunto pode, contudo, levar
indexao excessiva. Incapaz de distinguir entre dois termos, o indexador talvez atribua ambos
quando bastaria apenas um ou apenas um seria correto. Loukopoulos (1966) refere-se a isso
como indeciso do indexador.

75

Figura 35 Fatores que podem afetar a qualidade da indexao


O autor declara-se reconhecido a Oliver et al. (1966) pela idia que inspirou esta figura

Mai (2000) identifica cinco estdios no desenvolvimento de um indexador: principiante,


principiante adiantado, competente, proficiente e especialista. Ele sustenta que somente o
especialista tem capacidade para indexar o mesmo documento com o emprego de diferentes
mtodos. Isso implicaria, por exemplo, que somente um especialista teria a capacidade de
indexar o documento A para a clientela X e index-lo de modo diferente para a clientela Y.
Ainda que isso soe aparentemente plausvel, deve-se tambm admitir que possvel
programar um computador para indexar o mesmo texto de diferentes formas (isto , para
diferentes clientelas) mediante a ligao de ocorrncias de palavras/frases com diferentes
conjuntos de termos de indexao.
claro que um tipo particular de especialista o prprio autor do documento. J foram
realizados alguns estudos sobre o autor como indexador. Por exemplo, Diodato (1981) estudou
a coerncia na seleo de termos entre trs grupos: autores, indexadores e leitores de artigos
de matemtica. Ebinuma et al. (1983) traduziram as palavras-chave atribudas pelo autor para
os termos de um tesauro e os compararam com termos j atribudos por indexadores
experientes. A indexao oriunda do autor pareceu produzir melhor preciso porm menor
revocao. Mulvany (1994) examina os prs e contras de os prprios autores indexarem seus
livros.
Rasheed (1989) levou a cabo estudo similar, comparando termos atribudos por autores
de artigos de medicina com termos atribudos por indexadores do MEDLARS. Ele constatou que
os indexadores atribuam muito mais termos e que os termos que eles empregavam eram mais
especficos do que os empregados pelos autores. Outros estudos trataram da indexao de
livros como unidades independentes. Diodato e Gandt (1991) constataram que indexadores
profissionais produziam ndices que eram mais completos do que os ndices feitos pelos
prprios autores, embora as diferenas (por exemplo, em nmero de entradas por pgina de
texto) no fossem to grandes quanto seria de se esperar. Tambm se constatou que os
autores apresentavam deficincias na redao de resumos de seus prprios artigos, aspecto a
ser focalizado em prximo captulo.
O conhecimento dos interesses dos usurios da base de dados especialmente
importante porque a boa indexao deve ser talhada s necessidades de determinada
comunidade, sempre que possvel. Anos de experincia como indexador tambm so um fator
que influi sobre a qualidade, da mesma forma que outras caractersticas, como a capacidade
de a pessoa se concentrar, ler rapidamente e compreender prontamente. Finalmente, e talvez
o mais importante de tudo, um bom indexador deve gostar do que faz. improvvel que se
consiga obter uma boa indexao de algum que detesta o que est fazendo.
Tambm intervm nisso fatores ligados ao documento. Alguns assuntos so de mais difcil
compreenso do que outros. Comumente, a teoria muito mais difcil do que a prtica, como
ocorre nas diferenas entre mecnica aplicada e engenharia. Relacionado a isso, naturalmente,
est o grau de correspondncia entre o contedo temtico do documento e o conhecimento
ou os interesses do indexador.
Lngua pode ser interpretada de vrias formas. Evidentemente, o indexador que no
souber russo dificilmente poder indexar artigos em russo de modo eficiente, a no ser que
contenham resumos claros e completos na prpria lngua do indexador (o que no usual).
Outro aspecto concerne clareza da linguagem do autor. Alguns autores expem suas idias
ou descobertas de modo mais claro do que outros, tornando menos difcil o trabalho do
indexador. Finalmente, existem alguns fatores ligados apresentao que influiro sobre a
76

maior ou menor facilidade que o indexador ter para descobrir de que trata o documento: o
ttulo preciso ou enganador, existe um resumo ou algum outro tipo de sumarizao que
reflita integralmente o contedo do item?
natural que os fatores ligados ao vocabulrio tambm influam na qualidade da
indexao. Quanto mais especfico o vocabulrio, mais minuciosos sero os matizes de
significado que permite expressar; e quanto mais minuciosos os matizes de significado, mais
difcil ser estabelecer diferenas entre termos muito afins e empregar estes termos de modo
coerente. Elementos sintticos adicionais, como subcabealhos ou indicadores de funo,
aumentam a especificidade e complicam o trabalho de indexao.
Termos que sejam ambguos ou imprecisos (que caream de contexto adequado ou notas
explicativas) so difceis de interpretar e empregar corretamente, alm do que o vocabulrio
deve contar com uma estrutura suficientemente completa (por exemplo, a estrutura. TG/TE/TR
do tesauro convencional) que guie o indexador at o termo mais .adequado para representar
determinado tpico. As dimenses e a qualidade do vocabulrio de entradas 1 tambm sero
importantes, do mesmo modo que a disponibilidade de diversos instrumentos auxiliares afins,
como dicionrios ou glossrios especializados.
Outros fatores que influem na qualidade tm a ver com o prprio processo de indexao.
Alguns tipos de indexao, como a extrao de palavras ou expresses do texto, no exigem
muita concentrao, esforo intelectual ou experincia, enquanto outros tipos, principalmente
os que exigem o estabelecimento de relaes conceituais precisas (mediante indicadores de
funo ou relacionais), encontram-se na extremidade oposta do leque de dificuldades. Em
geral, quase certo que os indexadores tenham desempenho mais eficaz quando recebem
regras e instrues precisas do que quando trabalham em condies de completa liberdade. A
produtividade exigida outro fator importante. Se for exigido do indexador que d conta de
certo nmero de itens por dia, ele poder sentir-se pressionado e isso levar a erros por
descuido, especialmente se a instituio tiver uma expectativa excessiva de produo diria.
Alm disso, a indexao exaustiva demanda mais tempo do que a indexao seletiva.
Por fim, a indexao requer concentrao, e condies ambientais desfavorveis tm um
efeito negativo sobre a exatido dessa tarefa intelectual.
Outra maneira de analisar os fatores que influem na qualidade da indexao diz respeito
s dificuldades que os indexadores defrontam. Oliver et al. (1966), em levantamento baseado
em entrevistas, que abrangeu 61 indexadores, observaram que tomar decises sobre como
melhor descrever o contedo dos documentos era (o que no surpreende) o problema
mencionado com mais freqncia. Infelizmente, este problema geral, difuso e refratrio a
solues fceis. Outros problemas importantes mencionados foram entender material novo ou
desconhecido e falta de termos apropriados nos vocabulrios controlados. Chu e OBrien
(1993) estudaram a etapa de anlise conceitual da indexao, em pesquisa da qual
participaram mais de uma centena de indexadores principiantes (estudantes), mas sua
pesquisa baseou-se em somente trs breves artigos, de modo que difcil, a pm1ir de seus
dados, chegar a uma concluso slida.
A qualidade est relacionada coerncia?
Qualidade e coerncia no so a mesma coisa: pode-se ser coerentemente ruim bem
como coerentemente bom! Apesar disso, percebe-se intuitivamente que deve haver uma
relao entre coerncia e qualidade. Por exemplo, se trs indexadores costumam concordar
entre si, porm um quarto indexa de forma bastante diferente, a tendncia da gente
acreditar no consenso.
Cooper (1969), em artigo polmico, questiona o valor da coerncia como indicador de
qualidade. O aspecto por ele suscitado exemplificado com referncia figura 36. Um centro
de informao emprega quatro indexadores A-D. B e C so bastante coerentes entre si, porm
A e D tm ambos suas idiossincrasias. No entanto, por essa ou aquela razo, a viso de mundo
de D est mais prxima da dos usurios do centro, e os termos que atribui refletem melhor os
interesses deles. Presume-se que sua indexao seja a melhor, pelo menos para essa clientela
especfica. Neste caso, ento, os indexadores que so mais coerentes entre si no produzem o
melhor trabalho, embora no sejam to ruins quanto A cuja indexao se distancia ainda mais
dos interesses dos usurios.

Um vocabulrio de entradas uma lista de termos no-preferidos, que ocorrem na literatura, que remetem para os
termos preferidos apropriados mediante o emprego de remissivas do tipo ver ou usar. A importncia disso examinada
alhures (por exemplo, em Lancaster, 1986).

77

Figura 36 Coerncia do indexador relacionada aos interesses dos usurios

Conquanto essa situao seja plausvel, talvez no seja assim to exagerada. difcil
compreender por que B e C seriam mais coerentes entre si, a menos que isso refletisse o fato
de serem os indexadores mais experientes. Se o so, a lgica sugere que so esses dois os que
deveriam ter mais conhecimento acerca dos usurios. So muito poucos os estudos que se
relacionam de alguma forma com os argumentos de Coopero. No entanto, Diodato (1981)
verificou, de fato, que a coerncia entre autores de artigos de matemtica e indexadores
profissionais era maior do que a coerncia entre autores e leitores dos artigos.
Leonard (1975) empreendeu o nico esforo srio visando a estudar a relao entre
qualidade e coerncia na indexao. Qualidade foi definida em termos de eficcia de
recuperao - a capacidade de recuperar o que desejado e de evitar o que no desejado.
Leonard trabalhou com duas colees separadas de dados, que eram subconjuntos de estudos
de avaliao anteriores. Essas colees compreendiam documentos, pedidos, estratgias de
busca e avaliaes de relevncia. Para cada pedido conheciam-se os itens que haviam sido
julgados relevantes e quais os que no haviam sido considerados relevantes. Os conjuntos de
termos atribudos aos documentos pelos indexadores que participaram do estudo podiam
assim ser comparados com estratgias de busca construdas anteriormente, permitindo ao
pesquisador identificar se determinado documento seria ou no recuperado com determinada
estratgia.
A comparao entre coerncia e eficcia de recuperao mostrou-se mais difcil do que
fora antecipado. Um problema importante se deve ao fato de que a eficcia da indexao
normalmente associada ao trabalho de um nico indexador, enquanto a coerncia, por
definio, uma medida que se refere ao trabalho de dois ou mais indexadores (Leonard
mediu a coerncia do grupo bem como a coerncia de par de indexadores). Leonard combinou
os escores de eficcia para dois (ou mais) indexadores e em seguida comparou este escore
com a medida de coerncia para estes indexadores. O escore de eficcia leva em conta a
quantidade de documentos relevantes recuperados e a de documentos irrelevantes
recuperados, e estes escores podem ser combinados determinando-se a mdia dos resultados
para os dois indexadores ou agregando-os. Se se empregar o mtodo de agregao, somente
sero contados itens singulares, o que, com efeito, considera os dois indexadores como se
fossem um indivduo nico.
Leonard observou uma relao positiva de moderada a forte entre coerncia e eficcia
de recuperao, com uma relao positiva claramente definida entre coerncia e o coeficiente
de revocao.
A utilidade dos estudos de coerncia
A pesquisa realizada por Leonard (1975) sugere que de fato existe uma relao positiva
entre coerncia e qualidade da indexao, onde qualidade refere-se eficcia de
recuperao. Mesmo que nenhuma relao houvesse sido descoberta, os estudos de coerncia
ainda teriam alguma utilidade. Hooper (1966) sugeriu vrias aplicaes, inclusive:
1. Na seleo ou treinamento de indexadores. A indexao feita por treinandos
comparada com algum padro preestabelecido.
2. No controle permanente da qualidade das atividades de indexao. 1

Stubbs et al. (1999) examinam como os estudos sobre coerncia interindexadores podem ser utilizados no
monitoramento permanente da indexao numa instituio. Eles combinam clculos de coerncia com o emprego de
cartas-controle adotadas em engenharia industrial.

78

3.
4.
5.

Para descobrir problemas na utilizao de um vocabulrio controlado; por exemplo,


identificao de termos ou tipos de termos que sejam freqentemente empregados
de modo incoerente por causa de ambigidades ou coincidncias de sentido.
Para descobrir quaisquer problemas que possam existir relativos s regras de
indexao.
Para determinar se a coerncia ou no menor no tratamento de certas reas
temticas ou tipos de documentos.

Neste captulo, aceitou-se que qualidade de indexao significa o mesmo que eficcia de
recuperao da indexao. Nem todos a definem desta forma. Rolling (1981), por exemplo,
afirma que: Pode-se definir qualidade de indexao como o grau de concordncia entre os
termos atribudos pelo indexador e um grupo de termos ideais ou timos. Em seguida,
ressalta que a melhor maneira de alcanar o ideal mediante alguma forma de consenso entre
especialistas. O trabalho do indexador comparado com o consenso, e ele seria penalizado
se no utilizasse termos sobre os quais os especialistas houvessem concordado, bem como se
usasse termos sobre os quais no tivesse havido concordncia. Rolling, que parece
desconhecer o trabalho de Leonard, afirma que medidas de eficcia no so praticveis,
enquanto os estudos de coerncia no so confiveis. Ele defende estudos de qualidade,
baseados no mtodo do consenso, empregando-se os estudos de coerncia apenas para
pesquisar influncias e tendncias. Mais no final deste captulo encontra-se um exemplo da
pontuao da indexao baseada nas sugestes de Rolling.
Vrios outros pesquisadores procuraram avaliar a indexao fora do contexto do sistema
de recuperao em que ela ocorre. Por exemplo, White e Griffith (1987) descrevem uma
abordagem na qual so adotados mtodos externos ao sistema de indexao que esteja sendo
estudado, a fim de estabelecer um conjunto de documentos considerados similares em
contedo. Empregando conjuntos desse tipo (eles os denominam aglomerados de documentos
que servem de critrio) como base para avaliao, examinam trs caractersticas dos termos
de indexao atribudos a itens do conjunto em determinada base de dados:
1. A extenso com que os termos unem itens afins. A medida bvia disso a quantidade
de termos que foram aplicados a todos ou maioria dos itens do conjunto. Os itens
sero tidos como intimamente unidos se vrios termos de assuntos houverem sido
aplicados a todos eles.
2. A extenso com que os termos discriminam entre esses conjuntos na base de dados.
A medida mais bvia disso a freqncia com que termos que se aplicam maioria
dos documentos do conjunto ocorrem na base de dados como um todo 1. Termos
muito comuns no so bons discriminadores. Por exemplo, no MEDLINE, o termo
humano pode aplicar-se a cada item num conjunto, mas tem pouca utilidade para
separar este conjunto de outros, uma vez que se aplica a inmeros outros itens da
base de dados. Por outro lado, termos que ocorrem muito raramente na base de
dados como um todo sero teis em buscas altamente especficas, porm tero
pouca serventia na identificao de conjuntos um pouco maiores.
3. A extenso com que os termos discriminam minuciosamente entre documentos
distintos. Aqui tambm a raridade uma medida aplicvel. Do mesmo modo a
exaustividade da indexao: um termo pode aplicar-se a todos os itens de um
conjunto, mas no pode discriminar entre seus membros; quanto mais termos
adicionais forem atribudos a cada membro, mais diferenas individuais sero
identificadas.
Para examinar a qualidade dessa forma, deve-se primeiro estabelecer os conjuntos de
teste, recuperar registros para os membros de cada conjunto de uma base de dados, e estudar
as caractersticas dos termos atribudos. White e Griffith empregaram essa tcnica para
comparar a indexao de seus conjuntos de teste em diferentes bases de dados. Comparar
bases de dados dessa maneira confirmar o pressuposto de que os itens do conjunto de teste
so de fato similares em seu contedo. White e Griffith empregaram a co-citao como base
para estabelecer seus conjuntos de teste, embora outros mtodos, inclusive o acoplamento
bibliogrfico, tambm possam ser utilizados.
A utilidade desse trabalho limitada pelo fato de que somente foram empregados
aglomerados muito pequenos (na faixa de trs a oito itens). Alm disso, a validade do mtodo
1

Ajiferuke e Chu (1988) criticam o ndice de discriminao adotado por White e Griffith porque no leva em
considerao o tamanho da base de dados; propem uma medida alternativa que leve isso em conta. Em artigo
relacionado a esse (Chu e Ajiferuke, 1989), aplicam os critrios de avaliao de White/Griffith, com seu prprio ndice
de discriminao modificado, na avaliao da indexao em bases de dados de biblioteconomia.

79

como teste da indexao feita por seres humanos depende inteiramente de se estar disposto a
aceitar um aglomerado de co-citaes como sendo um padro legtimo. Poder-se-la apresentar
um argumento convincente, segundo o qual faria mais sentido empregar indexadores
especialistas como padro para aferir a legitimidade do aglomerado de co-citaes.
White e Griffith afirmam que o mtodo til para um produtor de bases de dados aferir a
qualidade da indexao, e apresentam exemplos de termos que talvez devessem ter sido
utilizados pelos indexadores do MEDLINE ou acrescentados ao vocabulrio controlado. Essas
aferies de qualidade podem, entretanto, ser feitas de modo mais simples: conjuntos de
itens definidos por um termo ou termos determinados (por exemplo, supercondutores ou
supercondutividade, que ocorram como termos de indexao ou palavras do texto) so
recuperados de diversas bases de dados e sua indexao comparada sem o emprego da cocitao como padro. Com efeito, este tipo de estudo tambm foi feito pelo mesmo grupo de
pesquisadores (McCain et al., 1987). Para 11 pedidos formulados por especialistas nas cincias
mdicas comportamentais, foram feitas buscas comparadas nas bases MEDLINE, Excerpta
Medica, PSYCINFO, SCISEARCH e SOCIAL SCISEARCH. Nas trs primeiras as buscas foram feitas
com: a) termos controlados, e b) linguagem natural, e nas bases de citaes foram feitas: a)
empregando a linguagem natural dos ttulos, e b) empregando citaes de itens relevantes
conhecidos como pontos de entrada. Embora o objetivo da pesquisa fosse estudar a qualidade
da indexao do MEDLINE, pouco descobriu que se traduzisse em recomendaes National
Library of Medicine quanto prtica da indexao, embora se fizessem recomendaes sobre o
alcance da indexao.
As concluses mais importantes do estudo foram: 1) a incorporao de mtodos de
linguagem natural nas estratgias de busca resultou em melhoramentos significativos da
revocao em comparao com o emprego somente de termos controlados, 2) a recuperao
de citaes deve ser considerada um complemento importante para a recuperao baseada
em termos porque podem ser encontrados itens relevantes adicionais com o emprego do
mtodo de citaes, e 3) nenhuma base de dados pode sozinha fornecer uma cobertura
completa de uma bibliografia multidisciplinar complexa.
A qualidade medida com o emprego de um padro
Em estudo realizado para a National Library of Medicine (Lancaster et al., 1996),
desenvolvi um mtodo para avaliar a qualidade da indexao para o MEDLINE, seguindo a
orientao proposta por Rolling (1981), que consistia em comparar o trabalho dos indexadores
com um padro, que seria um conjunto de termos estabelecido de comum acordo por
indexadores altamente experientes. A figura 37 mostra o exemplo do padro para um artigo e
a figura 38 mostra os termos selecionados por dois indexadores diferentes para este mesmo
artigo.

Figura 37 Padro de indexao para um artigo mdico, mostrando escores


relativos atribuio de vrios tipos de termos

O padro representa o consenso de um grupo de indexadores experientes sobre qual


seria a indexao ideal para esse item. Eles chegaram a 14 termos. Uns so cabealhos de
assuntos, outros so etiquetas, e alguns dos cabealhos de assuntos recebem um ou mais de
um subcabealho. Ademais, um cabealho de assunto ou uma combinao cabealho de
assunto/subcabealho pode ser selecionado como mais importante. Isto , esses so os
termos que os indexadores julgam mais importantes para o artigo e sob os quais o artigo
aparecer na verso impressa do Index Medicus. So identificados com um asterisco. Por
80

exemplo, TOMOGRAFIA COMPUT ADORIZADA POR RAIOS X, foi selecionado como um termo
mais importante, do mesmo modo que a combinao BAO/ANORMALIDADES. Note-se que o
asterisco aplicado a um subcabealho automaticamente transportado para o cabealho ao
qual se acha ligado.

Figura 38 Escores de dois indexadores em comparao com o padro da figura


37

O escore reflete a importncia dos diversos termos e combinaes de termos segundo o


julgamento dos indexadores especialistas, a saber:
6 pontos por cabealho de assunto atribudo corretamente sem asterisco
6 pontos por etiqueta ( qual no se aplicam asteriscos)
3 pontos por subcabealho sem asterisco
15 pontos por cabealho de assunto sem asterisco
5 pontos por subcabealho sem asterisco.
O escore mximo possvel para esse item 153. Isto , na hiptese muito improvvel de
um indexador repetir exatamente o padro, ser-lhe-ia atribudo o escore completo. Qualquer
desvio do padro - no atribuir um termo necessrio, no usar o asterisco adequadamente, ou
empregar um termo fora do padro resulta na perda de pontos. Note-se como os termos e as
combinaes de termos realmente importantes contribuem grandemente para o escore. O
termo BAO leva trs subcabealhos, um deles com asterisco. Bao faz 15 pontos porque
recebe um asterisco do subcabealho com asterisco ANORMALIDADES, de modo que o escore
total para esta combinao de 15 para o cabealho principal com asterisco, cinco para o
subcabealho com asterisco e trs cada um para os outros dois cabealhos, num total de 26.
Esse item foi indexado duas vezes, uma pelo indexador A e uma pelo indexador B (figura
38). Pontuar o trabalho dos indexadores um pouco mais complexo porque eles recebem uma
pontuao positiva pela atribuio correta dos termos no padro e uma pontuao negativa
81

pela atribuio de termos que no sejam do padro. Quando o indexador acerta exatamente o
padro para um termo, o escore para esse termo transferido para o escore do indexador.
Qualquer desvio resulta num escore reduzido ou, o que pior, num escore negativo.
A pontuao completa a seguinte:
Coincidncia exata com o padro: transportar o escore do padro
-7 para cabealho com asterisco fora do padro
-4 para subcabealho com asterisco fora do padro
-3 para cabealho sem asterisco fora do padro
-1 para subcabealho sem asterisco fora do padro
4 para um cabealho com asterisco colocado pelo indexador, porm sem asterisco no
padro (ao contrrio do 6 se o asterisco no fosse atribudo pelo indexador)
8 para um cabealho com asterisco no padro, mas no colocado pelo indexador (ao
contrrio de 15 se o asterisco fosse atribudo corretamente)
-1 para subcabealho com asterisco no padro, mas que o indexador no atribuiu.
Muito embora isso parea bastante complexo, no bem assim porque, uma vez definido
o mtodo de pontuao, possvel escrever programas bem simples (e alguns j foram
escritos) tanto para pontuar o padro quanto para pontuar o trabalho dos indexadores em
comparao com o padro.
A aplicao de escores indexao da National Library of Medicine mais complexa do
que o seria em muitas outras situaes, devido ao emprego de subcabealhos e distino
entre descritores mais e menos importantes, de modo que fica tambm mais difcil alcanar
um acordo sobre quais devam ser os escores. Ainda que os escores numricos verdadeiros
usados nesses exemplos (reais) sejam considerados um tanto arbitrrios, eles de fato refletem
a enormidade percebida de vrios tipos de erro indexado.
Se tiver havido acordo quanto aos escores, esse mtodo de avaliao da indexao
bastante discriminativo. Isto , reflete claramente os desvios em relao ao padro. Embora,
nesse exemplo especfico, nem o indexador A nem o indexador B tenham se sado muito bem,
evidente que A ficou mais perto do padro do que B, e os escores refletem isso. B perdeu por
ter deixado de fora por completo um termo considerado importante pelo padro e tambm
porque introduziu vrios termos externos ao padro.
Como foi antes salientado neste captulo, a qualidade da indexao mais bem avaliada
no contexto de uma avaliao completa do sistema de recuperao no qual so utilizados
pedidos de usurios reais, como aconteceu no estudo sobre o MEDLARS (Lancaster, 1968a).
No obstante, a utilizao do mtodo do padro-ouro pode ser eficaz, especialmente na
avaliao do progresso de indexadores em fase de treinamento e na comparao do trabalho
de um grupo de indexadores com o de outro grupo.
Esse nico exemplo ilustra tambm como a concordncia quanto ao uso de etiquetas
muito mais fcil de alcanar do que a concordncia quanto a outros termos, e que quanto mais
refinada for a indexao (mediante o emprego de mltiplos subcabealhos e asteriscos) mais
difcil fica alcanar acordo total.
Susanne Humphrey (1995), da National Library of Medicine, props um mtodo de
pontuao que usa escores de qualidade para medir a coerncia da indexao. Nesse mtodo,
depois que os indexadores hajam sido pontuados em cotejo com o padro, o trabalho pontuado
que cada um executou num artigo torna-se o padro em comparao com o qual cada um dos
indexadores ser avaliado, cada um por seu turno, no que tange coerncia. O emprego desse
mtodo pode ser ilustrado por meio de um exemplo simples, como o seguinte:
Indexador A
A/a
B/c/d
C/*c

6+3
6+3+3
15+5

Total

41

Indexador B
A/a
C/*c
D/d
E
Total

6+3
15+5
6+3
6
44

Se A for o padro, o indexador B faz 29 pontos (os escores para os termos em que B
concorda com A), de modo que a coerncia expressa como 29/41, ou 70,7. Se B for o padro,
o escore de A de 29/44, ou 65,9. Quando as duas comparaes (A com B, B com A) so
combinadas, a mdia alcanada de 68,3. Embora engenhoso, no fica totalmente claro qual o
verdadeiro significado do escore. Basicamente, embora os escores de qualidade hajam sido
preservados, a qualidade no est sendo medida diretamente (pois o escore de nenhum dos
indexadores comparado com o padro). Trata-se simplesmente de uma medida alternativa de
coerncia que, conforme foi sugerido no captulo anterior, tem pelo menos o mrito de levar
82

em conta a importncia relativa dos termos. Isto , se um indexador deixar de usar uma
combinao de alta pontuao utilizada por outro indexador, isso reduzir o escore de
coerncia entre eles muito mais do que o faria a falta de concordncia quanto a um termo de
baixo escore.

83

Captulo 7 Resumos: tipos e funes


O resumo uma representao sucinta, porm exata, do contedo de um documento.
Endres-Niggemeyer (1998) adota definio semelhante: Um texto, breve e coerente, que se
destina a informar o usurio sobre os conhecimentos essenciais transmitidos por um
documento.
preciso distinguir entre as palavras resumo e extrato. Este uma verso abreviada de
um documento, feita mediante a extrao de frases do prprio documento. Por exemplo, duas
ou trs frases da introduo seguidas de duas ou trs frases das concluses ou resumo do
autor podem dar uma boa indicao daquilo de que trata um artigo de peridico. O verdadeiro
resumo, ainda que inclua palavras que ocorram no documento, um texto .criado pelo
resumidor e no uma transcrio direta do texto do autor. O termo sumarizao hoje muito
usado para designar qualquer processo que produza representaes condensadas de textos e,
assim, aplica-se tanto redao de resumos quanto de extratos.
Os resumos podem ser caracterizados de inmeras formas, inclusive segundo sua
extenso. Na figura 3, por exemplo, apresentam-se dois resumos diferentes, um mais extenso
do que o outro. No h absolutamente razo alguma pela qual todos os resumos tenham
aproximadamente a mesma extenso. Entre os fatores que influem na extenso de um resumo
temos os seguintes:
1. A extenso do item que est sendo resumido (Craven, 1990, no entanto, no
encontrou correlao entre a extenso do artigo e a extenso do resumo, porm ele
trabalhou com uma rea temtica muito limitada);
2. A complexidade do contedo temtico;
3. A diversidade do contedo temtico. Por exemplo, um resumo preparado para os
anais de um evento talvez precise ser bastante longo se os trabalhos apresentados
abrangerem uma ampla gama de assuntos;
4. A importncia do item para a instituio que elabora o resumo. Assim como ocorre
com a exaustividade da indexao, um centro de informao industrial talvez precise
redigir resumos mais longos dos relatrios da prpria empresa do que de outros itens;
5. A acessibilidade do contedo temtico. Especialmente num servio de resumos em
forma de publicao, seria sensato fazer resumos mais completos de documentos
menos acessveis fisicamente (como relatrios de circulao limitada ou trabalhos
apresentados em eventos) ou intelectualmente (por exemplo, redigidos em lnguas
pouco conhecidas).
6. Custo. Resumos longos no ficam necessariamente mais caros do que resumos
curtos. De fato, talvez demore mais a redao de uma boa sntese de 200 palavras do
que uma de 500. bvio, porm, que o custo de um servio de resumos em formato
impresso aumentaria de modo expressivo se a extenso mdia dos resumos
aumentasse 50%, por exemplo. Isso teria reflexo sobre todos os custos, desde a
composio do texto, at o papel e correio.
7. Finalidade. Um resumo que se destine essencialmente a proporcionar acesso a um
documento com finalidade de recuperao precisa ser mais longo para que possa
oferecer suficientes pontos de acesso.
Um resumo muito breve (por exemplo, que procure descrever um documento com uma
nica frase) s vezes denominado anotao, termo que, no entanto, bastante impreciso. 1
Faz-se amide uma distino entre resumos indicativos (s vezes denominados
descritivos) e resumos informativos. Essa diferena exemplificada nas figuras 39 e 40 que
mostram dois tipos diferentes de resumos preparados para o item inicialmente apresentado na
figura 3. O resumo indicativo simplesmente descreve (indica) de que trata o documento,
enquanto o resumo informativo procura sintetizar a substncia do documento, inclusive seus
resultados.
Foram feitas entrevistas telefnicas em 1985 com 655 norte americanos selecionados por
amostragem probabilstica. Expressam se opinies sobre se: 1) a formao de um Estado
palestino essencial para a paz na regio; 2) deve ser reduzida a ajuda norte-americana
a Israel e ao Egito; 3) os EUA devem a) participar de uma conferncia de paz que inclua a
OLP, b) no favorecer nem Israel nem as naes rabes, c) manter relaes amistosas
com ambos. Os entrevistados indicaram se estavam suficientemente informados sobre os
1

Alm de tudo, o campo da indexao e recuperao de vdeo costuma empregar anotao ao invs de indexao,
o que imperdoavelmente enganoso.

84

vrios grupos nacionais da regio.


Figura 39 Resumo indicativo

Isto , o resumo indicativo mencionaria quais os tipos de resultados alcanados 1)0


estudo, enquanto o informativo faria uma sntese dos prprios resultados. Cremmins (1996)
explica que os resumos indicativos contm informaes sobre a finalidade, alcance ou
metodologia, mas no sobre os resultados, concluses ou recomendaes. Por outro lado, o
resumo informativo inclui informaes sobre objetivo, alcance e mtodos, mas tambm deve
conter resultados, concluses ou recomendaes. Para algumas finalidades, um bom resumo
informativo serviria como um substituto razovel da leitura do documento. 1 improvvel que
um resumo indicativo sirva como substituto dessa forma. Seu propsito principal seria indicar
ao leitor do resumo se seria provvel que viessem a querer ler o original. Por razes bvias, os
resumos informativos costumam ser mais longos do que os indicativos. Tambm so mais
difceis de redigir. Realmente, embora comumente seja possvel redigir um resumo informativo
de um estudo experimental, talvez isso seja quase impossvel no caso de um estudo terico ou
um texto opinativo. Por isso, os resumos informativos ocorrem com mais freqncia nas
cincias exatas e tecnologia do que nas cincias sociais ou humanidades.
Entrevistas telefnicas realizadas em 1985 com 655 norte-americanos, selecionados por
amostragem probabilstica, produziram estes resultados: a maioria (54-56%) acha que
deve ser reduzida a ajuda norte-americana a Israel e ao Egito; a maioria (65%)
favorvel participao norte-americana numa conferncia de paz que inclua a OLP;
mais de 80% consideram importante que os EUA mantenham relaes amistosas tanto
com Israel quanto com os pases rabes; 70% acreditam que os EUA no devem favorecer
a nenhum dos lados; a maioria (55%) acha que a criao de um Estado palestino
essencial para a paz na regio. Os israelenses so o grupo nacional mais conhecido e os
srios o grupo menos conhecido. A situao rabe-israelense s superada pelo conflito
na Amrica Central entre os problemas internacionais mais srios enfrentados pelos EUA.
Figura 40 Resumo informativo

Um mesmo resumo pode incorporar elementos indicativos e informativos (Cremmins


refere-se a esse tipo de resumo como indicativo-informativo), dependendo dos interesses dos
leitores que se tm em mira. Por exemplo, suponhamos um relatrio sobre poluio
atmosfrica resumido numa publicao destinada a qumicos. Grande parte do resumo, que
trata dos aspectos ambientais, meramente indicativa, mas uma parte dele ser realmente
informativa (por exemplo, apresentando resultados de anlises feitas em amostras da
atmosfera). Um mesmo servio de resumos em formato de publicao pode conter tanto
resumos indicativos quanto informativos. Geralmente, contudo, os resumos indicativos so
mais comuns. Fedosyuk (1978) descreve procedimentos minuciosos para se distinguir entre
resumos indicativos e informativos, valendo-se para isso de critrios lingsticos e at mesmo
apresentando um algoritmo com essa finalidade. Embora se trate de algo engenhoso, no se
esclarece por que algum precisaria de procedimentos formais para fazer essa distino.
A expresso inclinao para um assunto usada s vezes em relao aos resumos. Seu
significado que o resumo deve estar inclinado para os interesses dos usurios que se tm
em mira. Ou seja, na redao de resumos, bem como na indexao, a pergunta norteadora
deve ser: Por que nossos usurios provavelmente se interessaro por este item? Os resumos
preparados por uma instituio para serem usados internamente estaro sempre inclinados
para as necessidades e interesses locais. A situao um pouco mais complicada no caso de
servios de resumos em forma de publicao.
Faz-se diferena entre servios orientados para uma disciplina e os orientados para uma
misso. Os primeiros buscam acender s necessidades de uma disciplina (por exemplo,
qumica, biologia, cincias sociais) enquanto os ltimos procuram ir ao encontro das
necessidades de determinada indstria ou grupo de indivduos (por exemplo, resumos para a
indstria da borracha ou resumos para enfermeiros). A inclinao para um assunto mais
relevante e vivel no caso de servios orientados para uma misso do que para os que se
orientam para uma disciplina, porque os interesses dos usurios dos primeiros costumam ser
mais homogneos e especializados do que os interesses dos usurios dos ltimos. Pelo menos
1

Isso no est isento de perigos. Por exemplo, Haynes et al. (1990) apresentam indcios que sugerem que os mdicos
s vezes tomam decises sobre o tratamento dos pacientes baseados em leituras que no alcanam a totalidade do
texto dos artigos mdicos. Esse risco agravado pelo tato de estudos recentes mostrarem que os resumos nas revistas
mdicas, mesmo as mais importantes, tendem a ser muito deficientes (ver captulo 9).

85

um estudo mostrou que bem pouca inclinao para um assunto ocorre em servios de resumos
em formato impresso (Herner, 1959).
Outro tipo de resumo o resumo critico. Trata-se, com efeito, de uma recenso crtica
condensada. Aplicado a relatrios, artigos de peridicos e outros itens relativamente breves, o
resumo crtico serve quase ao mesmo propsito de uma recenso crtica de livro. O resumo
crtico avaliador. O resumidor opina sobre a qualidade do trabalho do autor e pode at
compar-lo com o de outros. Por exemplo, um resumo crtico do item mostrado na figura 3
mencionar as deficincias da metodologia utilizada - a maneira como se obteve a amostra da
populao, o tamanho da amostra, a maneira com as questes foram formuladas - ou
comparar os resultados com os de pesquisas anteriores. Como os redatores devem ser
especialistas de fato, os resumos crticos so bastante raros.
Duas publicaes que anunciam a caracterstica de incluir resumos crticos so
Mathematical Reviews e Applied Mechanics Reviews (AMR). A figura 41 mostra um resumo
crtico real reproduzido da ltima dessas publicaes. Note-se que o resumo assinado e
combina elementos descritivos e crticos. Uma anlise da AMR revela, porm, que resumos
verdadeiramente crticos sempre foram muito mais a exceo do que a regra, e hoje em dia
eles no aparecem nessa revista, que somente se acha disponvel em formato eletrnico em
linha.
Atualmente, os resumos aparecem freqentemente em peridicos cientficos junto com
os artigos a que se referem; so comumente redigidos pelos autores dos artigos. Em muitos
casos esses resumos so reproduzidos pelos servios de ndices e resumos. Alguns peridicos
incluem resumos em mais de uma lngua. Por exemplo, muitos peridicos russos e japoneses
incluem resumos em ingls.
Finalidade dos resumos
Poderamos mencionar muitas e diferentes finalidades dos resumos. A mais importante,
talvez, que os resumos facilitam a seleo. Ou seja, ajudam o leitor a decidir se determinado
item apresenta a possibilidade de satisfazer a seu interesse. Desse modo, poupam tempo ao
leitor, evitando, por exemplo, que obtenha artigos que no teriam interesse para ele. Em
alguns casos, tambm, um bom resumo informativo pode realmente substituir a leitura de um
item que seja de interesse para o usurio. Os resumos so particularmente teis para
esclarecer o contedo de documentos escritos em lnguas que o leitor desconhea. Janes
(1991) descobriu, o que no causou surpresa, que os resumos eram mais eficientes do que
outras partes do registro, como ttulos e termos de indexao, na avaliao da relevncia de
um item.

86

Figura 41 Exemplo de um resumo crtico


Reproduzido de Applied Mechanics Reviews, 37, 1984, com permisso da editora

A impresso e distribuio de resumos um meio eficaz para manter as pessoas


informadas a respeito da bibliografia recentemente publicada em seus respectivos campos de
interesse (isto , proporcionando-lhes um servio de alerta ou notificao corrente). Conforme
foi mencionado anteriormente, os resumos que acompanham artigos ou relatrios so teis
para o indexador na medida em que o ajudam a identificar, do modo mais rpido possvel, o
contedo temtico dominante do documento. Borko e Bernier (1975) sugerem que os resumos
podem substituir o texto integral nas atividades de indexao, porm esta uma prtica nem
sempre conveniente.
Finalmente, os resumos desempenham atualmente importante papel nos sistemas de
recuperao informatizados porque facilitam a identificao de itens pertinentes e
proporcionam acesso a itens armazenados (nos sistemas em que o texto dos resumos
armazenado em formato que se presta recuperao). Levando em conta tanto a revocao
quanto a preciso, foi demonstrado que os processos automticos de recuperao baseados
em resumos eram mais eficazes do que aqueles baseados nos textos integrais dos documentos
(Lam-Adesina e Jones, 2001), embora ainda faltem mais evidncias acerca desse ponto.
Hartleye Benjamin (1998) alegam que os resumos cresceram de importncia ao longo
dos anos na medida em que cresceu a literatura cientfica:
Na realidade, a natureza dos resumos alterou-se ao longo dos anos, na medida em que mais
e mais artigos cientficos passaram a competir entre si para atrair a ateno dos leitores.
Hoje os leitores precisam compulsar e pesquisar mais do que o faziam no passado, e o
resumo evolui continuamente como um portal de acesso literatura cientfica (p. 451-452).

Na cincia, salientam eles, os resumos esto ficando mais extensos e mais orientados
para os resultados.
Para certas finalidades, o resumo estruturado prefervel a um resumo em formato de
texto narrativo. Um exemplo hipottico do gabarito de um resumo estruturado mostrado na
figura 42. O contedo temtico de que trata irrigao. Neste caso, o resumidor solicitado a
87

procurar especificamente os itens listados. A elaborao do resumo consiste em colocar os


valores apropriados no gabarito. Quer dizer, indicam-se para cada artigo o tipo de irrigao, o
tipo de solo, os produtos cultivados, as condies climticas e a localizao, sendo empregados
cdigos que representam os tipos de resultados obtidos. Este tipo de resumo til na
compilao de manuais que sintetizam um grande nmero de estudos realizados em
determinado campo. No entanto, s daria certo numa rea temtica em que os elementos
essenciais permanecessem mais ou menos os mesmos entre os diferentes estudos. Zholkova
(1975) descreve como se adotaria a anlise de facetas para criar um resumo estruturado, mas
no chega a convencer quanto utilidade desse mtodo.
Hartley et al. (1996) compararam resumos estruturados com resumos no-estruturados
numa atividade de busca de informao. Observaram que os sujeitos de seu experimento
podiam usar os resumos estruturados de modo mais eficaz (isto , com maior rapidez e/ou
menos erros) na localizao de respostas a consultas ou na identificao de resumos que
fossem pertinentes a determinado tema. No entanto, a forma como usam o termo estruturado
muito diferente da minha. Para eles, um resumo estruturado simplesmente o que traz entre
ttulos (histrico, objetivo, mtodos, resultados, concluses) para facilitar a rpida visualizao
do texto (e do modo como hoje usado em muitas revistas mdicas), enquanto eu uso o termo
para designar o resumo redigido em formato no-narrativo. O tipo de resumo estruturado da
figura 42 poderia concebivelmente ser produzido com o uso de um programa de computador
projetado para identificar e extrair do texto os valores apropriados (ver os comentrios sobre o
mtodo de preenchimento de padro para extrao e sumarizao de textos nos captulos 14 e
15. Em alguns lugares, o tipo de resumo analisado por Hartley et al. foi simplesmente
designado como resumo mais informativo (Haynes et al., 1990; Haynes, 1993), e acredito ser
esta uma melhor denominao. Este tipo de resumo estruturado ser visto com mais vagar no
prximo captulo.

Figura 42 Gabarito para um resumo estruturado

Um tipo totalmente diferente de resumo estruturado, em formato de diagrama, foi


proposto por Broer (1971). Como mostra o exemplo inteiramente fictcio da figura 43, o resumo
parece um diagrama em bloco, ou fluxograma, em que blocos interconectados de palavras,
com ttulos padronizados, so usados para expressar a essncia do artigo. Broer diz que essa
forma de resumo mais fcil de examinar e compreender, e mostra um resumo convencional
para comparao (figura 43). uma proposta curiosa, mas nunca se popularizou. Uma
desvantagem, que o espao ocupado na pgina impressa, no existiria na visualizao em
linha, de modo que talvez a internet possa reacender o interesse por esse formato.
Bernier e Yerkey (1979) descreveram e exemplificaram o emprego de enunciados
altamente condensados, cada um sintetizando o ponto mais importante de uma publicao.
Referem-se a esses enunciados genericamente como literaturas concisas e sua forma mais
condensada como literaturas ultraconcisas. Uma variedade a concluso ultraconcisa, um
enunciado bastante sucinto sobre a concluso mais importante alcanada por uma pesquisa.
Por exemplo:
A lingstica terica no teve qualquer impacto importante na cincia da informao

88

Figura 43 Resumo em diagrama de bloco de um artigo hipottico junto com


um resumo convencional para comparao
Reproduzido com permisso de J.W. Broer, Abstracts in block diagram form, IEEE
Transactions on Engineering Writing and Speech. (@ 1971, Institute of Electrical and
Electronics Engineers)

Este tipo de sumarizao no um resumo no sentido convencional; no entanto, as


literaturas concisas certamente guardam uma relao com os resumos. Apresentam muitas
aplicaes potenciais. Por exemplo, seria possvel produzir um manual que condensasse o que
se conhece acerca de determinado fenmeno (por exemplo, uma doena) na forma de uma
srie de enunciados ultraconcisos, sendo cada um desses enunciados acoplado a uma
referncia bibliogrfica que identificaria a fonte de onde foi extrado.
Resumos modulares
Em 1964, Herner and Company realizou um estudo para a National Science Foundation
sobre a viabilidade de anlises de contedo modulares (Lancaster et al., 1965). Elas
continham dois componentes: resumos modulares e entradas de ndice modulares. Nas figuras
44-45 apresenta-se uma amostra disso.

89

Figura 44 Resumos modulares

Os resumos modulares destinavam-se a ser descries completas de contedo de


documentos correntes. Cada um possua cinco partes: citao, anotao, resumo indicativo,
resumo informativoe resumo crtico. O conjunto fora planejado de modo que um servio de
resumos podia process-lo para adapt-lo a seus prprios requisitos com o mnimo de esforo:
qualquer resumo seria utilizado na ntegra, ou os mdulos teriam o texto reorganizado para
formar, por exemplo, um resumo parcialmente indicativo, parcialmente informativo, ou um
resumo parcialmente informativo, parcialmente crtico.
A finalidade primordial dos resumos modulares era eliminar a duplicao e o desperdcio
de esforo intelectual envolvidos na elaborao, de forma independente, de resumos dos
mesmos documentos por vrios servios, sem qualquer inteno de impingir resumos
padronizados a servios cujas exigncias variam notavelmente quanto forma e inclinao
para um assunto. Tanto os resumos quanto as entradas de ndice eram preparados por
especialistas no assunto, e a inteno era de que eles conciliariam os requisitos de rapidez de
publicao com a meticulosidade de resumos preparados por especialistas. Seu formato e
tratamento padronizados tambm reduziriam o processamento repetitivo e acelerariam o fluxo
de trabalho nos servios de resumos beneficirios.

Figura 45 Entradas de ndices modulares

As entradas de ndices modulares sugeriam termos descritivos, extrados de vocabulrios


de indexao representativos, que poderiam ser utilizados completos, com aperfeioamentos
90

ou acrscimos, para indexar o resumo oriundo do pacote modular. Os vocabulrios de


indexao representativos, utilizados como fontes para as entradas do ndice modular, seriam
extrados dos ndices correntes ou de listas autorizadas dos servios de resumos e indexao
participantes, refletindo assim os estilos e polticas de indexao desses servios.
Testou-se essa proposta no campo da transferncia de calor, pois, sendo este assunto
altamente interdisciplinar, revestia-se de interesse potencial para inmeros servios de
resumos. Conjuntos de resumos/entradas de ndice foram preparados e submetidos
apreciao de diversos servios para que fossem processados rotineiramente. Esses servios
preencheram questionrios de avaliao da proposta. A concluso foi que era possvel produzir
uma anlise de contedo, em forma modular, que seria adotada como entrada por vrios
servios de resumos, mas que a maioria deles relutava em abrir mo de sua autonomia a fim
de pm1icipar do tipo de centro referencial implcito no mtodo modular.

Figura 46, Parte 1 Comparao de minirresumo, resumo de autor e resumos


publicados em Chemical Abstracts e Biological Abstracts (ver a parte 2 da
figura)
Reproduzido de Lunin (1967) com permisso da Drexel University. O resumo do
Biochemical Journal reproduzido com permisso da Biochemical Society, Portland
Scientitic Press; o resumo do Biological Abstracts, com a permisso de BIOISIS; e o
resumo do Chemical Abstratcs,. com permisso do Chemical Abstracts Service. Note-se
que um resumo segue muito de perto o resumo de autor e o outro simplesmente uma
abreviao dele.

Craven (1987) analisa um mtodo modular bastante diferente. Neste caso, um analista
marca e codifica um texto para formar uma representao intermediria que pode ento ser
usada, de modo sem i-automtico, para produzir resumos talhados s necessidades de
diferentes pblicos.

91

Figura 46, Parte 2

Minirresumos
O termo minirresumo bastante impreciso. Significaria simplesmente um resumo curto.
Da forma como foi empregado por Lunin (1967), no entanto. o termo refere-se a um resumo
altamente estruturado destinado essencialmente a buscas feitas em computador. Trata-se, com
efeito, de um tipo de cruzamento entre um resumo e uma entrada de ndice, e Lunin o define
como um ndice-resumo legvel por computador. Os termos utilizados no resumo so
extrados de um vocabulrio controlado e reunidos numa seqncia especificada. Por exemplo,
o enunciado Existe um decrscimo da quantidade de zinco no sangue de seres humanos com
cirrose do fgado seria escrito assim:
/DECR/ZINCO/SANGUE/HUMANOS/CIRROSE/FGADO

Observe-se que o resumidor procura ater-se a uma seqncia de termos to prxima


quanto possvel da estrutura normal da frase. O contedo de um documento pode ser descrito
com algum detalhe por meio do emprego de uma srie desses enunciados esquemticos.
Embora tenham sido imaginados basicamente para facilitar as buscas por computador, os
minirresumos de Lunin tambm podem fazer sentido para o leitor inteligente. A figura 46,
reproduzida do trabalho de Lunin, compara os resultados da tcnica de minirresumos com
resumos do Biological Abstracts e do Chemical Abstracts e com o resumo de autor.
Resumos telegrficos
A denominao resumo telegrfico tambm imprecisa. Ela implica uma representao
de documento que apresentada de modo muito lacnico: no com frases completas e
semelhante a um telegrama. Na realidade, seria apenas uma cadeia de termos desprovida de
sintaxe. Os minirresumos de Lunin so de estilo telegrfico. A expresso resumo telegrfico
foi empregada para designar um componente essencial do primitivo sistema de recuperao
computadorizado desenvolvido na Western Reserve University (ver captulo 11).

92

Captulo 8 A redao do resumo


Assim como acontece com a indexao, s se aprende a ser um bom resumidor com a
prtica. O mximo que se pode fazer num livro como este oferecer algumas diretrizes gerais.
E tambm como acontece na indexao, o bom resumidor aprender a ler passar os
olhos num documento para identificar rapidamente os pontos importantes. Cremmins (1996)
trata, com detalhes, de como ler um artigo para captar os pontos mais importantes do modo
mais eficiente possvel e apresenta algumas regras com esta finalidade. Em grande palie isso
evidente por si mesmo e, de qualquer modo, indivduos diferentes preferem tcnicas diferentes
para penetrar no mago de um texto.
Em suma, as caractersticas de um bom resumo so brevidade, exatido e clareza. O
resumidor deve evitar redundncia. O resumo deve, principalmente, ser estruturado a partir
das informaes contidas no ttulo do item e no repeti-las. Por exemplo, o ttulo do artigo
usado como exemplo nas figuras 3, 39 e 40 Pesquisa nacional de opinio pblica sobre as
atitudes norte-americanas acerca do Oriente Mdio. A primeira linha de um resumo publicado
desse artigo diz:
Os resultados de uma pesquisa realizada em fevereiro de 1985 sobre as atitudes pblicas
norte-americanas acerca do Oriente Mdio.

claro que isso pouco acrescenta ao ttulo, exceto a data. Note-se como os resumos das
ilustraes 3, 39 e 40 partem do ttulo sem repeti-la.
O. resumidor tambm deve omitir informaes que o leitor provavelmente j conhea ou
no lhe interessem diretamente. Isso inclui informaes sobre antecedentes ou fatos de teor
histrico, como, por exemplo, o motivo que levou realizao do estudo ou dados sobre a
experincia da empresa que o executa. Borko e Bernier (1975) salientam que cabe ao
resumidor indicar o que o autor fez e no o que tentou fazer, mas no conseguiu ou o que
pretende fazer no futuro.
Quanto menor, melhor ser o resumo, desde que o sentido permanea claro e no se
sacrifique a exatido. Palavras desnecessrias como o autor ou o artigo so omitidas. Por
exemplo, corta-se Este artigo examina... para Examina.... Abreviaturas e siglas
convencionais so usadas sempre que for provvel que os leitores as conheam (por exemplo,
OLP). Em outros casos, pode-se usar uma abreviatura desde que seu significado seja
explicitado. Por exemplo:
[...] no quadro da Cooperao Poltica Europia (CPE). As realizaes [...] por parte da CPE
[...]

Os resumos em alguns campos cientficos chegam a empregar muitas abreviaturas.


Apesar de economizar espao, isso diminui a inteligibilidade e, realmente, exige mais tempo do
leitor. A despeito da necessidade de brevidade, os resumos devem ser auto-suficientes; no se
lograr um dos principais objetivos do resumo se o leitor tiver de consultar o original para
entender o resumo!
melhor evitar o jargo. As palavras de um jargo podem significar coisas diferentes
para grupos diferentes de leitores e no ser compreendidas de maneira alguma por certas
pessoas.
Alguns resumidores acham que devem mudar as palavras usadas pelo autor. Ainda que a
parfrase seja freqentemente necessria para se obter brevidade, nada se tem a ganhar, na
busca de originalidade, com a mudana das palavras empregadas pelo autor. Na realidade,
fcil distorcer o significado do original ao procurar, deliberadamente, por motivos estilsticos,
encontrar expresses sucedneas. Este aspecto vigorosamente enfatizado por Collison
(1971):
importante que o resumidor empregue, tanto quanto possvel, o vocabulrio do autor; a
parfrase perigosa e pode conduzir o leitor a linhas de raciocnio que no eram aquelas
pretendidas pelo autor (p. 11).

No entanto, Craven (1990) constatou que os resumos pouco empregam seqncias


literais de palavras dos textos completos, embora seu estudo fosse circunscrito a uma rea
temtica muito restrita. O resumo algo utilitrio e no precisa ser uma obra de arte, embora
Cremmins (1982) acredite que os resumos devam ter elegncia alm de clareza e preciso.
A norma norte-americana sobre resumos (Guidelines for abstracts, 1997) especifica que
os verbos devem ser usados na voz ativa (por exemplo, Os indicadores de funo diminuem a
revocao e no A revocao diminuda pelos indicadores de funo) sempre que possvel,
93

mas que a passiva pode ser utilizada para enunciados indicativos e mesmo para enunciados
informativos em que se deva destacar o receptor da ao. 1 Esta restrio muito imprecisa e
melhor esquec-la: na maioria dos casos o tempo verbal preferido ser bvio por razes de
estilo. Borko e Chatman (1963) e Weil (1970) sugerem que se empreguem os verbos no
pretrito para a descrio de processos e condies experimentais e no presente para
concluses resultantes das experincias. O que lgico: as atividades relatadas por um autor
so coisas do passado, enquanto os resultados e as concluses ainda pertencem ao presente.
Borko e Bernier (1975) so mais explcitos ao recomendar a voz ativa e o pretrito para
resumos informativos, e a voz passiva e o presente para resumos indicativos.
At hoje foram elaborados muitos conjuntos de regras sobre redao de resumos. Talvez
o conjunto mais conciso de princpios destinados elaborao de resumos seja o produzido
pelo Defense Documentation Center (1968), reproduzido na figura 47. Em poucos e breves
enunciados sintetiza as regras adotadas pelo centro sobre o que incluir, o que no incluir, qual
a extenso que o resumo deve ter e qual o tipo de terminologia a ser adotado. Uma exposio
mais completa, mas tambm concisa, encontra-se em relatrio de Payne et al. (1962), e
reproduzida no apndice 1 deste livro.

Figura 47 Princpios para redao de resumos, do Defense Documentation


Center (1968)
Reproduzidos com permisso do Defense Technical lnformation Center

Contedo e formato
O que se deve incluir num resumo depende muito, claro, do tipo de publicao que se
tem em mira. Um longo resumo indicativo de um tipo de relatrio de pesquisa mencionaria os
objetivos da pesquisa, os procedimentos experimentais e de outra natureza adotados, os tipos
de resultados obtidos (um resumo informativo conteria os prprios resultados, pelo menos de
forma condensada), e as concluses do autor quanto importncia dos resultados. O
tratamento a ser dado a um artigo de histria, por outro lado, seria bem diferente. O resumo,
por exemplo, daria nfase tese ou concluses do autor, tomando o cuidado de mencionar os
perodos, localidades geogrficas e personalidades envolvidos. 2
Em reas temticas especializadas, o resumidor pode receber instrues sobre certas
coisas a serem procuradas nos artigos e destac-las com clareza nos resumos. Isso pode incluir
itens to diversos quanto dosagem de um medicamento, condies climticas, idade dos
indivduos, tipos de solo, equaes empregadas ou o elemento componente de uma liga. Os
resumos costumam ser de redao mais fcil quando o contedo temtico trata de objetos
concretos, e so de redao mais difcil quanto mais abstrato ou nebuloso for o assunto.
A maioria dos resumos apresentada no formato convencional de referncias
bibliogrficas seguidas do texto do resumo. Em algumas publicaes, no entanto, o resumo
precede a referncia bibliogrfica, e sua primeira linha realada de alguma forma, como no
exemplo seguinte:
1

A norma brasileira sobre resumos - NBR 6028, da Associao Brasileira de Normas Tcnicas (ABNT) - tambm
preceitua o emprego da voz ativa, sem trazer meno ao uso da voz passiva (N.T.)
2
Tibbo (1992) mostrou que as normas publicadas relativas redao de resumos so muito mais pertinentes s
cincias do que s humanidades.

94

A MIGRAO DE MO-DE-OBRA DE MOAMBIQUE PARA AS MINAS DA FRICA DO SUL


continua sendo um elemento importante nas relaes econmicas entre estes pases....
Brockmann, G. Migrant labour and foreign policy: the case of Mozambique. Journal of Peace
Research, 22, 1985, 335-344.

Esta uma forma de apresentao mais atraente, muito parecida com o cabealho de
uma matria de jornal, e que pode captar a ateno do leitor sem grande esforo. Weil et al.
(1963) referem-se a isso como resumo orientado para o leitor, resumo de tpico frasal em
primeiro lugar ou resumo orientado para resultado (embora o ttulo no tenha de ser
necessariamente relacionado aos resultados). Se for adequado, o ttulo do artigo poder
transformar-se nesse cabealho, vindo em seguida um tpico frasal que o desenvolva.
Considera-se um resumo completo como sendo composto de trs partes: a referncia,
que identifica o item resumido; o corpo do resumo (o texto); e a assinatura. Este ltimo
elemento a atribuio da origem do resumo: as iniciais do resumidor ou a indicao de que o
resumo foi elaborado pelo autor do item, de que se trata de um resumo modificado de autor,
ou deriva de uma fonte diversa, como, por exemplo, outro servio de resumos.
Muitos resumos parecem situar-se na faixa de 100-250 palavras, mas, como se disse
antes natural que a extenso varie de acordo com certos fatores, como o tamanho do prprio
documento, o alcance de seu contedo temtico, a importncia que lhe atribuda, sua
disponibilidade fsica e acessibilidade intelectual (por exemplo, itens de difcil localizao, como
trabalhos apresentados em eventos, ou em lnguas pouco conhecidas, seriam resumidos com
mais detalhes do que outros itens). Borko e Bernier (1975) sugerem que os resumos da
literatura cientfica deveriam ter comumente entre um dcimo e um vigsimo da extenso do
original, embora Resnikoff e Dolby (1972) indiquem que um trigsimo talvez seja mais comum.
Borko e Bernier (1975) nos do um conselho til para a seqncia do contedo:
O corpo do resumo pode ser ordenado de modo a poupar o tempo do leitor. A colocao das
concluses em primeiro lugar satisfaz ao leitor e poder dispens-lo de continuar a leitura.
Ele pode aceitar ou rejeitar as concluses sem que precise conhecer os resultados em que se
basearam. O desenvolvimento das informaes vir em ltimo lugar. Verificou-se ser
desnecessrio rotular cada parte do resumo, como, por exemplo, concluses, resultados ou
mtodos; normalmente os leitores sabem qual a parte que esto lendo. A ordenao das
partes do corpo do resumo feita com a mesma finalidade com que se organizam as partes
de uma matria de jornal - para comunicar a informao de modo mais rpido.
No convm abrir pargrafos. O resumo breve; deve exprimir um raciocnio homogneo e
ser redigido como um nico pargrafo (p. 69).

De fato, a tendncia recente tem sido no sentido de dividir os resumos em pedaos


menores mediante a abertura de pargrafos e at mesmo o uso de entre ttulos. Isso tem sido
verificado principalmente em peridicos de medicina. Um exemplo, da prpria literatura de
cincia da informao, e que estuda esta mesma situao, mostrado na figura 48. Esse tipo
de resumo passou a ser conhecido como resumo estruturado, embora a forma como esta
expresso seja a empregada seja bastante diferente da forma como a utilizo.
Curiosamente, desde 1988, provvel encontrar na literatura mdica um nmero maior
de artigos sobre resumos do que na literatura de cincia da informao. Resumos
estruturados de artigos mdicos foram publicados pela primeira vez na revista Annals of
Internal Medicine, que solicitava aos autores que preparassem os resumos conforme um
formato que lhes era prescrito, tendo sido definidas regra bastante apuradas para sua redao
(ver, por exemplo, Haynes et al, 1990). A figura 49 contm uma sntese do tipo de informao
a ser includa, mas as instrues aos autores so muito mais detalhadas.
No foi sem polmica que os resumos estruturados foram introduzidos nos peridicos de
medicina. Haynes et al. (1990) sugerem que a formatao muito rgida pode estimular alguns
autores a reivindicar mais do que seria cabvel. Por exemplo, se houver um entre ttulo mtodo
ou delineamento experimental, para prender a ateno do leitor, isso pode levar alguns a
alardear um enfoque mais rigoroso do que o que seria realmente justificvel.
Froom e Froom (1993a, b) mostraram que os resumos estruturados dos Annals of Internal
Medicine nem sempre continham todas as informaes exigidas nas instrues para os
autores, mesmo quando as informaes solicitadas estavam presentes no prprio artigo.
Haynes (1993) critica esse estudo, mas sua crtica no convincente. Taddio et al. (1994),
baseando-se em estudo mais amplo, cobrindo 300 resumos extrados de trs peridicos,
verificou que os resumos estruturados apresentavam maior probabilidade de conter
informaes mais completas de importncia para a pesquisa do que os resumos no
estruturados. Os aspectos sobre avaliao sero tratados no prximo captulo.
95

Mesmo que os resumos estruturados desse tipo possam ter seus mritos, muitas vezes
suas pretenses so exageradas. Por exemplo, Haynes et al. (1990) alegam que eles podem
facilitar a avaliao pelos pares antes da publicao, ajudar os leitores que exercem a clnica a
encontrar artigos que sejam tanto cientificamente corretos quanto aplicveis prtica
profissional, alm de permitir buscas bibliogrficas informatizadas mais precisas, embora nem
todas essas alegaes sejam documentadas.
interessante que, quase na mesma poca em que a literatura mdica descobria esse
tipo de resumo, Trawinski (1989) examinava mtodos similares de redao de resumos em
cincia da informao. Ele tambm comparou as caractersticas dos resumos assim redigidos
com resumos da base de dados INSPEC.
A literatura sobre resumos estruturados continua a crescer. Hartley (1998) defende a
mais ampla adoo desses resumos em peridicos cientficos. Ele (Hartley, 2000b) tambm
argumenta que preciso alguma forma de resumo estruturado junto s revises sistemticas
da literatura mdica. Alega que tais resumos devem ser mais fceis de ler do que os resumos
de artigos de pesquisa mdica porque as revises sistemticas tm como alvo um pblico mais
amplo.
RESUMO
ANTECEDENTES: Os resumos estruturados, que, como este, contm vrios entre ttulos, substituram
os resumos tradicionais na maioria dos peridicos mdicos. Estudos de avaliao mostraram que
esses resumos normalmente oferecem mais informaes, so de melhor qualidade, facilitam a
avaliao pelos pares e, em geral, so bem-aceitos. OBJETIVO: O objetivo dos estudos aqui reportados
foi investigar uma outra possvel vantagem dos resumos estruturados, a saber, se neles as buscas so
ou no so mais fceis de executar.
MTODO: So relatados dois estudos. No estudo 1, efetuado numa base de dados eletrnica, solicitouse a 52 leitores que encontrassem as respostas a duas perguntas feitas a cada um de oito resumos
em um formato (digamos, tradicional) seguidas de duas questes para cada um de oito resumos
compostos no outro formato. Foram automaticamente registrados os dados de tempo e erros. No
estudo 2, efetuado numa base de dados impressa, solicitou-se a 56 leitores que encontrassem cinco
resumos que relatassem determinado tipo de estudo (por exemplo, estudos com escolares e testes de
leitura) e depois achassem mais cinco outros que relatassem outro tipo de estudo. Alm disso, a
ordem e apresentao do formato foram compensadas. Os dados de tempo e erro foram registrados
manualmente. .
RESULTADOS: No estudo 1, os participantes tiveram desempenho significativamente mais rpido e
cometeram significativamente menos erros com os resumos estruturados. Houve, contudo, alguns
inexplicveis efeitos da prtica. No estudo 2, os participantes novamente tiveram desempenho
significativamente mais rpido e cometeram significativamente menos erros com os resumos
estruturados. No estudo 2, contudo, houve efeitos de transferncia assimtricos: participantes que
responderam primeiro aos resumos estruturados responderam mais rapidamente aos resumos
tradicionais seguintes do que o fizeram os participantes que responderam primeiro aos resumos
tradicionais.
CONCLUSES: Em geral, os resultados, apesar de certas ressalvas, apiam a hiptese de que mais
fcil para os leitores fazer buscas em resumos estruturados do que em resumos tradicionais.
Figura 48 Exemplo de resumo altamente formatado
Reproduzido de Hartley et al. (1996) com permisso do Journal of Information Science

Artigos originais
1. Objetivo: a(s) questo (es) exata(s) abordada(s) pelo artigo
2. Delineamento experimental: o delineamento bsico do estudo
3. Ambiente: a localizao e o nvel da assistncia clnica
4. Pacientes ou participantes: o modo de seleo e o nmero de pacientes ou participantes que
iniciaram e chegaram ao fim do estudo
5. Intervenes: o tratamento ou interveno exata, se houve algum
6. Principais medidas de resultado: a medida fundamental de resultado do estudo planejada antes de
iniciada a coleta de dados
7. Resultados: os principais achados
8. Concluses: as principais concluses inclusive aplicaes clnicas diretas.
Artigos de reviso
1. Finalidade: o objetivo fundamental do artigo de reviso
2. Fontes de dados: um apanhado sucinto das fontes dos dados
3. Seleo dos estudos: o nmero de estudos selecionados para a reviso e como foram selecionados
4. Extrao dos dados: regras para o resumo dos dados e como foram aplicadas

96

5. Resultados da sntese de dados: os mtodos de sntese de dados e principais resultados


6. Concluses: concluses principais, inclusive aplicaes potenciais e necessidade de pesquisas
adicionais.
Figura 49 Informaes essenciais de que necessitam os clnicos para avaliar a
relevncia e a qualidade de artigos e, portanto, para sua incluso em resumos
estruturados
Reproduzido de Haynes et al. (1990) com permisso dos Auuals of Internal Medicine

Uma das objees aos resumos estruturados, expressa por editores de peridicos, que
ocupam mais espao. Essa questo foi estudada por Hartley (2002). Ele concluiu que os
resumos estruturados realmente ocupam mais espao (normalmente seu tamanho 21% (s
vezes mais) maior do que os resumos tradicionais), porm isso somente afetaria aquelas
revistas (relativamente raras) em que os artigos se sucedem um em seguida ao outro e no os
peridicos em que cada artigo abre uma nova pgina.
Os tipos de erros mais evidentes que ocorrem na indexao de assuntos tambm
ocorrem na redao de resumos: aspectos que deveriam ser includos no o so, e outros que
so includos ficariam melhor se fossem omitidos. Tambm podem ocorrer erros de transcrio,
principalmente quando se trata de frmulas ou valores numricos. Sempre conferir e submeter
reviso editorial por parte de algum mais experiente o trabalho de resumidores
inexperientes. Borko e Bernier (1975) confirmam a utilidade de um bom editor de resumos:
Os editores de resumos parecem desenvolver um sexto sentido que os faz saber quando est
faltando uma parte importante do contedo. Eles procuram, e esperam encontrar, certas
categorias de informao, como os mtodos e equipamentos utilizados, os dados coletados e
as concluses (p. 12).

Um servio de resumos provavelmente adotar algumas diretrizes sobre certos pontos,


tais como ortografia, pontuao e uso de maisculas. Como isso constitui, em grande parte,
uma questo de preferncia individual, parece despropositado apresentar exemplos.
Para ajudar o resumidor em seu trabalho, principalmente num programa de treinamento,
convm preparar algum tipo de planilha que o oriente sobre aquilo que deve procurar numa
publicao. Uma planilha1 como essa incluiria certos aspectos, como, por exemplo:
Tipo e objetivo [Tipo de estudo, se experimental, terico, de reviso, pesquisa bsica ou
aplicada, desenvolvimento. Objetivo: uma proposio do problema, uma definio do que
exatamente pesquisado.]
Plano experimental ou modelo terico [Caractersticas importantes, novos enfoques, hiptese
a ser comprovada, resultados esperados quando o trabalho foi iniciado. O que torna este
trabalho diferente, tanto experimental quanto analiticamente, do trabalho de outros
pesquisadores?]
Condies estudadas [Parmetros variados, limites envolvidos, controles impostos.]
Procedimentos [Tcnicas novas empregadas, transformaes utilizadas ou desenvolvidas,
como os resultados foram obtidos.]
Pressupostos [Quais os pressupostos diretos e indiretos, e so eles convencionais?]
Concluses principais [Principais concluses do autor, outras concluses apoiadas nos dados,
resultados negativos importantes.]
Concluses secundrias [Pontos de menor importncia ou aqueles de reas perifricas da
pesquisa podem ser relatados se forem julgados suficientemente teis. Podem ser
apresentadas interpretaes e inferncias e extrapolaes razoveis. No so convenientes
associaes tericas imprecisas e questes conjeturais.]
Importncia ou utilidade [Importncia e competncia do trabalho realizado. Aplicaes
potenciais.]
Limitaes e deficincias [As hipteses so indevidamente restritivas ou limitantes? O
modelo terico est muito distante de possvel aplicao prtica? H falhas tcnicas? O
enfoque do problema imps limitaes aos resultados? Que grau de complexidade foi
adotado? Houve anlise suficiente dos dados, principalmente quanto a possveis erros?]
Comentrios crticos [Eventual erro fundamental e magnitude dos erros. Eventual publicao
anterior desta informao. Existem pesquisas similares e qual a posio que o presente
1

Os ttulos e descries da planilha aqui exemplificada baseiam-se nos utilizados no projeto de resumos modulares de
Herner and Company (Lancaster et al., 1965).

97

trabalho ocupa na bibliografia? Quais as caractersticas que so particularmente meritrias?


A interpretao dos resultados razovel?]

claro que nem todas essas categorias sero aplicveis a todo item a ser resumido e as
trs ltimas somente a resumos crticos. Solovev (1971) estuda o uso, na redao de resumos,
deste mtodo baseado em questionrio.
Hoje, naturalmente, provvel que alguma forma de auxlio ao processo de redao do
resumo, em linha e interativo, seja mais atraente do que a adoo desse tipo de enfoque
estruturado, ainda que exibido em linha na tela. Craven (1996) desenvolveu um prottipo de
sistema destinado a assistir os resumidores e chegou a test-lo pelo menos em carter
preliminar. O auxlio redao de resumos inclui um tesauro como um dos componentes
(Craven, 1993).
Alguns autores procuraram desenvolver diretrizes para redao de resumos de certos
tipos de documentos. Por exemplo, Solovev (1981) sugere que resumos de teses de doutorado
focalizem os seguintes pontos: importncia atual do assunto, problema tratado e objetivo da
pesquisa, novidade cientfica, metodologia, resultados e concluses (inclusive implementao
dos resultados).
Embora de modo um tanto confuso e, por isso, com trechos de difcil interpretao, o
Centro de Documentao sobre Refugiados do Alto Comissariado das Naes Unidas para os
Refugiados (UNHCR) condensou os fundamentos da redao de resumos num nico diagrama
(figura 50). So particularmente teis os critrios de avaliao esquerda do diagrama. Notese que o resumo deve ser avaliado com base em sua linguagem e contedo, sua obedincia ao
estilo da casa (extenso, estrutura, convenes ortogrficas e de pontuao) e, o que mais
importante, o grau com que ele atende s necessidades do usurio.

Figura 50 Fundamentos da redao de resumos


Reproduzido do UNHCR Refugee Documentation Centre (1985), com permisso do
Centro de Documentao sobre Refugiados do Alto Comissariado das Naes Unidas
para os Refugiados.

Foram desenvolvidos modelos mais formais do processo de redao de resumos (por


exemplo, por Karasev, 1978). Embora tais modelos contribuam para nosso entendimento das
etapas percorridas intuitivamente pelo resumidor, parecem ser de pouco valor prtico para os
resumidores.
Mesmo que se reconheam alguns princpios gerais implcitos no trabalho de resumir,
claro que cada resumidor ter seu prprio modo de implementa-los. Com efeito, EndresNiggemeyer (1994, 1998) admitiu ter identificado 453 estratgias diferentes, com base na
gravao em fita dos protocolos que apenas seis resumidores pensavam em voz alta.
Os aspectos tericos dos resumos e sua redao so abordados mais amide por autores
europeus, principalmente Endres-Niggemeyer (1998) e Pinto. Esta autora apresenta, num livro
em espanhol (Pinto, 2001), um estudo completo sobre redao de resumos em seu contexto
lingstico mais amplo. Encontram-se verses parciais em Pinto (1995) e Pinto e Lancaster
(1999). Ela tambm analisou o papel da semitica, lgica e psicologia cognitiva na anlise de
contedos textuais (Pinto, 1994). Pinto e Glvez (1999) analisam a redao de resumos em
termos de paradigmas comunicacionais, fsicos, cognitivos e sistmicos.
98

Resumidores
Os resumos podem ser preparados pelos prprios autores dos documentos, por outros
especialistas dos respectivos assuntos ou resumidores profissionais. Muitos peridicos
cientficos exigem que os autores preparem resumos que acompanhem seus artigos.
crescente o aproveitamento destes resumos pelos servios de resumos impressos, que assim
no precisam redigi-los de novo.
Igual ao que acontece na indexao, o resumidor precisa ter conhecimento do contedo
temtico tratado no documento, embora no precise ser um especialista. Requisito importante
a capacidade de redigir e editorar textos, e um trunfo precioso para o resumidor a aptido
de ler e compreender com rapidez.
Borko e Bernier (1975) advertem que os autores no necessariamente redigem os
melhores resumos dos prprios artigos. Os autores comumente no possuem formao e
experincia em redao de resumos, bem como carecem do conhecimento das regras
adotadas nessa atividade. As publicaes de resumos mais prestigiosas comumente
conseguem recrutar como resumi dores especialistas numa rea, que aceitam o encargo de
redigir resumos em sua especialidade sem remunerao ou a troco de honorrios modestos.
Borko e Bernier afirmam que: Quem aprendeu a redigir resumos e tambm especialista num
campo do conhecimento redige os melhores resumos, afirmao contra a qual difcil
argumentar. Como os especialistas comumente so voluntrios, talvez seja difcil deles obter
pontualidade na redao dos resumos. O resumidor profissional custa caro, mas pontual e
pode fazer um excelente trabalho quando lida com reas do conhecimento que no lhe sejam
totalmente desconhecidas.
Atualmente autores e editoras contam com poucos incentivos para enfeitar os resumos
de modo a tornar o trabalho que isso envolve mais atraente do que de fato . Price (1983)
argumentou que isso poderia tornar-se um perigo num ambiente completamente eletrnico
(ver captulo 16). As editoras gostariam de estimular o uso dos resumos porque provavelmente
seriam remuneradas com base nisso. Os autores gostariam de ampliar sua utilizao, se este
fator se tornasse, o que no seria impossvel, um critrio a ser adotado em decises relativas
promoo e estabilidade no emprego. O vocbulo spoofing ou spamming foi usado para
designar o enfeitamento de pginas da Rede de modo a aumentar sua recuperabilidade
(captulo 16).
A redao de resumos e a indexao so atividades intimamente relacionadas e h fortes
razes para que sejam reunidas. pequena a distncia entre a etapa de anlise conceitual da
indexao e a preparao de um resumo aceitvel. Alm disso, a disciplina adicional imposta
pela redao do resumo ajuda na deciso sobre o que deve ser includo e o que pode ser
omitido na indexao. O fato de ambas as atividades envolverem uma combinao de leitura e
passar de olhos outro motivo pelo qual eficiente reuni-las, delas se incumbindo uma mesma
pessoa, sempre que isto for vivel.
Qualidade e coerncia na redao de resumos
Jamais dois resumos do mesmo documento sero idnticos se forem redigidos por
pessoas diferentes ou pela mesma pessoa em momentos diferentes: o contedo descrito ser
o mesmo, mas a forma de descrev-lo ser diferente. A qualidade e a coerncia so um pouco
mais vagas quando se aplicam a resumos do que quando se aplicam indexao.
Aparentemente existem duas facetas principais concernentes qualidade:
1. Os argumentos essenciais do documento so postos em relevo no resumo?
2. Esses argumentos so descritos exata, sucinta e inequivocamente?
Em certa medida, portanto, a qualidade da redao de resumos aferida segundo
critrios que so muito similares aos adotados na avaliao da indexao. A primeira etapa da
redao de resumos corresponde, realmente, como na indexao, anlise conceitual - quais
os aspectos a realar? - e a segunda etapa corresponde traduo dessa anlise conceitual em
frases (normalmente).
A qualidade da anlise conceitual pode ser aferi da, provavelmente, em cotejo com as
instrues relativas a contedo baixadas pela instituio para a qual o resumo redigido. Por
exemplo:
1. Foram includos o mbito e a finalidade do trabalho?
2. Os resultados foram indicados ou resumidos?
3. As concluses do autor foram resumidas?
99

e assim por diante.


Poder-se-, ento, avaliar a coerncia entre dois resumos, neste nvel conceitual, no que
tange ao grau com que os resumidores estiveram de acordo quanto aos pontos a incluir.
A avaliao da qualidade da fase de traduo, no processo de elaborao do resumo,
um pouco mais complicada, porque exatido, ambigidade e brevidade so critrios um tanto
subjetivos. Um resumidor experiente poder aplic-los, porm, ao julgar o trabalho de pessoas
menos experientes. No deve haver grande preocupao com a coerncia na fase de traduo
do processo de elaborao do resumo: existe a possibilidade de tratar a mesma questo de
vrias formas diferentes, cada uma delas exata e inequvoca e, talvez, igualmente sucinta.

Figura 51 Resultados hipotticos de um teste de previsibilidade de relevncia

O teste definitivo de um bom resumo consiste simplesmente em perguntar: ser que ele
permite ao leitor prever com exatido se um item resumido ou no relevante para seus
interesses atuais? No que tange a um leitor especfico e uma necessidade de informao
especfica, possvel testar isso com base, digamos, em 50 resumos copiados na impressora
em resposta a uma busca em linha. Os resultados do estudo seriam os mostrados na figura 51:
os resumos sugeriam que 15 itens seriam relevantes, mas apenas 12 se confirmaram como tal.
Alm disso, se se constatar que nem todos os 12 considerados relevantes a partir do texto
foram tambm julgados relevantes a partir dos resumos, estes teriam falhado de ambos os
modos: sugeriram que alguns itens eram relevantes quando no o eram, e que outros no
eram relevantes quando o eram.
Esse tipo de estudo, naturalmente, um tanto difcil de fazer. Ademais, seus resultados
aplicam-se apenas a determinado usurio e determinada necessidade de informao; mude-se
o usurio ou a necessidade de informao e os resultados mudaro. A maioria dos usurios de
servios de resumos, ou bases de dados em linha, j ter passado pela situao, talvez com
relativa freqncia, quando um resumo desperta o apetite por um documento que acaba sendo
muito diferente do que se esperava. Ento, os resumos frustraram esses usurios, embora
talvez tivessem atendido de modo bastante adequado a outros usurios.
A utilidade dos resumos na previso da relevncia de documentos para determinado
usurio ser examinada com mais detalhes no captulo seguinte. Embora tenham sido
realizados vrios estudos de previsibilidade de relevncia, so muito poucas as pesquisas sobre
as atividades dos resumidores. Com efeito, j foram realizados mais estudos sobre avaliao de
extratos do que de resumos. Por exemplo, tanto Rath et al. (1961 b) quanto Edmundson et al.
(1961) descobriram que as pessoas no eram muito coerentes (com os outros ou consigo
mesmas) ao selecionar de um texto as frases que consideravam como os melhores indicadores
de seu contedo.
Edmundson et al. (1961) sugerem vrios mtodos de avaliao de resumos:
1. Julgamento intuitivo, subjetivo;
2. Comparao com um resumo ideal;
3. Determinao da medida em que perguntas de teste sobre um documento podem ser
respondidas pelo resumo;
4. Recuperabilidade do documento pelo resumo.
claro que os resumos so avaliados pelos editores e outras pessoas que trabalham nos
centros de informao ou nas editoras, provavelmente utilizando o mtodo intuitivo. provvel
que, quanto mais se utilizar a busca em texto livre em lugar da indexao feita por seres
humanos, crescer a importncia do mtodo de avaliao baseado na recuperabilidade. Os
critrios para aferir a recuperabilidade de um resumo no so necessariamente os mesmos
utilizados para avali-lo com base na previsibilidade da relevncia (ver as consideraes sobre
Questes de compatibilidade).
Vinsonhaler (1966) prope mtodos comportamentais para avaliar a qualidade de
resumos com base na validade de contedo ou validade previsvel. Num estudo de validade
de contedo, os sujeitos julgam o grau com que o documento e o resumo so similares,
empregando talvez uma escala de similaridade de sete pontos. Alternativamente, pode-se
100

aplicar um teste para determinar em que medida um resumo discrimina documentos,


especialmente quando seu contedo temtico bastante similar. Vinsonhaler prope, para
medir a discriminabilidade, um teste em que os sujeitos examinam um documento e em
seguida procuram identificar o resumo correspondente num folheto que contm resumos. Um
teste de validade previsvel determina em que medida decises tomadas sobre similaridade
dos resumos coincidem com decises quanto similaridade tomadas com base nos prprios
documentos: se os resumos forem bons, grupos de resumos com base na similaridade devem
coincidir com grupos de documentos com base na similaridade. O segundo teste de validade
previsvel mais convencional: determina-se a medida em que os resumos prevem
corretamente a relevncia dos documentos. Vinsonhaler sugere um teste de cruzamento em
que um grupo de pessoas avalia a relevncia de um conjunto de documentos para um
enunciado de pedido de busca e, em seguida, depois de um intervalo de tempo adequado, faz
o mesmo com os resumos dos documentos. O segundo grupo de pessoas procede em
seqncia inversa, primeiro avaliando os resumos e depois os documentos.
Mathis (1972) props que os resumos fossem avaliados com base num coeficiente de
dados (CD). O CD expresso pela frmula C/L, onde C um fator de conservao de dados e
L um fator de conservao de extenso. C uma medida do grau com que todos os
conceitos (Mathis refere-se a eles como elementos de dados) do documento so
conservados no resumo. L simplesmente o nmero de palavras do resumo dividido pelo
nmero de palavras do documento. O CD um valor numrico, e, quanto maior o valor,
melhor. Ele favorece a concentrao e a compresso: capacidade de conservar todos os
elementos essenciais do texto como mnimo de palavras. Melhora-se o valor aumentando-se a
quantidade de elementos de dados presentes ou reduzindo-se a quantidade de palavras no
resumo. Mathis sugere que um valor de CD inferior unidade indicaria um resumo de
qualidade inaceitvel. Trata-se de mtodo criativo, embora dependa totalmente da capacidade
de identificar elementos de dados. Mathis prope que sejam identificados mediante critrios
sintticos.
Assim como qualquer outro tipo de texto, os resumos podem ser avaliados com base na
legibilidade, empregando-se frmulas clssicas de legibilidade. Dronberger e Kowitz (1975)
adotaram a frmula de facilidade de leitura, de Flesch, para comparar resumos de Research in
Education com os relatrios correspondentes, e verificaram que os nveis de legibilidade eram
significativamente baixos, provavelmente porque careciam de redundncia. Tambm King
(1976), adotando um critrio cloze,1 observou que os resumos de Child Development
Abstracts eram menos legveis do que os itens em que se baseavam.
Hartley (1994) aplicou tanto os escores de legibilidade de Flesch 2 quanto testes doze
(compreenso) na comparao de quatro verses diferentes dos mesmos resumos. Sua
concluso foi que os resumos poderiam ser melhorados (isto , redigidos de modo mais claro)
se fosse mudado o tamanho do tipo, se fosse estruturado (em pargrafos com entre ttulos) e
se fossem reescritos. Posteriormente, Hartley e Sydes (1996) estudaram as preferncias do
leitor quanto disposio grfica dos resumos estruturados.
Hartley (2000) identifica trs fatores que influem na clareza dos resumos: linguagem
(legibilidade), a maneira como as informaes so apresentadas (seqencial ou estruturada) e
o estilo grfico. Tambm descreve diferentes solues grficas para a apresentao dos
resumos estruturados.
Salager-Meyer (1991) analisou, de uma perspectiva lingstica, uma amostra de resumos
de artigos mdicos, tendo chegado concluso de que metade deles era mal-estruturada
(isto , possua deficincia de discurso). Uma vez que deficincia de discurso pode incluir
coisas do tipo disperso conceitual (por exemplo, resultados relatados em diferentes lugares do
resumo) como tambm omisso de um elemento importante (por exemplo, o objetivo da
pesquisa) do resumo, o autor sugere que os resumos que padeam desses defeitos sero
menos eficientes na transmisso de informaes.
Borko e Bernier (1975) apresentaram aquela que talvez seja a lista mais abrangente de
possveis critrios de avaliao de resumos, como se v a seguir:
1. Uma classificao global de qualidade (atribuda por avaliadores humanos).

Tcnica e teste de leitura em que, num texto, so omitidas palavras propositalmente e segundo um padro definido
(por exemplo, toda quinta palavra). Os espaos em branco deixados sero preenchidos pelos sujeitos que estiverem
sendo avaliados. (N.T.)
2
O escore de facilidade de leitura de Flesch [Flesch Reading Ease (R.E.)] considera a extenso das frases e a extenso
das palavras no texto. A frmula original R.E. = 206,835 - 0,846w - 1,0 15s (onde w o nmero mdio de slabas em
100 palavras e s o nmero mdio de palavras por frase). Os escores normalmente situam-se na faixa 0-100 em que
os valores menores refletem maior dificuldade (Hartley, 2000c).

101

2.
3.
4.
5.
6.
7.
8.

medida que a norma NISO (ANSI) ou outra norma respeitada (que tambm tida
como um componente principal do mtodo de avaliao recomendado por Mathis
(1972).1
A incluso de informaes importantes e a excluso de informaes sem importncia.
Ausncia de erros.
Coerncia de estilo elegibilidade.
Previsibilidade da relevncia.
Capacidade de servir como substituto do original (resumos informativos).
Adequao como fonte de termos de indexao.

Esta lista, evidentemente, representa vrios nveis de critrios. Por exemplo, todos os
critrios do terceiro ao quinto provavelmente seriam levados em conta em qualquer
classificao global. Um mtodo de avaliao da medida em que um resumo pode servir em
lugar do original (critrio 7) consiste em comparar a capacidade de grupos de indivduos
responderem a questes baseadas em: a) nos resumos, e b) no texto integral. Payne et al.
(1962) relataram estudos desse tipo.
Com efeito, os estudos de Payne englobavam trs mtodos de avaliao diferentes:
1. Coerncia. Foram utilizados especialistas de assunto para comparar resumos com
base na similaridade da quantidade de informaes apresentadas.
2. A quantidade de reduo de texto obtida.
3. Utilidade. Os estudantes responderam a questes tcnicas baseadas nos artigos de
sua rea de especializao. Alguns deles liam os artigos, outros apenas os resumos.
As respostas dos dois grupos eram comparadas. Este mtodo foi tambm usado por
Hartley et al. (1996) para comparar diferentes tipos de resumos: a concluso foi que
os resumos estruturados (formatados em diferentes pargrafos, cada um com seu
entre ttulo) podiam ser usados de modo mais eficiente.
No programa TIPSTER (ver captulo 14), so empregados dois mtodos de avaliao de
resumos: 1) utilizao do resumo para julgar a relevncia dos documentos, e 2) utilizao do
resumo como base para a classificao dos documentos (isto , classificao baseada no
resumo em comparao com a classificao baseada nos textos completos).
As avaliaes da qualidade dos resumos publicadas nos ltimos anos tm se
concentrado, na maior palie, em resumos estruturados. Hartley e Benjamin (1998)
compararam resumos tradicionais e estruturados redigidos por autores de artigos submetidos a
quatro peridicos britnicos de psicologia. Estudantes de psicologia participaram da avaliao.
Os resumos estruturados foram julgados significativamente mais legveis, significativamente
mais longos e significativamente mais informativos.
Poucos trabalhos foram realizados para avaliar resumos publicados em comparao com
os textos a que se referem. No entanto, um til estudo desse tipo foi relatado por Pitkin et al.
(1999). Eles avaliaram, dessa forma, 88 resumos publicados em seis importantes revistas
mdicas. Os resumos eram considerados deficientes quando incluam dados diferentes dos
dados constantes do prprio artigo ou deixavam de incluir dados por completo. Com base
nesses critrios, uma quantidade significativa de resumos foi considerada deficiente, cerca de
18% na revista que correspondia ao melhor caso e 68% no pior caso.
Em decorrncia desse estudo o JAMA (Journal of the American Medical Association)
introduziu um programa de melhoria de qualidade (Winkler, 1999). Foram adotados os
seguintes critrios:
1. Os entre ttulos do resumo so coerentes com o formato de resumo estruturado.
2. Os dados no resumo so coerentes com o texto, tabelas e figuras.
3. Os dados ou informaes do resumo esto presentes no texto, tabelas ou figuras.
4. Fornece os anos de estudo e a durao do acompanhamento.
5. Os resultados das Principais Medidas de Resultados so apresentados na seo de
Resultados (evitar informaes seletivas).
6. Os resultados so quantificados com numeradores, denominadores, odds ratios
[razes de chances, razes de diferenas] e intervalos de confiana, onde isso for
apropriado.
7. Apresentam-se sempre que possvel, diferenas absolutas e no diferenas relativas
(por exemplo, A mortalidade baixou de 6% para 3% ao invs de A mortal idade
baixou 50%.
8. No caso de ensaios randomizados, a anlise identificada como intentto-treat ou
anlise de paciente avalivel.
1

Ver tambm, porm, os comentrios sobre normas no captulo 9.

102

9.

Para levantamentos, o ndice de respostas fornecido em Resultados ou


Delineamento.
10. Para anlise multivariada, os fatores controlados no modelo so mencionados de
modo bem sucinto.
11. As concluses resultam de informaes contidas no resumo.
Esses critrios so agora adotados para rever e. corrigir resumos. Winkler relatou uma
melhoria impressionante da qualidade aps a implantao desse programa, e Pitkin et al.
(2000), em pesquisa independente, tambm constataram notvel melhoria, embora no no
nvel impressionante citado por Winkler. Anteriormente, Pitkin e Branagan (1998) relataram
como resultado de um ensaio randomizado controlado, que instrues especficas dadas aos
autores que estavam revisando seus manuscritos no foram eficazes para diminuir as
deficincias dos resumos. Parece que enviar aos autores instrues sobre a qualidade dos
resumos no , em si, garantia de melhoria, embora tais instrues sejam eficazes quando
usadas pelos editores de revistas na avaliao dos resumos.
Hartley (2000a) comparou a exatido de resumos estruturados com a de resumos
tradicionais de um mesmo grupo de artigos submetidos para publicao nas revistas da
British Psychological Society. Isso foi possvel porque os autores haviam enviado resumos
tradicionais ao submeter os originais, porm, depois que os trabalhos foram aceitos para
publicao, foi-lhes exigido que apresentassem verses estruturadas. Hartley relata poucas
inexatides em qualquer um dos tipos de resumos, e que os estruturados no eram melhores
nem piores do que os outros. Esse ltimo resultado talvez no surpreenda muito, pois a maioria
dos autores simplesmente converteu o resumo original para a forma estruturada. Mais difcil de
explicar esses resumos de psicologia parecerem mais exatos do que os resumos de medicina
dos estudos de Pitkin.
O valor de previsibilidade dos resumos (isto , sua capacidade de indicar a relevncia do
item de que deriva para os interesses de algum usurio) examinado no prximo captulo.
Questes de compatibilidade
H 50 anos, a nica razo existente para que fossem redigidos resumos era a de criar a
representao de um documento que seria lida por seres humanos. Entretanto, os resumos so
hoje utilizados com uma segunda finalidade: proporcionar uma representao que sirva para
buscas feitas por computador. Infelizmente, essas duas finalidades no so inteiramente
compatveis. Para os objetivos da recuperao, a redundncia conveniente. Quer dizer, um
tpico estar mais bem representado se o for de vrias formas. Por exemplo, a incluso dos
sinnimos asas de vo livre e asas deltas em alguns resumos aumenta a probabilidade de o
item ser recuperado - um consulente usar vo livre e o outro poder pensar em asa delta.
Para o leitor humano, por outro lado, melhor haver coerncia do que redundncia. Na
realidade, o usurio se sentir muito confuso se as mesmas idias forem descritas de
diferentes formas no resumo.
Para os objetivos da recuperao, quanto mais longo for o resumo melhor ser. Pelo
menos, quanto mais longo for o resumo mais pontos de acesso proporcionar, e quanto mais
pontos de acesso houver maior ser o potencial de alta revocao na recuperao. Ao mesmo
tempo, temos de admitir que provavelmente haver perda de preciso: quanto mais extenso
for o resumo mais aspectos secundrios do documento sero introduzidos e maior ser o
potencial de falsas associaes (ver captulos 6, 11 e 14). Para o leitor humano, a brevidade
certamente conveniente. Ela tambm convm para os assinantes de servios impressos, pois
resumos mais longos geram publicaes mais caras.
Para o leitor humano, til a meno de aspectos negativos: por exemplo, porm exclui
consideraes sobre custos informa ao leitor sobre o que no deve esperar encontrar no
documento. A incluso da palavra custos no resumo far, evidentemente, com que ele seja
recuperado em buscas nas quais o custo seja um aspecto importante - exatamente a situao
na qual esse resumo no deveria ser recuperado.
Para os objetivos da recuperao, tambm melhor evitar certas palavras ou expresses.
A locuo comum lanar mo de criar problemas em muitas bases de dados, pois levar
recuperao de itens sobre a parte do corpo humano - mo - e a flexo verbal cobre, do verbo
cobrir, far recuperar itens sobre o metal cobre. Portanto, para uma recuperao mais eficaz,
os resumidores devem evitar termos que sabidamente causaro problemas desse tipo.
At mesmo as convenes relativas a pontuao e sintaxe, que tm sentido para o leitor
humano, podem criar problemas para o computador. Suponhamos, por exemplo, uma frase que
termine com a palavra precipitao seguida imediatamente por outra que comece com a
103

palavra cidos. Em muitos sistemas este item ser recuperado durante uma pesquisa sobre
precipitao de cidos , embora nada tenha a ver com este assunto.
Os miniresumos de Lunin (1967) (ver captulo anterior), ao contrrio do resumo
convencional, destinam-se basicamente a facilitar as buscas por computador. Embora possam
ser interpretados por usurios inteligentes, so definitivamente mais difceis de ler e entender,
e se ignora como um enunciado esquemtico como esse seria aceito pelos usurios de um
sistema de recuperao.
Tudo isso aponta para o fato de que um resumo ideal para o leitor pode no ser ideal
para as buscas informatizadas. Mas, at onde se pode prever, os resumos continuaro a servir
a ambas as finalidades. Mesmo que a importncia dos servios impressos venha a declinar, os
resumos ainda sero necessrios como um produto intermedirio em buscas informatizadas.
Uma das implicaes disso que as editoras de servios secundrios tero de rever suas
instrues, para que os resumidores passem a criar resumos que, na medida do possvel,
sejam sucedneos eficazes tanto para a realizao de buscas quanto para a leitura.
Fidel (1986) prestou um grande servio ao analisar as instrues para redao de
resumos de 36 produtores de bases de dados. A sntese que ela fez das instrues que
parecem ser relevantes para as caractersticas de recuperabilidade dos resumos reproduzida
na figura 52. Mais que tudo, sua sntese revela algumas divergncias de opini9: utilize a
linguagem do autor, no utilize a linguagem do autor; utilize linguagem idntica linguagem
dos termos de indexao atribudos, utilize linguagem que complemente os termos atribudos,
e assim por diante. A regra mais sensata talvez seja a que especifica que o resumo deve incluir
termos relevantes que faltem nos descritores e no ttulo. Muitas vezes, esses sero termos
mais especficos do que os do vocabulrio controlado.
Booth e ORourke (1997) estudaram resumos estruturados de medicina num contexto de
recuperao da informao. Por meio da importao de registros do MEDLINE, conseguiram
criar duas bases de dados em que podiam fazer buscas, sendo uma de resumos completos e a
outra de resumos segmentados em vrios componentes (objetivos, delineamento, concluses,
e assim por diante) da estrutura. As buscas feitas na base de dados segmentadas,
naturalmente, obtiveram maior preciso, porm menor revocao. Os consulentes tambm
tiveram dificuldade para decidir em quais segmentos fazer as buscas.
Nomoto e Matsumoto (2001) defendem a avaliao da qualidade de resumos produzidos
automaticamente (na realidade, extratos) em termos de quo satisfatria seria a possibilidade
de substituir os textos integrais nas tarefas de recuperao da informao. Eles parecem
acreditar que esta idia se originou com eles, quando, de fato, bastante antiga.
O boletim interno
O fato de haver bases de dados bibliogrficos em praticamente todos os campos do
conhecimento e de em alguns deles haver vrias bases de dados concorrentes no elimina
inevitavelmente a necessidade de um boletim de resumos destinado clientela interna de uma
instituio. O centro de informaes de uma empresa ou outro tipo de organizao em que
haja um forte programa de pesquisas pode almejar produzir seu prprio boletim em virtude de:
1. Os peridicos de resumos existentes no serem suficientemente atuais na cobertura
de materiais fundamentais e do maior interesse para a instituio.
2. Nenhuma base de dados, isoladamente, em formato impresso ou eletrnico abranger,
provavelmente, todos os materiais de interesse para a instituio. Na realidade,
muitas bases de dados so relevantes para os interesses da instituio quando se
tem em conta a diversidade de contedo temtico e de formas documentais.
3. Nenhuma base de dados externa abranger certos materiais de importncia e, de
modo mais evidente, os relatrios internos da prpria instituio literatura de
fabricantes, material publicitrio dos concorrentes, etc.
Para otimizar os procedimentos empregados na produo do boletim interno, ser preciso
identificar os materiais que sero resumidos diretamente. Estes certamente incluiro os
relatrios internos da prpria empresa e materiais externos considerados de especial
importncia. Por exemplo, algum pertencente ao quadro de pessoal do centro poder
examinar todas as patentes novas e preparar resumos daquelas que se revistam de possvel
interesse para a empresa - o que em si mesmo, uma arte. Valendo-se dos mtodos a serem
examinados no captulo seguinte, ser identificada uma lista bsica de peridicos que quase
com certeza, so extraordinariamente produtivos no que concerne aos interesses da
instituio. Esses peridicos tambm sero resumidos diretamente.

104

possvel que as fontes analisadas dessa forma regularmente produzam por hiptese, de
80 a 90% da bibliografia a ser includa no boletim interno. Para elevar essa cobertura bem
acima do nvel de 90% ser preciso utilizar fontes impressas de carter mais genrico. Os
membros da equipe que analisa os peridicos pertencentes lista bsica procura de artigos
de interesse devem tambm examinar os servios de indexao/resumos em formato impresso
que forem apropriados. Isto revelar outros itens relevantes, como, por exemplo, os que
aparecem em fontes que no so adquiridas por assinatura diretamente. Uma fonte
abrangente no campo cientfico, como o Chemical Abstracts, particularmente til para a
localizao de itens de interesse potencial.

Figura 52 Regras, destinadas a resumidores, concernentes s caractersticas


de recuperabilidade dos resumos
Reproduzidas de Fidel (1986) com permisso de Emerald

Pode-se perguntar por que, em 2003, algum consultaria servios secundrios impressos
ao invs de regularmente fazer buscas em linha nas bases de dados apropriadas. Este seria o
modo de atuao preferido de uma instituio cujos interesses estivessem claramente
delimitados e que pudessem ser expressos de forma bastante abrangente numa estratgia de
busca. Algumas organizaes, porm, tm tal diversidade de interesses heterogneos que se
torna muito difcil localizar itens de interesse potencial, salvo mediante consulta a amplas
sees de fontes publicadas. Ademais, a serendipidade desempenha aqui importante papel:
um bom especialista em informao pode identificar itens relevantes para uma empresa que
talvez estejam fora de seu perfil de interesse, como, por exemplo, uma nova aplicao
potencial para um produto da empresa.
De qualquer modo, o boletim interno ser compilado mediante a anlise tanto de fontes
primrias quanto secundrias, estas complementando a cobertura das anteriores. Num grande
centro de informao, a equipe responsvel pela anlise da literatura incluiria algumas pessoas
que teriam como tarefa principal o exame de materiais estrangeiros, a redao de resumos no
vernculo e a realizao de tradues integrais de itens julgados bastante importantes.
105

Quanto redao mesma dos resumos, as pessoas incumbidas disso economizaro muito
tempo ao fazerem marcaes no texto do prprio documento, a fim de que a entrada de dados
seja feita diretamente da publicao. Em alguns casos ser possvel utilizar diretamente os
resumos de autor, ou necessitaro de alguma alterao, como cortes ou acrscimos. Em outros
casos, pode-se elaborar um resumo perfeitamente satisfatrio extraindo-se pores do texto,
talvez da parte correspondente s concluses ou resultados. Naturalmente, sempre haver
alguns itens que exigiro a redao de resumos originais, seja porque no exista um resumo
satisfatrio, seja porque o processo de elaborao do extrato inadequado, ou porque algum
aspecto de grande interesse para a empresa, porm de interesse secundrio para o autor,
precisa ser ressaltado.
Os resumos preparados para uso interno podem ser disseminados de vrios modos.
Destes, o mais comum um boletim duplicado mecanicamente e que seja editado com
regularidade. Tendo em vista que o mesmo pode ser considerado como um instrumento de
informao da maior importncia para a empresa, deveria, se possvel, ser editado
semanalmente. Os resumos seriam organizados em sees que permaneceriam mais ou menos
constantes, ao longo das semanas, de modo a facilitar a consulta. Seria includo um sumrio
analtico, com indicao de sees e subsees. Um boletim desse tipo pode conter de 80 a
150 resumos. A cada resumo atribudo um nmero exclusivo para fins de identificao e
ordenao. Deve haver um formulrio apenso ao boletim para que seus destinatrios
encaminhem pedidos dos documentos resumidos.
O boletim de resumos ser distribudo para os nomes constantes de uma lista de
destinatrios. Para certos nomes-chave da organizao, o centro de informao poder fazer
algo mais, afixando um memorando capa do boletim, que chamar a ateno de cada uma
dessas pessoas para itens que talvez sejam especialmente relevantes. A forma convencional
de expressar isso seria mais ou menos a seguinte: Se seu tempo s for suficiente para
examinar poucos itens, provvel que os seguintes sejam de seu particular interesse.
Uma alternativa ao boletim como tal , evidentemente, disseminar os resumos como
itens separados. Isso requer que os disseminadores possuam uma imagem ntida e abrangente
dos interesses individuais, de modo que cada pessoa receba somente itens que lhe sejam
potencialmente pertinentes, ou que algum programa de computador seja utilizado para cotejar
caractersticas dos resumos com perfis de interesses individuais.
Realmente no recomendvel a distribuio de resumos separados. Isso exige muito
mais trabalho de parte do centro de informao e elimina a possibilidade de o usurio
encontrar outras informaes percorrendo as pginas a esmo. Um boletim bem-organizado
um instrumento de disseminao mais eficaz. Chamar a ateno para itens selecionados do
boletim, com o objetivo de poupar tempo a pessoas-chave, um substituto eficaz da
disseminao de resumos separados.
Ao criar um boletim interno, o centro de informao estar, evidentemente, formando
uma base de dados. Alm disso, trata-se de uma base de dados que ser de grande utilidade
potencial para a instituio. Dever ser acessvel em linha dentro da empresa, de uma forma
que se preste a buscas eficazes. Cada resumo pode ser indexado (pela prpria pessoa que o
redige), seu texto prestar - se a buscas ou o sistema de recuperao adotar uma combinao
de termos de indexao com expresses do texto.
claro que a intranet da prpria instituio pode ser usada para disseminar resumos
eletronicamente para as pessoas e/ou tornar o boletim acessvel na ntegra para consultas em
linha. No obstante, ainda h muitos argumentos favorveis utilidade para consulta de um
boletim distribudo em formato impresso.
Inclinao para um assunto
Mencionou-se a inclinao para um assunto no captulo anterior. Quando uma publicao
de resumos projetada para ser utilizada por um grupo de pessoas que possuem interesses
claramente definidos e especializados (como seria o caso de um boletim interno),
conveniente, sem dvida, que cada resumo seja moldado aos interesses precisos do grupo.
Isso foi reconhecido no projeto de anlises de contedo modulares (Lancaster et al., 1965)
descrito no captulo 7. Para que essas anlises tivessem 9 mximo de utilidade para um grupo
diversificado de servios secundrios, props-se que incorporassem mdulos temticos. Uma
anlise de contedo incluiria um resumo bsico mais pargrafos suplementares, cada um dos
quais seria moldado aos interesses de determinado grupo. As entradas de ndice fornecidas
tambm refletiriam essa diversidade de interesses. O apndice 2 exemplifica o mtodo: o
resumo bsico sobre contato de chama complementado com pargrafos que relacionam o

106

trabalho a interesses em fisiologia e medicina, indstria de plsticos, indstria da borracha


e s indstrias de roupas de proteo e aeronutica.

107

Captulo 9 Aspectos da avaliao


O tema da avaliao tratado em diversos captulos deste livro. O captulo 1, por
exemplo, refere-se aos critrios de avaliao dos resultados de buscas realizadas numa base
de dados, enquanto o captulo 6 focaliza a qualidade da indexao e os critrios segundo os
quais essa qualidade pode ser aferida.
A indexao e a redao de resumos no so atividades que devam ser consideradas
como fins em si mesmas. So os resultados dessas atividades que devem ser avaliados e isso
somente pode ser feito no contexto de determinada base de dados, seja ela em formato
impresso ou eletrnico. Nesse contexto, a indexao avaliada como bem-sucedida quando
permite a quem realiza as buscas localizar itens de que precisa sem ter de examinar muitos de
que no precisa. Os resumos so bem-sucedidos quando permitem prever corretamente quais
os documentos que sero teis a um consulente e quais no sero, ou se so teis como
substitutos do documento em buscas textuais.
Uma base de dados bibliogrficos no pode ser avaliada de forma isolada, mas somente
em funo de sua utilidade ao responder a vrias necessidades de informaes. No que
concerne a determinada necessidade de informao, avalia-se uma base de dados de acordo
com quatro critrios principais:
1. Cobertura. Quantos documentos sobre um assunto, publicados durante de terminado
perodo, se acham includos na base de dados?
2. Recuperabilidade. Quantos documentos sobre o assunto, includos na base de dados,
so encontrados com o emprego de estratgias de busca razoveis?
3. Previsibilidade. Ao utilizar informaes da base de dados, com que eficincia o usurio
pode aferir quais os itens que sero e os que no sero teis?
4. Atualidade. Os itens publicados recentemente so recuperveis, ou atrasos na
indexao/redao e resumos provocam uma situao em que os itens recuperados
mostram resultados de pesquisas antigos ao invs de novos?
Cobertura
A avaliao da cobertura de uma base de dados bastante semelhante avaliao da
completeza do acervo de uma biblioteca em relao a um assunto. Na realidade, o acervo de
livros de uma biblioteca em si mesmo uma base de dados, do mesmo modo que o catlogo
da biblioteca - um uma base de dados de artefatos, e o outro, uma base de dados de
representaes desses artefatos.
Uma forma de avaliar a cobertura do acervo de uma biblioteca sobre determinado
assunto consiste em obter bibliografias confiveis sobre esse assunto e cotej-las com o
acervo. Esta tcnica tambm pode ser aplicada avaliao da cobertura de servios de
indexao/resumos. Martyn (1967) e Martyn e Slater (1964) exemplificaram o emprego desse
mtodo. Suponhamos, por exemplo, que se queira avaliar a cobertura do Index Medicus sobre
o assunto leucemia felina. Com sorte, poder-se- encontrar uma bibliografia que parea ou
afirme ser exaustiva a respeito desse assunto para determinado perodo. Neste caso, a tarefa
fcil: cotejam-se as entradas da bibliografia com o ndice de autores do Index Medicus, a fim de
determinar quais os itens que so e os que no so includos. Como resultado disso conclui-se
que o Index Medicus cobre, digamos, 84% mais ou menos da literatura sobre esse assunto.
Evidentemente, preciso conhecer algo a respeito das diretrizes adotadas pela base de dados
que est sendo avaliada; por exemplo, que o Index Medicus se dedica quase exclusivamente a
artigos de peridicos e no inclui monografias.
Essa tcnica no est isenta de problemas. Em primeiro lugar, no fcil encontrar
bibliografias exaustivas. Alm disso, talvez se ignore totalmente como uma bibliografia foi
compilada. Se a bibliografia sobre leucemia felina tiver sido compilada basicamente com a
utilizao do Index Medicus (ou seu equivalente eletrnico) sua utilidade ser muito limitada
para a avaliao desta ferramenta.
O fato que, evidentemente, no precisamos realmente de uma bibliografia exaustiva
para avaliar a cobertura de uma base de dados sobre um assunto; basta uma amostra de itens
que seja representativa. Uma forma de obter essa amostra usar uma base de dados como
fonte de itens com os quais ser avaliada a cobertura de outra base de dados. Suponhamos,
por exemplo, que algum quisesse saber o grau de completeza da cobertura do Engineering
Index em relao ao assunto supercondutores. Consultar-se-ia o Physics Abstracts, a fim de
identificar, por hiptese, 2001tens que este servio tivesie indexado sob supercondutores ou
supercondutividade, e este conjunto seria utilizado para calcular a cobertura do Engineering
Index. Depois de cotej-lo com os ndices de autores do Engineering Index, verificar-se-ia que
108

ali se encontram 142/200, o que nos d uma cobertura estimativa de 71%. O fato de os
2001tens no serem todos os itens publicados sobre supercondutores no importante; tratase, em certo sentido, de um conjunto representativo de itens sobre supercondutores e
constitui uma amostra perfeitamente legtima para se usar na estimativa de cobertura.
Seria possvel, obviamente, fazer o percurso inverso, empregando itens extrados do
Engineering Index para avaliar a cobertura do Physics Abstracts. Dessa forma tambm se
determina o grau de duplicidade e exclusividade de dois (ou mais) servios, como se acha
representado no diagrama no final deste pargrafo. Obtm-se esses resultados extraindo-se de
A uma amostra aleatria de itens sobre supercondutores e cotejando-os com B, e extraindo-se
de B uma amostra aleatria de itens sobre supercondutores e cotejando-os com A. Essas
amostras nos permitiriam estimar a cobertura de A (181/200 ou cerca de 90% no exemplo
hipottico acima), a cobertura de B (168/200 ou cerca de 84%), o grau de duplicidade entre os
servios (149/200 ou cerca de 75%), e a exclusividade (cerca de 16% dos itens includos por A,
ou seja, 32/200, aparecem exclusivamente nesse servio enquanto a cifra comparvel para B
est um pouco abaixo de 10% (19/200)). O mesmo tipo de resultado seria alcanado, e sob
certos aspectos mais facilmente, se extrassemos uma amostra de uma terceira fonte, c, para
estimar a cobertura, a duplicidade e a exclusividade de A e B.

Nas consideraes acima, pressups-se a avaliao de uma base de dados em formato


impresso. Os procedimentos no difeririam de modo significativo caso fossem aplicados a uma
base de dados em formato eletrnico. maante, sem dvida, dar entrada a talvez centenas
de nomes de autores, a fim de determinar a cobertura de uma fonte em linha. A soluo deste
problema est em realizar, inicialmente, uma ampla busca por assunto (de qualquer modo
necessria, se se quiser determinar a recuperabilidade; ver comentrios adiante), e, em
seguida, fazer buscas complementares por autor. Adotando o mesmo exemplo, extrair-se-ia
uma amostra de itens indexados sob SUPERCONDUTORES ou SUPERCONDUTIVIDADE da base
de dados INSPEC, a fim de avaliar a cobertura deste assunto no COMPENDEX. O primeiro passo
seria fazer uma busca no COMPENDEX sob os termos relativos a supercondutores, a fim de
verificar quantos dos itens da amostra teriam sido recuperados. O passo seguinte seria realizar
buscas por autor, a fim de determinar se os itens da outra amostra apareciam ou no no
COMPENDEX e, em caso positivo, descobrir como foram indexados.
Existe a possibilidade de ocorrer um problema quando se trata de extrair uma amostra de
itens de uma base de dados para avaliar a cobertura de outra. Em alguns casos uma base de
dados em formato impresso indexar os itens apenas sob os termos considerados mais
importantes. Isso acontece com o Index Medicus, por exemplo, de modo que itens indexados
sob o termo FELINE LEUKEMIA VIRUS [vrus da leucemia felina] sero somente aqueles que
tratam do assunto de modo predominante e no os que tratam do mesmo assunto de modo
perifrico. Ao utilizar uma amostra extrada do Index Medicus para avaliar outro servio, temos,
portanto, de admitir que a estimativa da cobertura desse servio diz respeito apenas
cobertura de artigos de peridicos que tratam predominantemente do assunto. No entanto, se
extrairmos nossa amostra da base de dados MEDLINE (fundamentalmente o equivalente
eletrnico do Index Medicus), no teremos esse problema, pois um termo de indexao como
FELINE LEUKEMIA VIRUS ser ali empregado para se referir a este assunto quando abordado de
modo perifrico, bem como quando abordado de modo predominante. Tambm em certos
ndices impressos no feita qualquer distino entre termos mais importantes e menos
importantes. Por exemplo, uma amostra de assunto poderia ser extrada de um dos ndices da
Excerpta Medica com a expectativa razovel de que os itens escolhidos incluiriam alguns em
que o assunto tratado de maneira que no chega a ser predominante.
Obviamente, ao extrair amostras de um servio de indexao/resumos para avaliar outro,
leva-se em conta as datas de publicao. Por exemplo, pode-se extrair uma amostra de itens
includos na Excerpta Medica durante o ano de 1997. Se for utilizada para avaliar a cobertura
do Index Medicus, provavelmente sero confrontados em primeiro lugar os ndices de autores
correspondentes a 1997. Quaisquer itens que no forem a encontrados sero cotejados com
109

os ndices de 1998 (e talvez at posteriores) ou 1996 (e mesmo, em alguns casos, anteriores),


tendo em vista que a National Library of Medicine no ter necessariamente indexado os
documentos na mesma poca em que o fez a Excerpta Medica Foundation. Ao agir assim,
pode-se, evidentemente, ter alguma idia da atualidade relativa das duas ferramentas. Mais
adiante, neste captulo, trataremos da questo da atualidade.
H outra fonte que pode ser utilizada para avaliar a cobertura de uma base de dados: as
referncias bibliogrficas que aparecem nos artigos de peridicos. Voltando ao exemplo j
citado, suponhamos que identificamos uma quantidade de artigos publicados recentemente
em peridicos cientficos que tratam de leucemia felina. As referncias bibliogrficas includas
nesses artigos sero usadas para compor uma bibliografia a ser aplicada na avaliao da
cobertura do Index Medicus ou de um dos ndices da Excerpta Medica.
H uma evidente diferena entre utilizar itens retirados de bibliografias sobre leucemia
felina (ou itens indexados sob esse termo em alguma ferramenta bibliogrfica) e utilizar
referncias bibliogrficas de artigos de peridicos: os primeiros, provavelmente, sero itens
que tratam de leucemia felina de per si enquanto os ltimos so as fontes de que necessitam
os pesquisadores que atuam na rea da leucemia felina. provvel que estas ltimas fontes
ultrapassem bastante o assunto especfico e, de fato, abranjam um amplo setor das cincias
biolgicas e talvez at de outros campos. O avaliador pode optar por excluir quaisquer itens
que lhe paream perifricos ao tpico da avaliao ou inclu-los, com a justificativa de que uma
ferramenta bibliogrfica, para que seja til para o pesquisador desse assunto, deve
proporcionar acesso a todos os materiais afins necessrios fundamentao de sua pesquisa.
Na avaliao de uma base de dados que se restrinja quase exclusivamente a artigos de
peridicos (como o.caso do Index Medicus), poder-se-la tomar um atalho bvio para chegar a
uma estimativa de cobertura. Tendo extrado uma amostra de outra fonte, ou fontes,
identificar-se-iam os artigos de peridicos e depois simplesmente se faria uma checagem para
verificar se esses peridicos so regularmente abrangidos pelo Index Medicus. Com toda a
probabilidade isso daria uma estimativa de cobertura razovel. Se se quisesse ser mais
preciso, entretanto, os itens da amostra (ou pelo menos um subconjunto extrado
aleatoriamente) seriam checados por nome de autor, devido ao fato de certos peridicos
serem indexados apenas seletivamente, e de alguns artigos (e talvez fascculos completos de
alguns peridicos) que deveriam ter sido indexados no o serem por algum motivo. 1 O atalho
que passa pelos ttulos dos peridicos menos til para a avaliao da cobertura de uma base
de dados que inclua itens publicados de todos os tipos, e no tem utilidade alguma no caso de
uma base de dados altamente especializada que procure incluir tudo sobre determinado
assunto, de qualquer fonte, sem se restringir a determinado conjunto de peridicos.
H vrias razes possveis que justificam uma avaliao de cobertura. Por exemplo, um
centro de informao quer saber se determinada base de dados, como a do Chemical
Abstracts, cobre de forma exaustiva sua rea de especializao ou se precisaria recorrer a
vrias bases de dados para conseguir cobertura mais completa. Tambm o produtor de uma
base de dados pode estar interessado em saber em que medida ela cobre satisfatoriamente
determinada rea. Neste caso, seria importante determinar quais os tipos de publicaes que
oferecem maior cobertura e os que oferecem menor cobertura. Para tanto, seria preciso
classificar os itens abrangidos e os no abrangidos, segundo certas caractersticas, como tipo
de documento, lngua, lugar de publicao e ttulo do peridico.
A partir desses dados poder-se-la determinar como seria possvel melhorar a cobertura de
modo a proporcionar a melhor relao custo-eficcia. Ao estudar a cobertura de bases de
dados importante estar atento ao fenmeno da disperso. Este fenmeno prejudica as bases
de dados altamente especializadas, bem como a biblioteca ou centro de informao muito
especializado, e favorece a base de dados, biblioteca ou centro de teor mais geral. Vejamos,
por exemplo, um centro de informao sobre AIDS, cuja meta seja colecionar a bibliografia
desse assunto de modo exaustivo e assim criar uma base de dados abrangente. As dimenses
deste problema so exemplificadas nas figuras 53-59 que se baseiam em buscas feitas na base
MEDLINE em 1988. A figura 53 mostra que somente 24 artigos de peridicos sobre AIDS foram
publicados at o final de 1982; no ano de 1987 esta bibliografia alcanou 8 510 itens. Em
1982, toda a bibliografia de AIDS se limitava a trs idiomas, porm, em 1987, eram 25 as
lnguas utilizadas e 54 os pases que contribuam para essa literatura (figuras 54 e 55). Mais
eloqente a figura 56, que mostra que toda a bibliografia de AIDS se achava em apenas 14
peridicos em 1982, mas em 1987 a participao era de quase 1 200 peridicos!
1

Por exemplo, Thorpe (1974), ao estudar a literatura de reumatologia, obteve uma estimativa de cobertura para o
Index Medicus com base nos ttulos de peridicos que foi um tanto diferente daquela baseada nos artigos dos
peridicos. Brittain e Roberts (1980) tambm apresentam indicaes sobre a necessidade de estudar a cobertura e a
duplicidade no mbito dos artigos.

110

Todos esses exemplos demonstram o fenmeno da disperso. medida que cresce, a


bibliografia de um assunto torna-se cada vez mais dispersa (mais pases presentes, mais
lnguas utilizadas, mais peridicos que publicam, maior variedade de documentos) e, portanto,
mais difcil de identificar, coletar e organizar.

Figura 53 Crescimento da literatura cientfica sobre AIDS, 1982-1987 (Fonte:


MEDLINE)

Figura 54 Literatura sobre AIDS: cobertura por idioma, 1982-1987 (Fonte:


MEDLINE)

Figura 55 Literatura sobre AIDS: cobertura por pas, 1982-1987 (Fonte:


MEDLINE)

Figura 56 Nmero de peridicos que publicam artigos sobre AIDS, 1982-1987


(Fonte: MEDLINE)

111

Figura 57 Disperso da literatura de peridicos sobre AIDS em 1987 (Fonte:


MEDLINE)

o aspecto mais impressionante da disperso diz respeito separao de artigos entre os


ttulos de peridicos. Foi Bradford quem primeiro observou este fenmeno, em 1934, fenmeno
ao qual nos referimos atualmente como Lei da Disperso de Bradford. Ela est demonstrada
nitidamente na figura 57, que apresenta a disperso de artigos de peridicos sobre AIDS no
perodo 19821987. O primeiro peridico da lista participou com 550 trabalhos num perodo de
seis anos, o segundo com 351 trabalhos e o terceiro com 307 trabalhos.
Observe-se que dois peridicos contriburam com 67 trabalhos cada um, dois com 47
cada um, e assim sucessivamente at o fim da lista, onde temos 452 peridicos que
participaram com apenas um nico artigo cada um para a bibliografia de AIDS durante seis
anos. Bem mais de um tero da literatura acha-se concentrado em apenas 15 peridicos. Para
alcanar o tero seguinte, preciso, no entanto, acrescentar mais 123 peridicos, enquanto o
tero final acha-se disperso em mais de mil peridicos adicionais. Esta distribuio proporciona
uma demonstrao eloqente da lei dos rendimentos decrescentes. Isso revelado de modo
ainda mais ntido na figura 58, que representa graficamente a percentagem de artigos em
comparao com a percentagem de peridicos que contriburam com artigos. Note-se que,
medida que se ascende na curva, a disperso de artigos entre os ttulos de peridicos cresce
em proporo aproximadamente geomtrica: o primeiro tero dos artigos em 15 peridicos, o
segundo em 123 peridicos (15 x 8,2), e o tero final em 1 008 peridicos (numa aproximao
grosseira, 15 x 8,22). Esta uma distribuio tipicamente bradfordiana.
evidente que um centro de informao que esteja formando uma base de dados sobre o
assunto AIDS no poder montar este servio apoiando-se na assinatura direta de todos os
peridicos que publicam artigos de interesse. Contudo, a lista desses peridicos em ordem de
nmero de artigos publicados (figura 57) pode ser utilizada para identificar uma lista bsica de
peridicos que meream ser adquiridos e examinados sistematicamente. A figura 59 mostra
como seria o topo dessa lista, com base em dados de 1982-1987. At que ponto dessa lista
ordenada chegaria o centro de informao algo que dependeria em parte de seus recursos
financeiros. Entretanto, mesmo dispondo de recursos ilimitados, o centro no poderia adquirir
todos os peridicos que publicam artigos sobre AIDS. Na medida em que se desce na lista
ordenada, diminui a previsibilidade dos ttulos dos peridicos. Assim, os dez ttulos do topo em
1982-1987 talvez continuem ocupando essa posio durante os prximos cinco anos. Isso,
112

porm no garantido. No caso da AIDS, por exemplo, existem atualmente novos peridicos
dedicados exclusivamente a este assunto e que provavelmente viro a aparecer entre os dez
do topo da lista durante o perodo de 1987 em diante, talvez at ocupando o primeiro lugar. No
entanto, bastante provvel que todos os peridicos da figura 59 continuaro entre os mais
produtivos sobre AIDS ainda por algum tempo. Os peridicos na faixa intermediria da
distribuio (isto , aproximadamente os do meio da tabela da figura 57) so muito menos
previsveis podero ou no continuar publicando artigos relacionados AIDS. OS ttulos que
aparecem no p da tabela so bastante imprevisveis: um peridico que tenha publicado
somente um artigo sobre AIDS em cinco ou seis anos talvez nunca mais venha a publicar outro
artigo sobre o mesmo assunto.
Ao procurar formar uma base de dados especializada em AIDS, portanto, o centro de
informao cobrir uma parte dessa literatura por meio de assinatura direta - talvez uns 100
peridicos, mais ou menos - e identificar os outros itens que tratam de AIDS mediante buscas
sistemticas em outras bases de dados de mais amplo alcance: MEDLINE, BIOSIS, etc.

Figura 58 Grfico da disperso da literatura sobre AIDS

Figura 59 Peridicos cientficos que publicaram a maioria dos artigos sobre


AIOS, 1982-1987 (Fonte: MEDLINE)

Martyn (1967) e Martyn e Slater (1964) realizaram os estudos clssicos sobre cobertura
de servios de indexao/resumos, porm h, na bibliografia, muitos outros trabalhos sobre
cobertura ou duplicidade. Por exemplo, Goode et al. (1970) compararam a cobertura do
Epilepsy Abstracts, um produto da Excerpta Medica Foundation, com a do Index Medicus,
enquanto Wilkinson e Hollander (1973) compararam a cobertura do Index Medicus e do Drug
Literature Index.
Dois estudos fizeram uma comparao entre Biological Abstracts, Chemical Abstracts e
Engineering Index e seus equivalentes em formato eletrnico: Wood et al. (1972) compararam
a cobertura das trs fontes em termos de ttulos de peridicos, enquanto Wood et al. (1973) as
compararam em termos de artigos de peridicos selecionados para cobertura.
Talvez o maior estudo sobre duplicidade foi o relatado por Bearman e Kunberger (1977),
que analisaram 14 servios diferentes e quase 26 000 peridicos por eles indexados, tendo
tratado da duplicidade e exclusividade de cobertura.
Embora o Index Medicus tenha sido analisado mais vezes do que qualquer outra fonte, a
Bibliography of Agriculture foi tema do estudo mais intensivo sobre cobertura. Em dois
113

relatrios afins, Bourne (1969a, b) comparou a cobertura dessa fonte com a de 15 outros
servios e calculou sua cobertura de tpicos especficos, empregando para isso as bibliografias
que acompanham os captulos de anurios de reviso da literatura.
Montgomery (1973) estudou a cobertura da literatura de toxicologia em Chemical
Abstracts, Biological Abstracts, Index Medicus, Excerpta Medica, Chemical Biological Activities e
Science Citation Index. Este foi um estudo inusitado, pois coletou um conjunto de 1873
referncias da literatura de toxicologia (1960-1969) junto a 221 membros da Society of
Toxicology e as utilizou como base para comparao das diversas fontes.
OConnor e Meadows (1968) estudaram a cobertura de astronomia no Physics Abstracts,
Gilchrist (1966), a cobertura da literatura de documentao (especificamente itens sobre a
avaliao de sistemas de informao) em seis servios, e Fridman e Popova (1972), a cobertura
de primatologia experimental no Referativnyi Jurnal. Brittain e Roberts (1980) tratam da
duplicidade no campo da criminologia, e Robinson e Hu (1981) comparam a cobertura de bases
de dados no campo da energia. Edwards (1976) incluiu a cobertura como um aspecto de seu
estudo sobre ndices em biblioteconomia e cincia da informao. La Borie et al. (1985)
estudam a duplicidade em quatro servios secundrios em biblioteconomia / cincia da
informao, baseando-se em ttulos de peridicos, e comparam os ttulos cobertos por esses
servios com aqueles cobertos por seis servios nas cincias, inclusive cincias sociais. Outros
pesquisadores estudaram a cobertura de determinados tipos de publicaes (por exemplo,
Hanson e Janes (1961) realizaram uma pesquisa sobre a cobertura, por parte de vrios
servios, de trabalhos apresentados em eventos, e Oppenheim (1974) examinou a cobertura
de patentes pelo Chemical Abstracts), ou a cobertura de um assunto altamente especfico (por
exemplo, o estudo de Smalley (1980) sobre a comparao de duas bases de dados do ponto de
vista de sua cobertura da bibliografia sobre condicionamento operante).
Os estudos de cobertura so menos comuns hoje em dia, mas de vez em quando aparece
algum na literatura. Brown et al. (1999), por exemplo, comparam a cobertura do Current Index
to Journals in Education com o Education Index.
Estudos de cobertura ou duplicidade no so necessariamente meros exerccios
intelectuais. Alguns so realizados visando a objetivos definidos, dos quais o mais evidente
como melhorar a cobertura de algum servio. Outra finalidade desses estudos a identificao
de uma lista bsica de peridicos em determinado campo, identificados pelo fato de serem
todos considerados merecedores de indexao por vrios servios diferentes. Um exemplo de
um estudo desse tipo relatado por Sekerak (1986), que conseguiu identificar uma lista bsica
de 45 peridicos no campo da psicologia a partir de um estudo sobre duplicidade entre cinco
servios da rea de psicologia/ateno sade.
Recuperabilidade
Para quem estiver procurando informaes sobre determinado assunto, ser importante a
cobertura de uma base de dados sobre esse assunto, principalmente se tiver de fazer uma
busca exaustiva. Evidentemente, a recuperabilidade tambm importante; considerando que
uma base de dados inclui n itens sobre um assunto (o que se pode estabelecer por meio de um
estudo de cobertura), quantos desses itens ser possvel recuperar ao fazer uma busca na
base de dados?
Isso comprovado mediante um estudo que complementar a uma pesquisa sobre
cobertura. Suponhamos que queremos estudar a cobertura e a recuperabilidade de uma
variedade de assuntos que se situam no mbito da base de dados AGRICOLA. Para cada um de
dez assuntos, temos um conjunto de itens bibliogrficos (estabelecido por um dos mtodos
antes descritos) e, para cada conjunto, sabemos quais os itens que se acham e os que no se
acham includos no AGRICOLA. Para cada assunto teramos uma busca realizada por um
especialista em informao conhecedor do AGRICOLA, e aferiramos a recuperabilidade com
base na proporo de itens conhecidos que o especialista conseguir recuperar. Por exemplo, na
primeira busca sobre insetos daninhos soja, sabemos que existem 80 itens sobre este tpico
que se acham includos no AGRICOLA. O especialista, contudo, somente conseguiu encontrar
60 desses itens, ou seja, uma revocao (ver captulo 1) de apenas 75%.
claro que este tipo de estudo testa no apenas a base de dados e sua indexao, mas
tambm a capacidade da pessoa que faz a busca. O efeito desta varivel pode ser atenuado
fazendo-se com que a mesma busca seja feita de modo independente por vrios especialistas
em informao, a fim de determinar que resultados em mdia podem ser esperados de uma
busca sobre o assunto. Os resultados poderiam ser tambm considerados como probabilidades:
por exemplo, 50/80 foram encontrados por todos os trs especialistas (probabilidade de
recuperao 1,00), 6/80 por dois dos trs especialistas (probabilidade de recuperao 0,66),
114

4/80 por apenas um dos especialistas (probabilidade de recuperao 0,33), e 20/80 por
nenhum deles (probabilidade de recuperao zero).
Observe-se que a recuperabilidade (revocao) avaliada somente tendo em conta os
itens conhecidos por antecipao como relevantes para o assunto da busca e que se acham
includos na base de dados. A busca sobre pragas de insetos que atacam a soja pode recuperar
um total de 2001tens, dos quais, digamos, 150 parecem relevantes. Se apenas 60 dos 80 itens
conhecidos como relevantes forem recuperados, a estimativa de revocao de 0,75 o que
implica que os 150 itens recuperados representam aproximadamente 75% do total de itens
relevantes presentes na base de dados.
O coeficiente de revocao, evidentemente, refere-se apenas a uma dimenso da busca.
A fim de estabelecer um coeficiente de preciso (ver captulo 1), seria preciso que todos os
itens recuperados fossem de algum modo, avaliados quanto sua relevncia (por exemplo, por
um grupo de especialistas no assunto). Uma alternativa seria medir a relao custo-eficcia,
determinando-se o custo por item relevante recuperado. Por exemplo, o custo total de uma
busca em linha (inclusive o tempo do especialista em buscas) seria de 75 dlares. Se forem
recuperados 150 itens relevantes, o custo por item relevante ser de 50 centavos.
Existe um modo alternativo de estudar a recuperabilidade de itens de uma base de
dados, o qual envolve uma espcie de simulao. Suponhamos que sabemos existirem numa
base de dados 80 itens relevantes sobre o assunto X e que podemos recuperar e imprimir
registros que mostrem como esses itens foram indexados. Podemos, ento, por assim dizer,
simular uma busca registrando o nmero de itens recuperveis sob vrios termos ou
combinaes de termos. Um exemplo hipottico disso mostrado na figura 60. Nesse caso,
38/80 itens conhecidos como relevantes para o assunto supercondutores aparecem sob o
termo SUPERCONDUTORES, enquanto 12 outros so encontrados sob SUPERCONDUTlVIDADE.
No se encontram itens adicionais sob esses dois termos, mas somente sob os termos A-J.
Conclui-se, a partir de uma anlise desse tipo, que 50/80 itens so facilmente recuperveis e
que 62/80 seriam localizados por um especialista sagaz porque os termos A e B ou esto
relacionados de perto com supercondutores, ou esto explicitamente ligados ao termo
SUPERCONDUTORES por intermdio de remissivas na base de dados. Conclui-se ainda que
18/80 provavelmente no seriam recuperados porque aparecem somente sob termos que no
tm relao direta com supercondutores (por exemplo, podem representar aplicaes do
princpio da supercondutividade).
Albright (1979) realizou minucioso estudo desse tipo empregando o Index Medicus.
Buscas simuladas, feitas sobre dez assuntos diferentes, revelaram que, em mdia, teriam de
ser consultados 44 termos diferentes para recuperar todos os itens que se sabia serem
relevantes para determinado assunto. Embora alguns estivessem ligados, por meio da
estrutura hierrquica ou de remissivas do vocabulrio do sistema, muitos no apresentavam
essa ligao, e seria improvvel que mesmo um especialista em buscas, persistente e
habilidoso, viesse a consult-los. A figura 61 mostra um exemplo do trabalho de Albright. Na
realidade, somente um especialista em buscas que fosse muito inteligente e persistente
obteria alta revocao numa busca sobre esse tpicos no Index Medicus.
Assim como os artigos esto dispersos pelos ttulos de peridicos, os itens sobre um assunto
includos numa base de dados esto dispersos sob muitos termos diferentes. o que mostra
graficamente a figura 62. possvel que, para determinado assunto, se encontre uma
percentagem relativamente alta de itens relevantes sob um pequeno nmero de termos
bvios (por exemplo, SUPERCONDUTORES ou SUPERCONDUTIVIDADE numa busca sobre
supercondutores). Acrescentando outros termos bastante afins, talvez ligados aos termos na
estrutura do vocabulrio da base de dados, eleva-se a revocao para, digamos, 70-80%. Ainda
sobrariam, neste caso hipottico, uns 20 a 30% de itens esquivos que o especialista em buscas
provavelmente no conseguiria encontrar.

115

Figura 60 Exemplo hipottico da distribuio de itens sobre supercondutores


sob termos num ndice impresso

Figura 61 Distribuio de itens sobre imunologia celular no porco sob termos


no Index Medicus
Apud Albright (1979) com permisso do autor1

Figura 62 Disperso de itens sob termos de indexao

Esta anlise sobre simulaes foi deliberadamente simplificada pelo fato de, em grande
parte, ter suposto que uma busca teria apenas uma nica faceta ou, pelo menos, seria uma
busca feita num ndice impresso onde s se pode consultar um termo de cada vez. A simulao
de uma busca numa base de dados em linha, que comumente envolve mais de uma faceta,
ser um pouco mais complicada. Por exemplo, numa busca sobre pragas de insetos que
atacam a soja, temos de admitir que s se recuperaria algum item se ele estivesse indexado
sob um termo designativo de inseto bem como sob um termo que indicasse soja.
Albright (1979) realizou o estudo de recuperabilidade mais completo, utilizando, porm,
uma nica fonte, o Index Medicus. Martyn (1967) e Martyn e Slater (1964) examinaram a
1

Para a traduo destes termos, ver Descritores em Cincias da Sade (DeCS) em http://decs.bvs.br/.

116

disperso de material relevante sob termos de indexao em vrios servios impressos, e


Bourne (1969a, b) tambm deu ateno disperso em seus estudos sobre a Bibliography of
Agriculture. Carroll (1969) estudou a disperso da literatura de virologia no Biological Abstracts
e encontrou trabalhos sobre essa rea dispersos em 20 sees dessa ferramenta alm das que
se referiam diretamente virologia. OConnor e Meadows (1968) encontraram disperso
semelhante da literatura de astronomia no Physics Abstracts.
Davison e Matthews (1969) examinaram a recuperabilidade de itens sobre computadores
em espectrometria de massa em 11 servios, bem como a cobertura desse assunto por parte
desses servios. Thorpe (1974) calculou a revocao e a preciso de buscas sobre
reumatologia no Index Medicus, e Virgo (1970) utilizou o tema oftalmologia para comparar a
recuperao da base de dados MEDLARS com a de seu principal produto, o Index Medicus.
Jahoda e Stursa (1969) compararam as possibilidades de recuperao de um ndice de
assuntos de entrada nica com um ndice baseado em palavras-chave dos ttulos, Yerkey
(1973) comparou as possibilidades de recuperao de um ndice KWIC com o Engineering Index
e o Business Periodicals Index, e Farradane e Yates-Mercer (1973) avaliaram o Metais Abstracts
Index por meio de buscas simuladas. .
Um mtodo de avaliao dos ndices impressos consiste em empregar sujeitos humanos
no desempenho de tarefas de localizao. ndices diferentes podem ento ser comparados em
termos de sucesso e eficincia (por exemplo, tempo de busca) no desempenho da tarefa. Um
estudo desse tipo relatado por van der Meij (2000), que compara diferentes formatos de
apresentao de ndices impressos do tipo includo no final dos livros.
Olason (2000) tambm trata da usabilidade dos ndices impressos, limitando seu estudo
aos ndices de livros. Seu estudo incluiu a cooperao de voluntrios a quem foram atribudas
tarefas de localizao de informaes que exigiam o emprego de determinados ndices. Foram
registrados os tempos exigidos para completar as tarefas, bem como os caminhos de acesso
usados pelos participantes; foram tambm solicitados a fazer comentrios. Olason ocupa-se
fundamentalmente dos efeitos do formato do ndice na eficincia de uso.
Os estudos mais completos sobre desempenho da recuperao em ndices impressos
foram relatados por Keen (1976), tendo como assunto a biblioteconomia e a cincia da
informao. As buscas foram feitas por estudantes e os resultados avaliados quanto a
revocao, preciso e tempo de busca. Keen (1977b) tambm apresentou uma anlise de
estratgias de busca aplicadas a ndices impressos.
Conaway (1974) desenvolveu um valor quantitativo nico para expressar o mrito de um
ndice impresso, o Coeficiente de Usabilidade de ndices (CUI), o qual reflete quanto tempo leva
um especialista em buscas para localizar as informaes bibliogrficas completas de
determinado item. Uma busca temtica era considerada bem-sucedida se o especialista
conseguia encontrar um item que era de antemo conhecido como relevante sobre um
assunto dado. Se o item fosse localizado, registrava-se o tempo despendido para encontrar os
dados bibliogrficos completos. Empregando-se os mtodos de Conaway, possvel atribuir
escores numricos a diferentes ndices extraindo-se a mdia dos resultados obtidos sobre um
nmero de assuntos por diversos especialistas em buscas.
O CUI basicamente uma medida de custo-eficcia. No entanto, uma medida muito
medocre, pois a eficcia determinada exclusivamente com base na recuperao ou norecuperao de um nico item conhecido. Uma medida muito melhor de custo-eficcia o
custo unitrio (em dinheiro ou em tempo do usurio) por item relevante recuperado.
Previsibilidade
A anlise aqui feita sobre avaliao da recuperabilidade adotou um pressuposto
importante: o de que possvel reconhecer um item relevante a partir das informaes sobre
esse item contidas na base de dados. Estas informaes compreendem:
1. O ttulo do item
2. O ttulo mais uma lista de termos de indexao
3. O ttulo mais um resumo
4. O ttulo mais os termos mais o resumo
Em geral, quanto mais extensa for a representao mais pistas fornecer sobre se um
item ser ou no de interesse para o usurio. A informao mnima proporcionada por uma
base de dados, seria o ttulo do item. O grau com que o ttulo reflete satisfatoriamente o
contedo temtico depende em grande medida do tipo de publicao. Em geral, os artigos de
peridicos cientficos costumam trazer ttulos bastante descritivos, enquanto, no outro
extremo, as matrias de jornais apresentam ttulos atraentes e que prendem a ateno, mas
117

no so muito descritivos de seu contedo. As publicaes tcnicas ou comerciais tambm se


inclinam pelo ttulo atraente: o Journal of Metals apresenta ttulos muito descritivos, sendo
menos provvel encontr-los numa revista como Iron Age.
Os ttulos, evidentemente, no so apresentados isoladamente. Num ndice impresso, por
exemplo, o ttulo se situa no contexto do termo de indexao sob o qual aparece. O ttulo Uma
complicao rara da tuberculose pouco nos diz a respeito do contedo de um artigo, mesmo
que aparea sob o cabealho TUBERCULOSE PULMONAR. Se o mesmo ttulo aparecesse sob o
cabealho AMILOIDOSE ter-se-la, no entanto, uma idia muito melhor sobre seu contedo
temtico. Em alguns casos, tambm, o ttulo do peridico (ou do livro) onde aparece um artigo
pode dar uma pista de seu contedo temtico. Assim, um artigo intitulado Efeitos sobre a
apresentao de informaes faz pouco sentido visto isoladamente. Dentro de um livro
intitulado Editorao eletrnica, por outro lado, esse ttulo torna seu contedo muito mais
previsvel.
algo raro um ndice impresso incluir uma lista completa dos termos de indexao
associados a um item (embora os ndices da Excerpta Medica o faam), mas, comumente,
possvel gerar uma lista dessas numa sada impressa de uma base de dados em linha, cuja
indexao tenha sido feita por seres humanos. A combinao de ttulo e termos de indexao
bastante eficaz para indicar de que trata uma publicao.
Os resumos, naturalmente, so os melhores indicadores de contedo. O principal critrio
para aferir sua qualidade seu desempenho como preditores do contedo dos documentos.
Para testar a utilidade de vrias formas de sucedneos de documentos como indicadores
do contedo destes, preciso que se apresentem aos usurios de um sistema de recuperao
(ou pessoas que estejam no lugar desses usurios em condies experimentais) vrias
representaes de documentos de extenso crescente. Por exemplo, suponhamos que uma
busca numa base de dados tenha recuperado 30 registros. As representaes desses itens
seriam apresentadas ao solicitante da busca numa seqncia de registros de extenso
crescente, com os resultados mostrados no final deste pargrafo. Nessa situao hipottica, o
solicitante, ao examinar o texto integral dos artigos de peridicos, considera 14 como
relevantes e 16 como no relevantes. Suas previses de relevncia melhoraram medida que
crescia a extenso da representao do documento. embora o acrscimo de termos de
indexao ao resumo no tenha sido diferente do uso do resumo sozinho. At mesmo o melhor
sucedneo (ttulo mais resumo) no foi perfeito: sub-representou os itens relevantes e superrepresentou os irrelevantes.

Registro apresentado

Ttulo do artigo
Ttulo do artigo mais ttulo do peridico
Ttulo do artigo (e do peridico) mais
lista de termos de indexao
Ttulo do artigo (e do peridico) mais
resumo
Ttulo do artigo (e do peridico) mais
resultado e termos de indexao
Texto integral dos artigos

Itens
apresentados

Itens
considerados
nitidamente
irrelevantes

Itens
considerados
relevantes ou
possivelmente
relevantes

30
30

12
13

18
1

30

15

15

30

18

12

30

18

12

30

16

Pesquisas sobre o efeito de sucedneos de documentos na previsibilidade da relevncia


foram feitas por diversos estudiosos, inclusive Rath et al. (1961 a), Resnick (1961), Kent et al.
(1967), Dym (1967), Shirey e Kurfeerst (1967), Saracevic (1969), Marcus et al. (1971) e Keen
(1976). Marcus et al. demonstraram claramente que a indicatividade de um sucedneo de
documento est diretamente relacionada sua extenso em nmero de palavras. Por outro
lado, bem provvel que haja uma extenso ideal que no seria econmico ultrapassar, pelo
menos para fins de previsibilidade. Hagerty (1967), por exemplo, verificou que, embora a
extenso de um resumo melhorasse as previses de relevncia, o efeito do aumento da
extenso do resumo era surpreendentemente discreto.
Pesquisas sobre a utilidade dos resumos na previso da relevncia dos documentos
pressupem, geralmente, que o resumo uma pea independente do documento, que aparece
num servio de resumos impressos ou na sada de uma operao de recuperao. Thompson
118

(1973), no entanto, estudou a utilizao e a utilidade dos resumos que acompanham os


documentos (no incio de artigos de peridicos ou de relatrios tcnicos). Ele coletou dados
sobre decises quanto s atitudes tomadas por engenheiros e cientistas de trs laboratrios
militares em relao a documentos que passavam por suas mesas no curso das atividades
rotineiras durante um perodo de quatro semanas. No pde confirmar se as decises quanto
s atitudes tomadas em relao aos documentos que continham resumos ocorriam mais
rapidamente do que as decises em relao queles sem resumos. Alm disso, quando os
sujeitos do experimento voltaram a receber cpias do documento, posteriormente, para um
reexame ponderado, suas decises anteriores quanto relevncia de documentos que
continham resumos no apresentaram maior probabilidade de concordncia com as decises
posteriores mais ponderadas do que fora constatado para os documentos sem resumos. Estes
resultados no lanam dvida sobre a utilidade dos resumos de per si ou mesmo sobre a
utilidade dos resumos que acompanham artigos ou relatrios (uma vez que so
freqentemente adotados ou modificados por servios secundrios), mas realmente sugerem
que os resumos podem ter um uso limitado nas decises de seleo inicial. Muitos dos
indivduos a quem so enviadas publicaes preferem julgar a relevncia delas para seus
interesses atuais passando os olhos no texto, examinando as tabelas ou figuras, ou mesmo
checando as referncias bibliogrficas (por exemplo, para conferir se foram citados!).
A qualidade dos resumos como tais examinada no captulo 8, enquanto o tpico relativo
elaborao automtica de resumos tratado no captulo 15.
Em estudo mais recente, Salton et al. (1997) compara resumos de documentos
complexos elaborados automaticamente com base na extrao em pargrafos com processo
similar, feito por seres humanos, de extrao em pargrafos. Eles justificam o mtodo
automtico com o argumento de que um resumo elaborado automaticamente to provvel
que coincida com um resumo preparado por seres humanos quanto um resumo preparado por
uma pessoa coincida com um resumo preparado por outra pessoa.
Processos semelhantes foram empregados na avaliao de tradues feitas
automaticamente ou por seres humanos. Brew e Thompson (1994), por exemplo, argumentam
que as boas tradues tendero a ser mais similares entre si do que as tradues ruins.
Atualidade
A atualidade ou presteza uma medida da velocidade com que novas publicaes so
includas num servio de indexao/resumos. Trata-se de um critrio que os usurios percebem
imediatamente, pois a data de publicao de um ndice impresso conhecida e a data (ou pelo
menos o ano) da primeira edio de cada item includo consta de sua referncia bibliogrfica. A
atualidade menos aparente para usurios de sistemas em linha, mas ainda assim
perceptvel.
Essa visibilidade desastrosa porque comumente leva as concluses que no so
vlidas. Uma tendncia humana perceber casos excepcionais, e outra tendncia dar s
expectativas um peso indevido ao fazer um julgamento. O usurio de um volume de resumos
impressos tem a oportunidade de examinar inmeras referncias ao mesmo tempo. Ao
perceber que algumas correspondem a materiais publicados h talvez dois ou trs anos, ele
injustificadamente conclui que o servio em geral muito lento na identificao e
processamento de novos itens.
Existem muitos motivos pelos quais incluso de uma referncia num arquivo sofre
atrasos. O intervalo entre a impresso de um peridico e seu recebimento pelo servio
secundrio pode ser longo devido a razes de ordem geogrfica ou econmica; por exemplo,
um servio norte-americano recebe os peridicos dos EUA pelo correio poucos dias depois de
sua impresso, porm os peridicos estrangeiros podem levar de seis a sete semanas para
chegar a esse pas. Certos tipos de materiais, como os anais de eventos, so difceis de
localizar e, uma vez localizados, so de aquisio trabalhosa. Documentos escritos em certas
lnguas demandam mais do que o tempo mdio para serem processados, devido escassez de
tradutores qualificados. Materiais perifricos, o que comumente significa materiais aparecidos
em peridicos e outras publicaes que no sejam examinados rotineiramente pelo servio,
tomam mais tempo para serem localizados do que os materiais da lista bsica, uma vez que
freqentemente s so identificados quando da consulta a outros servios secundrios e, por
isso, sofrem uma dupla srie de atrasos no processamento. Alguns servios contam com
sistemas de processamento mais geis do que outros, e alguns atrasos so imputveis
ineficincia do sistema. Quando um servio de indexao/resumos utilizado para notificao
corrente, a avaliao que dele faz o usurio influenciada pelo nmero de itens dos quais ele
j tem conhecimento prvio e que constam do fascculo mais recente. A presena de alguns
119

itens j conhecidos costuma estimular a confiana na eficincia do servio, mas a presena de


um nmero excessivo desses itens abala a confiana em sua atualidade.
Do ponto de vista do avaliador, a atualidade muito atraente como critrio de eficcia. A
atualidade relativamente fcil de medir, sendo incontestvel quando medida, porque no
depende de juzos subjetivos. A nica influncia que o avaliador exerce sobre a medida na
escolha das datas que sero usadas. No caso de bases de dados impressas, a data de
aparecimento da referncia normalmente tida como a data de publicao do servio. No caso
de um servio em linha, a data ser aquela em que a referncia foi includa na base de dados,
mas esta data nem sempre pode ser confirmada retrospectivamente. Uma soluo possvel
saber junto editora qual o intervalo entre a data de distribuio da atualizao da base de
dados eletrnica e a de seu equivalente em verso impressa, e ajustar as medidas de
conformidade com isso. Para a data de aparecimento da publicao primria a que se refere o
servio secundrio, o avaliador pode escolher entre a data efetiva de edio e a data em que a
publicao se torna disponvel.
A data efetiva da edio apresenta alguns problemas, pois raramente ela fornecida com
exatido nos servios secundrios. Recorre-se a um exemplar da publicao e, na maioria dos
casos, a data consignada refere-se somente ao ms mais prximo. O dia efetivo em que a
publicao foi editada somente ser conhecido se fizer uma consulta editora. Infelizmente, a
data na capa de um peridico nem sempre confivel, pois alguns so publicados no ms
anterior ao ms nominal de edio, e a maioria aparece posteriormente data nominal de
edio.
A data em que a publicao se torna disponvel , em alguns pases, uma alternativa que
no apresenta problemas. Embora essa data - data de disponibilidade - realmente no mea a
atualidade de um servio, ela nos d uma medida da atualidade efetiva do ponto de vista dos
usurios do pas onde so registradas as datas de disponibilidade. Nos EUA, as datas de
disponibilidade de peridicos seriam as datas de seu recebimento pela Library of Congress ou
outra das bibliotecas nacionais. Essas datas aparecem carimbadas nas capas dos peridicos,
ou provavelmente existam num registro de controle mantido pela biblioteca. Pode-se assim
medir o intervalo de tempo entre a disponibilidade de um peridico nos Estados Unidos e a
notificao de sua existncia por algum servio secundrio. Estritamente falando, deve-se
considerar a data de disponibilidade do servio secundrio ao invs da data de sua edio,
porm raramente se verifica uma grande diferena entre elas. A atualizao da base de dados
eletrnica normalmente se d antes da atualizao do ndice impresso ao qual se relaciona.
A coleta de dados implica a obteno de uma amostra aleatria de itens extrados do
fascculo mais recente de um servio secundrio, anotando-se a data de edio (ou
atualizao) do servio, a isto acrescentando os dados originais de edio ou disponibilidade,
normalmente retirados de uma fonte diferente. Se exigir, como convm freqentemente, que
seja feita uma anlise por lnguas, pases de origem e formas de publicao (por exemplo,
artigos de peridicos, teses e monografias), as dimenses da amostra devero ser maiores do
que seriam se desejasse apenas uma estimativa global da atualidade.
A atualidade provavelmente a caracterstica de um servio secundrio mais fcil de ser
medida. Tambm provvel que seja a menos importante. As editoras talvez se interessem
pela atualidade como medida da eficcia de suas atividades, mas os usurios, embora
freqentemente expressem a vontade de que o servio seja gil, talvez se impressionem
menos com isso. Quando se leva em considerao o intervalo de tempo decorrido entre a
concluso de uma pesquisa e sua primeira publicao, a demora adicional acarretada pela
utilizao de um servio secundrio para localizar essa pesquisa relativamente pequena.
Normas
Em teoria, um mtodo bvio para fazer a avaliao de ndices e resumos e compar-los
com as normas existentes. No mundo anglfono, as normas pertinentes so:
ANSI/NISO Z39.14-1997 Guidelines for abstracts (reeditada em 2002)
ANSI/Z39.4-1984 Basic criteria for indexes
ISO 999 : 1996 Guidelines for the content, organization, and presentation of indexes
ISO 5963-1985 (E) Methods for examining documents, determining their subjects, and
selecting indexing terms
BS 3700 : 1988 Preparing indexes to books, periodicals, and other documents
BS 6529 : 1984 Examining documents, determining their subjects, and selecting indexing
terms

120

Observe-se que essas normas tendem a enfocar o produto ao invs do processo: os


ndices e os resumos ao contrrio da indexao e da redao de resumos. Apenas a ISO 5963 e
a BS 6529 focalizam o processo, Em virtude de estar voltadas para o aspecto mais difcil da
indexao - decidir qual realmente a matria indexvel de um documento - so, por vrios
motivos, as mais teis de todas as normas que lidam com a anlise conceitual dos
documentos.
Na realidade, embora essas diferentes publicaes sejam editadas por organizaes de
normalizao, difcil consider-las como verdadeiras normas. Uma norma de verdade deve
ser exata (por exemplo, a norma relativa composio de determinada liga) e de cumprimento
obrigatrio (por exemplo, a norma que especifica que determinado tipo de ao deve ter uma
resistncia trao igual a x). claro que a indexao e a redao de resumos so atividades
que no so nem exatas nem de cumprimento obrigatrio (exceto sob condies muito
limitadas, como, por exemplo, os requisitos que sejam exigidos pelos editores de um
peridico). A impreciso e a evidente subjetividade da indexao esto bem demonstradas no
fato de a comisso de desenvolvimento de normas da NISO, incumbida de rever a ANSI Z39. 4,
no ter chegado a acordo quanto a uma norma e s ter conseguido produzir um relatrio que
servisse como um recurso atual sobre indexao (Guidelines for indexes, 1997). Por
conseguinte, esse relatrio simplesmente possui um nmero de relatrio e no uma
designao oficial de norma z39. difcil compreender tanta sutileza, pois, como se disse
antes, normas de verdade no podem (e provavelmente no devem) ser impostas a atividades
intelectuais, e a maioria das normas tem outra denominao (diretrizes ou critrios).
Qualquer que seja a forma como sejam chamadas, essas normas no so suficientemente
precisas para serem usadas na avaliao de ndices ou resumos, ou na indexao e redao de
resumos, exceto no nvel mais superficial. Ademais, as normas de indexao se concentram
basicamente nos ndices impressos em geral e nos ndices de final de livro, em particular.
Outros aspectos concernentes avaliao
Vrios outros mtodos foram empregados para analisar o desempenho e o uso de ndices
impressos. Por exemplo, Torr et al. (1966) descrevem quatro mtodos que podem ser adotados
para observar os usurios de ndices: 1) fazer com que o usurio mantenha um registro
escrito dos processos de raciocnio e da estratgia que emprega ao fazer uma busca, 2) fazer
com que o especialista em buscas utilize um gravador de fita com a mesma finalidade, 1 3)
fazer com que um observador acompanhe a busca, e 4) empregar a observao humana
combinada com uma cmara para estudar como os ndices so utilizados. Esses pesquisadores
verificaram ser difcil conseguir a cooperao dos usurios reais com esses estudos, o que
tambm foi a experincia de Hall (1972).
Outros pesquisadores empregaram entrevistas ou questionrios para obter as opinies de
usurios relativas a vrios servios de indexao/resumos, inclusive Hall (1972a, b), Keen
(1976), Drage (1969) e Cluley (1968).
Ao tratar da recuperabilidade, este captulo deteve-se mais nos servios impressos de
indexao e resumos do que na recuperao em bases de dados eletrnicas. Isso reflete
parcialmente o foco do presente livro: indexao e redao de resumos ao invs de outros
aspectos da recuperao da informao. Evidentemente, os mtodos adotados para estudar
cobertura, previsibilidade e atualidade so pertinentes a todos os tipos de bases de dados,
impressas ou eletrnicas. Os estudos de cobertura e de atualidade so completamente
objetivos, e os estudos de previsibilidade um tanto menos. Os estudos de recuperabilidade so
inerentemente subjetivos, pois dependem de decises humanas a respeito de quais itens so
relevantes (ou pertinentes)2 e quais no so. Ao estudar a eficcia da recuperao, precisa-se
utilizar uma medida que reflita a proporo dos itens relevantes que so recuperados durante
uma busca (coeficiente de revocao), bem como alguma medida do custo da recuperao
dessa parcela da literatura relevante. O coeficiente de preciso comumente empregado como
uma medida indireta do custo, pois reflete o nmero de itens que o usurio de algum modo
deve examinar a fim de identificar n itens que lhe sejam teis. Outra medida indireta do custo
a extenso esperada da busca, descrita por Cooper (1968). Naturalmente, pode-se medir o
custo de uma maneira mais direta levando-se em conta todos os custos da busca, inclusive o
tempo do especialista em buscas e os custos de acesso base de dados (ver, por exemplo,
E1chesen, 1978). O custo da busca ser ento relacionado ao nmero de itens relevantes (ou
1

Keen (1977b) tambm utilizou esta tcnica.


A questo da relevncia / pertinncia foi examinada por muitos autores. Ver, por exemplo, Wilson (1973), Swanson
(1986), Lancaster e Warner (1993), e Mizzaro (1998).
2

121

pertinentes, ou teis ou novos) recuperados; o custo por referncia relevante recuperada


uma boa medida da relao custo-eficcia da busca.
As medidas de eficcia, como a revocao e a preciso (ou outras descritas, por exemplo,
por Robertson, 1969), so aplicveis a estudos de recuperao em qualquer tipo de base de
dados, tanto em formato impresso quanto eletrnico. No entanto, quando estudamos a eficcia
da recuperao, torna-se bastante difcil isolar os efeitos da indexao/redao de resumos de
outros fatores, tais como o vocabulrio da base de dados, as estratgias de busca empregadas
e a interao usurio/sistema. Isso foi mencionado de passagem no captulo 6. Foge aos
propsitos deste livro descrever detalhadamente a metodologia da avaliao (mensurao da
preciso, clculo da revocao, anlise de diagnstico para determinar as causas exatas das
falhas de revocao e preciso). Este assunto tratado de modo completo em Lancaster e
Warner (1993).
As avaliaes de servios impressos de indexao/resumos, ou seus equivalentes
eletrnicos, so menos comuns atualmente do que antes, em parte porque agora se dedica
mais ateno aos estudos relacionados com a Rede (por exemplo, avaliaes de mecanismos
de buscas ou stios da Rede). No obstante, ainda se publicam algumas avaliaes. Exemplos
disso so os trabalhos de Brown et al. (1999), que compararam a cobertura do Current Index to
Journals in Education com o Education Index, e os de Brettle (2001), que comparou diferentes
bases de dados do ponto de vista da cobertura de informaes sobre a reabilitao de
portadores de doena mental grave, e Green (2001), que incluiu a cobertura (junto com a
atualidade) numa avaliao de bases de dados de peridicos de msica. Ambos concluram
que seriam necessrias mltiplas bases de dados para uma cobertura adequada desses
assuntos.
Azgaldov (1969) identificou alguns critrios que podem ser empregados para avaliar a
qualidade de ndices impressos. Tais critrios so: adequao (que abrange toda uma gama de
propriedades, que incluem cobertura, caractersticas do vocabulrio usado na indexao, bem
como certos fatores dependentes da indexao, como a exaustividade e a coerncia),
generalidade (que diz respeito essencialmente diversidade de buscas que podem ser feitas),
ergonomicidade (facilidade de uso), presteza (quo atualizada a fonte), e custo. Ele ressalta,
muito corretamente, que:
O mais eficiente ndice impresso ser um fracasso para os usurios, se seu parmetro de
convenincia [ergonomicidade e presteza] for baixo, e, vice-versa, um ndice que for simples
e fcil de usar granjear ampla popularidade mesmo que seu desempenho na recuperao
no seja muito alto (p. 281).

Esta citao serve como um bom intrito ao captulo 10, que trata das caractersticas de
vrios servios impressos de indexao e resumos.

122

Captulo 10 Mtodos adotados em servios impressos de indexao e


resumos
A finalidade deste captulo expor vrios mtodos de implementao de servios de
indexao e resumos em formato impresso. Em particular, considera as bases de dados
impressas em funo de suas propriedades como ferramentas de recuperao da informao. 1
Identificam-se, basicamente, dois mtodos principais de organizao dessas ferramentas.
Num deles, as entradas aparecem sob cabealhos de assuntos ou descritores relativamente
especficos dispostos em ordem alfabtica. As entradas podem repetir-se sob mais de um
cabealho e/ou so empregadas remissivas para ligar cabealhos relacionados entre si. Neste
mtodo no h necessidade de ndice de assuntos, porm, sero necessrios outros tipos de
ndices, principalmente de autores.
No outro mtodo, utiliza-se uma forma de classificao: as entradas so dispostas sob
nmeros de classificao altamente especficos ou agrupadas sob categorias temticas
relativamente genricas (possivelmente com subcategorias). Em qualquer um dos casos, h
necessidade de ndices de assuntos que permitam abordagens alternativas ou acesso mais
especfico ao contedo temtico.
ndices alfabtico-especficos
Um dos melhores exemplos deste mtodo a edio mensal do Index Medicus e sua
edio acumulada, o Cumulated Index Medicus (figura 63). Vrias caractersticas deste ndice
merecem ateno:
1. Note-se como so usados subcabealhos que oferecem maior especificidade.
2. Como no so includos resumos, torna-se vivel repetir a referncia bibliogrfica sob
mais de um cabealho. Por exemplo, a primeira entrada sob o subcabealho
administration & dosage (figura 63) provavelmente ser duplicada sob
OSTEOARTHRITIS.
3. A combinao de cabealho, subcabealho e ttulo do artigo normalmente
proporciona uma imagem relativamente clara daquilo de que trata um item.
4. Dois tipos de remissivas aparecem no ndice impresso: see [ver] usada para ligar
termos considerados sinnimos ou quase sinnimos e see related [ver em relao a
isto] para ligar termos intimamente relacionados. Para se obter, contudo, um quadro
completo da rede de associaes entre os termos utilizados, preciso consultar dois
outros instrumentos: Medical subject headings (MeSH) e MeSH tree structures. A
figura 64 mostra um exemplo de uma pgina do MeSH. Observe-se como o MeSH
apresenta a remissiva see (e sua recproca X bem como as remissivas see related
(recproca XR) empregadas para ligar dois termos semanticamente relacionados,
normalmente pertencentes a hierarquias diferentes. Talvez ainda mais importante, a
cada cabealho do MeSH atribudo um ou mais nmeros de classificao para
indicar onde ele aparece nas estruturas hierrquicas em rvore (figura 65). Assim,
embora o vocabulrio utilizado pela National Library of Medicine seja bastante rico em
associaes, o Index Medicus no auto-suficiente, pois nele no aparecem as
associaes. Portanto, uma fonte til em buscas relativamente especficas, mas
difcil de usar em buscas de carter mais genrico que exijam a consulta a muitos
cabealhos diferentes.
A figura 66 mostra exemplos de entradas do ndice de autores do Cumulated Index
Medicus. Observe-se que se tem aqui uma estrutura totalmente auto-suficiente, pois no se
trata de um ndice da seo de assuntos. Na realidade, para qualquer item encontrado no
ndice de autores freqentemente bastante difcil determinar quais so os cabealhos de
assuntos sob os quais ele aparece. Note-se tambm que o ndice de autores, ao contrrio da
seo de assuntos, arrola todos os autores de cada artigo e traz o ttulo do artigo na lngua
original (pelo menos para lnguas escritas com alfabeto romano), no em traduo. O
Cumulated Index Medicus no mais publicado, mas o Index Medicus mensal, sim.
Os vrios ndices impressos editados pela H.W. Wilson Co. (dos quais so bons exemplos o
Readers Guide to Periodical Literature e o Library Literature) so em muitos aspectos similares
ao Index Medicus, pois utilizam cabealhos especficos com subcabealhos e incorporam
1

Na realidade, estas ferramentas impressas so muito menos utilizadas hoje em dia do que o eram quando foram
publicadas as edies anteriores deste livro. Muitas bibliotecas cancelaram as assinaturas das verses impressas,
dando preferncia ao acesso em linha e, em alguns casos, as edies impressas, ou partes delas, foram interrompidas
pelas respectivas editoras.

123

remissivas do tipo see. Diferem do Index Medicus por adotarem muito mais remissivas see also
[ver tambm] para ligar termos semanticamente relacionados, tornando um tanto mais fcil a
realizao de buscas genricas que envolvam vrios cabealhos diferentes. Por exemplo (ver
figura 67), o usurio que consulte o termo MAGNETOHYDRODYNAMICS (no Applied Science and
Technology lndex) informado de que deve procurar tambm sob PLASMA, PLASMA WAVES e
SYNCHROTRON RADIATION.
O Engineering Index tambm organizava suas entradas sob cabealhos especficos e
subcabealhos e inclua tanto remissivas do tipo see quanto do tipo see also. Hoje, porm, as
referncias so arranjadas sob descritores sem subcabealhos (ver figura 68).

Figura 63 Exemplo de entradas do Cumulated Index Medicus (1996)

A principal diferena entre este ndice e os que foram anteriormente exemplificados ,


obviamente, o fato de incluir resumos. Cada resumo recebe um nmero de identificao
exclusivo. O ndice de autores, ento, um verdadeiro ndice do arranjo por assuntos,
remetendo do nome do autor para os nmeros dos resumos aos quais esse nome est
associado. Ademais, como muitas entradas acumular-se-o sob os cabealhos do volume
anual, tambm existe um ndice mais especfico de assuntos. A figura 69 mostra entradas do
ndice de assuntos de 1993, que emprega tanto descritores controlados (em tipo negrito)
quanto termos de texto livre (em tipo norma!). O ndice refere-se s entradas tanto no volume
anual (nmeros que comeam com A) quanto nos fascculos mensais (nmeros que comeam
com M). Observe-se como uma das entradas da figura 69 relaciona-se com a entrada 073654

124

da figura 68, proporcionando acesso a este item sob o ponto de acesso alternativo BEAM
PLASMA INTERACTIONS.

Figura 64 Exemplo de entradas do Medical subject headings (1996)

Muitos dos ndices impressos (mas de modo algum todos) baseiam-se em alguma forma de
vocabulrio controlado - um tesauro ou uma lista de cabealhos de assuntos. O vocabulrio
utilizado pelo Engineering Index o Engineering Index thesaurus. Tais vocabulrios controlados
so de grande valia para quem estiver consultando o ndice impresso, principalmente em casos
onde o prprio ndice inclui pouca estrutura de remissivas, como acontece no Index Medicus.

125

Figura 65 Exemplo de entradas da estrutura hierrquica (Tree structures) do


Medical subject headings (1996)

Figura 66 Exemplo de entradas do ndice de autores do Cumulated Index


Medicus

126

ndices classificados
Existem basicamente dois tipos de ndices classificados. Num deles, as entradas
aparecem sob nmeros de classificao altamente especficos extrados de um esquema de
classificao geral ou especializado. Este foi o mtodo adotado pelo Library and Informaton
Science Abstracts (LISA) at 1993. No LISA as entradas eram dispostas segundo um esquema
de classificao facetada dedicado ao campo especializado da biblioteconomia e cincia da
informao. A figura 70 mostra algumas entradas relativas a cederrom. Observe-se como a
notao relativa a bases de dados em formato de cederrom (Zjjc) subdividida por meio de
notaes de outras partes da classificao (Rn, Vtic), a fim de oferecer maior especificidade, e
como uma legenda textual empregada para explicar cada notao especfica. A figura 71
apresenta exemplos de entradas do ndice alfabtico de assuntos, inclusive algumas relativas
aos itens mostrados na figura 70. Observe-se como os termos empregados como legendas
textuais na figura 70 tornam-se pontos de entrada no ndice de assuntos. O princpio adotado
o da indexao em cadeia (ver captulo 4); cada nvel da cadeia hierrquica indexado a partir
do mais especfico at o mais genrico:

Figura 67 Exemplo de entradas do Applied Science and Technology Index, 1986


Copyright 1986 by the H.W. Wilson Co. Material reproduzido com permisso da
editora

127

Figura 68 Exemplo de entradas do volume anual do Engineering Index (1993)


Copyright 1993 by Engineering Information Inc. Reproduzido com permisso de
Engineering Informalion Inc.

128

Figura 69 Exemplo de entradas do ndice de assuntos do Engineering Index


(1993)
Copyright 1993 by Engineering Information Inc. Reproduzido com permisso de
Engineering Information Inc.

129

Figura 70 Exemplo de entradas do Library and Information Science Abstracts


(antes de 1993)
Reproduzido com permisso do editor

Cost benefit analysis, Information services, Databases, CD-ROMS, Computerized


information storage and retrieval
Information services, Databases, CD-ROMS, Computerized information storage and
retrieval
Databases, CD-ROMS, Computerized information storage and retrieval
Computerized information storage and retrieval (esta entrada mais genrica no aparece
na figura 71)
PSYCLIT (o nome de uma base de dados) na figura 70 no foi um termo de indexao
genuno no LISA e, por isso, no deu origem a uma entrada no ndice de assuntos, embora
tenha originado uma entrada no ndice de nomes prprios que separado do de assuntos.
Enquanto o LISA empregava um esquema de classificao especializada, outros ndices
impressos se baseavam em esquemas gerais, dos quais a Classificao Decimal Universal
(CDU) o mais comumente adotado.
No outro mtodo classificado utilizado na organizao de uma base de dados impressa,
as entradas so agrupadas sob categorias de assuntos relativamente genricas,
proporcionando-se acesso a assuntos mais especficos por meio de ndices. Um exemplo o
LISA atual. A figura 72 mostra as categorias genricas de assuntos sob as quais os resumos
foram organizados a partir de 1997, e a figura 73 mostra exemplos de algumas entradas. O
ndice de assuntos ainda se baseia em processos de indexao em cadeia (ver figura 74)
embora no mais estejam atrelados a um esquema de classificao.

130

Figura 71 Exemplos de entradas do ndice de assuntos do Library and


Information Science Abstracts (antes de 1993)
Reproduzido com permisso do editor

O Chemical Abstracts assemelha-se ao LISA porque as entradas so organizadas sob


categorias e subcategorias temticas. O ndice de assuntos, no entanto, bastante diferente,
estando baseado no princpio de articulao (ver captulo 4): cadeias de termos atribudos por
indexadores humanos so manipuladas de forma padronizada de modo a proporcionar um
grupo de pontos de acesso coerentes para cada item (figura 75), Embora esse ndice articulado
de assuntos aparea somente nas acumulaes do Chemical Abstracts, em cada fascculo
semanal publicado um ndice de palavras-chave (ver figura 76). O Chemical Abstracts
tambm inclui um ndice de frmulas qumicas (ver figura 77).

131

Figura 72 Categorias de assuntos usadas pelo Library and Information Science


Abstracts (1997)
Reproduzido com permisso do editor

132

Figura 73 Exemplo de entradas do Library and Information Science Abstracts


Reproduzido com permisso do editor

Outros ndices
A maioria dos outros servios de indexao/resumos em formato impresso so variaes
dos tipos j exemplificados. O Sociology of Education Abstracts, diferentemente do Library and
Information Science Abstracts e do Chemical Abstracts, simplesmente lista os resumos em
ordem numrica sem agrup-los sob categorias genricas de assuntos. O ndice de assuntos,
descrito como um ndice de palavras-chave modificado, indexa os resumos sob palavraschave ou expresses que aparecem no ttulo ou no prprio resumo. Tambm so indexados os
nomes prprios. A figura 78 mostra exemplos de dois resumos, e a figura 79 apresenta
exemplo de entradas de ndice, inclusive algumas correspondentes aos resumos da figura 78
(por exemplo, black dropouts [evaso escolar entre negros], class cutting [cbula na escola],
compulsory education [ensino compulsrio]).

133

Figura 74 Exemplo de entradas do ndice de assuntos do Library and


Information Science Abstracts
Reproduzido com permisso do editor

As inmeras revistas de resumos publicadas na srie da Excerpta Medica (Elsevier


Science Publishers) tambm agrupam os itens sob categorias genricas de assuntos. Os ndices
de assuntos so altamente especficos. Todos os termos atribudos (extrados de um tesauro)
por indexadores aparecem em cada entrada do ndice. A maior parte desses termos tornam-se
pontos de entrada no ndice, sendo os outros termos mantidos como modificadores. Os
modificadores so ordenados alfabeticamente em duas seqncias: termos que se tornaro
propriamente pontos de entrada precedem os termos que so apenas modificadores e no
serviro como pontos de entrada. A figura 80 mostra um exemplo disso. Observe-se como a
cadeia de termos funciona como uma espcie de minirresumo, oferecendo uma clara indicao
(na maioria dos casos) daquilo de que trata cada item. Os ndices de assuntos da Excerpta
Medica so examinados com mais detalhes no captulo 4.

134

Figura 75 Exemplo de entradas do ndice de assuntos do Chemical Abstracts


Reproduzido com permisso do Chemical Abstracts Service

135

Figura 76 Exemplo de entradas do ndice de palavras-chave do Chemical


Abstracts
Reproduzido com permisso do Chemical Abstracts Service

A maioria dos ndices alfabtico-especficos organiza as referncias bibliogrficas sob


cabealhos de assuntos, s vezes com subcabealhos, e entradas repetidas sob dois ou mais
cabealhos (como no Index Medicus), ou organizam os resumos sob cabealhos de assuntos e
adotam alguma forma de ndice que proporciona possibilidades alternativas de acesso por
assunto a itens isolados (como no Engineering Index). H variaes deste mtodo alfabticoespecfico.

136

Figura 77 Exemplo de entradas do ndice de frmulas do Chemical Abstracts


Reproduzido com permisso do Chemical Abstracts Service

Por exemplo, o antigo British Technology Index (BTI), conforme foi descrito no captulo 4,
utilizava entradas de ndice formadas por uma cadeia de termos controlados numa ordem
sistemtica. Veja-se exemplo disso na figura 22 (captulo 4). Uma referncia bibliogrfica
aparecia somente em um nico lugar do ndice, o qual era determinado pela seqncia em que
os termos eram combinados. Outras possibilidades eram criadas mediante um mecanismo
sistemtico de remissivas baseado nos princpios da indexao em cadeia. Por exemplo,
usaram-se remissivas do tipo see [ver] para gerar pontos de acesso alternativos para os itens
sobre fabrics [tecidos] exemplificados na figura 22 (a partir de termos como finishing
[acabamento], dyeing [tingimento], laminating [laminao], etc. Note-se tambm como este
ndice liga entre si termos considerados semanticamente relacionados (related headings
[cabealhos relacionados]). Embora os princpios em que se baseia a indexao tenham
permanecido os mesmos, uma verso posterior dessa publicao, denominada Current
Technology Index (CTI), adotou um mtodo algo diferente de apresentao das referncias.
Esta modificao foi adotada para economizar espao e evitar as pginas com uma
composio muito sobrecarregada que eram caractersticas do BTI. As diferenas de leiaute
entre o BTI e o CTI so exemplificadas na figura 81.

137

Figura 78 Exemplo de resumos de Sociology of Education Abstracts


Reproduzido com permisso de Taylor & Francis <http://www.tandf.co.uk>

Figura 79 Exemplo de entradas de ndice do Sociology of Education Abstracts


Reproduzido com permisso de Taylor & Francis <http://www.tandfco.uk>

Este ndice encontra-se hoje em seu terceiro formato, que inclui resumos, e o ttulo atual
Abstracts in New Technologies and Engineering. A incluso de resumos exigiu uma grande
138

mudana de formato, e a publicao agora se assemelha muito com o formato atual do Library
and Information Science Abstracts.

Figura 80 Exemplo de entradas do ndice de assuntos do Epilepsy Abstracts


Reproduzido com permisso de Elsevier Science Publishers
Este ndice caracterstico dos ndices de assuntos produzidos na srie Excerpta
Medica

Vrios ndices impressos adotaram o PRECIS (Preserved Context Index System). Um


exemplo foi o British Education Index. Na figura 82 encontram-se exemplos de entradas dessa
publicao. Uma referncia bibliogrfica aparecia sob todos os termos importantes que
ocorressem num enunciado de assuntos, cada um deles sendo desviado [shunted] para a
posio de entrada conforme descrito no captulo 4. Por exemplo, a segunda entrada para
agresso [aggression], na figura 82, repetida sob Pupils [alunos] e sob Primary schools
[escolas primrias]. Desde 1986, o PRECIS no mais utilizado como base da indexao do
British Education Index.

Figura 81 Diferenas na apresentao de referncias entre o British Technology


Index (BTI) e o Current Technology Index (CTI) de um item sobre cadinhos
[ladles] para fornos a arco eltrico [arc furnaces] na produo de ao [steel]
O autor agradece a Tom Edwards, ex-editor do Current Technology Index, por este
exemplo.
Ambos os exemplos so reproduzidos com a gentil permisso de CSA

139

Figura 82 Exemplo de entradas PRECIS do British Education lndex


Reproduzido com permisso da British Library

ndices de citaes
O Institute for Scientific Information (ISI) publica atualmente trs ndices de citaes: o
Science Citation Index, o Social Sciences Citation Index e o Arts and Humanities Citation Index.
Em virtude de serem bastante diferentes dos outros ndices impressos descritos neste captulo,
merecem ateno parte.
A utilidade fundamental de um ndice de citaes encontrar para determinado item
bibliogrfico, que seja do conhecimento de quem faz a busca, itens posteriores que o citaram.
A figura 83 apresenta alguns exemplos de entradas do Social Sciences Citation Index (os outros
ndices de citaes obedecem aos mesmos princpios). Suponhamos que sabemos que um
artigo de W.E. Lambert, que comea na pgina 44 do Journal of Abnormal and Social
Psychology, volume 60, 1960, altamente relevante para um interesse de pesquisa atual.
Buscando no SSCI sob o nome do autor (figura 83) localizamos esse artigo e encontramos
outros, posteriores a ele, que o citaram. Neste exemplo o artigo citado por dois outros itens
publicados em 1989 (por Hogg e por Spears).
A figura 83 foi extrada da seo Citation Index [ndice de citaes] do Social Sciences
Citation Index. Observe-se que, sob o nome de cada autor, as entradas aparecem em ordem de
data de publicao. Para os itens citantes apresentam-se apenas sucintas informaes
bibliogrficas. Para conseguir dados bibliogrficos mais completos devemos nos dirigir a outra
seo do SSCI, o Source Index [ndice de fontes]. Por exemplo, o item citante da autoria de
Spears foi publicado no European Journal of Social Psychology, volume 19, 1989, e comea na
pgina 101. Para obter informaes bibliogrficas mais completas (ttulo e nmeros de pginas
completos) temos de procurar sob seu nome no Source Index.
Os ndices de fontes do Social Sciences Citation Index e do Arts and Humanities Citation
Index (porm no do Science Citation Index) fornecem, para cada item includo, uma lista das
referncias bibliogrficas que aparecem no final do artigo (ver, por exemplo, a figura 84).
Nos ndices de citaes, uma forma original de ndice de palavras-chave oferece uma
abordagem temtica dos itens citantes (fontes). Denominado Permuterm Subject Index [ndice
de assuntos Permuterm], baseia-se em palavras-chave que ocorrem nos ttulos dos itens
citantes. A figura 85 mostra um exemplo de entrada sob termos que comeam com a raiz
debt [dvida], conforme aparecem nos ttulos de diversos itens citantes. Note-se que so
empregadas algumas palavras compostas (por exemplo, debt-financed [financiado pela
dvida], bem como palavras simples. Cada entrada mostra, em ordem alfabtica, outras
palavras-chave que tenham ocorrido junto com ela nos ttulos dos itens citantes. Assim, um
item sob DEBTS (de autoria de Giguere) trata das dvidas do Terceiro Mundo, outro (de autoria
de Garfield) trata das dvidas intelectuais, e assim por diante. Observe-se que as entradas se
repetiro sob cada palavra-chave importante do ttulo (por exemplo, uma entrada sob a
palavra-chave Third World [Terceiro Mundo] ser modificada pelo termo debts [dvidas].
140

evidente que a eficcia deste tipo de ndice de assuntos depende inteiramente da qualidade
descritiva dos ttulos usados na sua gerao e da habilidade de quem faz a busca, uma vez que
no se adota nenhuma forma de controle de vocabulrio.

Figura 83 Exemplo de entradas do Social Sciences Citation lndex


Reproduzido com permisso do Social Sciense Citation Index.
Copyright 1989 by the Institute for Scientific lnformation Philadelphia, PA, USA

Figura 84 Exemplo de entrada do ndice de fontes do Social Sciences Citation


Index
Reproduzido com permisso do Social Science Citation Index.
Copyright 1989 by the Institute for Scientific Information Philadelphia, PA, USA

141

Figura 85 Exemplo de entrada do ndice de assuntos Permuterm do Social


Sciences Citation Index
Reproduzido com permisso do Social Sciences Citation Index.
Copyright 1988 by the lnstitute for Scientific lnformalion Philadelphia, PA, USA

As vrias partes que compem esses ndices de citaes fazem com que sejam poderosas
ferramentas de busca bibliogrfica. Eles ensejam diferentes mtodos de busca. Pode-se iniciar
uma busca com a referncia bibliogrfica de um item sabidamente de interesse ou come-la
com uma palavra-chave. As palavras-chave levam a outras palavras-chave possveis e os
ttulos dos itens citantes tambm sugerem palavras-chave adicionais que seriam teis na
busca. Tomando-se um exemplo hipottico, uma busca por palavra-chave no SSCI de 1996
levaria a um item altamente relevante que seria investigado visando identificao de itens
posteriores que o tivessem citado. Estes, por sua vez, poderiam sugerir outras palavras-chave
que levariam a outros documentos que tambm seriam investigados em busca de citaes
posteriores, e assim sucessivamente numa srie de iteraes. Nos ndices de citaes em que
o ndice de fontes inclui as referncias bibliogrficas (ver figura 84), so possveis outras
formas de iterao. Por exemplo, uma busca sobre um item sabidamente de alta relevncia
pode levar a um item citante altamente relevante. Algumas das referncias no item citante
sero ento investigadas para localizar outros itens que as citem, e assim sucessivamente.
Os ndices de citaes impressos possuem bases de dados equivalentes em formato
eletrnico. Estes e muitos outros ndices mencionados neste captulo, so hoje acessveis pela
Rede. O princpio da citao - um item bibliogrfico que cita (referencia) um anterior - tambm
pode ser adotado para ligar publicaes por outros meios - mediante acoplamento bibliogrfico
ou co-citao (ver captulo 15).
Outro produto bastante conhecido do Institute for Scientific lnformation o Current,
Contents, publicao semanal, editado em vrias sees que abrangem diferentes assuntos,
que reproduz as pginas de sumrios de uma ampla gama de peridicos. A figura 86 mostra
um exemplo. Cada fascculo do Current Contents inclui um ndice de palavras-chave bastante
simples, como mostra a figura 87; um dos termos desse exemplo (glucose) [glicose] tem
relao com um dos itens da figura 86. Observe-se que o ndice inclui algumas expresses e
nomes, bem como palavras-chave simples. Cada entrada leva a uma pgina do Current
Contents e a um nmero de pgina do peridico ali representado. Por exemplo, uma das
entradas sob glucose remete ao item que comea na pgina 3214 do fascculo de dezembro
de 1989 de Applied and Environmental Microbiology (figura 86). Este ndice simples usado de
duas formas. Evidentemente, pode-se simplesmente investigar todas as referncias a
determinada palavra-chave. No entanto, um especialista em buscas mais experiente, que
estiver procurando informaes mais especficas, poder optar por combinar palavras-chave.
Por exemplo, se algum estivesse buscando artigos sobre glicose no contexto de leveduras,
compararia os nmeros que aparecem sob o termo glucose [glicose] com os que aparecem sob
yeast e yeasts [levedura, leveduras], para verificar se algum nmero ocorre sob ambos os
termos. Em caso positivo, talvez esse nmero se refira a itens que tratam precisamente do
tpico da busca, inclusive um dos artigos que aparecem na figura 86. Isso corresponde,
basicamente, a uma variante do sistema Uniterm (ou pelo menos a implementao desse
142

sistema na prtica), conforme se mencionou no captulo 2. O sistema Uniterm foi uma das
primeiras formas de sistema de recuperao ps-coordenado.
Concluso
Neste captulo foram exemplificados diferentes mtodos de implementao de um
servio de indexao/resumos em formato impresso. Embora umas pessoas prefiram um
mtodo e outras pessoas prefiram outro, nenhum mtodo , ipso facto, melhor do que o resto.
Isso depende muito de como o servio ser utilizado.

Figura 86 Exemplo de pgina do Current Contents


Reproduzido com permisso do Current Contents.
Copyrighl 1990 by the Institute for Scientific Information Philadelphia, PA. USA

143

Figura 87 Exemplo de entradas do ndice de palavras-chave do Current


Contents
Reproduzido com permisso do Current Contents.
Copyright 1990 by the Institute for Scientific Information Philadelphia, PA, USA

Para atender s finalidades da notificao corrente [servio de alerta], as ferramentas


que empregam alguma forma de mtodo classificado normalmente sero superiores aos
ndices alfabtico-especficos, pelo menos na medida em que o esquema de classificao
corresponda aos interesses de um grupo de usurios. Por exemplo, algum interessado em se
manter a par dos novos avanos no campo da parasitologia em geral certamente achar o
Biological Abstracts, que dedica uma seo a este tpico, mais til do que o Index Medicus,
onde as referncias ao assunto provavelmente estaro dispersas sob uma ampla variedade de
cabealhos de assuntos. No entanto, para algum que tenha interesse em se manter notificado
correntemente sobre assuntos altamente especficos, o mtodo alfabtico-especfico seria, de
fato, mais conveniente. Por exemplo, o Index Medicus provavelmente seria um instrumento
muito til para se manter atualizado a respeito da bibliografia sobre retinite pigmentosa, por
exemplo.
Ao considerar esses diversos instrumentos como dispositivos de busca e recuperao,
evidente que passam a ter influncia nisso todos os fatores de desempenho analisados em
outra parte deste livro. Quer dizer, a eficcia de um ndice impresso como ferramenta de busca
depender do nmero de pontos de acesso que proporcionar, da especificidade do vocabulrio
empregado na indexao, da qualidade e coerncia da indexao e da extenso com que essa
ferramenta oferea ajuda positiva a quem faz a busca (por exemplo, por meio da ligao entre
si de termos semanticamente relacionados). Devido ao fato de os ndices da Excerpta Medica
proporcionarem maior nmero de pontos de acesso temtico por item do que o Index Medicus,
provavelmente propiciaro uma melhor revocao. Por outro lado, como o Index Medicus
indexa cada item somente sob os termos mais importantes, bem provvel que oferea
maior preciso.
Os servios impressos que incluem resumos so superiores aos que no os incluem, em
virtude de proporcionarem mais informaes que ajudam o usurio a decidir se determinado
item realmente lhe ser til. Isso especialmente valioso no caso de itens que sejam difceis
de encontrar ou de itens escritos em lnguas desconhecidas por parte de quem faz a busca. No
entanto, os resumos nem sempre so essenciais. Por exemplo, a combinao do ttulo de um
item com o cabealho de assunto e o subcabealho sob os quais aparece, como no exemplo do
Index Medicus, freqentemente basta para indicar sua relevncia potencial.
Finalmente, bvio que ndices baseados apenas nas palavras do ttulo proporcionam um
mtodo de recuperao bastante limitado. Contudo, mesmo esses ndices tm suas vantagens.
Por exemplo, uma busca altamente. especfica que envolva, digamos, um nome prprio,
realmente seria mais fcil de ser efetuada num ndice baseado em palavras do ttulo do que
num outro baseado num vocabulrio controlado de carter genrico. Alm disso, quando se
recuperam itens durante buscas baseadas em palavras-chave dos ttulos, e desde que a
palavra-chave seja altamente especfica, existe uma chance muito grande de esses itens
serem relevantes.
144

Em virtude de a maioria dos bibliotecrios e outros profissionais da informao ser de


opinio que os ndices impressos so mais fceis de usar, muitas vezes eles pressupem que
essa seja uma verdade universal. De fato, inmeros estudos demonstraram que o pblico leigo
pode enfrentar dificuldades ao usar ou mesmo compreender o mais simples dos ndices, como
os que vm no final dos livros (ver, por exemplo, Liddy e Jrgensen, 1993a,b).
Durante a ltima dcada, mais ou menos, foi feito um esforo visando a tornar os
servios de indexao e resumos mais simples, como se viu pelo abandono de um mtodo de
classificao facetada no Library and Information Science Abstracts e do PRECIS no British
Education lndex. No entanto, tornar essas ferramentas mais amigveis para o usurio talvez
no seja a salvao delas. O fato de muitas bibliotecas estarem cancelando as assinaturas das
edies impressas, dando preferncia ao acesso s verses eletrnicas, sugere que fontes
desse tipo em formato impresso talvez tenham hoje uma expectativa de vida muito curta.

145

Captulo 11 Como melhorar a indexao


Em todo este livro, deixou-se explcito, em geral, que o resultado final da indexao de
um documento uma simples lista de termos, s vezes selecionados de um vocabulrio
controlado, que, em conjunto, descrevem o contedo temtico analisado no documento. Com
freqncia, todos os termos dessa lista so considerados em p de igualdade (isto , o
indexador no especifica que alguns so mais importantes do que outros) e, comumente, no
se identificam quaisquer relaes explcitas entre os termos.
A indexao, porm, um pouco mais complexa do que isso: aos termos podem ser
atribudos pesos que reflitam a percepo que o indexador tem de sua importncia, e/ou ser
feito um esforo no sentido de acrescentar um pouco de sintaxe aos termos, de modo que
suas inter-relaes se tornem mais claras.
Indexao ponderada
Grande parte da indexao de assuntos implica uma simples deciso binria: um termo
ou no atribudo a um documento. Embora isso simplifique o processo de indexao, cria,
efetivamente, alguns problemas para o usurio de uma base de dados, que fica impossibilitado
de arquitetar uma estratgia de busca que venha a diferenar itens em que um assunto receba
um tratamento substancial daqueles em que o mesmo assunto seja tratado de forma bastante
secundria.
Na indexao ponderada, o indexador atribui a um termo um valor numrico que reflete
sua opinio sobre a importncia desse termo para indicar de que trata determinado
documento. Comumente, quanto mais dominante for o assunto, ou mais detalhes o documento
contiver a respeito dele, maior ser o peso. Vejamos, por exemplo, uma escala numrica de
cinco pontos, em que cinco seja o escore mais alto. Aplicando-a ao item exemplificado na
figura 3, os termos OPINIO PBLICA, PESQUISAS POR TELEFONE, ATITUDES e ORIENTE MDIO
receberiam peso 5, ESTADOS UNIDOS, peso 4, ISRAEL e EGITO, peso 3, e assim por diante.
Evidentemente, trata-se de algo subjetivo, e indexadores diferentes atribuiro pesos
diferentes. quase certo, porm, que a maioria atribuiria a ORIENTE MDIO um peso alto e a
LDERES POLTICOS ou AJUDA EXTERNA um peso baixo.
Esse tipo de indexao ponderada pode ser adotado de duas formas na recuperao da
informao numa base de dados. Uma delas consiste simplesmente em admitir que a pessoa
que faz a busca especifique que somente sejam recuperados os itens indexados sob um termo
a que foi atribudo determinado peso.
Assim, algum interessado em artigos que tratem diretamente do assunto lderes do
Oriente Mdio exigiria que ambos os termos, ORIENTE MDIO e LDERES POLTICOS,
contivessem pelo menos um peso igual a quatro. Isso evitaria a recuperao do item
exemplificado na figura 3, que trata de lderes polticos de forma bastante secundria, e
provavelmente de muitos outros itens como esse.
Uma aplicao alternativa disso empregar os pesos para ordenar os itens recuperados
numa busca. Desse modo, numa busca que exigisse a co-ocorrncia de ORIENTE MDIO e
LDERES POLTICOS, os itens em que ambos os termos tivessem um peso igual a cinco (peso
total igual a dez) seriam impressos ou exibidos em primeiro lugar, vindo em segundo lugar os
itens com o escore nove, e assim por diante at os itens cujo escore fosse apenas dois.
H muito que a atribuio de pesos numricos aos termos defendida por Maron (Maron
& Kuhns, 1960; Maron et al., 1959; Maron, 1988), que se refere a esse tipo de indexao como
probabilstico. Apesar dessa defesa, desconheo qualquer sistema convencional de
recuperao (isto , baseado em indexao feita por seres humanos) que adote pesos
numricos exatamente dessa forma, embora a ponderao de termos esteja implcita em
certos sistemas de recuperao automticos ou semi-automticos, como o SMART (ver captulo
15).
No entanto, algumas bases de dados realmente incorporam uma tcnica de ponderao
simples ao distinguir entre descritores mais importantes e menos importantes, o que
equivale adoo de uma escala numrica de dois valores. Esta prtica pode ser vinculada
produo de um ndice impresso, onde os descritores mais importantes so aqueles sob os
quais um item aparece no ndice impresso, e os menos importantes so encontrados somente
na base de dados em formato eletrnico. o que fazem, por exemplo, a National Library of
Medicine (Index Medicus e a base de dados MEDLINE), o National Technical Information Service
(NTIS) e o Educational Resources Information Center (ERIC). Mesmo esse mtodo simples de
ponderao traz certa flexibilidade s buscas, antes citada. Quem faz as buscas pode
especificar que somente sejam recuperados os itens em que um termo (ou termos) aparea
146

como descritor mais importante. Alternativamente, obtm-se uma ordenao incipiente dos
resultados, como em:
M*M
M*m
m*m

Isto , itens em que dois termos, usados por quem faz a busca numa relao e, e sendo
ambos descritores mais importantes (M), viro em primeiro lugar, seguidos daqueles em que
apenas um dos dois seja um descritor mais importante, e depois por aqueles em que ambos
sejam somente descritores menos importantes (m).
Alguns servios de informao ultrapassaram uma escala de ponderao de dois pontos.
No BIOSIS, por exemplo, houve poca em que eram atribudos cabealhos conceituais [Concept
Headings] em qualquer um de trs nveis de nfase: primrio (o item aparece sob este
cabealho em ndices impressos), secundrio (nfase comparativamente forte), e tercirio
(nfase secundria) (VledutsStokolov, 1987).
Observe-se que a indexao ponderada, de fato, oferece a quem faz a busca a
capacidade de variar a exaustividade da indexao. Voltando figura 3, possvel que os
primeiros cinco termos listados sejam considerados descritores mais importantes, e os nove
restantes sejam considerados menos importantes. Nesse caso, a estratgia de busca que
especificasse apenas descritores mais importantes equivaleria, com efeito, a fazer a busca em
nvel de indexao menos exaustivo.
importante reconhecer a diferena entre indexao ponderada, do tipo aqui descrito, e
busca com termos ponderados. Esta ltima nada tem a ver com a indexao ponderada. Ao
contrrio, refere-se elaborao de uma estratgia de busca cuja lgica orientada por pesos
numricos e no por operadores booleanos. Por exemplo, a estratgia de busca assumiria o
seguinte formato:
Termo
A
B
C
D
E
F

Peso
10
10
2
2
1
1

Limiar = 20

O menor peso aceitvel 20, o que significa que os termos A e B devem estar. ambos
presentes num registro antes de ser recuperado. No entanto, um registro pode exceder o peso
mnimo (limiar) de modo que, compreensivelmente, alguns registros tero um escore de 26 (se
todos os seis termos estiverem presentes), outros, 25, e assim por diante. Esses itens com
escores elevados viriam em primeiro lugar numa sada impressa. Tem-se assim uma sada
ordenada por escores, mesmo sem usar qualquer ponderao dos termos de indexao. Este
mtodo de busca em bases de dados foi muito comum em sistemas de processamento em
lotes, principalmente nos voltados para a Disseminao Seletiva de Informaes (DS1). ,
porm, muito menos indicado para buscas no modo em linha.
O mtodo ideal de ponderao implicaria que uma equipe fizesse a indexao (ver
captulo 5) e os termos com que concordassem todos os indexadores teriam peso maior, e os
que fossem atribudos por um indexador teriam peso menor. Villarroel et al. (2002) propem
esse mtodo num ambiente de biblioteca digital. Isso pressupe um registro de texto completo
com um campo destinado a termos atribudos pelos usurios. Os usurios do registro poriam
em destaque partes do texto digital que julgassem importantes e isso levaria reviso dos
pesos relativos aos termos de indexao (ou, de fato, as prprias palavras do texto).
Muitos sistemas automticos incluem formas de ponderao que permitem a ordenao
da sada segundo um critrio. Sistemas desse tipo so examinados no captulo 15. Na maioria
dos casos, os sistemas de processamento automtico ponderam segundo critrios de
freqncia: freqncia de ocorrncia de um termo num texto e/ou de ocorrncia numa base de
dados como um todo; ou outros mtodos que foram experimentados, inclusive o emprego de
critrios posicionais (por exemplo, a qual distncia um do outro se encontram dois termos num
texto). Keen (1991) comparou diferentes mtodos e concluiu que a associao de mtodos
combinados provavelmente oferea melhores resultados.

147

Elos entre termos


Ao examinar de novo a figura 3, verificar-se- que o documento ali representado seria
recuperado durante vrias buscas para as quais ele no constituiria realmente uma resposta
apropriada. Algumas dessas recuperaes poderiam ser evitadas com o emprego da indexao
ponderada ou com a reduo da exaustividade da indexao. Por exemplo, qualquer uma das
duas solues evitaria a recuperao desse documento numa busca de informaes sobre
lderes polticos em geral, para a qual esse item somente teria uma utilidade muito secundria.
Outras recuperaes indesejveis seriam causadas por falsas associaes, casos em que
os termos que fazem com que um item seja recuperado no tm realmente relao alguma
entre si no documento. Um exemplo seria a combinao ESTADOS UNIDOS e LDERES
POLTICOS. bvio que o documento no trata de lderes polticos dos Estados Unidos, embora
provavelmente seja recuperado numa busca sobre este assunto. Como foi salientado antes, a
probabilidade de ocorrncia de falsas associaes desse tipo aumenta com a extenso do
registro (isto , com o nmero de pontos de acesso ou com a exaustividade da indexao).
Um meio de evitar falsas associaes estabelecer elos entre os termos de indexao.
Quer dizer, o documento , em certo sentido, segmentado em diversos subdocumentos, cada
um deles referindo-se a um assunto separado ainda que possivelmente os assuntos de cada
um estejam intimamente relacionados entre si. O documento exemplificado na figura 3 seria
subdividido da seguinte forma:
Oriente Mdio, Naes rabes, Lderes Polticos, Israel, Egito, Organizao para a Libertao
da Palestina
Opinio Pblica, Pesquisas por Telefone, Estados Unidos, Atitudes, Oriente Mdio Estados
Unidos, Ajuda Externa, Egito, Israel.
Conferncias de Paz, Oriente Mdio, Organizao para a Libertao da Palestina

e assim por diante.


Observe-se que todos os termos de cada seqncia guardam relao direta entre si e que
alguns aparecem em vrias dessas seqncias. Cada uma dessas seqncias - ou elos -
identificada com um caractere alfanumrico includo na prpria base de dados. Num sistema
de recuperao em linha isso estaria associado ao nmero do documento no arquivo invertido.
Assim, o documento 12024 pode ser segmentado em 12024/1, 12024/2, 12024/3, e assim por
diante. Isso proporciona a quem faz a busca a oportunidade de especificar que dois termos coocorram no s no registro do documento mas tambm em determinado elo dentro desse
registro, evitando, portanto, muitas das falsas associaes do tipo ESTADOS UNIDOS/LDERES
POLTICOS.
Um tipo especial de segmentao aplicado a documentos com texto completo, para
reduzir a ocorrncia de relaes indesejveis e melhorar a recuperao. Williams (1998) referese a isso como indexao por trechos [passage-level indexing]. Isso ser examinado no
captulo 14.
Indicadores de funo
Embora os elos sejam eficazes ao evitar certas recuperaes indesejveis, no resolvero
todos os problemas. Alguns termos podem estar diretamente relacionados entre si num
documento, e assim aparecerem no mesmo elo, mas no estarem relacionados da forma como
quem faz a busca gostaria que estivessem. A figura 3 nos mostra de novo excelente exemplo
disso: o item em questo poderia muito bem ser recuperado numa busca sobre atitudes do
Oriente Mdio em relao aos Estados Unidos, apesar de tratar exatamente da relao oposta.
Para evitar esse tipo de problema (uma relao incorreta entre termos) preciso
introduzir certa sintaxe na indexao, a fim de eliminar a ambigidade. O mtodo tradicional
consiste em empregar indicadores de funo (ou indicadores relacionais) - cdigos que tornam
explcitas as relaes entre os termos. A fim de eliminar a ambigidade do caso Estados
Unidos/Atitudes/Oriente Mdio, s se necessitaria de dois indicadores de funo, os quais
seriam indicadores direcionais. Por exemplo, empregar-se-ia a letra A para designar a idia de
destinatrio, alvo ou paciente, e B para representar emissor, doador, origem. Neste caso,
associar-se-ia a funo A a Oriente Mdio e B a Estados Unidos, uma vez que o primeiro o
alvo das atitudes enquanto o segundo a origem delas.
Evidentemente, nem todos os problemas de ambigidade so solucionados com o
emprego de somente duas funes. Se esses problemas se mantiverem, no entanto, num nvel

148

relativamente elementar, um nmero razoavelmente pequeno de indicadores de funo


resolver a maioria deles.
Os elos e funes foram introduzidos em sistemas de recuperao, simultaneamente, no
incio da dcada de 1960, quando os sistemas ps-coordenados ainda eram relativamente
novos e a recuperao informatizada engatinhava. Durante certo perodo, esteve muito em
voga indexar com o emprego tanto de elos quanto funes, em grande parte devido
influncia do Engineers Joint Council (EJC), que introduziu um conjunto de indicadores de
funo (ver figura 88) que teve ampla aceitao. Esse tipo de indexao altamente estruturada
no gozou de estima por muito tempo. No s era muito caro, porque os indexadores
precisavam de muito mais tempo para execut-lo, como tambm ficou evidente ser
extremamente difcil de aplicar, com coerncia, os indicadores de funo. Se j muito difcil
(ver captulo 5) obter coerncia com mtodos de indexao relativamente simples, essa
dificuldade aumenta enormemente quanto mais explcito o indexador tiver de ser ao expressar
as relaes entre os termos. Os problemas no so to grandes quando se raciocina somente
com dois ou trs termos ao mesmo tempo. Amide, porm, muito difcil identificar todas as
relaes aplicveis a um grupo maior de termos. Ademais, o acrscimo de um termo a um
grupo pode alterar de algum modo as relaes, criando a necessidade de mudana nos
indicadores de funo ou, no mnimo, aumento do nmero de funes aplicveis a cada termo.
No caso dos indicadores de funo do EJC, os problemas se agravavam porque um deles, a
funo 8, no era absolutamente um indicador relacional, mas, ao contrrio, um meio de
ponderar o termo mais importante. As pessoas incumbidas das buscas defrontavam tantas
dificuldades ao identificar as funes que o indexador teria atribudo a um termo que
acabavam, com freqncia, por omitir totalmente as funes, o que equivale a exigir que um
termo aparea em qualquer funo e nega por completo a utilidade do recurso. Os problemas
acarretados pelo emprego de elos e indicadores de funo em sistemas de recuperao foram
estudados minuciosamente em outros trabalhos (Lancaster, 1964; Sinnett, 1964; Montague,
1965; Van Oot et al., 1966; Mullison et al., 1969).

149

Figura 88 O sistema de indicadores de funo do EJC


Reproduzido com permisso da American Association of Engineering Societies

Ainda mais elaborado do que o mtodo de indexao do EJC, que emprega elos e
funes, era o mtodo de cdigo semntico na recuperao introduzido pelo Center for
Documentation and Communication Research da Western Reserve University (Perry e Kent,
1958; Vickery, 1959). O cdigo semntico foi aplicado a um sistema de recuperao
informatizado, na rea de metais, projetado e operado pela Western Reserve para a American
Society for Metals.
O sucedneo do documento era um resumo telegrfico. Este era redigido segundo um
formato padronizado, obedecendo a um conjunto de regras, para eliminar variaes e
complexidades da estrutura fraseolgica do ingls. Foram feitos formulrios especiais para
anlise de assuntos, para ajudar o indexador no registro de aspectos importantes do contedo
temtico na forma de resumo telegrfico. Nele, os termos eram codificados mediante um
dicionrio de cdigos semnticos. A base do cdigo semntico era um radical semntico. Os
radicais (havia cerca de 250 no sistema) representavam conceitos relativamente genricos.
Cada radical recebia um cdigo de quatro dgitos formado por trs caracteres com um espao
para interpolao de um quarto caractere, como nestes exemplos:
C-TL Catalyst [Catalisador]
C-TR Container [Recipiente]
C-TT Cutting and drilling [Corte e perfurao]
D-DD Damage [Dano]
D-FL Deflection [Desvio]

Os termos particulares eram formados pela insero do infixo de uma letra no radical
semntico e talvez o acrscimo de um sufixo numrico. Por exemplo, DADD representava tanto
wound [leso] quanto decay [deteriorao], onde DDD o radical semntico de damage
[dano] e o infixo A simplesmente representa is a [ um]. Em outras palavras, leso um tipo
de dano. Acrescenta-se um sufixo numrico apenas para distinguir termos que possuam
radicais e estrutura de infixos idnticos; o sufixo no tem em si mesmo importncia semntica.
Na figura 89 est a lista completa de infixos. O uso deles com um radical permite
expressar vrios matizes de significado. Por exemplo, bag [saco] e barrel [barril] eram
ambos representados por CATR, onde o infixo A indica que so tipos de recipientes. Side wall
[parede lateral] era representado por CITR, onde o infixo f indica parte de recipiente. Um
conceito complexo especfico formado a partir de vrios fatores semnticos. Por exemplo, o
assunto telefone expresso por
DWCM.LQCT.MACH.TURN.001

onde
D-CM representa Informao
L-CT representa Eletricidade
M-CH representa Dispositivo T-RN representa Transmisso

E 001 o sufixo exclusivo que distingue o termo de outros (por exemplo, o telgrafo) que
tenham os mesmos fatores semnticos. Pode-se combinar at quatro cdigos semnticos para
formar o cdigo de um conceito especfico.
A
E
I
O
Q
U
V
W
X
Y
Z

150

um
feito de
parte de
feito de vrios
faz uso de, produzido, por meio de
usado para, produz (amide usado [em ingls] para verbos terminados em ing)
age sobre
causa, influenciado por, sofre a ao de (freqentemente usado [na lngua inglesa]
para verbos que terminam em ed)
caracteriza-se pela ausncia de
est ligado a, caracterizado por, caracteristicamente
assemelha-se a, mas no

P
M

caracteriza-se por um aumento de


caracteriza-se por uma reduo de
Figura 89 Infixos semnticos do sistema da Western Reserve University
Fonte: Aitchison e Cleverdon ( 1963)

Os termos num resumo telegrfico so relacionados sintaticamente entre si por meio de


indicadores de funo. Na figura 90 apresenta-se uma lista deles. Um exemplo da aplicao de
funes :
KOV.KEJ
,KOV.KEJ.KUJ.
,KOV.KEJ.KUJ.
,KOV.KEJ.KUJ.
,KWV
,KWV

cristal
metal
liga
berlio
hexagonal muito
denso
elstico

Que indica que cristais de ligas metlicas, especificamente o berlio, esto de algum
modo sendo processados, e suas propriedades so hexagonais muito densos e elsticos.
Note-se o emprego, neste sistema, de funes companheiras. KOV e KWV so funes
companheiras ou emparelhadas. Se uma atribuda a um termo, quase certo encontrarmos
sua companheira atribuda a um segundo termo, para lig-los e indicar a exata relao entre
eles. Assim, indica-se que cristal, segundo a funo KOV, tem uma propriedade que lhe foi
atribuda. Essas propriedades atribudas so elstico e hexagonal muito denso, conforme
indicado pela funo KWV.
Alm dos indicadores de funo, o sistema adotava um mtodo altamente elaborado de
ligao dos termos (e funes) nos resumos telegrficos. Essa ligao era obtida por meio de
vrios nveis de pontuao:
1. Sublocuo. Termo ao qual se anexava um ou mais indicadores de funo.
2. Locuo. Conjunto de termos proximamente relacionados em determinada relao.
Admite-se um nmero finito de padres de locuo. Por exemplo:
KAM
KQJ
KAH

(processo)
(meio de processo)
(condio de
processo)

3. Frase. composta de locues e tambm formada segundo esquemas padronizados.


Por exemplo, uma frase pode abranger um produto e sua fabricao ou um material
testado e as propriedades determinadas para ele.
4. Pargrafo. Trata-se de um conjunto de frases e pode ser coextensivo com o prprio
resumo. tambm usado para distinguir completamente tpicos diferentes num nico
resumo telegrfico. A figura 91 mostra um resumo telegrfico completo como seria
registrado em meio eletrnico, apresentando pontuao, funes e fatores
semnticos.
Ao fazer uma busca nesse sistema, a formulao do pedido era convertida numa
estratgia composta de fatores semnticos e indicadores de funo. Vrios nveis,
correspondentes pontuao dos resumos telegrficos, eram utilizados para limitar os critrios
a termos que ocorressem em certas unidades. Por exemplo, o nvel de busca 4 solicita
simplesmente que determinado termo esteja associado a determinado indicador de funo.
Isso corresponde sublocuo na pontuao do resumo telegrfico.
KEJ
KUJ
KIJ
KOV
KW
V
KA
M
KQJ
KAH
KUP
KAP
KAL

material processado
componente principal
componente secundrio
propriedade atribuda a
propriedade atribuda
processo
meio de processo
condio de processo
propriedade influenciada ou determinada por
processo
propriedade influenciada por KAL
fator que influencia KAP

151

KWJ

produto

Figura 90 Indicadores de funo do sistema da Western Reserve University


utilizados na indexao da literatura de metalurgia
Fonte: Aitchison e Cleverdon (1963)

O sistema Western Reserve era bastante engenhoso e expressava matizes de significado


muito sutis. Possua grande flexibilidade. Podiam-se fazer buscas com grande preciso, usando
pontuao, funes e fatores semnticos especficos. Alternativamente, permitia buscas com
relativa amplitude (para obter alta revocao) ao se ignorar esses dispositivos e usar a
estrutura dos cdigos semnticos como recurso de generalizao (por exemplo, usando o
conceito geral D-DD para dano sempre que ocorresse como componente num cdigo
complexo).

Figura 91 Resumo telegrfico armazenado em formato eletrnico


Fonte: Perry e Kent (1958), Tools for machine literature searching.. Copyright 1958,
John Wiley.& Sons. Inc. Reproduzido com permisso de John Wiley & Sons Inc.

Infelizmente, o sistema era excessivamente artificioso para a finalidade a que se


destinava. Era de aplicao complicada, e tanto a indexao quanto a formulao da busca
eram operaes demoradas e dispendiosas. A experincia posterior nos ensinou que, na
maioria das aplicaes visando recuperao da informao, no se precisa do nvel de
complexidade inerente ao sistema Western Reserve. Era um sistema muito complexo e caro
para que fosse economicamente vivel, e acabou sendo posto de lado pela American Society
for Metals em favor de um mtodo mais simples e com melhor relao custo-eficcia.
Subcabealhos
O mtodo de indexao altamente estruturado, exemplificado pelo emprego de elos e
funes ou pelo cdigo semntico, predominou no incio da dcada de 1960, quando os
sistemas informatizados ainda se achavam num estdio de desenvolvimento muito preliminar.
Considerava-se imprescindvel, ento, obter resultados muito precisos na recuperao,
evitando-se a qualquer custo recuperar itens irrelevantes. O exemplo absurdo que se colocava
com freqncia era o da necessidade de se distinguir entre Venetian blinds [janelas
venezianas] e blind Venetians [venezianos cegos]! O absurdo do exemplo bvio: qual a
probabilidade de artigos sobre ambos os assuntos aparecerem na mesma base de dados e
quanta bibliografia, seja qual for, existe a respeito de venezianos cegos? Hoje em dia,
reconhece-se e se aceita o fato de que ocorrero recuperaes indesejveis, devidas a
associaes falsas ou esprias. No entanto, sua ocorrncia comumente tida como se
mantendo dentro de limites aceitveis. Na avaliao do MEDLARS (Lancaster, 1968a), cerca de
18% de aproximadamente 3 000 falhas de preciso que ocorreram em 302 buscas foram
causados por relaes ambguas entre termos. Admite-se, comumente, que melhor aceitar
algumas falhas desse tipo do que tentar evit-las com o emprego de mtodos de indexao
mais elaborados e custosos.
Os problemas decorrentes das associaes falsas ou ambguas so atualmente menos
graves do que o eram h 30 ou 40 anos porque existe, na maioria dos sistemas, um alto nvel
de pr-coordenao. Tais problemas so mais comuns em sistemas baseados na indexao
com uma nica palavra (Uniterm) ou em sistemas baseados na linguagem natural (ver captulo
14). Como os tesauros incorporaram um nvel mais alto de pr-coordenao, diminui a
probabilidade de associaes falsas ou ambguas. Tomemos um exemplo simples. Os termos
COMPUTADORES e PROJETO, aplicados a um documento, so ambguos: os computadores
esto sendo projetados ou esto sendo aplicados ao projeto de algo diferente? Por outro lado, a
combinao mais pr-coordenada
COMPUTADORES

152

PROJETO DE AERONAVES

muito menos ambgua, e a combinao


PROJETO DE AERONAVES
PROJETO ASSISTIDO POR COMPUTADOR

parece totalmente inequvoca.


Uma forma de obter alguma pr-coordenao, sem aumentar grandemente o tamanho do
vocabulrio controlado, com o emprego de subcabealhos. Num sistema ps-coordenado,
aplicam-se os subcabealhos de forma muito parecida com o modo como so aplicados nos
tradicionais catlogos de assuntos das bibliotecas. Os melhores candidatos a subcabealhos
so aqueles termos que seriam potencialmente aplicveis a muitos dos outros termos do
vocabulrio. Assim, um vocabulrio de 5 000 descritores, mais 20 subcabealhos, gera,
teoricamente, 100 000 (5000 x 20) termos exclusivos. Na prtica, porm, cada subcabealho
talvez seja aplicvel somente a determinada categoria de termo, por isso o nmero de
combinaes possveis no seria to elevado.
Voltando ao exemplo anterior, PROJETO seria um bom candidato a subcabealho em
certas bases de dados. Assim, COMPUTADORES/PROJETO bem menos ambguo do que a
combinao PROJETO e COMPUTADORES. Evidentemente, acrescentar um subcabealho a um
cabealho principal (descritor) uma forma de ligao (elo) muito simples. Com efeito, porm,
os subcabealhos funcionam praticamente como elos e funes simples ao mesmo tempo.
Vejamos a combinao:
AERONA VES/PROJETO
COMPUTADORES

O termo PROJETO no s se acha ligado explicitamente a AERONAVES mas seu emprego


como subcabealho implica realmente a relao mais provvel entre o termo AERONAVES e o
termo COMPUTADORES (isto , que os computadores so empregados como ferramentas de
trabalho no projeto de aeronaves).
A National Library of Medicine foi muito bem-sucedida ao empregar subcabealhos
exatamente dessa forma. Em alguns casos, os subcabealhos se complementam entre si.
Assim, a combinao
DISEASE X/CHEMICALL Y INDUCED [Doena x/Induzida quimicamente]
DRUG Y/ADVERSE EFFECTS [Droga v/Efeitos adversos]

implica que a doena X foi causada pelo medicamento Y, enquanto a combinao


DISEASE X/DRUG THERAPY [Doena x/Quimioterapia]
DRUG Y/THERAPEUTIC USE [Droga V/Uso teraputico]

expressa uma relao completamente diferente entre X e Y.


Embora a principal justificativa para uso de subcabealhos dessa forma fosse facilitar a
utilizao do Index Medicus impresso, comprovou-se que eles foram eficazes ao reduzir as
ambigidades tambm nas buscas na base de dados eletrnica. Ainda que a indexao com
combinaes de cabealhos principais/subcabealhos seja indiscutivelmente menos coerente
do que a indexao que emprega somente cabealhos principais (Lancaster, 1968a), os
subcabealhos apresentam menos problemas do que os indicadores de funo, e, ao contrrio
destes, so de compreenso imediata por parte dos usurios.
Dispositivos da linguagem de indexao
Esses dispositivos ponderao, elos e indicadores de funo - so considerados
dispositivos de preciso porque possibilitam que se aumente a preciso durante uma busca
numa base de dados. Outros dispositivos, como o controle de sinnimos, por outro lado, so
denominados dispositivos de revocao porque tendem a melhorar a revocao. A srie
completa desses dispositivos s vezes denominada dispositivos da linguagem de indexao
(Raitt, 1980; Lancaster, 1986). Isso um pouco enganoso: alguns desses dispositivos, como os
subcabealhos e o controle de sinnimos, constituem, de fato, componentes essenciais de uma
linguagem de indexao, enquanto outros, como os elos ou a ponderao, so bastante
independentes da linguagem de indexao. Ou seja, so operaes que se aplicam aos termos
153

quando da indexao e no componentes de um vocabulrio controlado. Poder-se-la, com


efeito, separar os dispositivos da linguagem de indexao dos dispositivos de indexao, mas
isso seria considerado uma bizantinice.
Os dispositivos de indexao examinados neste captulo so todos eles dispositivos de
preciso, com exceo de certos componentes do cdigo semntico. Fundamentalmente, um
dispositivo de preciso aumenta o tamanho do vocabulrio empregado na indexao, enquanto
um dispositivo de revocao reduz seu tamanho. Por exemplo, uma escala de ponderao de
cinco pontos praticamente aumenta o tamanho do vocabulrio por um fator de cinco. Ao invs
de se ter um nico termo, LDERES POLTICOS, por exemplo, agora se tm cinco termos LDERES POLTICOS 5, LDERES POLTICOS 4, e assim por diante. Os elos e os indicadores de
funo causam efeito similar.
Outra maneira de examinar isso em termos do tamanho da classe: os dispositivos de
preciso criam um maior nmero de classes menores, enquanto os dispositivos de revocao
criam um nmero menor de classes maiores (figura 92).

Figura 92 Os dispositivos de preciso criam classes menores; os dispositivos de


revocao criam classes maiores.

Parece provvel que a necessidade de uma abordagem altamente estruturada da


indexao, especialmente o emprego de alguma forma de indicador relacional, variar de um
campo para outro. Isso realmente jamais chegou a ser estudado, embora Green (1997) haja
examinado a aplicabilidade de estruturas relacionais indexao no campo das humanidades.
Existem analogias no processamento informatizado de textos para recuperao (ver
captulos 14 e 15), em que a anlise [parsing] do texto para evidenciar as subordinaes
sintticas equivale ao uso de indicadores de funo ou outros indicadores relacionais. Embora
essa anlise sinttica seja provavelmente necessria aos sistemas que procuram responder
perguntas a partir diretamente do texto, no existe comprovao real de que ela seja
necessria no caso dos requisitos menos rigorosos relativos recuperao de textos ou
passagens de textos. Ademais, a anlise sinttica por computador ainda est longe de perfeita
(McDonald, 1992) e esse nvel de processamento seria difcil de justificar, com argumentos de
custo-eficcia, na maioria das aplicaes de recuperao.

154

Captulo 12 Da indexao e redao de resumos de obras de fico


A indexao de assuntos conta com uma histria muito longa, acumulou uma vasta
experincia e a bibliografia hoje existente sobre o tema respeitvel. Uma de suas aplicaes
importantes, no entanto, tem sido bastante negligenciada, pelo menos at muito
recentemente: a indexao de trabalhos de fico, como, por exemplo, obras literrias e filmes.
O objetivo deste captulo examinar em que medida a indexao e a redao de resumos de
uma obra de fico apresentam problemas similares queles implcitos no tratamento de obras
srias, tais como manuais, artigos de peridicos ou filmes documentrios.
Conforme vimos antes neste livro, a indexao de assuntos envolve duas etapas anlise conceitual e traduo - que so processos intelectuais bastante distintos, ainda que
aparentemente realizados como se fossem uma nica operao. A etapa de anlise conceitual
determina de que trata um documento. A questo relativa atinncia, no que concerne
indexao, foi examinada alhures, por exemplo, Maron (1977), Hutchins (1978) e Swift et al.
(1978), enquanto Pejtersen (1979) e Beghtol (1994) abordaram especificamente a atinncia
da fico. Vrios aspectos da atinncia de textos em geral so analisados por Eco (1979) e
Troitskil (1979, 1981).
Esses autores levantam vrias questes tericas ou filosficas sobre o significado da
atinncia, as quais no procurarei repetir aqui. Para os objetivos do momento, empregarei a
expresso trata de como equivalente a capaz de informar sobre. Ou seja, se certas pessoas
puderem aprender algo sobre agricultura por intermdio da leitura de um livro ou assistindo a
um filme, eu diria que o livro (filme) trata de agriculturas
A indexao de um filme documentrio que aborde alguma tcnica agrcola no
essencialmente diferente da indexao de um livro, artigo de peridico ou relatrio tcnico
sobre agricultura. Segundo nossa definio, tudo pode ser considerado como se tratasse de
agricultura. Pode, porm, um filme de fico que por acaso tenha como locao uma fazenda
ser considerado como se tratasse de agricultura, principalmente se a agricultura for algo
completamente acidental em relao ao enredo do filme? Pode um filme que, de passagem,
focaliza a agricultura ser considerado como se tratasse de agricultura? Se, por acaso, o heri
de um filme um agricultor, isto faz com que o filme trate de agricultura? Ser que isso o faz
ser um filme que trata de agricultores?
A indexao de qualquer tipo de obra de fico - seja ela uma pea teatral, um romance
ou um filme - apresenta problemas que so, realmente, um tanto diferentes dos problemas que
envolvem a indexao de obras no-literrias. Os dois tipos so criados com objetivos
diferentes: o primeiro, fundamentalmente, para entreter ou suscitar emoes, o segundo,
fundamentalmente, para veicular informaes. O fato de o primeiro tipo transmitir alguma
informao concreta algo acidental em face do objetivo principal do veculo de comunicao.
O fato de o segundo tipo poder, de vez em quando, entreter igualmente algo fortuito em
relao ao objetivo principal do veculo de comunicao.
Se atribuirmos o termo AGRICULTURA a um filme documentrio ou a um artigo de
peridico sobre este assunto, implicamos que estes itens veiculam certas informaes sobre
agricultura, e que os usurios de um ndice procuraro itens por intermdio deste termo
porque querem aprender algo sobre este assunto especfico.
Por outro lado, se algum procura, sob o termo AGRICULTURA, num ndice de obras de
fico, por exemplo, filmes, com certeza no o faz com o propsito de encontrar informaes
sobre agricultura. Por que, ento, algum iria procurar sob esse termo? Existem vrias
possibilidades:
1. Descobrir quais os filmes que tm locao numa fazenda,
2. Contar quantos desses filmes j foram realizados, a fim de estudar tendncias da
produo cinematogrfica durante certos perodos, ou
3. Identificar o ttulo de um filme quando o mximo que a gente se lembra que ele se
passava numa fazenda ou numa comunidade de agricultores.
A segunda dessas possibilidades sugere alguma aplicao para fins acadmicos. A
primeira sugere uma forma de uso em produo (por exemplo, produtores de cinema ou
televiso que procuram descobrir como um acontecimento, lugar, pessoa, atividade ou
profisso foi representado por outros). O terceiro tipo de questo representa um uso mais
popular. Trata-se, no entanto, do tipo de consulta que quase certo aparecer no departamento
de referncia de uma biblioteca pblica. Na medida em que surgem questes desse tipo,
parece inteiramente justificvel alguma forma de indexao temtica de filmes de fico,
mesmo que estes no sejam realmente considerados como se tratassem do contedo
temtico implcito nos termos de indexao. Exatamente o mesmo argumento pode ser
155

levantado em relao a alguma forma de abordagem temtica da literatura de fico. O


romance 20 000 lguas submarinas pouco contribui, se que contribui, para nosso
conhecimento sobre submarinos. improvvel que algum considere sensatamente que esse
romance trata de submarinos. No entanto, a indexao temtica da literatura de fico tem
sua utilidade. Algum pode legitimamente querer saber quais os romances passados em
submarinos?, quantos romances se passaram em submarinos?, qual foi o primeiro romance
que aconteceu num submarino? ou qual foi aquela obra antiga famosa que previu o
desenvolvimento de submarinos?
Isso no deve ser encarado como se estivssemos a sugerir que filmes e romances no
tm substncia, no tm atinncia. O filme Patton - rebelde ou heri? trata evidentemente do
general Patton. Continuaria tratando de Patton mesmo que contivesse pouca exatido
histrica. A maioria dos espectadores concordaria em que o filme mostra a ambio de Patton.
Se isso faz com que o filme trate de ambio ou justifique sua indexao sob o termo AMBIO
uma questo inteiramente diferente. O filme tambm mostra a guerra travada com tanques.
Isso significa que ele trata de guerras com tanques? Ele trata de generais, de estratgia
militar? Pode-se consider-lo como se tratasse da Inglaterra ou da Frana s porque partes do
filme se passam nesses dois pases?
De um ponto de vista prtico, evidentemente, o que estamos examinando , de fato, uma
relao entre uma obra e os termos de indexao atribudos para representar essa obra.
Quando atribumos um termo de indexao a um livro ou artigo de peridico estamos
admitindo, em quase todos os casos, que a obra veicula alguma informao sobre o tpico
representado por esse termo. No caso de uma obra de fico, por outro lado, pode-se atribuirlhe um termo de indexao por outros motivos, principalmente para representar:
1. Seu tema central ou temas.
2. O que ela pode exemplificar, talvez casualmente.
3. O ambiente em que ela se situa.
Na realidade, os dois primeiros motivos acima no so, claro, significativamente
diferentes. Pelo menos, a nica diferena diz respeito extenso com que o tema tratado.
O ambiente do filme pode ter dimenses espaciais, temporais e de personagens. A
dimenso espacial pode ser bastante precisa - Pigalle, Paris ou Frana - ou imprecisa - uma
floresta, um rio, uma comunidade rural. A dimenso temporal, igualmente, pode ser precisa por exemplo, a Revoluo Francesa - ou mal definida (por exemplo, o sculo XIX ou antes de
Cristo). A dimenso de personagens refere-se ao ambiente criado pelos tipos de personagens
representados. O fato de o personagem principal de um filme ou romance ser uma enfermeira
no faz com que tratem necessariamente de enfermagem ou mesmo de enfermeiras. No filme
Doutor Jivago, Lara aparece em diferentes momentos como estudante universitria, enfermeira
e bibliotecria. O filme, de fato, no, trata de nenhum desses papis, pois dificilmente seria
possvel v-lo como um repositrio de informaes sobre eles. Por outro lado, em certo sentido,
Nunca te amei (The Browningversion) pode ser visto como uma obra que trata de mestres e
ensino, pois as relaes entre professor e aluna so fundamentais no enredo. O ensino no
simplesmente um ornamento ou uma imposio do ambiente.
De um ponto de vista pragmtico nada disso realmente importante. A questo
fundamental no se uma obra trata de enfermagem, utiliza a enfermagem como exemplo ou
ambiente, mas se o termo de indexao ENFERMAGEM lhe deve ser aplicado.
Uma das grandes diferenas entre a indexao de obras de fico e a indexao de
outros tipos de trabalhos que as primeiras provavelmente so mais subjetivas e
interpretativas do que as outras. Estudos sobre coerncia da indexao demonstraram que no
provvel que diferentes indexadores concordem inteiramente sobre quais termos devam ser
atribudos a determinado item, mesmo quando o contedo temtico de que ele trata seja
razoavelmente concreto. No caso de obras de fico, provavelmente muito menor a
possibilidade de que venha a existir concordncia. Isso seria especialmente verdadeiro no caso
em que a obra de fico trata fundamentalmente de alguma emoo ou qualidade - cime,
ambio ou cobia, por exemplo.
As obras de fico possuem outra caracterstica importante que complica a indexao
temtica: seu campo de ao essencialmente aberto. Isto , no h limites de fato para
aquilo que podem representar. Neste sentido, a indexao dessas obras tem algo em comum
com a catalogao de assuntos numa grande biblioteca geral ou a indexao de um jornal de
contedo genrico. Pelo menos tem mais em comum com isso do que com um ambiente de
assuntos mais restrito, como a indexao de uma coleo de itens em agricultura ou educao.
O vocabulrio usado na indexao deve tambm ser aberto, pois constantemente esto sendo

156

feitos filmes e romances que tratam de personalidades, acontecimentos e lugares que no


foram anteriormente abordados por esses meios.
Duas importantes consideraes relativas indexao de assuntos so:
1. Quem deve fazer a indexao, e
2. A quais diretrizes os indexadores devem obedecer.
Na indexao de obras especializadas em uma rea de assunto delimitada, evidente
que se torna necessrio algum nvel de conhecimento especializado. O grau desse
conhecimento especializado que ser necessrio depender, em grande medida, do grau de
hermetismo do contedo temtico e de sua terminologia. Percebe-se intuitivamente que a
indexao em matemtica ou mecnica aplicada talvez exija maior domnio do assunto do que
a indexao, por exemplo, na rea de transportes, cuja terminologia apresenta maior
probabilidade de ser conhecida do pblico em geral. Um bom indexador no precisa
necessariamente ser um especialista num assunto; inversamente, um especialista num
assunto no faz necessariamente um bom indexador.
Uma vez que o contedo de obras de fico no limitado por sua temtica, nessa
situao o domnio de um assunto, no sentido convencional, irrelevante. Ademais, pode-se
considerar que aquilo que essas obras apresentam cai na categoria de conhecimentos gerais
e nada tem a ver diretamente com as tcnicas envolvidas na produo de obras de fico. No
h motivo algum para supor, por exemplo, que a indexao de filmes deva ser feita por
estudiosos de cinema (embora essas pessoas possam oferecer contribuies valiosas a
respeito dos tipos de termos que seriam teis, pelo menos para elas) ou mesmo que ela exija
algum conhecimento especfico das tcnicas da cinematografia.
Duas caractersticas de um ndice que tero importante impacto em seu desempenho
so:
1. A exaustividade da indexao, e
2. A especificidade dos termos utilizados.
Conforme vimos antes neste livro, a exaustividade refere-se extenso com que o
contedo de uma obra coberto pelos termos utilizados na indexao. A exaustividade diz
respeito ao mbito de cobertura. Neste contexto, o oposto de exaustivo seletivo. Em geral,
a exaustividade equivale ao nmero de termos de indexao utilizados. Se o filme Geronimo
aparecesse, num ndice, somente sob os termos GERONIMO e NDIOS APACHES, essa indexao
seria bastante seletiva. No ndice de assuntos da primeira edio do American Film Institute
Catalog, este filme, no entanto, foi indexado sob 17 termos diferentes; trata-se de uma
indexao bastante exaustiva.
H prs e contras na alta exaustividade. Em teoria, a indexao exaustiva facilita achar
as coisas: a possibilidade de localizar um item crescer quase com cel1eza medida que
crescer o nmero de pontos de acesso (isto , entradas). Isso, porm, s verdade at cel10
ponto. Se a indexao for excessivamente exaustiva causar uma diluio da eficcia do ndice
- o menos importante ocultar o mais importante e dificultar sua localizao. Num exemplo
extremo, ser muito difcil identificar filmes ou romances que tratem, com algum interesse, de
ces, se o termo de indexao CES for atribudo a toda obra em que aparea um co, mesmo
de passagem. A questo, evidentemente, que a indexao de assuntos comumente implica
uma deciso binria simples (um termo ou no aplicado) e no uma deciso ponderada
(um termo se aplica com certo peso). Por isso, em certas aplicaes do ndice, o joio pode
ocultar o trigo.
Enquanto a exaustividade diz respeito ao mbito de cobertura, a especificidade refere-se
profundidade de tratamento do contedo. Estabelece-se a exaustividade como uma deciso
da poltica de indexao, enquanto a especificidade uma propriedade do vocabulrio adotado
na indexao. Em geral, constitui uma boa prtica de indexao empregar o termo mais
especfico disponvel para descrever algum aspecto presente no documento. Este princpio,
entretanto, precisa ser temperado com o senso comum. Ao projetar um ndice, deve-se tentar
chegar a um nvel de especificidade que seja apropriado s necessidades dos usurios desse
ndice. Lassie presumivelmente uma cadela da raa cole. Seria tecnicamente correto indexar
os filmes de Lassie sob COLES. No entanto, percebe-se intuitivamente ser improvvel que os
usurios de um catlogo de filmes precisem, ou procurem, qualquer termo mais especfico do
que CES. Por outro lado, seria preciso indexar de modo muito mais especfico do que CES
numa enciclopdia sobre animais de estimao. Evidentemente, quanto mais especficos forem
os termos utilizados, menos entradas por termo haver em mdia. Isso facilita a localizao de
algo altamente especfico, mas torna mais difcil a realizao de buscas mais genricas.

157

A fico em particular
Embora a maioria dos exemplos usados at agora estivesse relacionada a filmes, os
mesmos argumentos e princpios so aplicveis a romances e outras obras de fico em
formato impresso. Apesar de alguns autores, notadamente Pejtersen (ver Pejtersen, 1979,
1984); Pejtersen e Austin, 1983, 1984) terem realizado experimentos com a indexao de
fico, ao longo de muitos anos, o interesse pelo tema aumentou notavelmente na ltima
dcada, a ponto de ter levado a American Library Association a publicar diretrizes sobre a
questo (Guidelines on subject access, 2000).
Pejtersen (1992), entre outros, chamou ateno para a anomalia relativa ao fato de que
os bibliotecrios geralmente pouco fizeram para melhorar o acesso s obras de fico, muito
embora elas representem a metade do acervo das bibliotecas pblicas e mais da metade das
que so retiradas por emprstimo.
Sapp (1986) e Baker e Shepherd (1987) estudam a classificao de obras de fico nas
estantes das bibliotecas e as limitaes dos esquemas de classificao bibliogrfica ou das
listas de cabealhos de assuntos existentes, que pouco contemplam o acesso temtico s
obras de criao. Baker (1988) descreve os resultados de experincias com a classificao de
obras de fico em bibliotecas pblicas. Sapp (1986) tambm examina os mtodos adotados
em certas fontes impressas, como o Short Story Index, o Cumulated Fiction Index e o Fiction
Catalog. Embora essas publicaes realmente indexem os enredos sob mais de um cabealho,
padecem das desvantagens dos ndices impressos em geral no permitem ao usurio
combinar cabealhos numa busca. Assim, seria possvel identificar histrias policiais e histrias
que se passam na China, mas seria muito mais difcil identificar histrias policiais que se
passam num ambiente chins.
Olderr (1991) salientou por que a indexao de obras de fico importante para as
bibliotecas:
Nunca fcil responder a perguntas do tipo voc tem algum romance policial que se passe
em Iowa? ou existe algum romance atual sobre a morte? ou voc poderia me sugerir um
romance sobre o esforo de guerra em territrio ingls durante a Segunda Guerra Mundial?
(p. xiii).

Guard (1991) tambm analisa as formas de abordar a fico de que precisam os usurios
tpicos de uma biblioteca, e Hayes (I 992b) apresenta os resultados de algumas experincias
sobre acesso melhorado ao catlogo de obras de fico em bibliotecas, detendo-se
principalmente no tempo destinado catalogao e nos tipos de cabealhos necessrios.
Ranta (1991) apresenta uma perspectiva diferente, argumentando que o acesso temtico a
obras de fico necessrio para facilitar vrias modalidades de estudos literrios.
Um mtodo avanado para indexao de literatura de fico foi descrito por Pejtersen
(por exemplo, 1979, 1984) e Pejtersen e Austin (1983, 1984). Baseando-se numa anlise sobre
como os usurios de bibliotecas pblicas caracterizam o contedo dos livros, Pejtersen
identificou quatro dimenses principais da obra de fico: contedo temtico, referencial
(poca, lugar, meio social, profisso), inteno ou atitude do autor, e acessibilidade. A partir
disso, ela criou um esquema de indexao que envolvia as seguintes dimenses e categorias:
1. Contedo temtico
a. ao e curso dos acontecimentos
b. desenvolvimento e descrio psicolgica c. relaes sociais
2. Referencial
a. poca: passado, presente, futuro
b. lugar: geogrfico, meio social, profisso
3. Inteno do autor
a. experincia emocional
b. cognio e informao
4. Acessibilidade
a. legibilidade
b. caractersticas fsicas
c. forma literria
O esquema foi adotado, na Dinamarca, na indexao de vrias bases de dados em linha,
e mais recentemente no catlogo interativo em linha conhecido como Book House. Permite
fazer buscas a partir de dados bibliogrficos, palavras-chave controladas, termos de
classificao, e palavras/expresses constantes de uma anotao em linguagem natural. A
figura 93 (extrada de Pejtersen, 1992) mostra uma entrada completa do Book House. A figura
158

94 um exemplo anterior, com a indexao completa de um romance por meio de palavraschave.

Figura 93 Exemplo de entrada da base de dados de fico Book House


Reproduzido de Pejtersen (1992) com permisso de Emerald

Figura 94 Exemplo de um romance indexado com o emprego do mtodo de


Pejtersen
Reproduzido de Pejtersen e Austin (1983) com permisso de Emerald

Uma das principais vantagens de um mtodo to estruturado quanto esse para a


indexao da literatura de fico que permite que sejam realizadas buscas adotando-se uma
espcie de modo de comparao de padres, que serve para muitos leitores que desejam
livros similares a um que tenham lido recentemente. Os critrios pelos quais as obras de
fico so procuradas pelos usurios de bibliotecas so mais pessoais e idiossincrticos do que
os critrios e as caractersticas comumente associados s buscas por assuntos em bases de
dados bibliogrficos que abranjam, por exemplo, artigos de peridicos. Embora isso apresente
importantes desafios para quem projeta sistemas de recuperao, tambm sugere enfoques
inovadores do problema da recuperao da informao. Imagine-se uma base de dados de
biblioteca pblica que armazenasse informaes sobre as obras de fico retiradas por
emprstimo por cada cliente. Seriam, ento, desenvolvidos programas que identificariam
grupos (talvez pares) de clientes que tivessem muitos livros em comum. Essa informao, em
seguida, seria utilizada para gerar listas de sugestes de leitura para os usurios da biblioteca.
Por exemplo, se o Usurio A tomou emprestados os itens a, b, c, d, e, e o Usurio B tomou
emprestados a, d, e e f, talvez A viesse a se interessar pela existncia de f e B pela existncia
de b e c. O sistema de Pejtersen permite, de fato, realizar buscas por livro-modelo, isto ,
localizar um romance similar a outro que foi considerado divertido. Similar poderia ser em
termos de cenrio, tema, ponto de vista do autor, experincia emocional, e assim por diante.
Beghtol (1994) um tanto crtico do esquema de indexao de Pejtersen, revindicando
melhores resultados para uma classificao alternativa e muito anterior (Walker, 1958),
embora baseada na anlise detalhada de um nico romance, e propondo um esquema
minucioso de sua prpria autoria, que empregava um mtodo de classificao facetada.
A publicao da American Library Association sobre indexao de obras de criao
(Guidelines on subject access, 2000) menos uma srie de diretrizes do que um vocabulrio,
159

em formato de tesauro, porm baseado nos cabealhos de assuntos da Library of Congress,


que pode ser empregado para indexar fico, peas de teatro e outros gneros. O vocabulrio
abrange apenas tipos de obras (por exemplo, poesia histrica, filmes de horror, romances
histricos); os usurios so encaminhados a outras fontes, a fim de verificar a forma correta
dos nomes dos personagens, dos nomes de lugares e outros pontos de acesso.
As diretrizes que realmente aparecem na publicao da ALA so bastante imprecisas.
Alm de termos para formas, as diretrizes contemplam a atribuio de termos para
personagens, ambientes e tpicos. O ambiente refere-se tanto a lugares quanto a perodos, e
devem ser adotados subcabealhos de forma (por exemplo, Paris (Frana) - Poesia). As
diretrizes especificam que os nomes de personagens fictcios e lendrios (ao contrrio de
pessoas reais) somente devem ser usados quando surgirem com destaque em trs ou mais
obras. Embora um indexador relativamente culto provavelmente saiba que Sherlock Holmes e
Narnia aparecem em muitas obras, como poderia algum saber que um detetive ou um lugar
menos famosos se encontram em pelo menos trs obras, a menos que esse algum tivesse
mo vrias dessas obras imediatamente. E, alm do mais, o que h de to especial no nmero
trs?
As diretrizes da ALA sobre acesso tpico so ainda mais vagas:
Atribua tantos cabealhos tpicos quantos forem justificveis pelos assuntos da obra. As
sobrecapas dos livros e as recenses so uma boa fonte de informao para identificar de
que trata uma obra. Caso no existam, uma tcnica muitas vezes eficiente passar os
olhos no texto para identificar seu contedo tpico.
Os temas de obras de fico, identificados na crtica literria, podem ser expressos com
cabealhos dos LCSH representativos de qualidades ou conceitos. Uma vez, porm, que os
LCSH foram projetados para indexao de obras que no so ficcionais, so
comparativamente poucos os cabealhos que se prestam a tal fim (p. 47).

De fato, o folheto da ALA no serve a nenhum propsito til, pois as diretrizes so muito
vagas e h um tesauro mais completo e melhor (Olderr, 1991).
Em novembro de 1991, o OCLC e a Library of Congress deram incio a uma experincia de
catalogao cooperativa de assuntos em textos de fico, dramaturgia e outras obras de
criao. Vrias bibliotecas pblicas e universitrias participaram do OCLC/LC Fiction Project
contribuindo para a complementao de registros MARC de um conjunto de itens selecionados.
Foram a eles acrescentados termos relativos tanto a gnero quanto a assunto (cabealhos de
assuntos LC). Mais de 15 000 registros LCMARC foram complementados pelo OCLC e as
bibliotecas participantes. Alm disso, foram tambm complementados registros bibliogrficos
feitos por algumas das bibliotecas participantes, e muitas propostas de cabealhos de assuntos
foram submetidas Library of Congress, que aprovou mais de mil dessas propostas, em sua
maioria cabealhos para personagens de fico (Westberg, 1997). O projeto foi concludo em
1999.
Em 1997, a British National Bibliography passou a incluir entradas de obras de fico com
cabealhos de assuntos tpicos, bem como cabealhos de gnero e forma baseados nas
diretrizes da ALA (MacEwan, 1997).
provvel que as obras de fico apresentem dificuldades maiores para o indexador do
que outros tipos de publicaes. A coerncia provavelmente ser at menor, a menos que seja
adotado um vocabulrio controlado de termos genricos, bem pequeno, principalmente se o
indexador tiver de expressar o ponto de vista do autor. A indexao da literatura de fico
(por exemplo) parece inerentemente mais subjetiva do que a indexao de peridicos ou livros
especializados que tratam de fico. Outro problema que no absolutamente fcil, para os
objetivos da indexao, fazer a leitura por alto de obras de fico, e o indexador no conta com
o auxlio dos ttulos e entre ttulos temticos, que quase certamente encontra em muitos outros
tipos de publicaes (Jonak, 1978).
Olderr (1991) identifica os problemas com bastante clareza:
A catalogao de obras de fico exige imaginao. Uma obra de no-fico, mesmo que no
traga dados de Catalogao na Publicao (CIP) no verso da folha de rosto, possui um
sumrio, um ndice, ttulos temticos dos captulos e outras caractersticas que ajudaro o
catalogador. At o ttulo normalmente reflete com preciso o contedo. Se o livro for sobre a
inveja, assim haver de declarar; se for sobre cime, tambm o dir. Uma obra de fico, por
outro lado, pode tratar da inveja ou do cime e jamais empregar no texto uma dessas
palavras. E depois que o catalogador houver identificado o tema, ainda haver o problema de
lembrar qual a diferena entre inveja e cime. Isso, para comear, no algo que seja do
pleno conhecimento de todos... (p. xiv).

160

DeZelar-Tiedman (1996) estudou a factibilidade de empregar informaes fornecidas pela


editora (por exemplo, as constantes da sobrecapa ou da capa) como fonte de termos
representativos de personagens, ambiente, gnero e tpico. Em geral, ela considerou que isso
era satisfatrio para a maioria dos itens, porm a amostra em que se baseou era muito
pequena.
Down (1995) examina alguns dos problemas com que ela se defrontou na atribuio de
cabealhos de assuntos a obras de fico. Sua experincia sugere ser improvvel que o exame
superficial de um romance ou a confiana nas informaes fornecidas pela editora possam
esclarecer quais sejam realmente os temas que a obra ilustra.
Beghtol (1994) oferece o levantamento mais completo dos problemas da indexao de
obras de fico, inclusive a questo da atinncia, alm de apresentar seu prprio mtodo.
Nielsen (1997), recorrendo ao campo da crtica literria e dos estudos literrios,
argumenta que a indexao e redao de resumos de fico constitui uma forma de
interpretao literria. Afirma que as abordagens da indexao de fico, inclusive a de
Pejtersen, concentram-se no qu trata o livro e pouca ateno dedicam a como a histria
contada. Ele menciona alguns elementos, como o estilo, a narrativa, o modo discursivo e a
composio, como alguns dos elementos do aspecto relativo ao como da fico.
Nielsen oferece maiores informaes sobre quais os tipos de coisas a serem considerados
na indexao do aspecto relativo ao como de um romance:
-Gnero, subgnero, tipo literrio. (Qual o tipo de literatura?)
-Estrutura narrativa, enredo. (Por exemplo, trata-se de uma estrutura simples ou complexa?
Uma estrutura linear, cronolgica, ou uma alternncia entre tempos diferentes? Ou a
estrutura formada por variaes de fragmentos, colagem, no cronolgica mas
tematicamente organizada? A narrativa estruturada como um quebra-cabea?)
-A maneira de contar do(s) narrador(es). (Por exemplo, como a narrativa apresentada?
Quantos narradores? O narrador fala na primeira ou na terceira pessoa? Narrador distanciado
ou comprometido? Mostra ou conta?)
-Pontos de vista. (Por exemplo, a histria contada a partir de um ponto de vista especfico?
Ou h uma alternncia entre diferentes pontos de vista?)
-Estilo, maneira de contar, estrutura do discurso. (Por exemplo, estilo especfico:
impressionista, surrealista, etc. Mais genrico: maneira didtica, cmica, irnica de contar;
discurso que usa a linguagem corrente, ou que usa trocadilhos, estrutura ilgica do discurso,
ou alternao entre os discursos mais diferentes; intertextualidade.)
-Funo do ambiente. (A funo documentria? a convencional para esse tipo especfico
de romance? Ou o ambiente empregado de forma simblica ou alegrica?)
-Padres de metforas, motivos determinantes, simbolismo. (O simbolismo discreto ou
dominante? Quais os tipos de smbolos utilizados? Qual o tipo de motivo determinante que
pode ser encontrado? Quais os smbolos, motivos, alegorias ali encontrados? Por exemplo, o
motivo do duplo de algum, o motivo de Don Juan, o mito do Paraso) (p. 174-175).

Embora a indexao desses aspectos revista-se de utilidade para os estudiosos da


literatura, improvvel que venha a ter muito interesse para os leitores tpicos de obras de
fico. Ademais, esse tipo de indexao exigiria uma anlise textual minuciosa que somente
um especialista em literatura poderia proporcionar. Isso seria inutilmente dispendioso em
qualquer aplicao que tivesse uma dimenso significativa.
Trabalhos sobre indexao e resumos de obras de fico so tambm objeto de uma srie
de artigos de Saal1i (1999, 2000a,b, 2002). Um estudo sobre coerncia de indexao foi
realizado em cinco bibliotecas pblicas finlandesas. Cinco romances iguais foram indexados por
trs bibliotecrios e trs usurios de cada biblioteca. Os termos foram extrados de um tesauro
finlands para indexao de fico e os indexadores foram solicitados a redigir resumos dos
romances antes de index-los. Obviamente, a coerncia foi baixa e houve variaes muito
grandes de um indexador para outro quanto ao nmero de termos atribudos. Os indexadores
bibliotecrios atriburam menos termos do que os usurios e foram mais coerentes entre si. No
entanto, o valor de sua coerncia foi de apenas 19,9% em comparao com 12,4% dos
usurios. Os romances mais complexos (por exemplo, os de Dostoievski) foram indexados
com mais termos do que os menos complexos (por exemplo, de Simenon). Os resumos
variaram de tamanho de 23 a 186 palavras (mdia de 68). Cerca de 75% dos 3206 diferentes
elementos dos resumos lidavam com contedo (como temas, ambientes e personagens),
11,9%, com a estrutura do romance, 5,5%, com a experincia subjetiva da leitura, e 5,2%, com
a crtica ou avaliao do romance. Os usurios foram mais avaliadores/crticos do que os
161

bibliotecrios (Saarti, 2000a,b). Saarti (1999) trata de tesauros para a indexao de fico e,
em particular, do tesauro finlands.
Este exame da questo partiu da hiptese de que as obras ficcionais so indexadas em
alguma forma de base de dados. Bradley (1989) examina uma situao afim a essa: a
necessidade de ndices nas prprias obras de fico. Embora seja defensvel a incluso de
ndices no final de certas obras, como, por exemplo, clssicos renomados, certos romances
histricos e outros trabalhos ficcionais que possam ser objeto de pesquisas cientficas, o estudo
de Bradley mostrou que foi pouco o interesse demonstrado por romancistas, crticos, leitores
ou editoras.
Bell (1991b) identifica os problemas especiais implcitos na elaborao de ndices de
romances. Ela salienta que dar a entender a sutileza e complexidade da inteno de um
romancista muito mais difcil do que expressar de que trata uma obra de no-fico.
Redao de resumos
As obras de fico, tanto quanto outros tipos de publicaes, precisam ser resumidas
(quando no seja, para facilitar sua indexao), porm as caractersticas dos respectivos
resumos ou sinopses so bastante diferentes das caractersticas dos resumos de publicaes
cientficas examinados anteriormente neste livro. Um bom resumo deve conter os aspectos
fundamentais do enredo ou ao, indicando o ambiente (geogrfico, cronolgico) e as emoes
descritas, quando isto for apropriado. A sinopse pode ser estruturada como no exemplo da
figura 93 ou adotar a forma de uma narrativa simples, como no exemplo da figura 95. Embora
as caractersticas da sinopse sejam bastante diferentes das caractersticas do resumo, sua
finalidade principal semelhante - indicar para o leitor se ele precisa ou no ler ou ver o item
descrito. Alm disso, aplicam-se igualmente sumarizao de obras de fico os mesmos
princpios bsicos que orientam a redao de resumos: exatido, brevidade, clareza.

Figura 95 Duas sinopses possveis de As aventuras de Pedro, o Coelho, de


Beatrix Potter
Apud Krieger (1981), com modificaes, e com permisso do autor

So muito poucas as diretrizes existentes sobre preparao de sinopses de literatura de


fico. A editora de Masterplots (Magill, 1976) oferece alguma orientao, mas de uma forma
muito geral:
Projetado fundamentalmente para consulta, o formato de MASTERPLOTS estruturado e
padronizado, a fim de oferecer o mximo de informao da forma mais rpida. Cada uma das
snteses precedida de dados de referncia cuidadosamente verificados e enunciados
sucintamente, os quais informam num relance o tipo de obra, autoria, tipo de enredo, poca
do enredo, lugar e data da primeira edio. Em seguida encontra-se uma lista dos
personagens principais e as relaes entre eles, o que muitas vezes uma caracterstica
bastante til. Depois vem a Crtica, uma anlise breve e incisiva do livro original. Finalmente
segue-se o resumo do enredo, apresentado como uma histria completa e isenta de citaes
da obra original (p. v).

Em Masterplots II (Magill, 1986) foi adotado um formato um pouco diferente:


[...] junto com uma sntese do enredo, com freqncia se examinam os recursos narrativos e
se estuda a construo dos personagens de forma mais profunda do que antes - um aspecto
que til para os estudantes mais jovens. Alm disso, identificam-se e se analisam os
principais temas do romance em questo, e o xito em geral dos esforos do autor
comumente analisado num resumo interpretativo (p. vii-viii).

A figura 96 apresenta um exemplo de Masterplots II.


A edio revista de Masterplots II (Kellman, 2000) adota uma abordagem mais
estruturada da sinopse do enredo (conceitualmente similar a um resumo estruturado) com
quatro componentes: Enredo, Personagens, Temas e Significados, e Contexto Crtico. Seu
emprego descrito da seguinte forma:
162

Esta anlise comea com um resumo dos principais elementos do enredo da obra e continua
com sees separadas que a examinam em profundidade. A seo Os Personagens examina
as motivaes e o desenvolvimento das pessoas retratadas; Temas e Significados examina
as preocupaes maiores da obra; e Contexto Crtico avalia o lugar da obra na tradio
literria norte-americana e sintetiza qual foi sua recepo. Cada verbete termina com uma
bibliografia comentada que orienta o leitor para outras fontes recentes de estudo (p. v).

Pejtersen (1994) admite trs estruturas lingsticas bsicas para identificar e expressar o
contedo de obras ficcionais (ver figura 97). Esse esquema pode ser empregado para orientar
a redao de anotaes, como no exemplo apresentado, e essas anotaes so uma fonte
bvia de termos de indexao teis. Ela adverte, no entanto, que uma descrio completa do
contedo temtico pode exigir a combinao de vrias estruturas.

163

Figura 96 Exemplo de uma entrada de Masterplots II (1986)


Reproduzido de Masterplots II: American Fiction Series, volume I, p. 186-187. Com
permisso da editora, Salem Press Inc. Copyright 1986, Salem Press Inc.

Figura 97 Estruturas lingsticas para orientar a anotao e indexao de


fico
Reproduzido de Pejtersen (1994) com permisso da ERGON-Verlag Dr. H.-J. Dietrich

164

Captulo 13 Bases de dados de imagens e sons


Um livro organizado por Feinberg (1983) examina vrias questes especiais da
indexao, mas se limita quase que exclusivamente indexao de textos impressos em
papel. Toda rea do conhecimento, bem como distintos formatos impressos, como jornais e
leis, suscita problemas de indexao algo diferentes. As diferenas de indexao presentes
nessas variantes so, porm, de somenos. Mais relevantes so as questes que surgem ao
sairmos do texto impresso para outros formatos. Este captulo examina a indexao de
imagens e sons gravados. So reas difceis, pois abarcam campos, como tecnologia da fala,
viso computacional, e compreenso de documentos, que ultrapassam em muito o escopo da
maioria das aplicaes da indexao.
Indexao de imagens
A capacidade de armazenar, em formato digital, em bases de dados, qualquer tipo de
imagem, e especialmente de poder acessar milhes delas na Rede, causou impressionante
ressurgimento do interesse por imagens em geral e, em particular, por modos de index-las.
Disse Jrgensen (2001) sobre essa revoluo:
Encontramo-nos, ao que parece, no ponto crtico de importante movimento histrico de
retorno ao que se poderia chamar o primado da imagem. Ao longo dos ltimos sculos, as
palavras foram a forma privilegiada de comunicao e o meio preferido de educao. Uma
mudana, porm, se verificou nas ltimas dcadas, e as imagens vm reafirmando sua
primazia como mensageiros instantneos e poderosos (p. 906).

Tudo que foi dito sobre indexao neste livro, at aqui, limitou-se a textos escritos. claro
que descrever imagens com palavras ainda importante. Imagens digitais, porm, tambm
podem ser indexadas (automaticamente) e recuperadas por atributos intrnsecos, como cor,
forma e textura. Os termos que distinguem os dois mtodos no so de todo coerentes, mas a
descrio de imagens, com palavras, feita por seres humanos, denomina-se em geral
indexao baseada em conceitos, e a indexao de imagens por seus atributos intrnsecos
baseada em contedos (Rasmussen, 1997). Caractersticas como cor, forma e textura so
amide denominadas caractersticas de nvel baixo. As caractersticas de nvel alto so
descries da imagem baseadas em palavras.1
Besser (1997) chamou a ateno para o problema da indexao relativa a imagens da
seguinte forma:
Como as colees de imagens possuem muito poucas informaes textuais que
originalmente as acompanhem, nossos sistemas tradicionais de recuperao no se aplicam
facilmente a elas [...] Os museus, que, coletivamente, abrigam um dos maiores conjuntos de
imagens que efetivamente vm acompanhadas de texto, muitas vezes atribuem termos a
uma imagem que no so absolutamente teis para o leigo (p. 24).

A recuperao de imagens difere mais de perto da recuperao de textos porque os


usurios de bases de dados podem querer pesquisar sobre uma ampla variedade de
caractersticas, que vo desde as muito exatas (nomes de artistas, ttulos de pinturas) at as
muito imprecisas (forma, cor, textura). Ao tratar de determinada abordagem, uma base de
dados conhecida como MUSEUM, Mehrotra (1997) v essas caractersticas como nveis
variveis de abstrao. Os nveis principais so mostrados na figura 98, que Mehrotra explica
da seguinte forma:
Nos nveis mais inferiores esto imagens de bases de dados ou imagens-exemplo. No nvel
seguinte de descrio, uma imagem caracterizada em termos de suas propriedades, como
cores de ltimo plano/primeiro plano, cores dominantes, histogramas e propriedades de
textura. A descrio de imagens em termos de objetos - tais como regies da imagem,
segmentos de limite e contornos - e relaes entre eles forma o nvel seguinte de abstrao.
Segue-se o nvel de abstrao em que as imagens so descritas em termos de objetos
genricos, relaes e conceitos, como homem, co, carro, multido, horizonte, crepsculo,
nublado, colorido e sorriso. No nvel mais elevado de abstrao, as imagens so descritas em
termos de casos especficos de objetos do mundo genrico. Por exemplo, um homem pode
ser descrito como Joo da Silva, uma cadela pode ser descrita como Lassie, uma imagem
pode ser descrita como o horizonte da cidade de So Francisco. As descries de imagens em
1

Alguns autores, como Mostafa (1994), distinguem entre indexao verbal (isto , representao textual de uma
imagem) e indexao baseada em imagens (a extrao de caractersticas, e, portanto, pontos de acesso, da prpria
imagem), e isso parece ser uma diferenciao clara, exceto, naturalmente, que um nico sistema de recuperao pode
incluir ambos os tipos.

165

qualquer um desses nveis de abstrao podem ser multinveis e ser derivadas das
descries nos nveis inferiores de abstrao, ou associadas a elas (p. 61).

Figura 98 Principais nveis de abstrao na base de dados de um museu de


arte
Apud Mehrotra (1997) com permisso do conselho diretor da University of Illinois

As buscas numa base de dados de imagens nos nveis mdios de abstrao envolvem
recuperao de imagens baseada em contedo. Continua Mehrotra para caracterizar os
requisitos da seguinte forma:
1. Consultas que no envolvam processamento/anlise de imagens nestas consultas,
no h necessidade de processamento ou anlise de imagens da base de dados, e no
so apresentadas imagens de consulta. Exemplos: 1) recupere todas as imagens que
contenham pelo menos um automvel em frente de uma casa, 2) recupere fotografias
que contenham um homem sorrindo. As descries simblicas (extradas
automaticamente e/ou especificadas pelo usurio) relativas s imagens da base de
dados so empregadas para selecionar as imagens desejadas. Essas consultas podem
ser processadas por meio dos mtodos tradicionais.
2. Consultas que envolvam processamento/anlise de imagens estas consultas
envolvem uma ou vrias imagens que so processadas para extrair delas as
informaes simblicas desejadas a elas relacionadas. A descrio extrada
comparada com a descrio de imagens da base de dados, a fim de selecionar
imagens que satisfaam s exigncias especificadas. Exemplos: 1) recupere todas as
imagens que contenham um ou vrios objetos similares a determinada imagem de
consulta em termos de cor da imagem e caractersticas textuais (p. 61-62).
bvio que os diferentes nveis de abstrao mostrados na figura 98 representam, de
cima para baixo, problemas de indexao crescentemente complexos e crescentemente
incomuns.
As representaes exclusivamente textuais das imagens possuem evidentes limitaes.
Heller (1974) mostra um exemplo muito radical do registro catalogrfico de uma pintura de
Picasso (figura 99). O primeiro grupo de elementos do registro representa dados exatos sobre
a pintura, mas o segundo grupo, que se refere ao que ali se acha representado, e como
representado, alm de ser uma questo de interpretao, oferece uma viso bastante
imperfeita de como ela . Tambm no inclui outros atributos importantes, principalmente as
cores.
Schroeder (1999) descreve como trs diferentes camadas de indexao so aplicadas s
imagens no General Motors Media Archives: objetos (aquilo que representado - por exemplo,
um caminho Chevrolet ano 1935), estilo (por exemplo, uma fotografia imparcial versus uma
fotografia atraente de um veculo) e implicaes (por exemplo, ilustra a grande durabilidade
do veculo).
provvel que a indexao de imagens por meio de descries verbais seja ainda mais
subjetiva e, portanto, mais incoerente do que a indexao de textos. H indcios de que isso
seja verdade (Markey, 1984). Isso levou Brown et al. (1996) a sugerir a possvel utilidade de
uma abordagem democrtica da indexao, em que os usurios das imagens sugerem seus
prprios termos de indexao, e a fazer experincias com esse mtodo. Vrios autores
defendem a colaborao dos usurios na indexao de bases de dados de vdeos. Liu e Li
(2002), por exemplo, propem um sistema em que os termos que aparecem nas buscas dos
166

usurios tornar-se-iam termos de indexao relativos aos trechos de vdeo que recuperam
(provavelmente apenas os considerados relevantes).
difcil chegar a um acordo sobre a indexao de imagens porque difcil haver
concordncia quanto ao que uma imagem realmente mostra. Shatford (1986) faz uma
distino entre de que uma imagem e do que ela trata. No primeiro caso, lida-se com coisas
concretas (por exemplo, a imagem mostra uma me com os filhos), enquanto no segundo caso
lida-se mais com abstraes (por exemplo, a imagem mostra misria, sofrimento, desespero).
Em artigo posterior (Layne, 1994), ela identifica vrios tipos de atributos na indexao de
imagens, embora sugira que disciplinas diferentes podem querer utilizar atributos muito
diferentes na indexao de um acervo de imagens. Ela acentua a importncia de empregar a
indexao para formar grupos teis de imagens ao invs de pensar somente em imagens
tratadas de modo isolado. Krause (1988) trata com certa mincia do problema da indexao de
acervos de imagens. Ele concorda com a distino entre de e do que trata, mas adota nomes
diferentes, a saber, aspectos rgidos [hard] e flexveis [soft] da imagem.

Figura 99 Exemplo do registro catalogrfico de uma pintura


Apud Heller (1974) com permisso do Strong Museum, Rochester, NY
Esta figura foi reproduzida em Scott (1988)

Svenonius (1994) argumenta que, embora algumas imagens (por exemplo, em textos
mdicos) destinem-se a transmitir informaes, essa no de fato a finalidade de pinturas e
outras formas artsticas. Embora algumas representem pessoas ou objetos que podem ser
descritos verbalmente, outras so lingisticamente indeterminadas.
Markey (1984), Shatford (1986), Svenonius (1994), van der Starre (1995) e Enser (1995),
entre outros, referem-se ao trabalho do historiador da arte Panofsky, que sugeriu que uma
imagem podia ser analisada do ponto de vista pr-iconogrfico, iconogrfico e iconolgico.
Numa experincia de que participaram 18 pessoas, de antecedentes variados, Enser constatou
que a mesma imagem seria indexada em todos os trs nveis. Por exemplo, uma cena da torre
Eiffel receberia termos nos nveis pr-iconogrfico (torre, rio, rvore), iconogrfico (torre Eiffel,
rio Sena) e iconolgico (romantismo, frias, emoo). O grande nmero de termos atribudos a
uma nica imagem (18 pessoas atriburam 101 termos cena de Paris), argumenta Enser,
indica a necessidade de indexao exaustiva.
Orbach (1990) um dentre vrios autores que acentuaram a necessidade de indexar
uma coleo de imagens do ponto de vista de determinado grupo de usurios. Em suas
prprias palavras:
167

A meta da anlise temtica capturar a essncia de uma imagem ou grupo de imagens - seu
contedo e temas mais importantes - ao mesmo tempo que permanece alerta para
elementos que sabidamente sejam de interesse especial para a clientela do repositrio (p.
184).

Para certas exigncias, como, por exemplo, recuperao de uma imagem que ilustre uma
emoo, a indexao de bases de dados de imagens tem algo em comum com a indexao de
obras de fico, como vimos no captulo precedente.
Abordagens baseadas no contedo
Vrios sistemas foram desenvolvidos para permitir a busca de imagens por meio de
caractersticas de nvel baixo, como forma, cor e textura. Na maioria dos casos, o computador
(possivelmente com ajuda humana) extrai das imagens caractersticas teis de nvel baixo e
recodifica esses dados numa forma simblica, mais fcil de ser usada em operaes
posteriores de indexao e recuperao.
O sistema QBIC (Query by Image Content), desenvolvido pela IBM, est sendo empregado
em carter experimental em diversas aplicaes (Flickner et al., 1995). Holt e Hartwick (1994),
que o utilizaram num contexto de histria da arte, descrevem seus recursos da seguinte forma:
O QBIC oferece vrias formas de consultas de imagens. As duas mais gerais so como
consulta de objeto ou consulta de imagem. As consultas de objetos recuperam imagens
que contm objetos que coincidem com especificaes de consulta, do tipo localize formas
vermelhas e circulares, enquanto as consultas de imagens buscam a coincidncia com
caractersticas totais de imagens, do tipo encontre imagens que possuam principalmente
tonalidades de vermelho e azul. Para efetuar consultas de objetos, estes devem ser
identificados em cada cena, normalmente de modo manual, traando um esboo deles antes
da consulta. O processo de esboar os objetos e em seguida processar atributos ou
caractersticas de cada objeto e cada imagem como um todo denomina-se classificao de
imagens. H ferramentas bsicas de desenho, como retngulo, elipse, polgono, pincel e uma
ferramenta de contornos ativos [snake tool], que traa o contorno das imagens selecionadas.
Uma ferramenta de preenchimento [fill tool] acelera o mascaramento de imagens de alto
contraste ao traar automaticamente pixis de valor similar ao que foi selecionado (p. 8283).

O QBIC permite a realizao de buscas que envolvam cores, texturas e formas, bem como
o assunto representado numa pintura. Tambm permite consulta, por exemplo, (encontre
outras fotografias como esta). Holt e Hartwick relatam que buscas sobre formas em pinturas
podem enfrentar enormes problemas.
Diversos outros sistemas de recuperao baseados em contedo foram desenvolvidos,
embora no se tenha clareza sobre quais so operacionais e quais so simplesmente
experimentais. Um exemplo caracterstico o MUSE (Marques e Furht, 2002), um prottipo em
funcionamento destinado a suportar pesquisas e consultas, por exemplo. Um componente que
integra o projeto do MUSE um mecanismo de retroalimentao de relevncia.
As tcnicas de reconhecimento e coincidncia de formas ainda esto muito aqum da
perfeio. E, conforme Picard e Minka (1995) salientam, a anlise de formas no resolve todos
os problemas de consulta, por exemplo - algumas imagens procuradas (um campo, gua,
multides, fogo) no possuem uma forma bem-definida, e devem, ao contrrio, ser cotejadas
pela textura. Eles examinam abordagens de identificao de regies visualmente similares
numa fotografia, empregando caractersticas como direcionalidade, periodicidade,
aleatoriedade, rusticidade, regularidade, aspereza, distribuio da cor, contraste e
complexidade. O sistema experimental que desenvolveram procura imitar o comportamento
humano no reconhecimento de cenas visualmente similares. Picard (1996) trata ainda da
textura da viso em recuperao de imagens, enquanto Mehrotra e Gary (1995), Mehtre et al.
(1997) e Jagadish (1996) tratam do problema do reconhecimento de formas. Em Ogle e
Stonebraker (1995) e Smith e Chang (1997b) encontram-se exemplos de sistemas em que um
dos principais componentes a pesquisa de cores.
Mehrotra (1997) analisa alguns dos problemas presentes na representao e busca de
formas de imagens, e Huang et al. (1997) estudam a forma, cor e textura como problemas de
indexao e recuperao. O analisador de imagens por eles descrito consegue processar um
histograma de cor para uma imagem, bem como uma medida de textura baseada em
aspereza, contraste e direcionalidade.
A segmentao de imagens obtida por meio de uma tcnica de agrupamento. A posio
relativa desses agrupamentos permite buscas nas bases de dados que envolvam cor, textura e
168

caractersticas espaciais (por exemplo, uma regio vermelha acima e direita de uma grande
regio azul). Forsyth et al. (1997) apresentam um amplo e til panorama sobre o uso de
caractersticas de cor, textura e geometria na recuperao em grandes bases de dados de
imagens.
Mehtre et al. (1998) apresentam um mtodo para o agrupamento de imagens que se
baseia numa combinao de caractersticas de forma e cor. O grau de coincidncia entre
qualquer par de imagens pode ser computado e expresso numericamente, permitindo, assim,
consultas por exemplo (ou seja, possvel pesquisar imagens similares a outra j selecionada).
Alegam um grande sucesso em experincias de recuperao, mas trabalharam com bases de
dados muito pequenas (por exemplo, uma delas possua 500 imagens de logomarcas).
importante reconhecer, contudo, que a maioria dos usurios de bases de dados de
imagens provavelmente no far buscas sobre aspectos mais abstratos, como cor, forma e
textura, embora possam empreg-los para limitar ainda mais uma busca. Huang et al. (1997)
assim coloca a questo:
Em muitas aplicaes de sistemas de recuperao de multimdia, os usurios raramente
usam caractersticas de imagens de nvel baixo (isto , forma, cor, textura) diretamente para
consultar a base de dados. Ao contrrio, o usurio interage com o sistema mediante
conceitos de nvel superior (por exemplo, praia, floresta, flores amarelas, crepsculo) para
especificar determinado contedo de imagem (p. 115).

Experincias realizadas por McDonald et al. (2001) sugerem que a cor pode ser um
critrio de classificao e busca bastante til para o usurio que no tenha em vista
determinada imagem.
Diversos sistemas oferecem a possibilidade de consulta, por exemplo, ou recuperao de
similaridade. Kurita e Kato (1993) descrevem vrias aplicaes experimentais, por exemplo:
1. Ao ser feito o pedido de registro de uma marca, ela pode ser escaneada por um
departamento de patentes e cotejada com uma base de dados de marcas existentes. 1
2. Para consultar bases de dados de museus ou museus de arte, o usurio pode esboar
uma imagem (por exemplo, de uma paisagem ou parte de uma paisagem) e o sistema
pesquisar as pinturas que mais se paream com essa imagem. 2
DiLoreto et al. (1995) analisam trabalho que um tanto similar ao de Kurita e Kato
embora em ambiente totalmente diverso. Seu sistema experimental de informao geogrfica,
baseado apenas na representao pictrica de uma consulta, possibilita uma pesquisa que
pode envolver a utilizao de atributos geomtricos, relaes topo lgicas e distncias.
Nem todos os sistemas baseados em contedo esto centrados em imagens em sua
totalidade. Continuam sendo realizadas pesquisas sobre mtodos para representao e buscas
em regies separadas de uma imagem (ver, por exemplo, Moghaddam et al., 2001). Um livro
de autoria de Wang (2001) descreve com detalhes um mtodo baseado em regies para
recuperao de imagens baseada em contedos. Esse mtodo assim descrito:
Uma imagem, ou parte dela, numa base de dados, representada por um conjunto de
regies, que corresponde aproximadamente a objetos, que se caracterizam por cor, textura,
forma e localizao. O sistema classifica as imagens em categorias semnticas, como
texturado-no-texturado, censurvel-benigno ou grfico-fotogrfico. A categorizao melhora
a recuperao ao permitir mtodos de buscas semanticamente adaptveis e o estreitamento
da faixa de buscas numa base de dados (p. xi-xii).

O mtodo baseado em regies tem a vantagem de permitir critrios menos estritos para
o cotejo de imagens: uma nica regio numa imagem pode ser comparada com vrias regies
em outra imagem. Mesmo que duas imagens no coincidam perfeitamente em sua totalidade,
talvez coincidam razoavelmente bem no nvel de regio.
Jones e Roydhouse (1995) descrevem um curioso sistema, baseado em casos, para
indexao e recuperao de dados meteoro lgicos. Diante de uma situao climtica atual, o
meteorologista pode pesquisar condies similares em situaes passadas. Um mapa das
condies atuais (ver figura 100) pode ser usado como uma consulta; o sistema ento colocar
em ordem de similaridade situaes anteriores (ver figura 101). Cada objeto grfico da
consulta (figura 100), como, por exemplo, a localizao do centro de presso e sua magnitude,
convertido numa representao simblica que empregada nas buscas na base de dados
onde casos anteriores tambm esto representados simbolicamente.
1

A indexao/recuperao de marcas tambm tratada por Wu et al. (1995) e Ravela e Luo (2000), entre outros.
Benois-Pineau et al. (1997) descrevem um mtodo similar no qual as imagens de edifcios podem ser recuperadas
pelo cotejo com um esboo sintetizado.
2

169

Os autores descrevem seu mtodo de indexao da seguinte maneira:


Cada caso representa uma fatia de tempo para a qual se dispe de dados meteorolgicos.
Esses dados disponveis para ns incluem imagens de satlite armazenadas tanto em
formato digital quanto em disco laser, um arquivo de documentos e campos numricos [...]
Alguns exemplos de campos numricos incluem presso, temperatura, umidade relativa,
velocidade dos ventos e vorticidade relativa, tudo disponvel em 14 nveis diferentes da
atmosfera. [O sistema] hoje possui 3,5 anos de dados com intervalos de 12 horas, que
constituem uma base com cerca de 2 500 casos. Estamos concentrados atualmente numa
regio que cobre cerca de uma oitava parte do globo, tendo como centro a Australsia.
Prevemos que mais 10 anos de dados logo estaro disponveis para ns, o que nos permitir
expandir a base de casos para cerca de 10 000 casos. Dentro de alguns anos, as reanlises
de dados histricos [...] devero produzir conjuntos de dados que abrangero um perodo
desde a Segunda Guerra Mundial at os dias atuais, o que permitir a construo de uma
base de dados com mais de 36 000 casos do passado.
[O sistema] recupera casos por meio do cotejo de consultas feitas pelo usurio com rtulos
de ndice explicitamente representados. As consultas identificam caractersticas especficas
de nvel alto da situao atual que paream ser meteorologicamente importantes: por
exemplo, sistemas de baixa e alta presso. Os rtulos de ndice so representaes das
caractersticas de nvel alto da situao do tempo em cada caso. Tanto quanto possvel, [o
sistema] extrai essas caractersticas automtica ou sem i-automaticamente dos dados
brutos. Atualmente estamos nos concentrando em certas caractersticas, como as mnimas e
mximas locais, que so fceis de extrair automaticamente [...] (p. 51).

Figura 100 Consulta formulada a uma base de dados meteorolgicos. A


consulta pede um complexo sistema de baixa presso sobre a Nova Zelndia
com sistemas de alta presso a leste e oeste
Apud Jones & Roydhouse, lntelligent retrieval of archived meteorological data
IEEE Expert, 10(6), 1995, 50-57. 1995. IEEE

Corridoni et al. (1998) descrevem um mtodo de recuperao de pinturas por meio da


semntica das cores. Em essncia, as pinturas so segmentadas em regies que possuam
diferentes caractersticas cromticas. A base de dados pode ento ser consultada para localizar
pinturas que apresentem determinadas propriedades cromticas e caractersticas espaciais.
Experincias quanto ao emprego da textura na indexao e recuperao de fotografias
areas so descritas por Ramsey et al. (1999). O objetivo deles era elaborar um tesauro de
texturas (e talvez outras caractersticas das fotografias) que os usurios pudessem consultar
em linha. Quando o usurio encontrasse uma textura que corresponderia ao elemento
procurado (por exemplo, uma pista de aeroporto), ele poderia utilizar o sistema para consultar
imagens e encontrar as que apresentassem texturas similares. Alternativamente, seria possvel
empregar consultas, por exemplo; isto , o usurio solicitaria ao sistema que procurasse
fotografias que apresentassem texturas similares s de outra que j tivesse em mos. Ma e
Manjunath (1998) estudam a segmentao e recuperao de fotografias areas baseadas em
texturas.
Zhu e Chen (2000) chamam ateno para o fato de que um sistema ideal de imagens
precisa ter condies de fazer buscas sobre caractersticas de nvel baixo (como cor, forma e
170

textura) de uma imagem, mesmo que a consulta feita pelo usurio esteja em nvel muito mais
elevado (por exemplo, encontrar todas as imagens que contenham pomares). Se o usurio
selecionar alguma caracterstica (por exemplo, pomar) numa fotografia area, o sistema
experimental de Zhu e Chen procurar outras imagens que paream conter caractersticas
similares. O sistema emprega apenas textura na comparao de imagens. Sua expectativa
de que resultados muito melhores seriam obtidos se a comparao se baseasse na forma e na
cor, bem como na textura.
A indexao de imagens baseada em palavras e feita por seres humanos cara, e por
isso foram feitas vrias sugestes sobre como a indexao baseada em conceitos seria
efetuada automaticamente, ou, pelo menos, com ajuda do computador. Goodrum et al. (2001)
sugerem como caractersticas de nvel baixo das imagens seriam usadas para agrupar essas
imagens de modo a possibilitar a herana de termos. Imaginemos uma coleo de imagens
que haja sido indexada com termos atribudos por seres humanos. A essa base de dados
acrescenta-se novo lote de imagens. As tcnicas de agrupamento comparam as imagens
recm chegadas (por exemplo, pela forma) com as que j se encontram na base de dados. Se a
nova imagem X for muito parecida com a imagem antiga A, termos A seriam atribudos a X
tambm, ou, pelo menos, apresentados como sugestes para indexao de X. Propem
tambm que esse tipo de comparao seja adotado nas atividades de controle de qualidade.
Isto , se a imagem X e a imagem Y fossem parecidas, mas os seres humanos houvessem
indexado ambas de modo muito diferente, o sistema criaria um alerta que faria com que
fossem examinadas mais cuidadosamente. Por fim, propem que os usurios de uma base de
imagens sejam solicitados a apresentar uma descrio do uso que pretendem dar a uma
imagem (OU grupo) e que essas descries forneceriam termos que seriam teis pontos de
acesso em futuras recuperaes, Patrick et al. (1999) e Frost (2001) tambm propuseram
formas de indexao por herana.

171

Figura 101 Dois mapas meteorolgicos recuperados em resposta consulta da


figura 100
Apud Jones & Roydhouse, Intelligent retrieval of archived meteorological data,
IEEE Expert, 10 (6), 1995, 50-57. 1995. IEEE.

Para imagens presentes num contexto textual (por exemplo, num jornal), talvez seja
possvel extrair automaticamente partes do texto que expliquem a imagem. Trabalhos nessa
linha foram descritos por Srihari (1993, 1995a, b, 1997) e Nakamura et al. (1993), entre outros.
Estes ltimos estudam a integrao de informaes do texto com informaes da imagem
(neste caso um diagrama encontrado num manual ou numa enciclopdia). Em seu trabalho,
como no de Rajagopalan (1994), o texto usado para explicar o diagrama. Por exemplo
(segundo Rajogopalan), a afirmao o disco est rolando caminho abaixo pode esclarecer
muito o que estiver representado num diagrama que completamente esttico. Vrios
sistemas experimentais anotaro (isto , indexaro) imagens baseados em palavras-chave
que ocorram no texto em volta da imagem. Ver, por exemplo, Liberman et al. (2001).
Srihari volta-se para problemas mais difceis e sua pesquisa muito mais complexa,
recorrendo ao campo do reconhecimento da fala bem como aos do processamento da
linguagem natural e compreenso da imagem. Uma aplicao emprega o texto de legendas
para identificar seres humanos retratados em fotografias de jornais. Quando a legenda pode
ser usada para identificar um indivduo, o texto dela empregado para indexar a imagem
automaticamente. No prottipo do sistema denominado Show & Tell (Srihari, 1997), um
analista humano v a imagem de uma paisagem numa estao de trabalho e a descreve
(indexa) mediante uma combinao de entrada de dados com o mouse (apontamento) e
linguagem falada. Um sistema de reconhecimento da fala transcreve a entrada e a sincroniza
com a entrada de dados feita pelo mouse. Esse tipo de videoanotao foi expandido para um
sistema destinado anotao de quadros de vdeo com especial referncia indexao e
buscas em vdeos em aplicaes de inteligncia militar.
Carrick e Watters (1997) apresentam um mtodo para problema afim: o reconhecimento
automtico de associaes entre diferentes mdias, como no reconhecimento de que
determinada fotografia se relaciona com determinada notcia.
Parece provvel que alguns usos das bases de dados de imagens sero to imprecisos
que somente permitiro os mtodos de pesquisas aleatrias ou buscas iterativas. Um exemplo
bvio a busca de um rosto do qual se conhecem ou so lembrados apenas os traos gerais. 1
Jain (1997) examina este problema e o mtodo de busca iterativa para resolv-lo (chama-o de
consultas incrementais):
O usurio que estiver procura de certas informaes, por exemplo, acerca de uma pessoa
de quem tem uma vaga lembrana, especifica coisas importantes que ele recorda sobre a
pessoa [ver figura 102]. Esta especificao talvez diga que ela tem olhos grandes, boca
grande, cabelo longo e testa pequena. Com base nessas informaes, recuperam-se
fotografias de pessoas que nelas se enquadrem. O usurio poder, ento, selecionar a que
mais se aproxime de sua consulta e modificar a consulta seja especificando caractersticas
seja empregando na fotografia ferramentas de edio grfica e de imagens. Isso refina a
imagem de consulta, que ento enviada ao sistema para que fornea novos candidatos
satisfao da consulta. Assim, a consulta formulada de modo gradativo, comeando com a
idia vaga original. Esse processo ser concludo quando o usurio considerar-se satisfeito (p.
71).

Price et al. (1992) avaliam um mtodo de busca iterativa (retroalimentao de relevncia)


para a recuperao de imagens, mas baseado em descries textuais das imagens ao invs de
buscas de coincidncia de padres das prprias imagens. Gudivada et al. (1996) tratam da
retroalimentao de relevncia em relao ltima situao. Ciocca e Schettini (1999)
apresentam um mtodo de modificao de busca automtica baseado nas caractersticas de
nvel baixo das imagens selecionadas pelo usurio como teis e das selecionadas como noteis.
Rowe e colegas da U.S. Naval Postgraduate School formam um grupo de pesquisa que se
concentrou na indexao de fotografias e outras imagens. Seu mtodo emprega uma
combinao de texto (legendas de figuras) e processamento de imagem em nvel de pixis. Um
mtodo de rede neural usado para classificao de regies aplicada a fotografias, e
processos de anlise [parsing] automtica so aplicados s legendas. Seu trabalho, que se
concentra em dados multimdias em sistemas de armamentos, inclui a indexao de
1

Vrios mtodos de reconhecimento de fotografias de rostos so analisados na literatura. Por exemplo, Rickman e
Stonham (1991) propem um mtodo baseado em rede neural. O problema tambm abordado por Wu et al. (J 995),
Pentland (1997), Li et al. (1997), Hafed e Levine (2001) e Fleuret e Geman (2001).

172

fotografias que fazem parte de pginas da Rede (Rowe e Guglielmo, 1993; Rowe, 1994, 1996;
Rowe e Frew, 1996, 1997; Guglielmo e Rowe, 1996).

Figura 102 Consulta incremental numa base de dados de imagens


Apud Jain (1997) com permisso do conselho diretor da University of Illinois

Gauch et al. (1999) descrevem um sistema - VISION - que atribuir trechos de vdeo a
categorias baseadas nos termos que ocorrem em suas legendas. O esquema de classificao
adotado contm cerca de 2 000 categorias. Os vdeos que chegam podem ser cotejados com
perfis de interesses dos usurios mediante este conjunto de categorias.
Vailaya et al. (2001) desenvolveram procedimentos para colocao de imagens em
categorias baseadas em suas caractersticas de nvel baixo. Os experimentos que descrevem
empregam uma base de dados que contm quase 7 000 fotografias de viagens de frias:
Especificamente, estudamos a classificao hierrquica de imagens de viagens de frias; no
nvel mais alto, elas so classificadas como internas ou externas; as externas so ainda
classificadas como urbanas ou naturais; por fim, um subconjunto de imagens naturais
classificado nas classes de crepsculo, floresta e montanha (p. 117).

A classificao baseia-se na distribuio da cor e caractersticas da forma.


Vrios grupos de pesquisa vm estudando mtodos para indexao de colees de
pinturas e outros objetos de arte. Por exemplo, Ozaki et al. (1996) descrevem uma abordagem
que incorpora informaes sobre o que representado (por exemplo, orientao espacial) bem
como sobre fatores estticos, como cor e estilo.
Encontram-se na literatura trabalhos que lidam com problemas mais complexos da
recuperao de imagens. Por exemplo, Cromp e Dorfrnan (1992) examinam um mtodo para
lidar com dados de sensoriamento remoto obtidos por satlites em rbita, e Gudivada e
Raghavan (1995) identificam situaes complexas, em matria de recuperao, relativas a
certos tipos de bases de imagens, inclusive a representao e recuperao de imagens
tridimensionais (recuperao por volume) e recuperao por movimento (por exemplo,
encontrar uma imagem que mostra determinada ao).
Geisler et al. (2001) descrevem trabalho em curso na University of North Carolina visando
ao desenvolvimento de uma coleo digital de vdeos (o Open Video Project) que pode ser
empregado como bancada de provas para investigaes sobre pesquisas, recuperao e uso
de segmentos de vdeo digital.
Em livro de Wu et al. (2000) encontra-se uma anlise exaustiva (mas altamente tcnica)
de vrios aspectos da recuperao baseada em contedos.
Embora alguns pesquisadores da rea da recuperao baseada em contedos sejam
bastante ousados em suas pretenses, outros so bem modestos. Por exemplo, Wang (2001),
escrevendo sobre seu trabalho com recuperao de imagens baseada em contedos, na
Stanford University, na dcada de 1990, admite:
Na poca, a mim parecia razovel que haveria de descobrir a soluo para o problema da
recuperao de imagens no curso do projeto. A experincia mostrou, com certeza, que ainda
estamos longe de resolver esse problema bsico (p. xi).

173

Imagens na Rede Mundial


natural que atualmente se esteja dando muita ateno a maneiras de melhorar a
recuperao de imagens na Rede Mundial. A maioria dos mais importantes mecanismos de
buscas realmente oferece recurso que restringe uma busca verbal recuperao de imagens.
No entanto, as pesquisas atuais tratam de processos mais complexos, como a identificao
automtica de imagens. Um livro de Chang et al. (2001) contm uma descrio mais atualizada
dos mtodos de buscas de multimdia na Rede.
Iyengar (2001) organizou uma srie de artigos sobre acesso a imagens na Rede. Chen et
al. (2001) descrevem seu mtodo de extrao de informao textual de imagens na Rede (a
partir de Localizadores Universais de Recursos [URLS], ttulos, textos ao redor de uma
imagem). Esses atributos semnticos de nvel alto podem ento ser combinados com atributos
de nvel baixo. Liu et al. (2001) descrevem mais detidamente a extrao de texto. Outro
mtodo que combina caractersticas de nvel baixo e nvel alto descrito por Wu et al. (2001).
Rowe e Frew (1998) descrevem mtodos desenvolvidos para identificao automtica de
fotografias na Rede Mundial. As fotografias podem ser identificadas mediante uma combinao
de caractersticas, inclusive forma, dimenses, quantidade de cores e referncias do texto. A
segunda etapa dessa pesquisa a identificao automtica de legendas para essas fotografias.
Essa no uma tarefa simples, porque, na pgina da Rede, as legendas podem estar
separadas das fotografias, e s vezes inseridas em texto maior. A localizao de legendas
feita por meio do emprego de chaves multimodais que incluem as palavras especficas
utilizadas, a sintaxe, o leiaute circundante da pgina da Rede, e a aparncia geral da imagem
associada. Os autores reivindicam um surpreendente grau de sucesso de procedimentos
que evitam o processamento da imagem completa e processamento total da linguagem
natural.
Vrios grupos de pesquisas vm trabalhando sobre reconhecimento de fotografias de
pessoas na Rede. Os mtodos podem basear-se no reconhecimento facial e ocorrncia do
nome no texto, ou uma combinao de ambos (ver, por exemplo, Aslandogan e Yu, 2000).
Agnew et al. (1997) descrevem um mtodo experimental de consulta, por exemplo, para
busca de imagens na Rede Mundial. O sistema localizar as imagens, far sua indexao (por
cor, tamanho e outros atributos) e armazenar os ndices num servidor. Smith e Chang (1997a)
estudam outro mtodo de indexao de imagens na Rede, que emprega tanto atributos
textuais quanto visuais.
Resumos de imagens
A preparao de um resumo, ou outro tipo de sucedneo, de uma imagem apresenta
problemas especiais, principalmente no caso de imagens em movimento, como os programas
de televiso. Basicamente, so possveis dois tipos de resumos: uma descrio verbal do vdeo
(um resumo bastante convencional) ou um resumo que seja ele prprio uma imagem. Embora
seja possvel elaborar resumos textuais que sintetizem as aes dos filmes ou transmisses de
televiso (como o demonstra o catlogo do American Film Institute), talvez seja melhor, em
certos casos, dispor de um resumo visual de cenas do prprio filme. Geisler et al. (2001)
salientam que os resumos de vdeo podem ter o formato de imagens estticas ou em
movimento. Assim se referem aos resumos de imagens estticas:
Slide shows, storyboards e tiras de filmes [filmstrips] so exemplos desse tipo [...]
Normalmente as pessoas extraem os quadros-chave [keyframes] de cada tomada para
represent-la e em seguida arranjam todos os quadros-chave ou um subconjunto deles para
formar o resumo. Os mtodos de seleo de quadros-chave e agrupamento ou montagem
deles variam, em diferentes projetos (p. 68).

E acrescentam:
Um resumo de imagens em movimento em si mesmo um vdeo curto e pode oferecer aos
usurios informaes ricas e animadas. O exemplo mais reconhecvel o trailer de filmes [...]
O Movie Content Analysis Project [...] seleciona alguns trechos de um filme e em seguida os
monta no resumo final. Resumos de imagens em movimento incorporam tanto informaes
de udio quanto visuais de uma fonte mais longa e podem ser considerados uma prvisualizao curta de um vdeo longo (p. 68).

Geisler et al. alegam que ainda preciso pesquisar bastante sobre como as pessoas
interagem com os videorresumos.
Ding et al. (1999) compararam trs tipos de videorresumos - quadro-chave, verbal
(palavra-chave/frase) e uma combinao de ambos - com base na compreenso verbal (a
174

capacidade de a pessoa apreender a idia principal de um trecho de vdeo a partir do resumo)


e a essncia visual [visual gisting]. No ltimo, foram mostradas imagens aos sujeitos do teste,
algumas extradas do vdeo de origem e outras no, tendo sido solicitado a eles que
selecionassem as que pertenciam ao vdeo de origem. Trabalho relacionado a este foi relatado
por Tse et al. (1999), que estudaram os efeitos de diferentes visualizaes de quadroschave no
desempenho do usurio em tarefas de localizao de informao. Os usurios consideraram a
visualizao esttica (storyboard) mais fcil de utilizar do que a visualizao dinmica (slide
show), embora no hajam sido encontradas diferenas no desempenho da tarefa.
Goodrum (2001) comparou quatro tipos de sucedneos de vdeos (ttulo, palavras-chave,
quadros estticos e quadros-chave) cotejando as decises de semelhana para cada
sucedneo com as decises de semelhana para os vdeos representados, na hiptese de que
o melhor sucedneo aquele cujo mapa de semelhana mais se aproxima do mapa dos
prprios vdeos. Houve maior concordncia dos sucedneos baseados em imagens do que dos
que se baseavam em textos. Goodrum, no entanto, conclui que h necessidade de ambos:
Parece claro que, apesar de os sucedneos baseados em imagens terem alcanado, em
geral, melhor desempenho, os sistemas de recuperao de vdeo no devem excluir as
representaes textuais. Cada tipo de sucedneo tem uma contribuio exclusiva a dar
percepo, pelo usurio, do contedo informacional, e deve ser includo como parte de um
sistema completo de recuperao de informaes visuais (p. 11).

Lienhart et al. (1997) descrevem, da seguinte maneira, seu mtodo de elaborao de


resumos de vdeos:
O algoritmo de resumos que desenvolvemos pode ser subdividido em trs passos
consecutivos [...] No primeiro. passo, segmentao e anlise do vdeo, o vdeo de entrada
segmentado em suas tomadas e cenas. Ao mesmo tempo, identificam-se seqncias de
quadros com eventos especiais, como um texto que aparece na seqncia de crditos,
tomadas em close-up dos atores principais, exploses e tiros. No segundo passo, seleo dos
trechos, selecionam-se trechos do vdeo para incluso no resumo. O terceiro, montagem dos
trechos, monta-os em suas seqncias finais e produz o leiaute de apresentao; este passo
envolve a definio da ordem dos trechos do vdeo, o tipo de transio entre eles e outras
decises de edio (p. 56).

Foram desenvolvidos sistemas para selecionar automaticamente quadros-chave de


vdeos e incorpor-los numa interface de busca ou consulta em bases de dados de vdeos (ver,
por exemplo, Girgensohn et al., 2001). Isso equivale mais ou menos a colocar resumos numa
interface que facilite as buscas e a consulta de textos.
Vrios grupos de pesquisa esto trabalhando no desenvolvimento de resumos de
seqncias de vdeo que sejam eficazes e dinmicos. Exemplo disso o trabalho de Nam e
Tewfik (2002), que critica os resumos de vdeos que dependem de arranjos estticos de
quadros-chave apresentados em tela nica. Tais resumos no preservam a natureza dinmica
do passar do tempo do contedo do vdeo. Propem um mtodo de sumarizao 1 que produza
um resumo dinmico do vdeo. Isso seria conseguido por meio de um processo de amostragem
que selecionaria segmentos do filme com base na quantidade de atividade representada. O
resumo do vdeo apresenta o contedo essencial dos dados presentes no vdeo por meio de
uma rpida reproduo seqencial.
Atributos da imagem
O grande aumento do interesse pela indexao e recuperao de imagens suscitou
inmeros estudos sobre como as pessoas vem as imagens ou reagem a elas. Esses estudos
destinam-se a descobrir quais os tipos de abordagem que as pessoas necessitaro na
recuperao de imagens e quais os tipos de termos que sero teis para descrever e indexar
imagens.
Jrgensen (1998) solicitou a 48 mestrandos que descrevessem tarefas, a fim de
identificar atributos de imagens que seriam teis na indexao e recuperao. Foram
mostradas aos estudantes as mesmas seis imagens e lhes foi solicitado que redigissem uma
descrio simples de cada uma, bem como uma consulta para a qual a imagem seria uma
resposta coincidente. Jrgensen relata que embora os atributos que ocorriam com mais
freqncia (termos para objetos e pessoas representadas, partes do corpo, roupas, cor e

No sentido dicionarizado de resumir. Sumarizao, no sentido de elaborao automtica de resumos, empregada


por especialistas lusfonos da rea da lingstica computacional. (N.T.)

175

localizao) fossem previsveis e coerentes com estudos anteriores, os termos que descreviam
a histria na fotografia foram usados muito mais do que seria natural.
Heidorn (1999) estudou a descrio em linguagem natural de objetos (neste caso,
fotografias de rvores floridas) criada por pessoas que tentavam descrever objetos de forma
suficientemente minuciosa para que o ouvinte reconhecesse o objeto num conjunto de objetos
similares. Ele descobriu que os participantes faziam grande uso de analogias em suas
descries (por exemplo, uma planta que parecia uma borboleta).
Goodrum e Spink (1999) examinaram mais de um milho de consultas por imagens feitas
por 211 000 usurios de um nico mecanismo de busca na Rede, o EXCITE. Constataram que,
em mdia, havia 3,74 termos por consulta e que a grande maioria de termos empregados eram
exclusivos, com mais da metade ocorrendo apenas uma vez.
Frost (2001) estudou usurios que faziam buscas numa base de imagens, quando
estavam disponveis tanto as opes visuais quanto verbais. Os sujeitos da pesquisa eram
estudantes, funcionrios e membros do corpo docente de uma universidade. A base de dados
inclua imagens relativas Terra e s cincias espaciais. Um dos principais objetivos da
pesquisa era determinar se os usurios possuam uma imagem mental daquilo que estavam
procurando e se a imagem recuperada coincidia com a imagem mental. Com base em
resultados preliminares, ela concluiu que apenas a recuperao baseada em contedo no era
suficientemente boa para os usurios generalistas, enquanto apenas a recuperao baseada
em conceitos exigia mo-de-obra intensiva. Os custos de um sistema de recuperao de
imagens seriam reduzidos se somente parte da coleo fosse indexada. Os usurios
encontrariam uma imagem satisfatria nessa parte e a utilizariam para uma busca visual na
parte maior da coleo.
Burke (2001) relata estudos sobre classificao de fotografias. Ela empregou a teoria do
construto pessoal (uma tcnica importada do campo da psicoterapia) em seus exerccios de
classificao, e encontrou um alto nvel de coerncia entre os construtos pessoais que os
participantes empregaram para distinguir as fotografias umas das outras.
OConnor et al. (1999) realizaram experincias em que estudantes eram solicitados a
observar imagens selecionadas e registrar as reaes que sentiam diante dessas imagens. A
hiptese subjacente era que essas reaes seriam uma fonte til de descritores para a
organizao de uma coleo de imagens, de modo a facilitar a recuperao futura (isto ,
indexao centrada no usurio). Foi pedido aos estudantes que redigissem legendas e tambm
anotassem palavras ou frases que descrevessem o que a imagem continha e o que sentiram
diante das imagens. Um resultado observado pertinente indexao de imagens foi a
ocorrncia, no incomum, de antonmia: uma frase empregada por um estudante para
descrever uma imagem era quase diametralmente oposta empregada por outro estudante
(por exemplo, um pato que apenas nadava, na viso de um estudante, era visto por outro
como se estivesse numa misso). Embora o uso de termos de reao talvez seja til na
indexao e recuperao de imagens, pelo menos como suplemento a termos mais
convencionais, descritivos (como pato e lago ), claro que teriam de ser fornecidos por uma
amostra representativa de observadores, a fim de captar diferentes interpretaes e pontos de
vista.
Com base em anlise de quais os tipos de termos que os usurios de uma amostra
empregariam ao observar imagens selecionadas, Greisdorf e OConnor (2002) concluem que
termos de consulta de base afetiva/emocional parecem ser uma categoria descritiva
impOliante na recuperao de imagens. difcil entender a lgica de tal afirmativa. Os termos
afetivos/emocionais (entre os exemplos citados esto bonito, sempre jovem, feliz, forte,
melancolia) devem certamente corresponder a reaes totalmente dependentes do momento
temporal. Isto , se a pessoa A julga que determinada imagem sugere a idia de forte, haver
alguma probabilidade de sua reao ser a mesma depois de um ano? Os autores no
procuraram estudar a estabilidade desse tipo de reao ou mesmo a coerncia da reao entre
um grupo grande de pessoas, de modo que carecem por completo de base que sustente sua
concluso. Ademais, muito difcil acreditar na probabilidade de usurios de uma base de
imagens fazerem grande uso desses termos em buscas reais. Estou procura de uma
fotografia de rvores que sugira a idia de forte parece ser algo completamente implausvel.
Choi e Rasmussen (2002) recorreram a membros dos corpos docente e discente de psgraduao de departamentos de histria de duas universidades em seu estudo sobre critrios
para determinar a relevncia de uma imagem para uma necessidade de informao. As
consultas situavam-se no campo da histria norte-americana. Naturalmente, a topicalidade
(isto , a imagem guarda relao com a tarefa do usurio) foi o critrio mais importante nos
julgamentos de relevncia, embora outros critrios, como qualidade e clareza da imagem,
tambm fossem importantes. Como tambm foi notado em muitos estudos nessa rea, as
176

concluses a que chegaram os autores so relativamente triviais. Por exemplo, concluem que
mais provvel que os usurios julguem a relevncia das imagens a partir das prprias imagens
do que a partir das descries textuais dessas imagens:
Em primeiro lugar, os sistemas de recuperao devem permitir aos usurios compulsar e
comparar um conjunto de imagens recuperadas, pois a visualizao das imagens torna mais
fcil os julgamentos de relevncia (p. 715).

Tambm concluem que a retroalimentao de relevncia pode ser mais importante na


recuperao de imagens do que na de textos. Embora isso possa ser verdadeiro, no foram
coletados dados que fundamentem tal concluso. Conforme documentado antes neste
captulo, vrios sistemas experimentais de fato incorporam a retroalimentao de relevncia.
Chen (2001 a, b) estudou as consultas elaboradas por estudantes para localizar imagens
necessrias preparao de trabalhos finais de curso no campo da histria da arte. Chen faz
questo de nos dizer que os estudantes raramente usaram os conceitos de cor, forma e
textura em suas consultas, implicando, talvez, que essas caractersticas de nvel baixo seriam
pouco pertinentes recuperao de imagens em histria da arte. Porm os temas atribudos
aos estudantes (por exemplo, o papel de Veneza na histria da arte) no eram do tipo que
provavelmente exigiria, na recuperao, uma abordagem baseada em contedo. Alm do mais,
nenhum sistema de recuperao de imagens foi realmente utilizado no estudo, e as fontes de
imagens disponveis para os estudantes (ferramentas impressas e stios da Rede) no foram
projetadas para permitir buscas baseadas em contedo, de modo que ficamos a imaginar por
que essa concluso viria a merecer qualquer destaque.
Turner (1995) comparou os termos que os usurios selecionaram para aplicar a imagens
(neste caso tomadas de filmes cinematogrficos) com termos j associados com as imagens na
indexao ou em descries escritas da tomada. Ele encontrou alto nvel de concordncia.
Keister (1994) contribuiu com uma proveitosa anlise dos tipos de consultas feitas a uma base
de dados de imagens, neste caso estampas e fotografias mdicas de interesse histrico, e
Sutcliffe et al. (1997) estudaram estratgias de busca de informaes adotadas por usurios de
bases de dados de multimdia. Hastings (1995a, b, c) estudou os tipos de pontos de acesso de
que precisam os historiadores da arte. Depois de observar uma pequena coleo de imagens
de pinturas, os historiadores foram entrevistados com a finalidade de determinar, entre outras
coisas, qual o tipo de ponto de acesso que lhes seria til. Ornager (1997) estudou as
necessidades de jornalistas no uso de um arquivo de imagens de jornal.
Jrgensen (1996) constatou que sujeitos solicitados a descrever imagens tinham maior
probabilidade de selecionar atributos perptuos (isto , caractersticas bastante exatas, tais
como objetos representados e sua cor) ao invs de interpretativos (por exemplo, estilo
artstico ou clima de uma pintura) ou atributos criativos (isto , reao pessoal pintura,
como julg-la feia ou perturbadora). No entanto, quando instados por meio de um gabarito
que apresentava uma srie de atributos de todos os tipos, os sujeitos mostravam maior
diversidade dos atributos selecionados. Ela conclui, a partir disso, que a indexao eficaz de
imagens requer o emprego de uma ampla gama de atributos: perceptuais, interpretativos e
reativos.
Com base em conceitos ou em contedo?
Layne (2002) bastante crtico dos mtodos completamente automticos de indexao
de imagens:
Quem ou o que faz a anlise do assunto numa obra de arte? H alguns anos surgiu um forte
interesse pela anlise informatizada de imagens, e foram encetadas vrias tentativas de
aplicar tcnicas de reconhecimento de padres e mtodos iterativos identificao e
recuperao de imagens relevantes. At agora, nenhum desses esforos teve xito na
recuperao de imagens de grupos heterogneos ou na identificao de objetos, como
cavalos, que podem ser representados em diversas poses, a partir de muitos ngulos
diferentes e sob variadas condies de iluminao. Os sistemas informatizados so mais
bem-sucedidos na anlise de conjuntos homogneos de imagens e na seleo de imagens
com base exclusivamente na cor, composio e textura. Tais elementos so relativamente
fceis de codificar e, portanto, de identificao relativamente fcil pelo computador. Foi
aparentemente com grande esforo que alguns sistemas tiveram algum sucesso na
identificao de tipos de imagens, como paisagens, que tendem a apresentar certas
caractersticas comuns de cor e composio. Mas seguro dizer que a recuperao de
imagens baseada em contedo - ou seja, informatizada - ainda est longe de vir a ser til,
mesmo remotamente, para historiadores e pesquisadores de arte. [...] Parece que, por ora, o
ideal seria deixar o homem fazer o que sabe fazer e o computador fazer o que sabe fazer. Em

177

outras palavras, que o homem identifique os assuntos de uma imagem artstica e que o
computador identifique cor, forma e composio. Por exemplo, se o indexador humano
identificasse os assuntos de imagens de arte, o computador analisaria, se necessrio, um
grande conjunto recuperado de imagens do mesmo assunto (por exemplo, catedrais,
dana, sarcfagos) em busca de semelhanas de forma, cor ou composio (p. 14-15).

A maioria dos autores parece concordar com que a recuperao eficaz de imagens exige
tanto mtodos baseados em conceitos quanto baseados em contedo, aspecto esclarecido por
Ornager (1994):
Embora a idia de dar entrada a uma imagem-consulta tenha muitos argumentos que a
recomendam, essas imagens-consulta nem sempre substituem a fora descritiva das
palavras, que podem ser melhores para alguns conceitos abstratos. difcil perceber como
seria possvel criar uma imagem-consulta que representasse, por exemplo, despovoamento
de pequenas aldeias norueguesas ou cime (p. 214).

Cawkell (1993) focalizou o mesmo tpico:


As imagens-consulta substituiro as imagens descritas com palavras medida que as
tcnicas forem sendo aperfeioadas, embora nem todos os conceitos possam ser assim
consultados de modo melhor. Consultas do tipo Quais as pinturas que mostram senhoras
portando medalhas?, ou H alguma pintura do sculo XVII onde apaream animais de
estimao? seriam bem-sucedidas. Mas conceitos abstratos talvez sejam mais bem
expressos por meio de palavras usadas como descritores (p. 409).

Turner (1990) salientou que, mesmo que se possa ter acesso muito rpido a uma imagem
(neste caso quadros de filmes cinematogrficos), isso no exclui a necessidade de acesso a
uma descrio textual:
Alm do mais, muitas vezes o texto funciona como um guia da imagem. Em muitos casos,
consultar uma sinopse ajuda o observador a interpretar a imagem; por exemplo, talvez seja
til saber que o trem que a pessoa observa o Expresso do Oriente, ou que a favela que
aparece na tela fica bem na periferia de Quito. Em outras palavras, o texto de uma sinopse
visual pode proporcionar informaes teis que no esto disponveis na imagem. Assim,
embora seja certamente conveniente ter acesso instantneo imagem, isso no dispensaria
a necessidade de uma sinopse textual (p. 7).

No mesmo diapaso, Green e Klasn (1993) descrevem as experincias da Sveriges


Television [Televiso Sueca] com a indexao de programas de televiso, por meio,
exclusivamente, de descries textuais. Todas as cenas com mais de dez segundos de
extenso so descritas com anotaes em texto livre, como, por exemplo:
Rua de feira, apinhada de gente. Barraca de feira, laranjas, mas, uvas, pssegos. Uma
caixa de batatas cai no cho. Batatas rolam nas pedras do calamento. Moa leva as mos ao
rosto.

Trant (1995) assevera que a descrio textual permanece sendo a chave da recuperao
de imagens, acentua a necessidade de uma norma sobre como descrever imagens em bases
de dados de imagens e menciona trabalho realizado visando ao desenvolvimento dessa norma.
Mostafa e Dillon (1996) testaram uma interface de um sistema de recuperao de
imagens que possua recursos tanto para buscas visuais quanto verbais. Concluram que era
provvel que seus sujeitos (18 estudantes) utilizassem mais o mtodo verbal do que o visual, e
sua sugesto era de que isso poderia ser devido basicamente falta de familiaridade com o
mtodo visual.
Ogle e Stonebraker (1995), ao analisar sua experincia com um grande sistema de
recuperao de imagens na University of California, Berkeley, reconhecem que o melhor
resultado na recuperao obtido quando critrios de buscas baseados em textos so
combinados com critrios baseados em contedo.
O texto ainda essencial mesmo para as mais avanadas aplicaes de recuperao de
multimdia. Por exemplo, Hauptmann e Witbrock (1997) utilizam transcries da parte de udio
dos noticirios de televiso como um meio para recuperao de segmentos de notcias, para
atender a pedidos ( utilizada a tecnologia de reconhecimento da fala para criar as
transcries e tambm para possibilitar consultas faladas), e Mani et al. (1997), em pesquisa
assemelhada, utilizam texto de legendas fechadas na recuperao de vdeo de noticirios. O
texto de legendas fechadas usado de forma similar por Takeshita et al. (1997).
Mesmo o sistema experimental de recuperao em arte analisado por Kurita e Kato
(1993) no depende inteiramente do exemplo visual para fins de busca. Uma alternativa a
178

consulta por descrio subjetiva, que envolve a indexao das pinturas com adjetivos que
representem impresses do observador (por exemplo, quente, brilhante, japonizado). Do
mesmo modo, DiLoreto et al. (1995) incorporam recursos de consulta tanto visuais quanto
descritivos em seu sistema de recuperao geogrfica.
Cawkell (1994) foi um dos que focalizaram o problema da recuperao baseada
exclusivamente em contedo:
Quanto mais complexas as imagens mais difcil fica para o usurio produzir um exemplo
visual utilizvel, e mais difcil se torna efetuar o cotejo de padres. Talvez seja preciso cotejar
padres tridimensionais; isso aumenta as dificuldades. A ordem de dificuldade cresce ainda
mais se o usurio estiver interessado em recuperar imagens que contenham determinado
objeto dentro de uma imagem.
Por exemplo, se o usurio quiser recuperar todas as imagens onde houver um automvel,
no seria muito difcil representar um carro com o auxlio dos programas atualmente
disponveis que incorporam arquivos de clip art (que contm uma grande seleo de objetos
desenhados) e programas do tipo ferramenta de desenho. Quando a consulta-imagem
submetida base de dados para efetuar a comparao, dever ser possvel recuperar um
carro que esteja em qualquer imagem, independentemente de como esteja representado e
posicionado - tarefa que no impossvel, mas atualmente lenta, que exige o uso, intensivo e
caro, de computadores (p. 129).

claro que h grande diversidade nas aplicaes de recuperao de imagens e


provvel que nem todas tenham muito a ganhar com alguma forma de indexao baseada em
contedo. Um estudo sobre demanda de fotografias por jornalistas, realizado por Markkula e
Sormunen (2000), encontrou muito pouca necessidade de um mtodo de recuperao baseado
em contedo, embora os pesquisadores hajam tentado inventar alguns usos possveis. Os
jornalistas, na realidade, externavam necessidades muito simples (por exemplo, fotografias de
objetos ou pessoas cujo nome era conhecido), mas no est claro at onde isso teria sido
influenciado por limitaes conhecidas na indexao do arquivo fotogrfico.
Wang (2001) proporciona um resumo muito til dos tipos de consultas com que devem
lidar os sistemas baseados em contedo:
Consulta tipo histograma: encontrar imagens com 50% de vermelho e 20% de
amarelo...
Consulta tipo leiaute: encontrar imagens que tenham na parte superior um objeto
azul e na parte inferior um objeto verde...
Consulta tipo forma: encontrar imagens que tenham trs estrelas triangulares
amarelas dispostas em anel...
Consulta tipo esboo desenhado mo: encontrar imagens que paream com
determinado desenho...
Consulta por exemplo: encontrar imagens que paream determinada imagem... (p.
19)
No entanto, ele salienta a seguir que a maioria dos usurios de imagens estar mais
interessada em buscas em semntica de nvel alto:
Objeto: contm uma leso
Relao do objeto: contm uma leso perto do lquido cerebrospinal
Clima: uma imagem feliz
Tempo/Lugar: noite em Yosemite (p. 19-20)
Enser (2000) argumenta que as buscas baseadas em conceitos continuaro a predominar
sobre as exigncias dos usurios em colees de arquivos de imagens, mas que demandas
menos tradicionais por informaes visuais (por exemplo, coincidncia de impresses digitais e
logomarcas, reconhecimento facial, classificao baseada em textura de imagens geolgicas)
exigem um mtodo baseado em contedo. O ideal um sistema hbrido - em que uma busca
verbal seja usada para recuperar imagens relevantes e estas possam ento ser usadas para
procurar imagens semelhantes com base em caractersticas de contedo.
Em concluso, o mtodo. ideal de recuperao de imagens talvez seja aquele que
combine acesso convencional por meio de texto (termos de indexao ou narrativa descritiva)
com o cotejo de imagens. Assim, uma busca com palavras (batalha, ataque, luta) recuperaria
uma imagem de determinado tipo de cena e esta, por sua vez, poderia ser usada como insumo
para localizar outras iguais. Uma abordagem possvel um tesauro visual - um tesauro que
armazene imagens representativas junto com rtulos verbais (Seloff, 1990) ou possivelmente
179

sem os rtulos verbais. Para uma anlise das vantagens e caractersticas dos tesauros visuais,
nas buscas em bases de imagens, ver Hogan et al. (1991).
Chu (2001), com base em anlise bibliomtrica da literatura, conclui que no se verificou
suficiente interao entre os que trabalham com a abordagem baseada em contedo e os que
trabalham com a baseada em conceito, embora a situao possa estar melhorando.
Metadados e vocabulrios de indexao
Um livro organizado por Baca (2002) trata de metadados e vocabulrios controlados na
descrio de imagens de arte. As ferramentas mostradas incluem Categories for the
Description of Works of Art (Harpring, 2002) e ICONCLASS (Hourihane, 2002), sendo este um
esquema de classificao, com notao, para a descrio de pessoas, objetos e atividades
representados em obras de arte.
Esquemas de metadados aplicveis a imagens digitais so revistos por Greenberg (2001).
Bases de dados de sons
A recuperao de udio apresenta desafios que so ainda maiores do que os
apresentados pela recuperao de imagens. O campo pode ser rigorosamente dividido em
recuperao de fala e recuperao de msica (embora outros tipos de sons possam tambm
estar presentes em alguns casos). Lu (2001) oferece um levantamento conciso e til desse
campo, embora esteja agora um pouco desatualizado, pois os novos progressos ocorrem muito
rapidamente.
Em virtude de uma trilha sonora longa provavelmente apresentar vrios componentes de
udio - fala, msica e, possivelmente, outros sons (por exemplo, gritos de animais ou ondas
lambendo a praia) - o primeiro passo consiste em classificar os vrios componentes, e Lu
descreve mtodos que podem ser usados para se conseguir isso automaticamente.
Os primitivos sistemas de reconhecimento de fala somente podiam funcionar com
vocabulrios limitados e um nmero limitado de falantes, porm, desde ento, deu-se um
notvel avano. Os sistemas atuais so preparados mediante a gravao de seqncias de
falas de um grande nmero de falantes. Da fase de preparao [training] resultam vrios
produtos, dos quais o mais importante um dicionrio de palavras com suas pronncias
possveis. Uma nova amostra da fala gravada comparada com este dicionrio e a seqncia
de palavras que apresentar a melhor coincidncia ser emitida como texto gravado. Esta
explicao est um tanto simplificada (em primeiro lugar, a unidade de fala usada para
comparao est em nvel inferior ao da palavra - um fonema) mas serve como idia geral.
Aplicam-se os sistemas de reconhecimento de fala para converter a palavra falada em texto
que pode ser processado do mesmo modo que outro texto o para fins de recuperao. Quer
dizer, possvel extrair palavras/expresses que funcionaro como termos de indexao ou
fazer buscas no texto inteiro com o emprego dos tipos de procedimento descritos no captulo
14.
O desempenho dos sistemas de reconhecimento de fala varia segundo alguns fatores,
tais como a matria falada (variando, por exemplo, de nmeros a notcias gerais), seja a fala
que resulta da leitura ou de uma conversa espontnea, e o tamanho do vocabulrio envolvido.
Lu (2001) salienta que o reconhecimento de algarismos pode ser superior a 99%, mas que o
reconhecimento de uma conversa telefnica comum pode cair para 50%.
Os problemas da recuperao de documentos falados foram enunciados, de modo muito
sucinto, por Wechsler et al. (2000), da seguinte forma:
O principal problema quando se aplica o reconhecimento de fala recuperao de
documentos falados est na exatido do resultado do reconhecimento. O reconhecimento
automtico de fala uma tarefa difcil e, por conseguinte, seus resultados muitas vezes
contm grande quantidade de erros de reconhecimento. A preciso do reconhecimento
depende principalmente da: 1) quantidade e qualidade dos dados acsticos de preparao
[training data], 2) quantidade e gnero dos diferentes falantes, 3) quantidade de unidades a
serem reconhecidas, e 4) do ambiente de gravao dos documentos falados. Ademais, no
h pausas acsticas entre palavras na fala contnua, ao contrrio dos espaos em branco
num texto.
Os erros de reconhecimento normalmente degradam a eficcia de um sistema de
recuperao de documentos falados. So estratgias para superar tal problema: 1) melhorar
a preciso do reconhecimento de fala, o que requer enorme quantidade de dados de
preparao e tempo, e/ou 2) desenvolver mtodos de recuperao que sejam mais tolerantes
a erros (p. 173-174).

180

Um mtodo consiste em desenvolver um reconhecedor de fala que possua um grande


vocabulrio. Este empregado para converter a fala em texto que possa ento ser manipulado
com mtodos de recuperao convencionais. Isso exige um investimento muito alto na
preparao do dispositivo para reconhecer palavras faladas por diferentes indivduos, o que
implica sua limitao a um domnio ou aplicao restrita (por exemplo, pronturios mdicos de
pacientes).
Uma abordagem alternativa passar para um nvel inferior ao da palavra e reconhecer e
transcrever sons (fonemas). O reconhecimento de fonemas exige menos preparo e, como so
unidades mais bsicas do que as palavras, torna-se possvel ter um vocabulrio ilimitado. Os
documentos falados sero indexados e pesquisados sob fonemas, o que equivale
aproximadamente ao dispositivo de recuperao de textos que segmenta palavras em
bigramas ou trigramas com a finalidade de buscar eficincia. No entanto, os fonemas no so
realmente partes de palavras porque, na fala, as palavras freqentemente fluem juntas, de
modo que as unidades reconhecidas so seqncias de fonemas. Isto , o documento falado
transformado em seqncias fonmicas, bem como a consulta empregada para interrogar a
base de dados. O trabalho de Wechsler et al. (2000) caracterstico das pesquisas atuais sobre
recuperao de seqncias fonmicas.
natural que os programas de processamento de fala tenham melhor desempenho no
reconhecimento de palavras existentes (in-vocabulary) num corpus de preparao [training
cor pus] do que no reconhecimento de palavras no encontradas antes (out-of-vocabulary).
Srinavasan e Petkovic (2000) explicam:
Um conhecido problema na recuperao de documentos falados o conceito de termos
presentes no vocabulrio (in-vocablllary terms) e termos ausentes do vocabulrio (ollt-ofvocablllary terms). Vocabulrio um conjunto de palavras que um mecanismo de
reconhecimento de fala emprega para traduzir fala em texto. Como parte do processo de
decodificao, esse mecanismo compara os sons da tala de entrada com as palavras
existentes no vocabulrio. Portanto, somente as palavras presentes no vocabulrio sero
reconhecidas. freqente uma palavra ausente do vocabulrio ser reconhecida,
erradamente, como uma palavra ali presente que foneticamente similar a uma palavra
ausente do vocabulrio (p. 81).

A decomposio de vocbulos em subvocbulos, isto , fonemas, normalmente melhora o


reconhecimento de palavras presentes no vocabulrio, embora no necessariamente o de
palavras ausentes do vocabulrio. Os efeitos de palavras ausentes do vocabulrio na
recuperao de documentos falados foram estudados por Woodland et al. (2000).
Brown et al. (2001) relata ndices de erros de palavras de 28% no caso de conversas
telefnicas de um nico falante, e um ndice de cerca de 19% na fala preparada (ou seja, no
espontnea) de um locutor de notcias em estdio. Os autores informam que os erros de
palavras variaram de 35 a 65% no caso de dados de fala do mundo real, a depender de certos
fatores, como rudo de fundo, acstica deficiente e participao ou no de falantes nativos.
Embora a redundncia compense alguns erros, provvel que a recuperao fique bastante
prejudicada no caso de udio do mundo real. Brown et al. relatam valores de revocao da
ordem de 26% e valores de preciso por volta de 17% para esse tipo de aplicao, embora
resultados muito melhores (por exemplo, preciso de 60 a 70%) sejam alcanados em colees
de teste menores com ndices de erros de palavras na faixa de 10 a 30%.
Apesar dos notveis progressos alcanados no reconhecimento de fala, ainda ocorrem
erros de transcrio em proporo sria. Como salientam Moreno et al. (2002):
Os sistemas de recuperao devem compensar os 20 a 30% de ndice de erros de palavras
que normalmente ocorrem quando reconhecedores de fala que trabalham com grandes
vocabulrios transcrevem udio sem restries como noticirios radiofnicos ou fala informal
(p. 58-59).

Allan (2002), no entanto, alega que mesmo altos ndices de erros de transcrio podem
ser aceitveis em aplicaes de recuperao:
Mesmo com um ndice de erros de reconhecimento de 40%, a eficcia de um sistema comum
de recuperao de documentos cai apenas 10% (p. 60).

Ele explica que isso se deve a vrias razes: 1) palavras no reconhecidas talvez no
sejam necessariamente palavras importantes para a recuperao; 2) redundncia (se uma
palavra no for reconhecida num lugar, poder ser reconhecida em outro); 3) sinnimos ou
parassinnimos da palavra no reconhecida podem ocorrer e ser reconhecidos.
181

Moreno et al. (2002) oferecem um bom apanhado sobre os atuais recursos para o
reconhecimento de fala:
Os sistemas de reconhecimento de fala baseados em palavras adotam vocabulrios
preestabelecidos que incluem de 60 000 a 100 000 vocbulos. O sistema no pode, por
definio, presumir palavras fora desse vocabulrio. Embora um vocabulrio de 100 000
palavras inclua a maior parte das palavras faladas, todo documento inclui pequena
porcentagem de palavras ausentes do vocabulrio que provavelmente so portadoras de
contedo, e sua no-incluso prejudicar o desempenho da recuperao.
Para contornar tal problema, o sistema pode adaptar o vocabulrio mediante o exame de
documentos relativos ao trabalho. Por exemplo, um reconhecedor de fala usado em sesses
de tribunais usaria documentos jurdicos para aprender as palavras do dicionrio apropriado.
Embora esses vocabulrios especializados reduzam o nmero de palavras ausentes do
vocabulrio, no garantem sua eliminao (p. 59).

E, em seguida, salientam que os sistemas baseados no reconhecimento de subvocbulos


oferecem vantagens:
Ao invs de reconhecer palavras faladas, esses mtodos reconhecem unidades
subvocabulares - normalmente, fonemas ou slabas - com as quais todas as palavras so
formadas. O sistema de recuperao de informao decompe os termos de busca em suas
seqncias de subvocbulos constituintes, e ento examina os termos reconhecidos para
localizar seqncias que correspondam unidade de busca (p. 59).

Singhal e Pereira (1 999).fizeram experincias com a expanso de documentos para


compensar erros de transcrio na recuperao da fala. O mtodo deles inclui a expanso de
um texto transcrito mediante o acrscimo de palavras de alta freqncia que ocorrem em
textos relacionados, compensando, graas redundncia, palavras perdidas na transcrio.
Parece ser um mtodo muito trabalhoso.
Brown et al. (2001), cujo trabalho tambm traz uma til viso da tecnologia de
reconhecimento de fala, descreve pesquisas da IBM sobre aplicaes de minerao de fala.
Uma delas trata de um agente inteligente que captura os debates travados em reunio de
negcios ou de pesquisa e periodicamente torna-se um participante ativo [...] sempre que
encontra informao que identifica como altamente pertinente aos debates em curso. Por
exemplo, a ocorrncia nos debates do nome de um funcionrio pode disparar uma busca nos
registros funcionais, a fim de recuperar e tornar disponveis informaes, como endereo,
telefone, grupo onde esteja lotado, responsabilidades, experincia. Outras instituies tambm
fizeram pesquisas sobre tecnologia de apoio a reunies. Brown et al. tambm descrevem
pesquisas sobre a minerao de chamadas de televendas.
As pesquisas sobre recuperao de documentos falados so hoje facilitadas pela
existncia de uma base de dados de documentos falados no ambiente TREC (Text Retrieval
Conferences) (ver captulo seguinte). O corpus TREC 7 consistia em cerca de 100 horas de
noticirios radiofnicos, somando cerca de 3.000 notcias. Os grupos de pesquisas
participantes trabalharam com transcries desse corpus, de diferentes qualidades, inclusive
uma preparada por seres humanos e considerada perfeita, uma preparada por um sistema de
reconhecimento de fala com cerca de 35% de ndice de erros de palavras, e outra com um
ndice de erros por volta de 50%. Os grupos participantes testaram seus mtodos de
recuperao em 23 tpicos pr-selecionados de cada transcrio (Voorhees e Harman, 1999).
As pesquisas sobre interfaces de fala em aplicaes de recuperao remontam a vrios
anos (ver, por exemplo, Smith et al., 1989). Abordagens mais modernas so exemplificadas
pelo trabalho de Feder e Hobbs (1995). Ao analisar o emprego da fala humana para
alimentao de dados em computador, Shneiderman (2000) apresenta motivos pelos quais as
limitaes do ser humano (por exemplo, fadiga, impacincia, dificuldades de corrigir erros)
seriam mais importantes do que as limitaes tecnolgicas.
Mtodos modernos para sintetizar e arquivar sons eletronicamente tornam disponvel
grande quantidade de sons (por exemplo, para msicos), mas a recuperao de um som
especfico desse arquivo constitui grande problema. Feiten e Gnzel (1994) descrevem uma
abordagem da indexao e recuperao de sons por meio de redes neurais. O ndice de
recuperao criado automaticamente. A capacidade de reconhecer e rotular (isto , indexar)
sons automaticamente tem muito em comum com o processamento necessrio para
reconhecer imagens automaticamente. Como salientam Picard e Minka (1995), tanto h uma
textura de sons quanto uma textura de imagens. Assim, seria possvel desenvolver tcnicas
para identificar automaticamente certos sons (um sino a badalar, gua a correr, aplausos)
mediante alguma forma de cotejo de padres (sonoros). A recuperao de sons analisada em
182

trabalho de Blum et al. (1997), que descrevem um navegador de sons desenvolvido para
possibilitar buscas difusas em bases de dados de udio. Os recursos incluem consulta, por
exemplo, (isto , encontre sons semelhantes a... ).
Recuperao de msica
O objetivo das abordagens modernas da recuperao de msica responder consultas
de msica formuladas musicalmente (Downie e Nelson, 2000) isto , permitir que seja feita
uma busca baseada numa entrada musical (por exemplo, cantada ou cantarolada).
A histria da recuperao de informao musical remonta dcada de 1960, mas a
maioria dos progressos alcanados se deu a partir da dcada de 1990. Encontra-se condensada
nos anais de trs simpsios internacionais sobre a matria, realizados em 2000, 2001 e 2002.
Os
trabalhos
de
2000
esto
disponveis
no
stio
<http://ciir.cs.umass.edu/music2000/papers.html>
e
os
de
2001
em
<http://ismir2001.indiana.edu/papers.html>. Um objetivo importante desses simpsios
o desenvolvimento de uma coleo-padro de msica, consultas e avaliaes que possam ser
usadas para comparar diferentes mtodos, de modo muito parecido com a forma como
funcionam as conferncias TREC.
A recuperao de msica mais complexa do que a de fala. Lu (2001) divide o campo
em: 1) msica estruturada ou sinttica, e 2) msica baseada em amostras [sample-based]. Na
primeira, as notas musicais so gravadas como algoritmos e linguagens de controle, que torna
o cotejo com as consultas (na forma de uma seqncia de notas) relativamente fcil, pelo
menos no caso de coincidncia exata. A deteco de passagens de msica semelhante
mais complicada.
Muito mais complexa a recuperao de msica que no esteja gravada em formato
estruturado. Lu (2001) refere-se a essa msica como baseada em amostras porque ela
implica o reconhecimento e extrao de samples [amostras] musicais. Ele identifica duas
abordagens de indexao/recuperao. A primeira baseia-se na extrao de caractersticas
acsticas (como audibilidade, tom, brilho, largura de banda e harmonicidade) e que podem ser
calculadas para cada quadro da composio gravada. Uma composio musical, usada como
consulta (normalmente uma forma cantarolada), reduzida s mesmas caractersticas, o que
permite busca com base numa comparao de padres. Na segunda abordagem, a indexao e
a recuperao baseiam-se no tom. Para cada nota extrai-se ou se calcula o tom. Cada tom
pode ser representado como uma mudana (para cima, para baixo ou similar) relativa ao
precedente, e assim a composio musical (ou composio de consulta) representada por
meio de uma seqncia de smbolos que representam essas alteraes de tom.
Alternativamente, cada nota musical pode ser representada por um valor de tom selecionado
de um conjunto de valores-padro de tom numa base de maior coincidncia. De novo, a
composio musical ser representada por uma seqncia de caracteres que representam o
valor do tom.
Lippincott (2002) nos oferece uma descrio bem til e concisa daquilo que as atuais
abordagens da recuperao de msica esto procurando realizar:
Antigamente, os usurios que procuravam informaes sobre msica voltavam-se para
fontes impressas que continham metadados registrados mo e ordenados por ttulo,
compositor e outras categorias. Obviamente, os mtodos de acesso refletiam tcnicas de
recuperao da poca, baseadas em material impresso para recuperao de informao
bibliogrfica, e tambm pressupunham algum conhecimento musical prvio ou a presena de
um bibliotecrio. Grande parte das pesquisas atuais sobre recuperao automatizada de
informao musical baseia-se em caracterizaes da prpria msica, ao invs de informaes
sobre ela. Por exemplo, ao invs de solicitar uma busca por ttulo da composio, o usurio
entra com uma consulta no formato de udio e recupera resultados similares a essa consulta.
As implicaes para os usurios comuns de sistemas de recuperao de msica baseados em
contedo so importantes, pois no preciso o conhecimento bibliogrfico prvio de uma
composio musical; ao contrrio, bastar, para fins de recuperao, um trechinho de msica
a fluir na mente do usurio (p. 137).

Este trabalho uma tima sntese de vrios mtodos que vm sendo pesquisados.
Liu e Tsai (2001) salientam que:
A maneira mais direta de que um usurio leigo dispe para consultar as bases de dados de
msica cantarolar uma composio como uma consulta-exemplo para recuperar objetos
musicais similares (p. 506).

183

Um dos problemas, porm, a grande diferena de extenso entre esse tipo de consultaexemplo e uma composio musical: uma consulta feita com uma msica cantarolada
normalmente dura alguns segundos, enquanto uma msica popular comum dura cerca de
cinco minutos. Os autores descrevem um mtodo experimental em que o cotejo se torna mais
eficiente mediante o seqenciamento de uma composio musical em fases que tm
aproximadamente a mesma extenso de uma consulta feita com msica cantarolada.
Na indexao e recuperao de msica, preciso distinguir entre msica monofnica
(nenhuma nota comea at que a nota atual tenha terminado de soar) e a msica polifnica
(uma nota pode comear antes que a anterior termine). A msica polifnica mais comum,
porm mais complexa para as operaes de indexao e recuperao. Pickens (2001) descreve
os problemas de seleo de caractersticas para indexao e recuperao de msica polifnica.
Diversas abordagens da indexao e recuperao de msica polifnica foram
apresentadas. Ver, por exemplo, Dovey (2001) e Doraisamy e Rger (2001).
Downie e Nelson (2000) descrevem um mtodo de recuperao de msica baseado no
tom, especificamente a diferena entre dois tons, conhecida como intervalo. As melodias de
uma coleo de canes folclricas foram convertidas em representaes de um nico
intervalo de melodias monofnicas. Estas foram ento fragmentadas em subsees
designadas n-gramas, que so usadas para formar palavras musicais. Isso permite uma
abordagem da recuperao que se assemelha busca de palavras na recuperao de textos e
possibilita que seja aplicado um sistema de processamento baseado em textos (o SMART de
Salton) que permite recuperao em ordem de provvel relevncia.
possvel tambm usar entrada em formato de udio para buscas em base de dados de
partituras musicais. McNab et al. (2000) descrevem um mtodo para recuperar partituras de
uma base de dados em resposta a poucas notas entoadas ou cantaroladas num microfone. A
interface adotada transcreve a entrada acstica em notao musical comum que pode ser
usada para cotejo seqencial e recuperao de msica em ordem de provvel relevncia. Seu
prottipo prova de conceito foi testado numa base de dados de canes folclricas.
Concluram que:
No uma empresa simples fazer buscas em grandes bases de dados de msica e recuperar
itens em que ocorra um determinado tema ou seqncia de notas, tendo em vista
principalmente as imprecises que ocorrem quando as pessoas entoam melodias, mas isso
est com certeza ao alcance da tecnologia atual (p. 113).

Byrd e Crawford (2002) fizeram uma reviso do estado atual dos conhecimentos a
respeito da indexao e recuperao de msica e concluram que o progresso alcanado nessa
rea foi muito limitado:
Apesar de expressivo nmero de projetos de pesquisa haver se voltado para a recuperao
de informao musical, nas ltimas trs dcadas, esse campo ainda est muito imaturo.
Poucos dizem respeito msica complexa (polifnica); os mtodos de avaliao ainda esto
numa etapa de desenvolvimento muito primitiva; nenhum dos projetos enfrenta o problema
de bases de dados que so, realisticamente, de grande escala. Muitos dos problemas a
serem enfrentados se devem natureza da prpria msica. Entre eles esto as questes
ligadas percepo humana e cognio da msica, especialmente no que tange
reconhecibilidade da frase musical [...] e o pressuposto comum de que buscas sobre o tom
(ou contorno do tom) provavelmente bastariam para atender a todas as finalidades [...]
talvez seja verdadeiro para a maior parte da msica monofnica (de uma s voz), mas
certamente inadequado para msica polifnica (de muitas vozes). Mesmo no caso
monofnico pode levar a resultados equivocados. O fato, h muito admitido em projetos que
dizem respeito msica monofnica, de que uma passagem reconhecvel normalmente no
idntica ao padro de busca significa que quase sempre necessria uma coincidncia
aproximada, mas tambm isso se torna seriamente complicado pelas demandas da msica
polifnica. Quase todos os mtodos de recuperao da informao de textos apiam-se na
identificao de unidades aproximadas de sentido, isto , palavras. Um problema
fundamental da recuperao da informao em msica est em que extremamente difcil,
talvez impossvel, localizar essas unidades (p. 249).

Sistemas multimdias
At agora este captulo tratou da recuperao de imagens e da recuperao de sons. No
entanto, tambm esto em curso pesquisas sobre problemas de indexao e recuperao
relativos a apresentaes verdadeiramente multimdias, como as transmisses de televiso.
Um sistema de indexao de multimdias descrito por Kubala et al. (2000) processa a
linguagem falada produzida por fontes de udio e vdeo, como os noticirios de televiso. O
184

prottipo desse sistema possui recursos para sumarizao 1 e indexao. O autor descreve o
primeiro deles da seguinte forma:
A sumarizao uma representao estrutural do contedo em linguagem falada que
muito poderosa e flexvel como ndice para gerenciamento de informaes baseadas em
contedo. Este resumo, que produzido automaticamente pelo sistema, inclui caractersticas
extradas, como nomes de pessoas, lugares e organizaes mencionados no transcrito, bem
como as identidades e localizaes dos falantes na gravao (p. 49).

O fluxo contnuo de palavras automaticamente segmentado em passagens que so


tematicamente coerentes e cada passagem indexada mediante a atribuio automtica de
rtulos tpicos extrados de um conjunto preestabelecido de mais de 5 000 desses rtulos.
Estes so classificados em ordem de probabilidade de adequao e so atribudos a cada
passagem os rtulos de classificao mais alta.
Importante projeto de indexao e recuperao de multimdia a Informedia Digital
Video Library da Carnegie Mellon University. Wactlar et al. (2000) assim descrevem seus
recursos:
[...] emprega exclusivamente fala, imagem e compreenso da linguagem natural integradas
para processar transmisses de vdeo. [...] Afim de possibilitar este acesso ao vdeo, so
geradas, por meio do sistema de reconhecimento de fala Sphinx, da Carnegie Mellon
University, transcries rpidas, de alta preciso e automticas, de noticirios de televiso,
sendo incorporadas legendas fechadas onde estiverem disponveis. O processamento da
imagem determina limites de cenas, reconhece rostos e permite comparaes de
semelhana de imagens. O texto visvel na tela reconhecido por meio de reconhecimento
de caracteres pticos de vdeo e pode ser pesquisado. Tudo indexado numa biblioteca
digital de vdeo pesquisvel, onde os usurios podem formular consultas e recuperar, como
resultado, notcias relevantes [...]
O sistema Informedia permite recuperao da informao tanto no domnio da linguagem
falada quanto no domnio do vdeo ou imagem. As consultas em busca de notcias relevantes
podem ser feitas por meio de palavras, imagens ou mapas. Rostos so detectados no vdeo e
podem ser pesquisados. Resumos informativos podem ser exibidos com informaes
variveis, tanto visual quanto textualmente. Os resumos de textos so exibidos para cada
notcia por meio de tpicos e ttulos. So oferecidos resumos visuais por meio de imagens
miniaturizadas [thumbnails], tiras de filme [filmstrips] e snteses [skims] dinmicas de vdeo
(p. 42-43).

Wactlar et al. afirmam ser possvel um ndice de erros inferior a 20% no reconhecimento
de fala e que a transcrio de um noticirio pode aparecer na base de dados duas horas e meia
depois de haver sido transmitido.
Brown et al. (2001) oferecem mais esclarecimentos:
O projeto de pesquisa Informedia criou uma biblioteca digital de um milho de megabytes
em que descritores obtidos automaticamente para vdeo so utilizados na indexao,
segmentao e acesso ao contedo da biblioteca. Combina reconhecimento de fala,
processamento de imagens e tcnicas de compreenso da linguagem natural para o
processamento automtico de vdeo, a fim de produzir uma sntese [skim] visual, que diminui
o tempo de visualizao sem perda de contedo. Oferece trs maneiras de visualizao dos
resultados das buscas: quadros-pster [poster frames], tiras de filme e snteses. A
visualizao em quadros-pster apresenta os resultados da busca em formato de quadrospster, em que cada quadro representa um pargrafo de vdeo. A visualizao em tiras de
filme reduz a necessidade de visualizar cada pargrafo de vdeo em sua totalidade ao
oferecer pginas de storyboard para rpida visualizao. As subsees mais relevantes do
pargrafo de vdeo so exibidas como cenas-chave e as palavras-chave so nitidamente
marcadas. A recuperao combinada de palavras e fones tambm foi investigada no projeto
Informedia, onde se utilizou um ndice invertido para transcrio fontica, que inclui
subseqncias fonticas de trs a seis fones. Na recuperao o ndice de documentos com
palavras e a transcrio fontica so pesquisados em paralelo e os resultados so fundidos.
Experincias com um corpus de cerca de 500 notcias dos noticirios da ABC e da CNN (Cable
News Network), com o emprego de ndices combinados de palavras e fones, resultou numa
preciso mdia de 0,67 com um desempenho global de 84,6% do de um sistema de
recuperao de texto completo. No caso, porm, de udio do mundo real com alto ndice de
erros de palavras de 70-80%, registrou-se uma queda drstica da preciso e revocao para
0,1 7 e 0,26, respectivamente (p. 989-990).

Os problemas implicados na criao automtica de resllmos de dilogo falado so bem analisados por Zechner
(2001).

185

Os recursos de buscas de imagens do sistema Informedia incluem deteco de cor (o


usurio especifica cores e regies de interesse a serem procuradas entre as imagens). Ver
Wactlar et al. (1999).
Patel e Sethi (1996) descrevem mtodos que desenvolveram para classificar segmentos
de filmes cinematogrficos mediante processamento de udio. De incio, o sistema somente
podia identificar categorias genricas (como, por exemplo, musical ), porm os autores
sugerem que ele poderia ser mais aprimorado de modo a identificar especificamente tipos de
cenas (cena de ao, cena de dana, cena romntica, e assim por diante). Posteriormente
(Patel e Sethi, 1997) estenderam sua pesquisa identificao dos falantes (por exemplo,
atores em trechos em vdeo de filmes).
Adami et al. (2001) propem um sistema que oferece acesso a documentos multimdias
por meio de ferramentas anlogas s de um livro impresso: uma descrio hierrquica do
contedo do item (similar a uma pgina convencional de sumrio) adequada para pesquisa, e
um ndice analtico baseado em palavra-chave (anlogo ao ndice do final de um livro). Sua
pesquisa tem por objetivo produzir essas ferramentas de modo automtico, e mostram um
exemplo baseado na anlise de um jogo de futebol.
Gauvain et al. (2001) descrevem um sistema de partilhamento e transcrio automticos
de transmisses de televiso e rdio. Segmentos de no-fala das transmisses so
identificados e removidos (automaticamente) e os segmentos restantes so agrupados e
rotulados de acordo com a largura de banda e o gnero. Um reconhecedor de fala contnua,
independente de falante e de vocabulrio extenso empregado para preparar as transcries.
Afirma-se a ocorrncia de uma mdia de erros de palavras de 20%.
Concluses
Houve muito progresso na indexao e recuperao de imagens na ltima dcada, e
algum avano se deu na indexao e recuperao de sons. Os inmeros estudos realizados
sobre a reao do observador s imagens so, contudo, de qualidade varivel. Alguns so
teis. Mas outros, especialmente os realizados como pesquisa para redao de teses, deixam
muito a desejar. Embora sejam apresentadas minuciosas anlises de dados, um nmero muito
grande desses estudos chega a concluses que no so nem mesmo abordadas pelos dados
coletados, dando a impresso de que as concluses foram definidas antes da realizao de
qualquer estudo.
Os campos da recuperao de imagens e sons atraram muitos pesquisadores que no
possuam qualquer experincia anterior com a recuperao de textos. Disso resultou o
surgimento de uma nova terminologia para idias muito antigas, o que, na realidade, muito
lamentvel. Um exemplo primoroso o uso da palavra anotao para designar a atribuio de
um rtulo verbal a uma imagem - ou seja, sua indexao (ver, por exemplo, Picard e Minka,
1995).
Naturalmente, os futuros desenvolvimentos na recuperao do discurso falado dependem
em muito dos progressos que ocorrerem no campo geral da tecnologia da fala. As revistas mais
populares do ramo tendem a ser exageradamente otimistas quanto s futuras possibilidades.
Por exemplo, a afirmativa de Flynn (1993):
No final da dcada, os sistemas de reconhecimento de fala permitiro a voc falar
naturalmente, com um vocabulrio virtualmente ilimitado (p. 29)

era totalmente irreal da maneira como foi formulada.


Haas (1996), citando Rudnicky, levanta uma questo importante que pertinente s
perspectivas nessa rea:
H uma diferena entre reconhecimento de fala e compreenso de fala: o reconhecimento de
fala requer que um sistema identifique as palavras numa expresso oral, enquanto a
compreenso de fala requer que um sistema tambm trte dos problemas ligados
compreenso da linguagem natural, como anfora, elipse e outros fenmenos do discurso. O
reconhecimento de fala til para tarefas estruturadas, como entrada de dados e emisso
de comandos simples, mas um dilogo, de qualquer tipo, exige compreenso de fala (p. 98).

A compreenso da fala humana pelo computador no uma perspectiva que esteja


presente no horizonte imediato.
Mesmo no seio da comunidade de pesquisadores desse campo, h uma ampla
divergncia de opinies quanto ao que foi alcanado pela tecnologia de reconhecimento de fala
e o que poder suceder no curto prazo. Levinson (1995), por exemplo, acredita que ainda se
passar muito tempo antes que surjam sistemas de real valor comercial:
186

A opinio da maioria assegura que logo os melhoramentos tcnicos tornaro o


reconhecimento de fala baseado em grandes vocabulrios comercialmente vivel para
aplicaes especficas. Minha previso [...] que os melhoramentos tcnicos surgiro de
modo penosamente lento, mas que dentro de 40 a 50 anos o reconhecimento de fala com
nveis de desempenho dos seres humanos estar onipresente. Isto , progressos tcnicos
incrementais resultaro, em curto prazo, numa tecnologia frgil de valor comercial
relativamente modesto em mercados muitos especiais, enquanto importantes avanos
tecnolgicos resultantes de uma verdadeira mudana de paradigma na cincia subjacente
possibilitaro s mquinas mostrar nveis humanos de competncia na comunicao por
meio da linguagem falada. Isso, por sua vez, resultar num vasto mercado de incalculvel
valor comercial (p. 9954).

No entanto, Srinavasan e Brown (2002) frisam que, embora a tecnologia da fala estivesse
lenta para encontrar aplicaes comerciais, parece que agora est pronta para decolar
comercialmente:
A conectividade da Rede, a tecnologia sem fio e os dispositivos portteis de mo combinados
com o reconhecimento eficaz de fala baseado na gramtica [...] - podem finalmente levar o
reconhecimento de fala a ter a importncia de um mercado de massa (p.38).

Afirmativas exageradas tambm ocorrem no campo da recuperao de imagens. Muitos


pesquisadores nesse terreno so completamente ingnuos em suas crenas e expectativas.
Para citar somente um exemplo, Gupta e Jain (1997), num estudo panormico da recuperao
de imagens, til por outros motivos, estimula-nos da seguinte forma:
Os usurios podem agora extrair, armazenar e recuperar contedo informacional baseado
em imagens - metadados e atributos visuais - de mdia visual de modo to fcil quanto a
procura de documentos textuais (p. 71).

Aqueles que vimos trabalhando nessa rea h mais de 40 anos sabemos que a
recuperao de documentos textuais est muito longe de ser fcil em bases de dados de porte
significativo.
importante admitir que as pesquisas sobre recuperao de imagens ou sons dependem
muito mais das tcnicas de indexao automtica do que da indexao feita por seres
humanos. Por isso, as abordagens que sero objeto dos dois prximos captulos relacionam-se
bem de perto com o contedo deste.

187

Captulo 14 Buscas em textos


A aplicao de computadores recuperao de informaes, que teve incio na dcada
de 1950, possibilitou a realizao de buscas em textos em formato eletrnico, sem que
houvesse a necessidade de aplicar qualquer modalidade de indexao a este texto: o
programa utilizado na recuperao procura determinadas palavras, ou combinaes de
palavras, no prprio texto, onde as palavras escolhidas por quem faz a busca so indicativas
daquilo que o texto est examinando. As buscas feitas em textos pelo computador podem ser
denominadas buscas em textos ou buscas em linguagem natural. O texto onde so feitas as
buscas pode ser o contedo completo de uma publicao (artigo, relatrio, ou at um livro) ou
parte dela: o resumo, extrato ou apenas o ttulo. As buscas feitas num texto integral so s
vezes denominadas buscas em texto completo.
A viabilidade de buscas em textos cresceu notavelmente ao longo dos anos, na medida
em que aumentou o potencial dos computadores, os custos de processamento e
armazenamento diminuram, e um volume cada vez maior de textos tornou-se disponvel em
formato eletrnico, em grande parte como subproduto de vrias formas de publicao. O
desenvolvimento da Rede, que torna acessvel enorme quantidade de textos a um imenso
nmero de usurios, tornou rotineira, ao invs de excepcional, a busca em textos. Por causa
disso, o interesse por mtodos de buscas em textos aumentou notavelmente na ltima dcada,
tanto na comunidade de pesquisa quanto em setores governamentais e comerciais.
Essa rea de buscas em textos vem avanando desde 1991, graas ao programa TIPSTER
e a vrias outras atividades com ele relacionadas. O TIPSTER foi uma iniciativa da Defense
Advanced Research Projects Agency (OARPA), em colaborao com o National lnstitute of
Standards and Technology, outros rgos governamentais e vrias empresas comerciais. O
programa teve vrios componentes, dos quais o mais pertinente ao contedo deste captulo
foram as conferncias anuais intituladas Text Retrieval Conferences (TRECS), de que foram
realizadas 11 at 2002. As atividades das TRECs impulsionam o estado de desenvolvimento da
rea, ao permitir que diferentes grupos de pesquisas testem e comparem seus programas de
recuperao em condies controladas (bases de dados, consultas e avaliaes de relevncia
mantidas constantes). Outros componentes do TIPSTER sero focalizados no captulo seguinte.
Na realidade, este captulo e o prximo se inter-relacionam to de perto que devero, de
fato, ser lidos como uma unidade. s vezes, foi uma deciso um tanto arbitrria decidir quanto
ao que incluir neste captulo e ao que passar para o seguinte.
Os procedimentos modernos de processamento de textos alegam que aplicam tcnicas
oriundas de pesquisas em inteligncia artificial, e a expresso processamento inteligente de
textos s vezes empregada para designar esse tipo de processo (ver, por exemplo, Jacobs,
1992c).
Este captulo passar em revista os mritos relativos das abordagens da recuperao da
informao baseadas em textos (linguagem natural) e em vocabulrios controlados, far um
levantamento do desenvolvimento das buscas em textos desde a dcada de 1950 e terminar
com consideraes sobre os atuais recursos nesta rea.
Considera-se a expresso linguagem natural como sinnimo de discurso comum, isto ,
a linguagem utilizada habitualmente na escrita e na fala, e que o contrrio de vocabulrio
controlado. No contexto da recuperao da informao, a expresso normalmente se refere s
palavras que ocorrem em textos impressos e, por isso, considera-se como seu sinnimo a
expresso texto livre. Um texto livre pode consistir em:
1. o ttulo,
2. um resumo,
3. um extrato, ou
4. o texto integral de uma publicao.
Embora texto livre se refira usualmente a uma parte integral de um texto, esta
expresso tambm empregada para designar palavras ou expresses extradas do texto por
um indexador humano (ou por programa de computador) e includas num registro bibliogrfico
que representa o texto. Em alguns casos, os termos assim extrados so acrescidos aos ttulos
de itens indexados, formando ttulos expandidos ou enriquecidos.
Um pouco de histria
Os mtodos modernos que visam ao uso da linguagem natural na recuperao da
informao remontam ao sistema Uniterm descrito por Taube em 1951. Os princpios do
sistema Uniterm despertaram atrao imediata: o contedo temtico dos documentos podia
188

ser representado adequadamente por meio de palavras simples (unitermos) extradas do texto
dos documentos por indexadores com um nvel de especializao relativamente baixo. Escritos
mo ou datilografados, os nmeros dos documentos eram lanados em fichas projetadas
para esse fim, cada uma representando um nico termo, e as buscas eram feitas comparandose os nmeros em duas ou mais fichas (de modo muito parecido com um moderno sistema em
linha que compara listas de nmeros associados a termos).
Taube teve considervel influncia sobre o desenvolvimento de sistemas de recuperao
da informao na dcada de 1950. Infelizmente, todavia, o sistema Uniterm veio a ser na
prtica menos atraente do que parecera primeira vista.
Padecia de todos os problemas para cuja soluo os vocabulrios controlados foram
criados. Contedos temticos que apresentavam relaes muito prximas entre si apareciam
sob diferentes unitermos, e uma busca exaustiva sobre um assunto exigia que se imaginassem
todas as formas como esse assunto estaria representado no texto, o que nem sempre era uma
tarefa fcil. Esses problemas acarretaram um retorno aos vocabulrios controlados e ao
desenvolvimento do tesauro para a recuperao da informao (Holm & Rasmussen, 1961).
Alm dos problemas de ordem termino lgica, o sistema Uniterm tambm padecia de
limitaes mecnicas. Quem fosse fazer uma busca somente poderia cotejar com facilidade
duas fichas de cada vez. Assim, uma busca sobre A em relao a B, onde A estivesse
representado por quatro unitermos e B por dez, exigiria que fossem feitas 4x 10 cotejos de
fichas separadamente. Embora isso fosse possvel, tratava-se de uma tarefa enfadonha e
demorada. Alm disso, ainda que a relao booleana e (que envolve a comparao de
nmeros) seja fcil de fazer mediante a manipulao de fichas do sistema Uniterm (ou fichas
peek-a-boo), fica muito difcil em sistemas manuais desse tipo realizar uma busca booleana
usando ou (que envolve a fuso de listas) e principalmente combinar (e) conjuntos de termos
numa relao ou. Tais manipulaes de termos so, naturalmente, comuns em sistemas
informatizados. O computador, portanto, soluciona os problemas mecnicos acarretados pela
manipulao de inmeros termos no controlados, mas no resolve, por si mesmo, os
problemas intelectuais criados pela inexistncia de controle do vocabulrio.
Todavia, quando os computadores foram inicialmente aplicados recuperao da
informao, em escala importante, em fins da dcada de 1950 e incio da dcada de 1960,
reconheceu-se que as buscas em textos, e mesmo buscas em textos integrais, haviam se
tornado uma possibilidade sedutora. Ao se estudar a histria dos sistemas informatizados de
recuperao da informao, reconhecem-se duas linhas principais de desenvolvimento. Uma
delas tem sua origem nos grandes sistemas, desenvolvidos por certas instituies como a
National Library of Medicine (NLM), o Department of Defense (DOD) e a National Aeronautics
and Space Administration (NASA), que funcionavam com base em termos de indexao
extrados de um vocabulrio controlado e atribudos aos documentos por indexadores
humanos. A outra linha de desenvolvimento teve seu incio no campo do direito, e envolvia a
colocao de textos completos (por exemplo, leis) em formato eletrnico e a utilizao do
computador para fazer buscas de palavras ou combinaes de palavras nesses textos.
Trabalhos dessa natureza antecederam, na realidade, o desenvolvimento de tesauros e o
surgimento dos grandes sistemas baseados na indexao feita por seres humanos. A
recuperao de textos jurdicos integrais remonta ao trabalho de Horty e seus colaboradores no
Health Law Center da University of Pittsburgh (Horty, 1960, 1962, Kehl et al., 1961). Foi no
campo jurdico que as tcnicas modernas de buscas em texto livre tiveram seu
desenvolvimento inicial, e o trabalho pioneiro em Pittsburgh lanou os alicerces dos sistemas
posteriores de recuperao de informao jurdica exemplificados por LEXIS e WESTLAW. Myers
(1973) apresentou uma til reviso sobre o estado dos conhecimentos relativos busca em
textos jurdicos por computador. Embora antigo, continua sendo um bom relato acerca dos
princpios bsicos. Dabney (1986) serve como uma atualizao.
A distino entre os sistemas baseados essencialmente em vocabulrios controlados e
registros de indexao criados por seres humanos (muitas vezes equivocadamente
denominados sistemas bibliogrficos) e os sistemas baseados em buscas no texto tem se
tornado cada vez mais difusa com o passar dos anos. Gradualmente, os sistemas
bibliogrficos foram permitindo a busca de palavras que ocorriam nos ttulos e, depois, nos
resumos, enquanto alguns dos sistemas de texto integral acrescentavam termos de indexao
atribudos por seres humanos a fim de melhorar o acesso, e algumas bases de dados (por
exemplo, INSPEC) foram projetadas, desde o incio, para incluir tanto termos controlados
quanto palavras-chave no controladas. Na medida em que um nmero cada vez maior de
textos tornou-se disponvel em formato eletrnico, como subproduto de atividades de
editorao ou disseminao, a busca em textos de resumos passou a ser um lugar-comum, e a
busca em textos completos ultrapassa hoje as fronteiras do direito: jornais, revistas de cunho
189

popular, peridicos cientficos, enciclopdias e outras fontes encontram-se agora acessveis em


formato de texto completo. Os stios da Rede da internet consistem majoritariamente em texto,
de modo que uma verdade indubitvel que as buscas em textos superam hoje grandemente
as buscas que envolvem vocabulrios controlados.
As buscas em textos so realizadas de dois modos. No primeiro mtodo, palavras que no
sejam comuns so includas em arquivos invertidos, que mostram, para cada palavra, qual o
documento em que ela aparece (e freqentemente sua posio exata nesse documento). A
busca realizada nesses ndices (os quais, no trabalho originalmente desenvolvido em
Pittsburgh, eram denominados concordncias) ao invs de ser realizada no prprio texto. A
outra alternativa efetuar uma busca seqencial no texto, palavra por palavra, sem utilizar
qualquer ndice. Esta era a tcnica comumente empregada para prestar servios de
Disseminao Seletiva de Informaes (DSI) a partir de bases de dados, antes de estarem
amplamente difundidos os sistemas em linha. Quer dizer, os perfis de interesses de usurios,
que se achavam armazenados, eram comparados com atualizaes peridicas da base de
dados (palavras nos ttulos ou resumos). Este mtodo caudaloso de buscas em textos era
mais atraente no caso de aplicaes de DSI do que em buscas retrospectivas devido a que o
volume de texto a ser examinado em qualquer momento muito menor na DSI. Mais tarde,
contudo, foram desenvolvidos computadores especializados que podiam fazer buscas em
textos de modo to rpido que se tornaram bastante viveis as buscas caudalosas at mesmo
em bases de dados muito grandes. Por exemplo, o Fast Data Finder (Yu et al., 1987) alegava
que realizava buscas em textos velocidade de 12,5 milhes de caracteres por segundo, o que
equivale a cerca de 12,5 romances de 500 pginas a cada segundo.
Embora o mtodo caudaloso no seja conceitualmente diferente do mtodo de ndice
invertido, possui, de fato, algumas caractersticas melhoradas. Por exemplo, muito mais fcil
realizar buscas com fragmentos de palavras, principalmente seqncias de caracteres que
ocorram no meio ou no fim de um vocbulo.
Os mecanismos de busca que foram desenvolvidos na internet funcionam por intermdio
da compilao de ndices de textos presentes nos vrios stios e no passam de arquivos
invertidos convencionais.
Recursos auxiliares de busca
Mesmo nos primrdios das buscas em textos, vrios recursos auxiliares j haviam sido
desenvolvidos para ajudar quem realizava as buscas. O mais primitivo deles a apresentao
(ou sada impressa) em ordem alfabtica das palavras significativas que ocorrem na base de
dados, com uma indicao da freqncia com que cada uma delas ocorre. Tambm era comum
algum tipo de indicador de distncia entre as palavras (operador mtrico). A capacidade de
especificar a proximidade entre duas palavras particularmente til em buscas em bases de
dados de textos completos onde palavras que ocorrem em pargrafos diferentes podem no
estar de modo algum relacionadas diretamente entre si.
Talvez o recurso auxiliar mais poderoso das buscas em linguagem natural seja a
capacidade de realiz-las em partes de palavras - quer dizer, fazer seu truncamento ou efetuar
buscas com fragmentos de palavras. A utilidade das buscas com fragmentos de palavras foi
analisada por Williams (1972). Os programas de computador mais flexveis permitem que se
faam buscas com qualquer fragmento: truncamento direita (por exemplo, todas as palavras
iniciadas com condens), truncamento esquerda (todas as palavras que terminam com
micina), truncamento com infixos (especificam-se o comeo e o fim mas no o meio da
palavra), ou qualquer combinao possvel desses recursos (por exemplo, todas as palavras
que incluam a cadeia de caracteres magnet, independentemente de onde aparea). Embora
sejam potencialmente teis em todos os campos do conhecimento, as buscas com fragmentos
de palavras parecem ter mais utilidade em cincia e tecnologia, onde a linguagem costuma ser
mais previsvel. Em certo sentido, esse recurso permite que se compense a ausncia de um
vocabulrio controlado mediante a formao de classes teis de palavras numa estratgia.
Assim, as buscas com o radical condens provavelmente possibilitaro a recuperao de um
grupo de documentos que tero algo a ver com condensadores e condensao; buscas com o
sufixo micina resultaro em documentos que tratam de antibiticos; e buscas com
tri...cobaltato (infixo no especificado) recuperaro uma famlia de compostos qumicos afins.
As buscas com fragmentos de palavras oferecem alguns recursos do tesauro
convencional, mas o fazem quando da sada, ao invs do controle feito na etapa de entrada.
Por exemplo, a possibilidade de buscas com os sufixos biticos ou ilina ou micina ou ciclina
ou.mixina quase equivale a uma entrada antibiticos num tesauro convencional que leva a
uma lista de termos especficos relativos a antibiticos. O tesauro convencional um
190

vocabulrio pr-controlado, enquanto a formao de classes de palavras ou fragmentos de


palavras numa estratgia de busca uma espcie de processo de ps-controle.
Linguagem natural versus vocabulrio controlado: algumas consideraes gerais
Alguns fatores importantes que influem no desempenho dos sistemas de recuperao da
informao podem ser exemplificados reportando-nos mais uma vez figura 3. Nela,
esquerda, se encontram trs representaes em texto livre de um documento (um ttulo e dois
resumos de extenso varivel), enquanto direita aparecem dois conjuntos de termos de
indexao (cobertura seletiva e exaustiva do contedo temtico). Os termos foram extrados
do UNBIS thesaurus (Naes Unidas, Dag Hammarskjold Library, 1985). Um fator importante
que influi no desempenho dos sistemas de recuperao da informao o nmero de pontos
de acesso providos. Evidentemente, o resumo expandido prov mais pontos de acesso do que
o resumo sucinto, o qual, por sua vez, prov mais do que o ttulo. Do mesmo modo, a
indexao exaustiva prov um nmero de pontos de acesso quase trs vezes maior do que o
provido pela indexao seletiva.
Uma busca em texto que se restrinja apenas ao ttulo provavelmente permitir que esse
item s seja recuperado numa busca sobre o contedo temtico dominante do documento.
medida que se acrescenta mais texto, o item torna-se recupervel no curso de buscas sobre
outros aspectos. O resumo sucinto permitiria recuperao em buscas sobre: ajuda norteamericana, a OLP, o Estado palestino, Israel, ajuda norte-americana a Israel e conferncias de
paz, enquanto o resumo expandido acrescenta outros pontos de acesso, tais como esforos
pela paz e lderes do Oriente Mdio. Evidentemente, isso tambm ocorre na comparao entre
indexao seletiva e indexao exaustiva. A indexao seletiva reflete apenas o ttulo do item
e no prov pontos de acesso adicionais ao ttulo, e a indexao exaustiva equivale mais ou
menos em amplitude ao resumo expandido.
Ao se considerar a recuperabilidade do item apresentado, a extenso do registro que
tem maior importncia, e no o tipo de vocabulrio. A indexao seletiva, quanto a isso,
equivale ao ttulo, enquanto a indexao exaustiva se situa em algum ponto entre os dois
resumos na medida em que abrange o contedo temtico do item. Como o resumo sucinto
prov mais pontos de acesso do que o ttulo ou a indexao seletiva, o item que representa
ser mais recupervel. Do mesmo modo, a indexao exaustiva torna esse item mais
recupervel do que o seria numa busca no resumo sucinto, porm menos recupervel do que o
seria numa busca no resumo expandido.
Uma base de dados constituda de milhares de itens indexados exaustivamente, como no
exemplo da figura 3, provavelmente possibilitar uma revocao muito mais alta do que uma
outra que proveja acesso apenas pelos ttulos. Do mesmo modo, uma base de dados
constituda de resumos expandidos provavelmente possibilitar revocao mais alta do que
uma outra baseada na indexao seletiva ou mesmo, talvez, na indexao exaustiva. Isso, em
si mesmo, nada tem a ver com a comparao entre linguagem natural versus vocabulrios
controlados na recuperao da informao, mas diz respeito apenas extenso do registro no
qual se podem realizar buscas.
Vrios pesquisadores, infelizmente, deixaram de atentar para a extenso do registro ao
compararem a recuperao baseada em texto livre com a recuperao baseada na indexao.
No de estranhar que a indexao exaustiva resulte em revocao mais alta do que os ttulos
e isto no prova que a indexao feita por seres humanos seja superior ao texto livre. No de
estranhar que um resumo extenso resulte em revocao mais alta do que a indexao seletiva
e isto no prova que o texto livre seja superior indexao feita por seres humanos. 1
Os resumos, todavia, freqentemente proporcionaro mais pontos de acesso do que um
conjunto de descritores atribudos pelo indexador, do mesmo modo, com certeza, que o texto
integral do documento. admissvel, portanto, que as bases de dados de texto livre
possibilitaro, em geral, maior revocao do que aquelas que se apiam na indexao feita por
seres humanos.
Outro fator importante que influi no desempenho de um sistema de recuperao a
especificidade com que se pode descrever o contedo temtico do documento. Os termos do
UNBIS thesaurus so bastante especficos ao descrever a maioria dos aspectos do contedo
temtico do item apresentado na ilustrao 3. O texto livre, no entanto, proporciona maior
especificidade por possibilitar a recuperao a partir dos nomes dos lderes do Oriente Mdio,
enquanto a indexao permite apenas que se faa uma busca no nvel de lderes polticos.
1

Lamentavelmente, os resultados desses estudos defeituosos continuam sendo divulgados como se tivessem validade
(ver, por exemplo, Olson e Boll, 2001).

191

Quanto mais pontos de acesso forem providos para a recuperao, mais alta ser a
revocao possvel, porm, provavelmente, menor ser a preciso. Um dos motivos disso
simplesmente o fato de que quanto mais pontos de acesso so providos, maior a
probabilidade de que alguns digam respeito a aspectos bastante secundrios do documento.
Assim, o consulente que recebesse o item da figura 3 numa busca relativa a Arafat julgaria que
ele no teria qualquer utilidade para si porque trata de Arafat de uma forma muito sucinta e
tangencial.
Quanto mais pontos de acesso forem providos, maior tambm ser a possibilidade de que
venham a ocorrer relaes esprias. Como vimos no captulo 11, essas relaes so de dois
tipos: 1) falsas associaes, 2) relaes incorretas entre termos. Muitas possibilidades so
vislumbradas na figura 3. Por exemplo, o resumo expandido causaria a recuperao desse item
numa busca sobre entrevistas telefnicas com lderes do Oriente Mdio (ou qualquer dos
lderes mencionados), e a indexao exaustiva causaria sua recuperao durante uma busca
sobre lderes polticos dos Estados Unidos. Trata-se de falsas associaes porque os termos que
causaram a recuperao no tm, essencialmente, relao entre si no documento
(ENTREVISTAS TELEFNICAS no se relaciona diretamente com LDERES nem ESTADOS UNIDOS
se relaciona diretamente com LDERES POLTICOS).
Um tipo mais sutil de relao espria acha-se exemplificado na indexao seletiva ou
mesmo no ttulo. Qualquer um dos dois causar a recuperao desse item durante uma busca
sobre atitudes do Oriente Mdio em face dos Estados Unidos. Neste caso, os termos ORIENTE
MDIO, ATITUDES e ESTADOS UNIDOS tm relao direta entre si, mas a relao ambgua.
Quanto mais extenso o registro, maior a chance de que venham a ocorrer relaes
esprias. Estas, evidentemente, causam menor preciso.
Outras lies sobre diferenas entre vocabulrio controlado e linguagem natural podem
ser tiradas da figura 103. Neste caso, o UNBIS thesaurus alcana um resultado medocre na
indexao do item. O resumo bem mais especfico do que os termos controlados: o tesauro
no possui termo para alunos monitores [peer tutoring] ou mesmo monitoria [tutoring]. Esse
exemplo tambm ilustra o fato de a linguagem natural tender a ser mais redundante do que os
termos controlados de indexao. Por exemplo, o resumo contm o termo programmed
learning [ensino programado] e programmed instruction [instruo programada], de modo que
esse item seria recuperado por qualquer um desses termos que a pessoa quisesse
eventualmente usar. provvel que o texto integral de um documento proporcione notvel
redundncia, aumentando as chances de vir a incluir uma expresso empregada por quem faz
a busca, assim melhorando a revocao.
A indexao feita por seres humanos , naturalmente, um processo intelectual subjetivo,
e os indexadores nem sempre incluem um assunto que deveria ser includo, representam um
assunto com o melhor termo possvel ou explicitam alguma relao de interesse potencial para
certos usurios. A completeza e redundncia do texto completo evita esse tipo de problema.
Horty (1962), o verdadeiro pioneiro das buscas em texto completo, reconheceu isso h mais de
20 anos:
Quando o texto completo dos documentos utilizado como base de um sistema de
recuperao, as consultas no ficam amarradas maneira como os documentos foram
indexados. Quase inevitavelmente o indexador desconhece certos assuntos aos quais a
clusula jurdica aplicvel ou seria aplicvel no futuro. Todavia a pesquisa, por sua prpria
natureza, determina que o pesquisador procure relaes inditas entre vrios assuntos;
relaes que podem no ter sido antecipadas pelo indexador. Ao dispensar por completo o
ndice e recorrer ao texto original em cada busca, essas novas relaes podem ser
encontradas (p. 59).

Por outro lado, naturalmente, esta prpria redundncia cria grandes problemas quando os
textos de muitos documentos so combinados para formar uma grande base de dados - h
muitas formas pelas quais um assunto pode ser expresso num texto completo e, em alguns
casos, o assunto representado implcita e no explicitamente (OConnor, 1965), dificultando
uma revocao alta. Um vocabulrio controlado reduz a diversidade da terminologia. Alm
disso, ao ligar semanticamente termos que tenham relao entre si, ajuda o usurio a
identificar todos os termos que seriam necessrios para realizar uma busca completa.
Outro fator a ser levado em conta a recentidade. Novos termos surgiro nos ttulos ou
resumos muito antes de surgirem num vocabulrio controlado. Para novos assuntos, portanto,
a linguagem natural provavelmente vence sem esforo. A preciso ser melhor porque o
vocabulrio controlado no possibilitar uma busca especfica. provvel tambm que a
revocao seja melhor porque quem faz a busca no ter de adivinhar quais os termos a serem
empregados. Finalmente, o uso do vocabulrio controlado costuma ser preferido pelo
especialista em informao, que domina inteiramente as diretrizes e regras que o respaldam,
192

enquanto a linguagem natural conta com a preferncia do usurio especialista num assunto.
Deschtelets (1986) um autor que chamou ateno para a importncia de se fazer com que a
linguagem controlada se aproxime tanto quanto possvel da linguagem natural da respectiva
rea.

Figura 103 Comparao entre resumo e indexao com vocabulrio controlado


O resumo foi reproduzido de A.I.D. Research & Development Abstratcs com permisso
do Center for Development Information and Evaluation, United States Agency for
International Development
Os termos assinalados com asterisco * so aqueles que o indexador considerou como os
mais importantes para este item

At agora identificamos diversas caractersticas do texto livre e da indexao com termos


controlados feita por seres humanos, tendo relacionado ambos com seus provveis efeitos
sobre a revocao e a preciso. Essas relaes so resumidas na figura 104. Isso deixa
evidente que a situao complexa, uma vez que alguns fatores favorecem os termos
controlados e outros favorecem o texto livre. A especificidade das palavras do texto costuma
melhorar a preciso, mas dificultar a obteno de revocao alta, pelo menos durante buscas
conceituais genricas, enquanto a extenso do texto costuma melhorar a revocao, porm
diminuir a preciso. A preferncia por um ou por outro numa situao determinada ser
bastante influenciada pelo tipo de busca a ser feita: uma busca conceitual genrica
recomendar os termos controlados, uma busca altamente especfica (principalmente uma que
envolva nomes de pessoas, organizaes, etc.) recomendar o texto livre, uma busca
realmente exaustiva sobre um assunto (por exemplo, toda referncia possvel a algum
medicamento) recomendar o texto completo, enquanto uma busca altamente seletiva
(somente os itens mais importantes) provavelmente recomendar a indexao com termos
controlados.
Em geral, outros autores chegaram a concluses semelhantes. Por exemplo, Fugmann
(1985) salienta que as buscas em linguagem natural produzem bons resultados no caso de
conceitos particulares, mas no de conceitos genricos; Dubois (1987) afirma que uma das
vantagens do texto livre que no ocorre demora na incorporao de novos termos; e Perez
(1982) afirma que um vocabulrio controlado pode resultar em perda de preciso enquanto o
texto livre no perde a especificidade. Knapp (1982) menciona assuntos especficos,
assuntos quentes e nova terminologia como exemplos de casos em que a linguagem natural
provavelmente ser mais til.
Os aspectos relativos aos custos devem, naturalmente, ser tambm levados em conta
numa comparao entre linguagem natural e vocabulrio controlado. O custo do
processamento intelectual por seres humanos continua a subir rapidamente em relao ao
custo do processamento por computador, e a indexao que utiliza vocabulrio controlado
exige mo-de-obra intensiva e cara. A construo e manuteno de um vocabulrio controlado
podem tambm custar caro. Na medida em que aumenta a disponibilidade de textos, a baixo
custo, em formato eletrnico, como subproduto de atividades editoriais ou de disseminao de
informaes, natural que os administradores de servios de informao analisem
193

cautelosamente a situao, a fim de decidir se as vantagens da indexao com vocabulrio


controlado realmente justificam os custos adicionais.
Do ponto de vista da relao custo-eficcia pode-se ver essa comparao como uma
negociao entre entrada e sada. Ao abandonar a indexao feita por seres humanos e os
vocabulrios controlados, bem provvel que haja uma reduo dos custos na entrada. No
entanto, alcana-se essa reduo s expensas de custos mais elevados na sada, pois se lana
uma sobrecarga intelectual maior sobre os ombros do usurio da base de dados. Entre os
fatores que influem na deciso em torno dessa negociao entre entrada e sada esto a
quantidade de documentos e buscas envolvidas, os custos do indexador e da pessoa que faz as
buscas, bem como o grau de importncia atribuvel aos resultados de uma busca.

Figura 104 Os prs e contras do texto livre versus vocabulrio controlado

Reviso de estudos afins: antes de 1980


Os primeiros trabalhos escritos sobre a experincia com buscas em textos completos, no
campo jurdico, estavam impregnados de um grande entusiasmo em face desse novo recurso.
Seus autores, no entanto, no realizaram experincia alguma visando a comparar as buscas
em texto completo com a indexao com vocabulrio controlado.
Swanson (1960) formou uma pequena coleo de teste, contendo 100 artigos sobre fsica
nuclear, e determinou quais deles eram relevantes para cada uma de um total de 50 questes.
A coleo foi tambm indexada com cabealhos de assuntos criados especialmente para o
campo da fsica nuclear. As buscas em textos completos, que contaram com a ajuda de uma
coleo de grupos de palavras e expresses, a modo de tesauro, apresentaram, segundo
Swanson, resultados superiores queles logrados pelas buscas em cabealhos de assuntos.
A pesquisa Cranfield sobre as caractersticas e o desempenho de linguagens de
indexao parece ter tido profunda influncia no convencimento de muitos profissionais da
194

informao quanto s vantagens da linguagem natural na recuperao da informao.


Segundo foi relatado por Cleverdon et al. (1966), tratava-se de um estudo experimental
controlado. Uma coleo de teste contendo 1 400 trabalhos de pesquisa, a maioria dos quais
relacionada aerodinmica, foi indexada de trs formas diferentes: 1) os conceitos estudados
eram anotados (por exemplo, perdas em cascata), 2) os conceitos eram decompostos nas
palavras que os constituam, no singular (cascata, perda), e 3) os conceitos afins eram
reunidos para formar ligaes ou temas (por exemplo, compressor de fluxo axial/perda em
cascata). Os itens foram indexados exaustivamente: no era raro haver de 30 a 50 conceitos
por item.
Compilou-se um grupo de 221 questes de teste. Essas questes foram elaboradas por
especialistas e se baseavam em trabalhos de pesquisa reais dos quais eles mesmos eram
autores. A coleo de teste foi examinada minuciosamente por estudantes de ps-graduao
do College of Aeronautics (em Cranfield, Inglaterra), e os itens que apresentassem qualquer
relevncia imaginvel eram enviados pessoa que propusera a questo, a fim de que fossem
avaliados de acordo com uma escala de cinco pontos (dos quais uma categoria correspondia a
absolutamente no-relevantes). Como resultado, ficava-se sabendo quais os itens da coleo
que eram relevantes para cada questo do teste (pelo menos aos olhos do autor da questo) e
quais no eram.
Todo o estudo foi realizado como uma espcie de simulao. Foram montados diferentes
tipos de vocabulrios, variando do mais elementar (palavras simples sem quaisquer controles,
fuso de singular/plural, controle da forma das palavras [busca em radicais de palavras],
controle simples de sinnimos) ao mais complexo (agrupamento dos termos em hierarquias
como apareceriam numa verdadeira classificao hierrquica). Cada questo foi proposta 33
vezes coleo de teste, cada uma delas correspondendo ao teste de um vocabulrio
diferente (33 ao todo), possibilitando uma comparao dos resultados alcanados pelos vrios
vocabulrios. Ao serem combinadas as medidas de revocao e preciso numa nica medida
de desempenho (denominada revocao normalizada), os vocabulrios constitudos de termos
de uma nica palavra da linguagem natural (com controle das formas dos vocbulos, com
controle de sinnimos ou sem qualquer controle) superaram em desempenho todos os outros.
O estudo Cranfield gerou muita polmica e suscitou muitas crticas ao longo dos anos.
Grande parte dessas crticas, no entanto, teve origem numa falta de compreenso daquilo que
o estudo realmente realizou. Por exemplo, Soergel (1985) sugeriu que tanto a indexao
quanto a linguagem de indexao eram de qualidade duvidosa. Como eu fui um dos
indexadores, posso testemunhar os grandes cuidados que cercaram a indexao - cuidados
muito maiores do que os que provavelmente ocorrem num ambiente de produo habitual e
que os indexadores possuam experincia anterior bastante respeitvel. Mesmo hoje em dia
ainda surgem crticas. Alguns autores procuraram desacreditar os resultados de Cranfield com
o argumento de que, como as questes se baseavam em documentos reais, isso criaria um
vis favorvel linguagem natural. difcil entender essa crtica, uma vez que os itens
considerados relevantes pelos autores das questes no eram os itens nos quais haviam
baseado as questes.
De qualquer modo, no minha inteno defender aqui os estudos Cranfield, mas
meramente salientar que, defeituosos ou no, levaram muitas pessoas a acreditar que, pelo
menos em certas circunstncias, os sistemas baseados em linguagem natural teriam um
desempenho to bom ou melhor do que os baseados em vocabulrios controlados. Em alguns
dos trabalhos que escreveu depois da realizao dos testes de Cranfield, Cleverdon sugeriu
que um sistema com base na linguagem natural, se implementado de forma apropriada,
sempre teria desempenho superior ao de um sistema baseado em controle de vocabulrio.
Pouco mais tarde, Klingbiel (1970) valeu-se dos resultados de Cranfield, aliados sua prpria
experincia no Defense Documentation Center, para afirmar que vocabulrios controlados
altamente estruturados so obsoletos para a indexao e a recuperao e que a linguagem
natural da prosa cientfica totalmente adequada indexao e recuperao. Pouco depois,
Bhattacharyya (1974) diria:
Os resultados de vrios experimentos visando a testar e avaliar as linguagens de indexao,
realizados durante a ltima dcada, demonstraram, repetidas vezes, a fora da linguagem
natural, com o mnimo ou sem nenhum controle, como a melhor linguagem de indexao
(isto , levando em conta tanto a eficcia quanto a eficincia de recuperao) (p. 235).

Aps os estudos em Cranfield, e influenciados por eles, diversos pesquisadores chegaram


a concluses semelhantes quanto aos mritos da linguagem natural na recuperao da
informao. Por exemplo, Aitchison et al. (1969-1970) empreenderam alguns testes visando a
obter elementos que ajudassem nas decises acerca da indexao da base de dados INSPEC.
195

Compararam-se os resultados de buscas feitas em: 1) ttulo, 2) ttulos mais resumos, 3) termos
de indexao utilizados na publicao impressa Science Abstracts, 4) indexao feita por seres
humanos com linguagem livre, e 5) termos controlados extrados de um rascunho de tesauro
compilado pelo pessoal do INSPEC. O ambiente do teste consistia em 542 artigos no campo da
eletrnica e 97 questes formuladas por pesquisadores. Fizeram-se avaliaes no sentido de
determinar quais artigos eram relevantes para quais questes. Tomou-se o cuidado de
estabelecer algum nvel de equivalncia entre as estratgias adotadas nas vrias
modalidades de busca. Verificou-se que a recuperao baseada no rascunho de tesauro
proporcionou resultados melhores do que qualquer uma das outras modalidades de busca.
Todavia, recomendava-se que a atribuio pelos indexadores de termos da linguagem livre, que
haviam ficado em segundo lugar quanto ao desempenho, deveria ser o mtodo adotado. A
base de dados INSPEC incorporou posteriormente tanto termos de tesauro quanto termos de
texto livre.
Em importante estudo, Keen e Digger (1972) compararam o desempenho de vrios tipos
de vocabulrios no campo da cincia da informao. As principais caractersticas desse teste
podem ser assim resumidas:
1. Foram utilizadas cinco linguagens de indexao diferentes: UL, uma linguagem pscoordenada, no-controlada, construda por indexadores mediante a seleo de
palavras dos prprios documentos; CT, uma linguagem ps-coordenada de termos
comprimidos, contendo menos de 300 termos, com estrutura de tesauro; Pre-HS, uma
linguagem pr-coordenada, hierarquicamente estruturada, na forma de um esquema
de classificao facetada; HS, uma linguagem hierarquicamente estruturada (o
esquema de classificao modificado de modo a permitir que seja utilizado de
maneira ps-coordenada); Pre-RI, uma linguagem pr-coordenada na qual os termos da
classificao hierrquica so combinados em locues de indexao (analetos) com o
emprego dos operadores relacionais de Farradane.
2. Uma coleo de teste de 800 documentos sobre biblioteconomia e cincia da
informao foi indexada pelos dois pesquisadores, que utilizaram cada um dos cinco
vocabulrios.
3. Os ndices criados eram inteiramente manuais, sendo que o ndice ps-coordenado foi
montado com fichas de coincidncia ptica.
4. Sessenta e trs pedidos de buscas, obtidos junto a bibliotecrios e outros especialistas
em informao, foram processados nesses ndices.
5. As buscas foram realizadas por 19 estudantes de biblioteconomia e cincia da
informao, que empregaram um plano experimental de quadrado latino.
6. Vinte auxiliares de ensino da rea elaboraram julgamentos de relevncia dos pedidos
do teste em relao a cada documento da coleo.
7. Os testes foram realizados com diferentes verses dos cinco ndices. Essas verses
refletiam mudanas introduzi das na linguagem de indexao ou na poltica de
indexao. As principais variveis assim examinadas foram o efeito da exaustividade
da indexao (isto , o nmero de termos atribudos por documento), a especificidade
do vocabulrio, diferentes mtodos de coordenao dos termos no momento da busca,
o grau em que os termos so interligados (por remissivas ou estrutura hierrquica)
num vocabulrio; unio de termos afins no momento da indexao (isto ,
compartimentagem ), o emprego dos operadores relacionais e a proviso de
contexto no arquivo de buscas (quem realiza a busca num ndice de coincidncia
ptica remetido, pelo nmero do documento, a um arquivo de contextos onde uma
entrada de ndice alfabtico em cadeia representa o contedo temtico especfico
estudado no documento, o que equivale aproximadamente ao contexto provido num
ndice pr-coordenado).
As diferentes linguagens foram empregadas em diferentes comparaes (quer dizer, nem
todas as comparaes so relevantes para todas as linguagens), e se utilizou em algumas
dessas comparaes um subconjunto de 241 documentos e 60 pedidos de buscas. Os
resultados das diversas comparaes so apresentados, em sua maioria, sob a forma de
coeficientes de revocao e nmeros absolutos de itens no-relevantes recuperados.
Talvez de maneira no muito imprevisvel, essa pesquisa produziu resultados que tendem
a corroborar os resultados de estudos anteriores:
As linguagens no-controladas testadas tiveram, em geral, um desempenho to bom quanto
o das linguagens controladas, ao proporcionar uma eficcia de recuperao coerentemente
boa e um desempenho de eficincia que jamais chegou a ser to ruim quanto o da pior

196

linguagem controlada, nem to bom quanto as melhores, e em nenhum caso as diferenas


foram estatisticamente importantes (volume 1, p. 166-167).

Os pesquisadores, alm disso, afirmam que:


O que se prescreve para a melhor linguagem de indexao , evidentemente, que apresente
a mais alta especificidade possvel sem ter de empregar dispositivos de preciso que sejam
mais complexos do que a simples coordenao (e com pouca ou nenhuma pr-coordenao
de termos). E, realmente, parece que as palavras simples da linguagem natural inglesa se
aproximam da proviso desse nvel timo de especificidade (volume 1, p. 169).

Keen e Digger chegaram a sugerir que agora estava bem comprovado o argumento
contra os vocabulrios controlados, ao ponto de afirmarem que esta deve ser a ltima vez em
que as tradicionais linguagens controladas de indexao so humilhadas, por ter ficado
demonstrado que no oferecem vantagem alguma (volume 1, p. 170).
Lancaster et al. (1972) realizaram um estudo sobre buscas em linha feitas por
pesquisadores da rea biomdica no Epilepsy Abstracts Retrieval System (EARS). Seu objetivo
era determinar a eficincia com que esses pesquisadores podiam fazer buscas no texto de
resumos no campo da epilepsia, tendo sido efetuadas algumas comparaes entre texto livre e
termos controlados. Constatou-se que, em 47 buscas, o emprego dos termos de indexao
atribudos pela Excerpta Medica proporcionou cerca de metade da revocao que fora obtida
com as buscas feitas em resumos. Observe-se, contudo, que os resumos geralmente ofereciam
muito mais pontos de acesso, de modo que a comparao foi mais a respeito da extenso do
registro do que uma verdadeira comparao entre buscas em texto livre versus buscas com
termos controlados. Os pesquisadores concluram que a busca em texto resultou em melhor
revocao devido a: a) nmero de pontos de acesso, b) maior redundncia, c) maior
coincidncia entre os termos empregados pelos usurios e as palavras do texto, d) erros e
incoerncias na indexao feita por seres humanos, e e) termos de indexao coincidentes
entre si. Levantou-se a hiptese de que o desempenho melhoraria grandemente se algum tipo
de tesauro de busca fosse acrescentado ao sistema.
Utilizando documentos e questes reunidos por Lancaster na avaliao que este efetuou
sobre o sistema MEDLARS (Lancaster, 1968a), Salton (1972) apresentou resultados que
sugeriam que seu sistema SMART superaria em desempenho as dispendiosas atividades de
indexao e controle de vocabulrio associadas ao MEDLARS. Essa comparao difere um
pouco da comparao convencional de buscas em bases de dados que empregam linguagem
natural e que empregam vocabulrios controlados. O SMART no funciona com base na lgebra
booleana, mas por meio de uma espcie de coincidncia de padres, em que os textos dos
resumos so cotejados com os textos dos pedidos feitos em linguagem natural, e o usurio
recebe um conjunto de opes de busca com variados nveis de complexidade. Nos estudos de
Salton, o SMART parecia superar o desempenho do MEDLARS somente quando se aplicava uma
retroalimentao proporcionada pelo usurio. Ou seja, os usurios avaliavam os resultados
preliminares da busca e esta era repetida com base na retroalimentao fornecida pelo usurio
a respeito da relevncia. Isso suscita a questo de saber qual seria o desempenho do MEDLARS
se adotasse a retroalimentao de relevncia. O SMART voltar a ser examinado no prximo
captulo.
Importante estudo realizado nesse perodo freqentemente esquecido. Cleverdon
(1977) comparou buscas em linguagem natural e com termos controlados num subconjunto da
base de dados da NASA formado por 44 000 itens. Foram realizadas buscas em linha em quatro
centros em cada um dos quais se faziam dez buscas. Cada busca era feita de um modo por
uma pessoa e de um modo diferente por uma segunda pessoa. As duas pessoas que
realizavam a busca sobre o mesmo assunto, cada uma de um modo diferente, primeiramente
analisavam a solicitao, a fim de chegar a um acordo sobre aquilo que o consulente desejava.
Essas modalidades de busca eram: a) somente em termos controlados, b) linguagem natural
dos ttulos e resumos, c) termos controlados combinados com linguagem natural, e d)
linguagem natural com o auxlio de uma lista de conceitos associados. Constatou-se que as
buscas em linguagem natural resultaram numa revocao acentuadamente mais alta e pouco
diferiam, quanto preciso, das buscas com termos controlados. A concluso de Cleverdon,
corretamente, foi que a extenso do resumo fora a principal causa disso.
Infelizmente, o estudo de Cleverdon prejudicado pelas deficincias formais com que foi
descrito. Por exemplo, as buscas em que tanto os termos controlados quanto a linguagem
natural foram utilizados tiveram um desempenho bem inferior, tanto quanto revocao
quanto preciso, do que as buscas que envolviam apenas linguagem natural. Isso
exatamente o oposto do que seria natural, sendo difcil de explicar, principalmente porque
197

essas buscas de modo conjunto recuperaram duas vezes mais itens do que as buscas em
linguagem natural. Cleverdon no apresenta explicao para essa anomalia. Outra anomalia
que as buscas em linguagem natural que contaram com a ajuda do arquivo de conceitos
associados tambm tiveram desempenho bem inferior ao das buscas realizadas com o
emprego somente da linguagem natural. Isso tambm no explicado com clareza, ficando
difcil para os leitores do relatrio de Cleverdon chegar a suas prprias concluses, uma vez
que o prprio arquivo de conceitos associados no descrito completamente. Tudo que se
pode conjeturar a partir da descrio de Cleverdon que esse arquivo resultou da coocorrncia de termos nos ttulos de documentos da coleo.
Trabalho posterior de Martin (1980) oferece alguns esclarecimentos, mas, por sua conta,
aumenta ainda mais o mistrio. Ele esclarece que o componente de linguagem natural da base
de dados consistia em palavras simples extradas por computador dos ttulos e resumos e
posteriormente revistas por seres humanos a fim de eliminar palavras proibidas e normalizar
o vocabulrio com a excluso de grafias e formas lexicais variantes. O arquivo de conceitos
associados era um arquivo das palavras-chave extradas apenas dos ttulos e que mostrava,
para cada um deles, as palavras-chave que ocorriam com maior freqncia nos ttulos. Martin
resume os resultados assim:
Termos controlados
Linguagem natural
Linguagem natural mais termos controlados

Revocao (%)
56
78
71

Preciso (%)
74
63
45

E, ento, acrescenta que para cada documento relevante recuperado pela linguagem
controlada, a linguagem natural sozinha recuperou 1,4, a linguagem natural mais a linguagem
controlada 1,6 [...], o que totalmente incompatvel com os valores de revocao/preciso
apresentados. Martin tambm esclarece que as buscas em linguagem natural mais termo
controlado incluem algumas que envolviam somente termos controlados (onde a pessoa que
fazia a busca no viu necessidade de adicionar a linguagem natural) e, portanto, elas no
representavam todo o potencial de LC [linguagem controlada] mais LN [linguagem natural]. As
incoerncias nos resultados e nas afirmaes sobre eles, bem como preocupaes acerca das
instrues passadas s pessoas que faziam as buscas, lanam alguma dvida sobre a validade
dessa comparao.
Somente um estudo realizado durante esse perodo afirma ter encontrado resultados
superiores para a indexao feita por seres humanos com o emprego de um vocabulrio
controlado. Hersey et al. (1971) utilizaram um subconjunto da base de dados do Smithsonian
Science Information Exchange (SIE, formada por 4655 descries de projetos, na comparao
que fizeram entre texto livre e indexao por cientistas. A indexao envolveu o emprego de
cdigos de assuntos, atribudos por especialistas, e extrados de um esquema de classificao
desenvolvido especialmente para esse fim. Para 27 buscas realizadas no prprio SIE, foram
alcanados os seguintes resultados:
Texto de descries de projetos
Indexao de assuntos

Revocao (%)
66
95

Preciso (%)
81
95

Mais uma vez as deficincias do relato dificultam para o leitor a compreenso exata do
que foi feito. As questes utilizadas foram umas que haviam sido anteriormente formuladas,
mas no se esclarece se os resultados concernentes indexao de assuntos foram obtidos
quando as buscas foram originalmente feitas para os usurios, ou se foram obtidos mais tarde,
no momento da realizao das buscas em texto livre. Os seguintes pontos tambm so
obscuros: de que modo foram feitas as avaliaes de relevncia (aparentemente foram feitas
pelo pessoal do SIE e no pelos solicitantes originais), de que forma o pedido foi entregue a
quem fazia a busca em texto livre, e se foram ou no impostos controles s pessoas que
faziam as buscas, a fim de se conseguir certo nvel de equivalncia de mtodo entre busca em
texto e busca em termos de indexao.
Cada um desses fatores teria grande influncia nos resultados do estudo. Por exemplo, se
o pedido usado como base para a busca em texto livre no estivesse nas palavras originais do
solicitante, mas houvesse sido negociado mediante interao com o pessoal do SIE, os
resultados da comparao poderiam muito bem apresentar um vis para os cdigos de
assuntos. O fato de os resultados desse estudo relativos revocao/preciso terem sido bem
mais altos do que os de outras pesquisas, e muito mais altos do que os obtidos durante o
funcionamento rotineiro de sistemas de recuperao (Lancaster, 1968a), aliado a um relato
198

muito impreciso, suscita srias dvidas quanto validade dessa comparao. Os valores de
preciso excepcionalmente altos explicam-se, porm, parcialmente, pelo fato de que o arquivo
de teste de descries de projetos era realmente uma fuso de quatro arquivos de teste
separados sobre reas temticas completamente diferentes.
Um estudo suplementar nessa base de dados foi realizado pelo Biological Sciences
Communication Project, da George Washington University, utilizando 12 questes do SIE. As
buscas nos cdigos de assuntos recuperaram 91 projetos, 74 dos quais foram considerados
relevantes (preciso de 81 %), enquanto as buscas em texto recuperaram 70, dos quais 43
foram considerados relevantes (preciso de 61 %). Combinando-se os resultados das buscas
em texto livre e com cdigos de assuntos, conclui-se que a revocao foi de cerca de 50% para
texto e 90% para indexao de assuntos, porm alguns itens s foram recuperados por cada
uma das modalidades de busca.
Byrne (1975) utilizou 50 perfis de OSI na base de dados COMPENOEX e comparou os
resultados quando as buscas foram realizadas nos ttulos, resumos e cabealhos de assuntos,
alm de vrias combinaes destes elementos. Os resultados de uma modalidade de busca
foram comparados com os resultados combinados de todas as modalidades. Empregando este
padro, os cabealhos de assuntos sozinhos recuperaram 21% dos itens, os resumos sozinhos
61%, os ttulos mais os resumos 75%, e os ttulos mais os termos de assuntos 41%. No de
estranhar, portanto, que, aparentemente, as representaes mais extensas tenham resultado
em muito melhor revocao. No entanto, no se fizeram avaliaes reais de relevncia nesse
estudo: tudo que foi recuperado foi considerado ipso facto como sendo uma resposta
apropriada.
Reviso de estudos afins: a partir de 1980
Em geral, as comparaes entre buscas em texto livre e com vocabulrio controlado
realizadas nas dcadas de 1960 e 1970 mostravam que o texto livre funcionava to bem
quanto os termos controlados, seno melhor. Tais estudos, porm, foram realizados em
arquivos muito pequenos, e s vezes insignificantemente pequenos. Em sua maioria, tratavase de estudos experimentais, ao invs de envolver servios de informao reais funcionando
em condies de trabalho concretas. A pa11ir de 1980 alguns estudos foram realizados com
bases de dados de maior porte e/ou envolvendo servios verdadeiramente operacionais.
Markey et al. (1980) empreenderam uma anlise de enunciados de busca com
vocabulrio controlado e texto livre em buscas em linha na base de dados ERIC. Tambm
realizaram testes de buscas em linha, comparando vocabulrio livre e controlado, mas usando
somente seis assuntos. Concluram que o texto livre resultou em revocao mais alta e os
termos controlados resultaram em mais alta preciso. Igual a muitos outros estudos, o relato
do teste lamentavelmente inadequado. No h informaes sobre como foram feitas as
avaliaes de relevncia nem sobre como as buscas foram realizadas, de modo que o leitor
no sabe se foi feito algum esforo para controlar as estratgias de busca, a fim de evitar o
favorecimento de uma das modalidades de busca. Os escores insolitamente elevados (93% de
revocao e 71 % de preciso para texto livre, e 76% de revocao e 95% de preciso para
termos controlados) lanam dvida sobre a validade desse estudo.
Diversos estudos foram realizados no campo do direito. Coco (1984) utilizou uma base de
dados sobre casos em tribunais itinerantes (1960-1969) e 50 problemas de pesquisa
verdadeiros extrados de um estudo de 1977 do Federal Judicial Center, a fim de comparar a
recuperao nos sistemas WESTLAW e LEXIS. O LEXIS inclui somente o texto dos pareceres
vinculados a esses casos, enquanto o WESTLAW acrescenta componentes editoriais ao texto
dos pareceres, inclusive vrias formas de sinopses. O objetivo declarado desse estudo era
comparar os resultados de buscas baseadas somente no texto com os alcanados com o texto
mais acrscimos editoriais. Como as buscas no WESTLAW foram executadas com e sem os
acrscimos editoriais, a comparao com o LEXIS tornou-se totalmente desnecessria e s
serviu para confundir o leitor. De qualquer modo, a comparao entre LEXIS e WESTLA W no
poderia ser considerada inteiramente vlida porque as bases de dados no eram exatamente
comparveis. Como diz Coco, os sistemas continham aproximadamente [grifo meu] o mesmo
nmero de casos para esse perodo. Alm disso, no houve qualquer esforo sistemtico para
determinar se os casos recuperados eram ou no de alguma forma relevantes para os
problemas de pesquisa.
Se o nico exemplo apresentado por Coco for representativo de todos os itens da base de
dados, o texto ampliado do WESTLAW quase duas vezes o tamanho do texto do parecer
sozinho. No de estranhar, portanto, que tenha recuperado mais casos (913 contra 728,
embora no se saiba quantos mais eram relevantes). De fato, seria razovel supor que o
199

dobro da extenso de texto causaria um aumento superior a 20% do nmero de casos


recuperados. O fato de isso no ter ocorrido deve ser em parte atribuvel coincidncia de
termos entre o texto e os acrscimos editoriais. Os resultados do estudo eram totalmente
previsveis desde o incio, e seria dispensvel esse tipo de pesquisa para nos dizer que
dobrando o tamanho do texto crescer o nmero de itens recuperados.
Blair e Maron (1985) realizaram um estudo bastante extenso sobre uma base de dados
jurdicos, que utilizava o sistema STAIRS (cerca de 350 000 pginas de texto, ou 40 000
documentos, e 40 pedidos de informao). Auxiliares advocatcios realizaram buscas
exaustivas, iterativas, em linha, e s as interromperam quando os advogados para quem
trabalhavam se consideraram satisfeitos, pois pelo menos 75% das referncias relevantes
haviam sido recuperadas. Por amostragem, no entanto, os pesquisadores calcularam que se
alcanara no mais de 20% de revocao. Concluem que os resultados de seu estudo lanam
sria dvida sobre a eficcia das buscas em texto completo e, com base em algumas anlises
de custos muito duvidosas, que as buscas em texto completo so muito mais caras do que os
mtodos alternativos. Esquecem por completo o fato de que grandes sistemas que empregam
vocabulrio controlado talvez no alcancem um desempenho melhor. Por exemplo, um estudo
de 535 buscas no MEDLINE, realizadas por 191 pessoas diferentes, mostrou que elas
apresentaram uma revocao mdia de apenas 23% e uma preciso de 67% (Wanger et al.,
1980). Dabney (1986a), embora tomando por base em grande parte os resultados de Blair e
Maron, oferece um excelente estudo dos problemas da recuperao em texto completo no
campo jurdico. Respostas de McDermott (1986) e de Runde e Lindberg (1986) a Dabney, bem
como um comentrio com aditamentos de Dabney (1986b), tambm merecem ser
examinados. Salton (1986) produziu uma minuciosa reviso do estudo de Blair e Maron. Ele
discorda enfaticamente da concluso deles segundo a qual bases de dados indexadas por
seres humanos provavelmente tero melhor desempenho do que as buscas em textos.
Um dos melhores estudos em que se compara o texto completo com resumos e
indexao controlada foi empreendido por Tenopir (1984). Utilizando a Harvard Business
Review em linha, Tenopir obteve os seguintes resultados, divididos proporcionalmente entre 31.
buscas:

Nmero de documentos recuperados


(mdia)
Documentos relevantes recuperados (mdia)
Revocao (relativa fuso de todos os
mtodos)
Preciso
Custo por busca (em US$)
Custo por item relevante recuperado (em
US$)

Texto
completo
17,8

Resumos
2,4

Termos
controlados
3,1

3,5
73,9

1,0
19,3

1,2
28,0

18,0
20,57
7,86

35,6
4,95
3,89

34,0
5,32
3,54

As cifras de Tenopir relativas a custos no podem ser levadas muito a srio, pois ela
incluiu os custos da aquisio de cpias completas dos documentos para a realizao dos
julgamentos de relevncia, enquanto na vida real isso raramente aconteceria (isto , os
usurios fariam seus julgamentos com base nos ttulos e/ ou resumos mostrados em linha).
Talvez o resultado mais importante da pesquisa de Tenopir seja ter verificado que as buscas em
termos controlados recuperaram alguns itens que no foram recuperados com texto completo,
e vice-versa, demonstrando a necessidade de ambos os mtodos.
Posteriormente, Ro (1988) realizou estudo dando seguimento pesquisa sobre a base de
dados da Harvard Business Review, o qual produziu resultados semelhantes aos alcanados
por Tenopir.
Sievert et al. (1992) descobriu, o que no foi surpresa, que buscas numa base de dados
que continha o texto integral de artigos de revistas mdicas obtinham melhor revocao do
que buscas na base MEDLINE, embora as buscas em texto completo resultassem em muito
menor preciso. Em artigo anterior, contudo, chamaram a ateno para os problemas das
buscas em texto completo ao analisar os motivos de no-recuperao, na base de dados de
textos completos, de itens relevantes recuperados no MEDLINE (Sievert e McKinin, 1989)
Os melhoramentos que a utilizao de termos do texto, alm dos termos controlados,
introduz na revocao foram demonstrados por diversos pesquisadores, inclusive McCain et al.
(1987), que compararam os resultados de buscas em cinco bases de dados sobre] ] tpicos das
cincias mdicas comportamentais.

200

Vrios outros estudos relataram os resultados de buscas em texto completo ou parcial,


mas sem fazer comparaes com buscas com termos controlados. Alguns desses estudos
envolveram sistemas (semelhantes de algum modo ao SMART) que adotam mtodos
probabilsticos e/ou lingsticos de ordenao dos documentos, ou pargrafos deles, com base
em sua similaridade com enunciados de pedidos ou estratgias de busca. Por exemplo,
Bernstein e Williamson (1984) avaliam esses mtodos aplicados Hepatitis Knowledge Base
[Base de Conhecimentos sobre Hepatite], e Tong et al. (1985) avaliam tcnicas de inteligncia
artificial aplicadas recuperao em texto completo numa base de dados de notcias.
Fidel (1992) sugere quais os fatores que favorecero as buscas com vocabulrio
controlado e os que favorecero as buscas em textos. Num estudo de 281 buscas reais
efetuadas por 47 especialistas treinados, ela identificou vrios fatores que afetam a escolha de
termos controlados versus palavras do texto feita por quem faz a busca. Ela constatou que
existe mais confiana no texto em algumas reas temticas do que em outras (embora isso
possa estar menos relacionado s caractersticas do assunto ou sua linguagem do que
qualidade dos vocabulrios controlados usados em vrias bases de dados - especialmente sua
especificidade - e qualidade da indexao com vocabulrio controlado).
Com a finalidade de melhorar os resultados das buscas, alguns pesquisadores estudaram
os efeitos da segmentao de um texto em unidades menores, numa tentativa de melhorar a
preciso das buscas sem srios prejuzos para a revocao. Williams (1998) distingue entre
segmentao do discurso (baseado em frases, pargrafos, sees) e segmentao em janelas
(diviso do texto em pedaos de tamanho arbitrrio). Williams testou a recuperao
(coeficientes de revocao e preciso) para pargrafos, pginas, trs diferentes janelas (250,
500 e 1 000 palavras) e trs janelas superpostas de 250,500 e 1 000 palavras. A superposio
arbitrria foi planejada para evitar a separao de textos afins que, do contrrio, ocorreria com
a segmentao arbitrria. Williams constatou que a janela superposta de 500 palavras parecia
oferecer o melhor resultado global quando medido pela revocao e preciso. Ele conclui que
esse tipo de segmentao pode melhorar substancialmente a preciso com uma queda
moderada da revocao. Williams refere-se a essa abordagem como indexao de passagem
de nvel. No fica claro como essa abordagem representa melhoria em comparao com as
buscas por proximidade de palavras, que era empregada em buscas em textos 40 anos antes.
A reviso da literatura aqui includa concentrou-se em estudos que comparam o
desempenho de bases de dados de texto livre com o de bases de dados em que se adota a
indexao por meio de vocabulrios controlados e quando as buscas so feitas com o emprego
de combinaes booleanas de termos. Embora outros tipos de estudo tenham sido
mencionados, no se procurou fazer uma reviso de toda a literatura sobre buscas em texto e
que empregam mtodos no-booleanos.
Esta reviso deixa evidente que o imoderado entusiasmo inicial pelas buscas em
linguagem natural sofreu um abrandamento com o passar dos anos medida que se
identificavam com maior clareza os problemas que implicava. Alguns dos primeiros estudos
baseavam-se em bases de dados de cunho experimental que eram insignificantemente
diminutas. Considerando que se pode tolerar uma preciso muito baixa quando se recupera
apenas um punhado de itens, possvel conseguir um nvel aceitvel de revocao. Esta
situao se altera substancialmente quando se passa para bases de dados que contm
centenas de milhares de itens. Ento, por causa do nmero de itens recuperados (sobrecarga
de sada), j no so mais aceitveis baixos nveis de preciso, sendo analogamente difcil
obter alta revocao com nvel aceitvel de preciso. H, porm, indcios (Wanger et al., 1980)
de que isso tambm verdadeiro no caso de grandes sistemas baseados em vocabulrios
controlados, no sendo uma peculiaridade exclusiva das buscas em texto livre.
importante reconhecer a diferena entre as expresses texto livre e texto completo. As
concluses alcanadas como resultados de estudos sobre bases de dados de texto completo
no se transferem automaticamente para bases de dados que contenham algo menor do que o
texto completo (por exemplo, resumos). Nas bases de texto completo o problema de escala
agravado. Quer dizer, com uma base de texto completo muito grande ser ainda mais difcil
alcanar revocao aceitvel com preciso tolervel. O texto completo proporcionar maior
revocao, porm menor preciso do que uma base de dados que contenha algo menor do que
o texto completo. Isto foi claramente demonstrado por Tenop ir (1984).
lamentvel que a maioria dos estudos que se propem a comparar o desempenho na
recuperao entre texto livre e um conjunto de termos de indexao selecionados de um
vocabulrio controlado no cumpra isso. Ao contrrio, eles comparam o desempenho na
recuperao de registros de extenso varivel. Uma comparao vlida entre termos
controlados versus texto livre de per si teria de manter constante a extenso dos registros (por
exemplo, todos os tpicos mencionados num resumo teriam de ser traduzidos, at onde fosse
201

possvel, para termos controlados equivalentes), bem como a estratgia de busca (isto , uma
estratgia conceitual teria de ser criada e em seguida traduzi da exatamente para: a]
expresses do texto, e b] termos selecionados do vocabulrio controlado). Isso parece que
nunca foi feito desde os estudos em Cranfield. Tenopir controlou suas estratgias de busca,
mas, como estava utilizando uma base de dados j existente, no pde controlar a extenso do
registro. Conseqentemente, suas concluses dizem respeito muito mais extenso do
registro do que controvrsia sobre linguagem natural/vocabulrio controlado.
Tambm lamentvel o fato de a bibliografia ainda trazer afirmativas disparatadas,
baseadas em indcios casusticos, de defensores de ambos os campos, que se recusam a
aceitar o fato de que a linguagem natural e os vocabulrios controlados tm ambos suas
respectivas vantagens. Para um bom exemplo ver Fugmann (1987).
Um exame meticuloso da bibliografia includa nesta reviso no me outorga razo
alguma para modificar minhas opinies originais sobre os prs e contras dos dois mtodos,
conforme se acham resumidas na figura 104. O fato que cada um deles tem suas vantagens
e desvantagens. Os registros em texto livre costumam ser mais extensos e, por isso,
proporcionam mais pontos de acesso; freqentem ente incluiro alguns termos mais
especficos ou mais atualizados do que aqueles existentes em qualquer vocabulrio controlado
e, comumente, proporcionaro maior redundncia. O vocabulrio controlado, por outro lado,
impe coerncia na representao do contedo temtico dos documentos, dispe dos termos
conceituais genricos que amide no se encontram no texto, e, por meio de uma estrutura
hierrquica e remissivas, oferece ao usurio uma ajuda positiva na identificao de termos de
busca que sejam apropriados.
Sistemas hbridos
Praticamente todos os autores que escreveram a respeito de buscas em texto livre,
inclusive Henzler (1978), Perez (1982) e Muddamalle (1998), bem como a maioria dos autores
j citados, chegaram concluso, j esperada, de que o sistema de recuperao ideal incluir
uma parte de termos controlados, bem como uma parte de texto livre. So bvias as
vantagens desses sistemas hbridos, descritos e exemplificados h muitos anos por Holst
(1966), Uhlmann (1967 e Lancaster (1972)). A utilidade do mtodo hbrido apoiada pelo fato
de que, na maioria dos estudos realizados, as buscas em texto livre recuperaram alguns itens
relevantes que no foram identificados por buscas com vocabulrio controlado, e vice-versa.
O termo hbrido empregado para designar qualquer sistema que funcione com uma
combinao de termos controlados e linguagem natural, inclusive aqueles em que ambos os
conjuntos de termos so atribudos por indexadores humanos e aqueles em que uma base de
dados pode ser consultada mediante uma combinao de termos controlados atribudos por
seres humanos e palavras que ocorram nos ttulos, resumos ou texto completo.
Vejamos, por exemplo, um sistema baseado em trs componentes vocabulares
independentes:
1. um pequeno vocabulrio de cdigos de assuntos genricos, com um total talvez de 300
cdigos;
2. uma lista de cdigos que representem reas geogrficas; e
3. palavras-chave ou expresses que ocorram nos ttulos ou textos dos documentos.
A indexao com esses elementos vocabulares representaria uma economia importante
em relao indexao que empregue um grande vocabulrio meticulosamente controlado,
por dois motivos:
1. Os cdigos de assuntos seriam suficientemente genricos para serem atribudos sem
muita dificuldade por um indexador que no dispusesse de um alto nvel de formao
educacional ou especializao num assunto.
2. O nmero de cdigos (temticos e geogrficos) suficientemente reduzido para que o
indexador retenha a maioria deles na memria e dispense a consulta constante a uma
lista de um vocabulrio.
Embora qualquer um dos elementos do vocabulrio, isoladamente, seja relativamente
imperfeito, o emprego conjunto de uma palavra-chave (para obter especificidade) e um cdigo
temtico ou geogrfico (para obter o contexto) constitui dispositivo extremamente poderoso.
Por exemplo, a palavra-chave plantas pode significar algo inteiramente diferente ao ser
combinada com um cdigo temtico relativo agricultura ou ao ser combinada com um cdigo
semntico relativo arquitetura. Igualmente, a palavra-chave assalto, associada ao cdigo
geogrfico relativo ao Iraque, indica uma operao de guerra; por outro lado, quando
202

coordenada com o cdigo geogrfico relativo a uma metrpole onde a criminalidade Seja alta,
mais provvel que signifique roubo. Alm disso, o emprego conjunto de cdigos de assuntos
genricos, cdigos geogrficos e palavras-chave extremamente eficaz para esclarecer
relaes, mesmo quando essas relaes no se acham especificadas explicitamente. Muitas
das bases de dados atualmente acessveis em linha podem ser consultadas com o emprego de
combinaes de termos controlados e palavras-chave ou expresses que ocorrem nos ttulos
ou nos resumos, sendo que os ltimos permitem maior especificidade.
O vocabulrio ps-controlado
Diversos autores salientaram que as buscas em linguagem natural melhoram
consideravelmente mediante a elaborao e utilizao de vrias formas de instrumentos
auxiliares de busca. Piternick (1984) descreveu alguns desses instrumentos auxiliares. Deles, o
mais evidente seria um tesauro de buscas ou vocabulrio ps-controlado imaginado por
Lancaster (1972), Lancaster et al. (1972), e, mais detidamente, por Lancaster (1986).
O primeiro sistema desenvolvido para fazer buscas em grandes colees de textos
jurdicos (em Pittsburgh) utilizava uma espcie de tesauro para ajudar no processo de buscas.
Tratava-se, simplesmente, de uma compilao de palavras com significados semelhantes,
parecendo-se mais com o Rogets thesaurus do que com a estrutura de tesauro comumente
usado na recuperao da informao. Mesmo sem contar com uma estrutura que se
revestisse de alguma importncia, esse tesauro era um instrumento auxiliar extremamente til
durante as buscas; como palavras de significado similar so potencialmente substituveis
durante uma busca, esse instrumento poupa a quem faz as buscas o esforo de imaginar todas
as palavras capazes de expressar determinada idia. O investimento na elaborao de um
instrumento auxiliar como esse resulta em importante economia num sistema onde haja um
grande nmero de buscas. Esse tipo simplificado de tesauro uma espcie de vocabulrio
controlado, em que o controle feito na sada e no na entrada do sistema. um vocabulrio
ps-controlado.
Um exemplo esclarecer ainda mais sobre as propriedades do vocabulrio pscontrolado. Imaginemos uma base de dados sobre negcios pblicos indexada com um tesauro
que inclui o termo companhias de aviao, o que permite fazer uma busca genrica sobre este
assunto. No possvel, porm, restringir uma busca a determinada companhia de aviao,
pois os nomes especficos das empresas no fazem parte do tesauro. Assim, seria impossvel
restringir uma busca a um tema especfico como situao financeira da Varig; o melhor que se
pode fazer recuperar tudo sobre a situao financeira de companhias de aviao. A busca
genrica costuma ser fcil no caso de vocabulrio pr-controlado, mas certas buscas altamente
especficas so praticamente impossveis.
Em comparao, vejamos uma base de dados alternativa sobre negcios pblicos que
dispensa indexao, mas permite buscas nos ttulos e resumos. Nesta, a recuperao de itens
sobre a Varig ou a Swissair provavelmente seria fcil. Mais difcil seria uma busca genrica
sobre companhias de aviao. Para fazer uma busca exaustiva, seria preciso recorrer a algo
mais do que o termo companhias de aviao, utilizando certos sinnimos, como empresas de
transporte areo e os nomes de empresas especficas. A estratgia de busca ficaria assim
companhias de aviao ou empresas de transporte areo ou Varig ou Swissair ou Lufthansa
ou... - talvez uma lista muito extensa. O que a pessoa que faz a busca est fazendo criar
parte de um tesauro ps-controlado. Lamentavelmente, nos servios de informao atuais,
essas entradas de tesauro so raramente retidas e armazenadas depois de terem sido criadas
e utilizadas. Numa grande rede, h muita duplicao de esforos. Companhias de aviao pode
aparecer como faceta de muitas buscas realizadas durante um ano, e o trabalho de elaborar
estratgias de busca de diferentes graus de completeza ser repetido continuamente. Seria
muito mais sensato armazenar isso em forma recupervel para uso futuro.
Um verdadeiro vocabulrio ps-controlado consiste em tabelas com nomes e nmeros de
identificao que podem ser chamados e consultados pelos usurios de bases de dados em
linguagem natural que faam parte de alguma rede em linha. Assim, a pessoa que faz a busca
recuperaria a entrada companhias de aviao, a entrada questes financeiras, etc. As
tabelas so mostradas em linha e os termos selecionados partir delas. Alternativamente, a
tabela inteira pode ser incorporada numa estratgia de busca mediante seus nmeros de
identificao. Essas tabelas no precisam se limitar a palavras, podendo incorporar fragmentos
de palavras. Assim, uma tabela de cirurgia teria o seguinte aspecto: cirurg..., opera...,
secion..., ...seo, ...otomia, ...ectomia, ...plastia, etc. Tambm possvel inserir no vocabulrio
uma estrutura mnima por meio de remissivas de tabelas afins.

203

Um sistema baseado em vocabulrio ps-controlado oferece todas as vantagens da


linguagem natural e muitos dos atributos do vocabulrio prcontrolado. Um sistema como esse
poder ter um desempenho melhor do que outro baseado num vocabulrio pr-controlado.
Voltando a um exemplo anterior, seria possvel realizar buscas, com facilidade, sobre
companhias de aviao especficas, ou utilizar a tabela de companhias de aviao para
formar a classe definida por companhias de aviao no tesauro convencional. Uma das
vantagens da linguagem natural ser independente da base de dados. Assim, uma tabela de
companhias de aviao seria aplicvel igualmente a todas as bases de dados no vernculo.
possvel imaginar um tesauro em linguagem natural aplicvel a vrias centenas de bases de
dados.
Um bom exemplo de vocabulrio ps-controlado foi a base de dados TERM implementada
pelo Bibliographic Retrieval Services (BRS) e descrita por Knapp (1983). TERM era uma base de
dados formada por tabelas que representavam conceitos, incluindo tanto termos controlados
quanto termos em texto livre necessrios realizao de buscas numa variedade de bases de
dados das cincias sociais e comportamentais. Na figura 105 est um exemplo de uma dessas
tabelas.

Figura 105 Exemplo de entrada da base de dados TERM1

O ttulo (TI) da tabela POVERTY AREAS [reas de pobreza]. Este termo utilizado para
recuperar itens sobre este tpico no ERIC (ER), nas bases de dados indexadas com o Medical
subject headings (ME), e na base de dados PSYCINFO (ps), na qual um termo afim GHETTOS
[guetos]. No Sociological Abstracts (so), possveis termos so SLUM [favela], GHETTO e
APPALACHIA: enquanto um termo ERIC (EN) mais especfico SLUMS. Finalmente, apresenta-se
uma lista detalhada de termos afins em texto livre (FT), teis para uma busca sobre este
assunto eluqualquer base de dados em lngua inglesa. Era possvel desenvolver uma estratgia
na base TERM, a qual seria salva e executada nas bases de dados bibliogrficos
posteriormente. Esta base de dados, infelizmente, no existe mais. No entanto, seu
desenvolvedor publicou uma verso impressa exaustiva das expresses em texto livre (no os
termos controlados). Ela pode ser vista como um tesauro destinado a buscas em textos
(Knapp, 1993).
Um vocabulrio ps-controlado em determinado campo de especializao elaborado
pelo esforo intelectual de seres humanos, exatamente da mesma forma de um tesauro
convencional. Essa tarefa pode ser extremamente simplificada mediante o processamento por
computador das palavras que ocorram em bases de dados relevantes, de modo a dar origem a
vrios nveis de associao estatstica. Talvez, no entanto, fosse mais sensato recolher e
organizar os fragmentos de busca efetivamente introduzidos pelos usurios de alguns
sistemas em linha (um candidato a isso seria qualquer lista de termos alimentados numa
relao do tipo ou), produzindo assim uma espcie do tesauro em crescimento imaginado por
Reisner (1966), porm sendo-lhe imposto posteriormente algum controle editorial. Mais
recentemente, Besser (1997) analisou a importncia de termos atribudos pelos usurios em
futuras aplicaes de recuperao.
Outra abordagem possvel consiste em construir um tesauro automaticamente com base
em relaes semnticas encontradas em dicionrios que existam em formato eletrnico (Fox et
al., 1988; Ahlswede et al., 1988). Anderson e Rowley (1992) descrevem um mtodo de
construo de tesauros do usurio final a partir de textos completos.
Abordagens atuais
A dcada de 1960 assistiu ao comeo de uma quantidade incrvel de projetos de pesquisa
sobre a utilizao de computadores no tratamento de textos. Havia vrias razes para essa
1

Regio montanhosa pobre dos EUA, que tem como centro o estado da Virgnia Ocidental. (N.T.)

204

exploso de atividades: as instituies de pesquisa (e os pesquisadores) tinham em mos


recursos instalados de computao que eram caros e para eles buscavam utilidade, havia
disponibilidade de financiamento generoso das pesquisas, procedente de muitas fontes
governamentais, e o processamento de textos era amplamente considerado como uma tarefa
bastante simples para computadores vistos como poderosos (normalmente, o que era tido
como maior obstculo era a obteno de uma quantidade significativa de texto em formato
eletrnico).
Embora a traduo mecnica fosse o principal objetivo de grande parte dessas pesquisas,
tambm estavam sendo investigadas vrias abordagens para a recuperao da informao. Os
projetos mais ambiciosos no campo da recuperao da informao procuravam desenvolver
sistemas de perguntas e respostas ou recuperao de fatos - isto , sistemas capazes de
responder diretamente uma consulta do usurio ao invs de recuperar um texto que poderia ou
no conter a resposta, ou, mais comum ente, uma referncia desse texto.
Naturalmente, os problemas resultaram muito maiores do que fora antecipado,
particularmente na rea da traduo mecnica, e logo o interesse pelo processamento de
textos comeou a minguar na comunidade de pesquisa, bem como nas agncias de
financiamento, embora alguns projetos melhores hajam resistido e, com os anos, revelado
notvel avano e oferecido resultados promissores.
A amplitude das pesquisas sobre processamento de textos hoje em dia lembra as
atividades da dcada de 1960 (ver Jacobs (1992a) e Pereira e Grosz (1994) onde se encontram
boas snteses dos trabalhos desenvolvidos na dcada de 1990). Este aumento de interesse e
atividade tem origem no fato de que agora se encontram enormes quantidades de texto
disponveis em formato eletrnico, de que a capacidade de processamento muito maior e
custa muito menos, e de que hoje existem necessidades sentidas de aplicaes viveis de
processamento de textos nos setores pblico e privado (por exemplo, disseminao eficiente
de informaes na Rede e as exigncias de multilingismo compulsrio da Comunidade
Europia). As pesquisas atuais procuram desenvolver sistemas inteligentes baseados em
textos.
Paradoxalmente, a mera quantidade de textos disponveis para processamento hoje em
dia coloca desafios notveis, mas tambm oferece solues potenciais que no estavam
disponveis h 30 anos para os pesquisadores. Por exemplo, lxicos de radicais ou de
significados de palavras podem conter muitos milhares de entradas ao invs de umas poucas
centenas (Jacobs e Rau, 1994) e possvel utilizar associaes (co-ocorrncias) de palavras em
significativos corpos de textos com a finalidade de reconhecer expresses importantes ou
desambiguar palavras, preliminarmente ao processamento lingstico mais complexo de
anlise sinttica (Wilks et al., 1992; Haas, 1996). A freqncia de palavras pode tambm ser
usada para atribuir texto a vrias categorias (Jacobs, 1992b).
Ademais, pode-se empregar a filtragem estatstica, baseada na co-ocorrncia de
determinadas palavras ou radicais, para selecionar aquelas frases que paream mais provveis
de ser relevantes para determinada exigncia e, assim, a melhor candidata para uma anlise
mais refinada (Wilks et al., 1992).
Charniak (1995) chamou ateno para a possibilidade de obter 90% de exatido ao
atribuir uma etiqueta morfolgica [part-of-speech tag] a uma palavra simplesmente com
base no caso mais provvel (que ocorra com maior freqncia) e essa exatido aumentar em
at 95-96% mediante simples verificaes de contexto (isto , procura em palavras
adjacentes). Exemplo do mtodo da desambiguao baseada no CO/PUS encontra-se em
Leacock et al. (1993). Addison (1991) estuda o uso desambiguador do contexto num sistema
de recuperao de textos.
Stanfill e Waltz (1992) comparam abordagens atuais mais modernas (que, segundo
afirmam, incorporam tcnicas de inteligncia artificial (IA)) com as de anos anteriores, como se
segue:
A IA da forma como foi formulada no passado est agnica, se que ainda no morreu; uma
nova IA est tomando seu lugar. A antiga IA baseava-se em regras e lgica. A nova IA baseiase na estatstica, porm, no a estatstica como era formulada no passado. A prtica da
prpria estatstica passa por substancial transformao (p. 215)

E Jacobs (1992a) salienta que as abordagens de hoje em dia extraem mais fora da
enorme quantidade de textos armazenados do que de regras artesanais.
As abordagens atuais do processamento de texto podem ser consideradas inteligentes
na medida em que os computadores possam vir a compreender o texto. 1 Compreender
1

Embora a palavra inteligente possa ser tambm atribuda ao processo, se ele realizar uma tarefa para cuja execuo
os seres humanos precisariam de inteligncia.

205

significa aqui ser capaz de interpretar o significado de uma frase, sem ambigidade.
Normalmente, isso requer alguma forma de anlise sinttica. A anlise sinttica procura
identificar o papel de uma palavra numa frase (por exemplo, substantivo ou verbo), reconhecer
os diferentes elementos estruturais (orao substantiva, orao verbal, orao prepositiva, e
assim por diante), e assim determinar as diversas funes dentro de uma frase (por exemplo,
sujeito, predicativo do sujeito, objeto, predicativo do objeto).
O processamento inteligente de textos vem sendo utilizado, experimental ou
operacionalmente, em vrias aplicaes, inclusive categorizao de textos, extrao de textos,
sumarizao e ampliao [augmentation], gerao de textos, e recuperao otimizada da
informao [enhanced information retrieval], bem como traduo mecnica. 1
O propsito de aplicar mtodos mais complexos de processamento da linguagem natural
[PLN] s buscas em texto completo foi explicado por Strzalkowski et al. (1999) da seguinte
forma:
a principal motivao deste projeto foi demonstrar que um PLN robusto, ainda que
relativamente superficial, pode ajudar a extrair uma melhor representao de documentos
textuais para fins de indexao e busca do que quaisquer mtodos baseados em palavras
simples ou seqncias de palavras comumente adotados em recuperao estatstica em
texto completo. Isso se baseou na premissa de que o processamento lingstico pode
descobrir certos aspectos semnticos do contedo dos documentos, algo que a mera
contagem de palavras no pode fazer, levando assim a uma representao mais precisa (p.
113-114).

Importante abordagem para lidar com a recuperao de textos, utilizada por vrios
grupos de pesquisas que atuam no mbito do TREC, a extrao de sintagmas [phrase
extraction] - isto , reduzir o texto completo a um conjunto de sintagmas que tenham
significado. Um dos motivos para isso est simplesmente no fato de que um sintagma pode ser
significativo mesmo que as palavras que o compem no o sejam. Assim joint venture pode
ser significativo porque ocorre de modo relativamente infreqente numa base de dados,
embora as palavras componentes ocorram com demasiada freqncia para que sejam
consideradas significativas (Strzalkowski et al., 1999). Foram adotados muitos mtodos de
extrao de sintagmas. Um deles, o mtodo ncleo + modificador [head + modifier],
emprega anlise sinttica e subseqente normalizao para, por exemplo, reconhecer que
weapon proliferation e proliferation of weapons [proliferao de armas] so equivalentes
(Strzalkowski et al., 1999).
Grande parte dos trabalhos em curso nesta rea procura reduzir um texto completo a
uma forma mais breve, mediante algum tipo de extrao ou sumarizao, visando
recuperao da informao. Essas abordagens so tratadas no captulo seguinte, que tambm
procura avaliar o que elas chegaram a concretizar. Este captulo limitou-se s buscas em textos
de per si, ao invs dos mtodos automticos de indexao ou sumarizao, embora essa
distino nem sempre seja fcil de manter, e os captulos 14 e 15 esto intimamente
relacionados.
As buscas em textos baseiam-se, em geral, em textos em formato eletrnico criados a
partir do teclado de um computador ou convertidos do formato impresso por meio de leitoras
de caracteres pticos (embora possam tambm derivar de entrada falada, como vimos no
captulo 13). Algumas pesquisas foram feitas sobre buscas e recuperao de documentos
manuscritos (ver, por exemplo, Perrone et al., 2002), embora no haja clareza sobre quais
seriam suas aplicaes potenciais.
O que foi concretizado?
Embora as revistas profissionais populares continuem a fazer afirmativas bastante
entusisticas, os autores srios so muito mais realistas acerca do que j foi conquistado em
matria de processamento automtico de textos. Knight (1999), por exemplo, nos diz que:
As aplicaes de linguagem natural, como a traduo mecnica, reconhecimento da fala,
recuperao da informao e sumarizao, alcanam hoje uma faixa maior de usurios.
Quemj usou esses produtos sabe quo imperfeitos eles so. Apesar disso, as pessoas os
utilizam porque esto ansiosas em busca de solues para organizar e pesquisar a enorme
quantidade de informaes colocadas sua disposio em linha, em formato textual (p. 58).
1

Em algumas aplicaes de processamento de textos necessrio que o computador possa distinguir entre
componentes lgicos do documento (por exemplo, ttulo, resumo, texto principal, notas de rodap, tabelas, figuras) e
identificar relaes entre eles (como a ordem de leitura). Isso foi denominado, de forma um tanto empolada,
compreenso do documento (ver, por exemplo. Semeraro et al., 1994, e Proceedings of the Third Inlernalional
Conference, 1995).

206

Voorhees (1999), que participou dos trabalhos das TRECs durante vrios anos, afirmou
que as abordagens mais complexas da recuperao da informao a partir de textos
produziram resultados desapontadores:
Atualmente, os mtodos de recuperao de uso geral mais bem-sucedidos so os mtodos
estatsticos que tratam o texto como se no passasse de um saco de palavras [...] as
tentativas para melhorar o desempenho da recuperao por meio de processamento
lingstico mais complexo foram em grande parte mal-sucedidos. Na realidade, a menos que
seja feito com cuidado, esse processamento pode rebaixar a eficcia da recuperao (p. 32).

No entanto, ela de fato sugere que os nveis mais elaborados de processamento de textos
podem ser teis em atividades de perguntas e respostas e sumarizao de documentos.
Strzalkowski et al. (1999) salientam que:
at o emprego das mais rpidas ferramentas de anlise sinttica est forando gravemente
os limites da praticabilidade de um sistema de recuperao da informao por causa do
aumento da demanda por potncia e armazenamento (p. 117-118).

Segundo eles, no passa de modesta a perspectiva de xito de mtodos mais complexos


de processamento de texto:
A principal observao a fazer que at agora no se comprovou que o processamento de
linguagem natural fosse to eficaz quanto se esperava [...] para conseguir melhor indexao
e melhores representaes com termos das consultas. O emprego de termos lingsticos,
como expresses, pares de ncleo-modificador, nomes ou mesmo conceitos simples, ajuda
de fato a melhorar a preciso da recuperao, mas os ganhos permanecem muito modestos
(p. 143).

Posteriormente, Carballo e Strzalkowski (2000) admitiam que:


As tcnicas de processamento de linguagem natural (PLN) podem conter um tremendo
potencial para superar as impropriedades dos mtodos exclusivamente quantitativos de
recuperao de informao textual; no entanto, a prova emprica que sustente essas
previses foi at agora inadequada, e tm demorado a surgir avaliaes em escala que
sejam apropriadas (p. 155).

Blair (2002) sustenta que as alegaes de que houve grande melhoria nos resultados das
TRECs ao longo dos anos talvez sejam muito exageradas. Em particular, ele critica os mtodos
TREC para o clculo da revocao (uma abordagem que adota uma revocao relativa):
O segundo efeito de estimativas de revocao que no so confiveis diz respeito ao avano
do campo da Recuperao da Informao como disciplina cientfica. Isto , para que avancem
as pesquisas sobre recuperao de documentos, temos de conhecer, com total preciso,
onde nos encontramos agora. Qualquer incerteza importante na comparao de tcnicas de
recuperao solapa nossa percepo do que realmente funciona e do que no funciona, o
que, por sua vez, nos deixa sem qualquer motivo lgico para escolher uma tcnica e no
outra. Atualmente, a maior parte das tcnicas de recuperao automatizada usadas pelos
pesquisadores associados s TRECs funciona exatamente no mesmo nvel modesto de
revocao e preciso. Um dos resultados esperados de estimativas mais exatas de revocao
seria o descobrimento de diferenas maiores no desempenho dos sistemas. Ento,
deveramos realmente comear a construir sobre os sucessos de algumas tcnicas e evitar a
perda de mais tempo com outras que so infrutferas (p. 449).

Saracevic et al. (2003) e Sparck Jones (2003) refutaram algumas crticas de Blair,
afirmando (por exemplo) O que a avaliao feita sob condies cuidadosamente controladas,
baseada em colees de teste, essencial para fazer avanar a compreenso dos fenmenos
ligados recuperao; que os resultados desses experimentos podem ser transpostos para
servios de recuperao reais; que no preciso uma medida de revocao absoluta para
comparaes controladas do desempenho de diferentes processos de busca; e que, no
ambiente controlado das pesquisas TREC, possvel documentar melhorias impo11antes no
desempenho da recuperao medida que se aperfeioam os processos de busca.
Alhures, Sparck Jones afirmou coerentemente que os mtodos mais complexos de
processamento lingstico so difceis de justificar em aplicaes voltadas para a recuperao.
Depois de passar em revista o estado atual do processamento lingstico de textos com a
finalidade de recuperar informao (ela chama isso de indexao lingisticamente motivada),
conclui (Sparck Jones, 1999) que no est provada sua superioridade em comparao com a
abordagem muito mais simples de combinar palavras do texto numa estratgia de busca:
207

Parece que o efeito de coordenao, otimizado pela redundncia da indexao com termos
simples, pode bastar para a desambiguao de sentido, pelo menos no caso de bases de
dados monolnges, embora continue em aberto a questo da necessidade de
desambiguao explcita em buscas em vrias lnguas em bases de dados multilnges.
Mesmo quando a discriminao de sentido acrescenta algo ao desempenho [...] isso pode ser
obtido mais com mtodos estatsticos do que lingsticos (p. 21).

Ao fazer uma reviso das atividades dos grupos TREC at a TREC-6 (1997), ela (Sparck
Jones, 2000) conclui que mtodos baseados na estatstica tm desempenho to bom quanto
quaisquer outros, e que a natureza e o tratamento dado ao pedido do usurio so, de longe, o
fator dominante no desempenho. Os mtodos estatsticos incluem ponderao de termos,
expresses simples bem como palavras simples, expanso da consulta e retroalimentao de
relevncia.
Smeaton (1999) sugere que o processamento lingstico, embora necessrio para
aplicaes que sejam exatas e precisas, como a traduo mecnica, constitui ferramenta
demasiadamente sutil para a recuperao da informao que ele considera no uma aplicao
exata, e a aproximao inerente a seu funcionamento devido aos inmeros graus de
incerteza presente nos processos envolvidos.
Alm disso, nveis complexos de processamento da linguagem ainda so caros. Em geral,
o processamento automtico de texto requer a preparao bastante extensa de um programa
de computador. Isto , o programa processa o texto para fazer o que lhe solicitado, e a sada
vista e corrigida por pessoas, o que leva a alteraes do programa. Esse processo iterativo de
ensaio e erro continua at o programa obter resultados satisfatrios. Knight (1999) chamou
ateno para o volume de processamento exigido para preparar um programa que execute
uma tarefa que seres humanos inteligentes executam facilmente. Por exemplo, retirados de um
texto os artigos definidos e indefinidos, seria possvel escrever um programa capaz de
substitu-los. No entanto, Knight afirma que para conseguir um desempenho apenas
razoavelmente bom seria preciso o processamento de 20 milhes de palavras de texto em
ingls. E acrescenta:
A anlise sinttica de um texto sem limitaes tarefa excessivamente difcil, devido s
ambigidades em partes da fala (substantivo, verbo, etc.) e da estrutura [...] Mas, apesar de
haver algoritmos de aprendizagem promissores, ningum conseguiu ainda extrair de bases
de textos sem tratamento elementos [parses] sintticos que tivessem alguma exatido (p.
59-61).

Embora o processamento mais complexo da linguagem possa no ser necessrio na


recuperao de textos, pode s-lo em aplicaes mais exigentes, como a de perguntas e
respostas.
Perguntas e respostas
Em setores muito limitados seria possvel desenvolver sistemas que realmente
respondam perguntas feitas pelo usurio ao invs de simplesmente apontar fontes potenciais
onde seriam encontradas as respostas. Sistemas desse tipo seriam particularmente adequados
para bases de conhecimento que fossem estticas ou que mudassem muito lentamente. Por
exemplo, seria possvel desenvolver uma base de dados de peras, a fim de responder
perguntas sobre enredos, cenrios, personagens, compositores, estrias, etc. Embora os
estudos sobre desenvolvimento de sistemas de perguntas e respostas em campos muito
restritos remontem a muito tempo (por exemplo, Green et al., 1963), as tecnologias modernas
tornam-nos muito mais viveis. Por exemplo, Stock (1993) descreve um sistema de hipermdia,
o ALFRESCO, com imagens de afrescos italianos do sculo XIV, capaz de responder ampla
variedade de perguntas, inclusive a identificao de personagens ou objetos presentes em
certas pinturas. Outro exemplo encontrado no trabalho de Kupiec (1999). A abordagem ali
descrita pode montar texto de resposta a partir de vrios documentos diferentes.
Clarke et al. (2001) descrevem processos de resposta automtica de perguntas do tipo
fatual por meio da Rede. O mtodo envolve a localizao e extrao de textos que
provavelmente contm a resposta, bem como a seleo da resposta que ocorra com mais
freqncia em todos os trechos extrados.
Uma vertente de perguntas e respostas foi introduzida no grupo TREC em 1999 (TREC-8).
Este trabalho foi analisado por Voorhees (2001). No entanto, no exigido dos participantes do
grupo TREC que extraiam respostas do texto, mas que recuperem palies do texto que
provavelmente fornecero a resposta.
208

Descoberta de conhecimento
Importante campo de pesquisa surgido nos ltimos anos refere-se a mtodos de
extrao, das bases de dados, de conhecimentos imprevistos. A terminologia da rea
estranhamente confusa e incoerente. Uma denominao perfeitamente razovel e clara
descobelia de conhecimento. J minerao amide usada como sinnimo de descoberta de
conhecimento ou, pelo menos, do elemento central dessa descoberta. 1 Assim, m inerao de
dados refere-se ao uso (com o objetivo de descobrir conhecimentos novos) de dados
numricos/estatsticos, minerao de textos, ao uso de textos, minerao da fala, ao uso da
fala gravada, e minerao da Rede, ao uso de recursos da Rede. Qualquer que seja a
denominao, o processo de descobrir conhecimento envolve basicamente a identificao de
padres significativos nas fontes que estejam sendo utilizadas.
A minerao de dados em geral revista por Benoit (2000) e a minerao de textos por
Trybula (1999). O emprego de bases de dados bibliogrficos na descobelia de conhecimento
tratado por Qin e Norton (1999), e Munakata (1999) organizou uma srie de artigos sobre
descoberta de conhecimento.
Fayyad e Uthurusamy (2002) organizaram um nmero de peridico dedicado quase
totalmente aos mtodos de minerao de dados. A minerao de dados feita para encontrar
padres interessantes nos dados. Exemplificam com a localizao de produtos comprados
juntos com mais freqncia em supermercados. Embora a minerao possa ser feita para
testar uma hiptese, mais til desenvolver algoritmos de minerao que essencialmente
sugerem as hipteses.
Nasukawa e Nagano (2001) definem a minerao de texto como o encontro, no texto, de
padres e regras teis que indicam tendncias e caractersticas significativas sobre assuntos
especficos. Descrevem um prottipo de sistema para minerao de bases de dados textuais
em centros de ajuda comerciais [help centers] (centros de suporte a clientes), que, segundo
afirmam, pode:
detectar automaticamente defeitos nos produtos; identificar casos que levaram ao rpido
aumento do nmero de chamadas e as razes por trs disso; e analisar a produtividade do
centro de ajuda e mudanas no comportamento dos clientes que envolvam determinado
produto, sem ler nenhum dos textos (p. 697).

A minerao de texto tambm tratada por Knight (1999).


Embora Etzioni (1996) afirmasse que a Rede no til em aplicaes de minerao (em
sua opinio ela demasiadamente dinmica e catica), outros discordam. Pelo menos dois
livros sobre minerao na Rede (Chang et al., 2001; Chakrabarti, 2003) foram publicados. O
ltimo mais terico do que prtico e parece que Chakrabarti est interessado apenas em
utilizar a Rede para anlise de redes sociais. No est claro que isso seja minerao no
sentido com que este vocbulo comumente empregado.
Em virtude de o descobrimento de conhecimento implicar a extrao de informaes, h
uma relao prxima entre ele e os processos de extrao de textos que sero examinados no
captulo seguinte.
Concluses
Sistemas que dispensam o controle convencional de vocabulrio e a indexao feita por
seres humanos podem funcionar, e isso foi comprovado ao longo de um perodo de mais de 40
anos. Todavia, apresentam, de fato, problemas quando da realizao de buscas conceituais
genricas. Embora a linguagem natural apresente vantagens explcitas, claro que
aperfeioamentos apropriados (uso limitado da indexao e/ou desenvolvimento de recursos
auxiliares de busca) provavelmente melhoraro a eficcia dos sistemas de linguagem natural.
Ademais, uma vez que a internet fez crescer, em muitas ordens de magnitude, a quantidade de
textos acessveis para pesquisa, tornou-se cada vez mais necessrio implementar sistemas que
classificaro os itens recuperados segundo uma ordem de relevncia provvel ao invs de
simplesmente dividir os recuperados pelos no-recuperados (Maron, 1988). No est claro
que nveis complexos de processamento de texto (por exemplo, que envolvam anlise
sinttica) sejam necessrios para aplicaes de recuperao da informao, ainda que o sejam
em servios verdadeiramente de perguntas e respostas e algumas das aplicaes examinadas
no captulo seguinte.
1

Freitas (2002) v a minerao como um componente da descoberta de conhecimento. Esta ltima denominao inclui
o pr-processamento de dados para facilitar a minerao e o ps-processamento do conhecimento descoberto, a fim
de valid-lo e refin-to.

209

210

Captulo 15 Indexao automtica, redao automtica de resumos e


processos afins
U ma imagem muito simplificada do problema da recuperao da informao foi
apresentada na figura 1. Agora, na figura 106, tem-se uma verso mais complexa. Em
essncia, o problema consiste em cotejar necessidades de informao com mensagens. Isso s
pode ser feito de modo muito indireto. A maioria das mensagens (aquilo que os autores
desejam transmitir) aparece como textos (alguns se apresentam em formato de imagem, de
som ou outro formato no-textual), enquanto as necessidades de informao se apresentam
como pedidos formulados a um servio de informao. Este cria representaes dos textos,
armazena-os numa base de dados e oferece um dispositivo que possibilita que sejam feitas
buscas nessas representaes. A base de dados pode ser armazenada em papel, microimagem
ou formato eletrnico, e o dispositivo que possibilita que se faam as buscas pode ser to
simples quanto o arranjo de entradas num catlogo em fichas ou ndice impresso, ou to
complexo quanto um computador e um conjunto de respectivos programas. O servio de
informao tambm cria representaes dos pedidos (enunciados de buscas de algum tipo) e
os processa em cotejo com a base de dados, para recuperar as representaes de textos que
coincidam ou mais se aproximem das representaes dos pedidos.
As representaes de textos consistiro no prprio texto completo, partes dele ou outra
forma de representao construda por meios humanos ou automticos. As representaes de
pedidos sero termos, termos apresentados em relaes lgicas, enunciados textuais ou itens
(por exemplo, um sistema permite ao usurio inserir informaes de um item cuja relevncia
seja conhecida, e, em seguida, procurar outros que de algum modo lhe sejam assemelhados).
Temos nossa disposio vrios recursos de ajuda intelectual Clue assistem na
construo das representaes (de textos ou pedidos). O mais bvio deles o vocabulrio
controlado convencional, mas tambm se usam outros instrumentos auxiliares, como o
vocabulrio ps-controlado mencionado no captulo 14.
evidente que so possveis muitas variaes sobre o tema fundamental da figura 106.
Por exemplo, em muitas situaes o servio de informao que cria as representaes dos
textos (isto , a formao da base de dados) ser diferente dos servios que realizaro as
buscas em tal base. Ademais, quem procura informaes poder no delegar a realizao da
busca a um especialista em informao, mas, sim, assumi-la pessoalmente. Com o surgimento
da internet, a maior parte das atividades de recuperao da informao envolve buscas em
textos de stios da Rede, e as pessoas que precisam de informaes fazem elas prprias as
buscas ao invs de deleg-las a outrem.
Este diagrama evidencia os problemas da recuperao da informao. Os textos podem
no ser representaes perfeitas das mensagens (embora este seja, definitivamente, um
problema de comunicao, normalmente no visto como um problema de recuperao da
informao) e, conforme vimos desde os captulos iniciais, as representaes dos textos
tambm podem ser imperfeitas. E, por sinal, os pedidos raramente so representaes
perfeitas das necessidades de informao e os enunciados de busca podem no ser
representaes perfeitas dos pedidos. Alm disso, o referencial (esquemas) de um solicitante
pode no coincidir com o referencial de um especialista em informao ou, na realidade, o
referencial dos autores. Considera-se, ento, que o problema da recuperao da informao
consiste essencialmente em procurar cotejar aproximaes de necessidades de informao
com aproximaes de mensagens. No de admirar que os resultados nem sempre sejam
completamente satisfatrios.
Como salientou Bates (1986), o problema da recuperao da informao mais complexo
do que aparenta ser; ela o trata como indeterminado e probabilstico. Parece estar em voga
concentrar-se mais no lado da sada da atividade (necessidade de informao-pedidorepresentao) do que no lado da entrada (mensagem-texto-representao), e a hiptese a
implcita seria que o lado da sada mais complexo. De fato, Belkin e Belkin et al. (1980,
1982) referem-se ao cotejo do estado anmalo de conhecimento de um consulente com o
estado mais coerente de conhecimento dos autores. Como foi apontado ainda no captulo 2, a
funo do indexador - prever os tipos de consultas para as quais determinado documento
provavelmente ser uma resposta til - no necessariamente mais simples do que a de quem
atua como intermedirio: compreender quais os tipos de documentos que satisfazem a um
solicitante em dado momento.
Seja como for, a figura 106 apresentada neste ponto precipuamente para exemplificar o
fato de que podem ser usados processos algortmicos em diversas atividades de recuperao
da informao, em substituio ao processamento intelectual por seres humanos. Os
computadores podem ser aplicados indexao automtica e elaborao automtica de
211

resumos, bem como a outras operaes que envolvam a formao de classes de documentos e
de termos, ao desenvolvimento de estratgias de buscas e estabelecimento de redes de
associaes entre termos. Como o diagrama implica, o computador podem, em certa medida,
substituir os seres humanos em praticamente todas as atividades exemplificadas. Atualmente,
eles no geram, de modo independente, mensagens ou necessidades de informao, a menos
que sejam especificamente programados para esse fim por seres humanos, mas talvez chegue
o dia em que tambm faro isso. Uma vez que a indexao e a redao de resumos constituem
a preocupao principal deste livro, neste captulo dar-se- mais ateno aplicao de
computadores a essas tarefas.

Figura 106 Os problemas fundamentais da recuperao da informao

Indexao por extrao automtica


No comeo deste livro fez-se uma distino entre indexao por atribuio e indexao
por extrao. A maior parte da indexao feita por seres humanos por atribuio, pois
envolve a representao do contedo temtico por meio de termos selecionados de algum tipo
de vocabulrio controlado. Na indexao por extrao, palavras ou expresses que aparecem
no texto so extradas e utilizadas para representar o contedo do texto como um todo. Os
indexadores humanos procuraro selecionar expresses do texto que paream ser bons
indicadores daquilo de que trata um documento. Provavelmente sero influenciados pela
freqncia com que um termo aparece no documento e talvez onde aparece - no ttulo, resumo
do autor, legendas das ilustraes, etc. - e por seu contexto.
Admitindo que o texto exista em formato eletrnico, bvio que o computador pode ser
programado para realizar a indexao por extrao, adotando esses mesmos critrios de
freqncia, posio e contexto. A indexao automtica baseada na freqncia de palavras
tem origem na dcada de 1950 e no trabalho de Luhn (1957) e Baxendale (1958). possvel
escrever programas simples para contar as palavras num texto, desde que este tenha sido
cotejado com uma lista de palavras proibidas, a fim de eliminar palavras no-significativas
(artigos, preposies, conjunes e assemelhados), e, em seguida, ordenar essas palavras
segundo a freqncia de sua ocorrncia. As palavras do topo da lista sero evidentemente,
escolhidas para serem os termos de indexao do documento. A definio do ponto de corte
(ou seja, o ponto em que a lista ser interrompida) obedecer a alguns de vrios critrios
possveis: um nmero absoluto de palavras, um nmero relacionado com a extenso do texto
ou palavras que ocorram com freqncia acima de determinado limiar. Um programa pouco
mais complexo extrair expresses que ocorram com freqncia importante no texto. Assim,
um documento poder ser representado com uma combinao de palavras e expresses, e o
critrio de freqncia para a seleo das expresses ser menos rigoroso do que o critrio pelo
qual se selecionam as palavras importantes.
Ao invs de selecionar palavras e expresses, os programas podem ser escritos para
selecionar radicais. Assim, o radical calor seria escolhido e armazenado em vez das variantes
calor, caloria e calorimetria. Empregam-se programas para derivao automtica, a fim de
eliminar apenas terminaes selecionadas de palavras (por exemplo, ado, ada, ando).
Evidentemente, possvel atribuir pesos a todas as palavras, expresses ou radicais, que
212

reflitam a freqncia com que ocorrem no documento. Por exemplo, o radical calor pode
receber um peso numrico relativo ao fato de aparecer no texto, digamos, 12 vezes.
Os critrios de freqncia podem ser complementados com outros critrios. Por exemplo,
Baxendale (1958) props que somente a primeira e a ltima frase de cada pargrafo fossem
processadas, pois um de seus estudos demonstrara que a primeira era o tpico frasal em 85%
das vezes e a ltima o era em outros 7% dos casos. Considerava-se tpico frasal aquele que
provia o mximo de informaes relativas ao contedo. Nos primrdios da indexao
automtica foram propostos ou testados vrios outros mtodos para identificar os segmentos
do texto ricos em informao; programas de computador procurariam certos elementos, como
locues prepositivas, textos que viessem aps palavras sugestivas, como concluses e
resumo do autor, e partes do texto que inclussem as ocorrncias primeiras de substantivos.
Uma evidente desvantagem do emprego da freqncia de palavras simples ou
expresses para a seleo de termos est em que, mesmo depois de usar uma lista de
palavras proibidas, algumas das palavras que ocorrem freqentemente num documento podem
no ser bons discriminantes - que sirvam para diferenar este documento de outros na base de
dados - porque tambm ocorrem com freqncia na base de dados como um todo. Tomando-se
um exemplo bvio, as palavras biblioteca e informao no seriam muito bons discriminantes
de itens numa coleo de biblioteconomia e cincia da informao. Assim, num documento a
palavra biblioteca ocorre 12 vezes, enquanto a palavra amianto s ocorre quatro vezes. No
entanto, o ltimo termo muito melhor discriminante, uma vez que se trata de um termo que
raramente ocorre na literatura de biblioteconomia. Seria um termo altamente importante numa
coleo deste assunto, mesmo que s ocorresse uma nica vez num documento.
A freqncia com que uma palavra ocorre num documento no a nica freqncia para
a qual se deve atentar no processamento de textos por computador. A freqncia com que
uma palavra ocorre na base de dados como um todo ainda mais importante. Quer dizer, as
palavras que so os melhores discriminantes so aquelas que so imprevisveis e raras numa
coleo por exemplo, amianto em biblioteconomia, biblioteca na base de dados de uma
fbrica de cimento-amianto. Na realidade, no preciso calcular a freqncia com que uma
palavra ocorre em toda uma base de dados formada por textos, mas apenas a freqncia com
que ela ocorre no arquivo invertido utilizado para executar a busca nos textos (isto , o nmero
de ocorrncias de uma palavra em relao ao nmero de ocorrncias de todas as palavras no
arquivo).
Emprega-se, ento, ao invs da freqncia absoluta com que uma palavra ocorre num
documento, um mtodo de freqncia relativa para a seleo de termos (Oswald et al., 1959).
Com este mtodo, selecionam-se palavras ou expresses que ocorram num documento com
mais freqncia do que sua taxa de ocorrncia na base de dados como um todo. Isso um
pouco mais complicado do que o mtodo de freqncia absoluta, pois exige que se mantenha
uma contagem da freqncia com que cada palavra ocorre na base de dados (relativa ao
nmero total de ocorrncias de palavras na base de dados), bem como uma comparao dessa
taxa de ocorrncia com a de uma palavra em determinado documento.
Uma lista de palavras ou expresses extradas de um documento com base na freqncia
relativa ser diferente de uma lista criada com base na freqncia absoluta, mas no de forma
radical. Muitos dos termos permanecero os mesmos. Os poucos termos novos sero os que
ocorrem raramente no documento, talvez apenas uma vez, mas ainda mais raramente na base
de dados como um todo - uma nica ocorrncia entre as 5 000 palavras de um artigo de
peridico altamente significativa se essa palavra tiver ocorrido at ento somente cinco
vezes numa base de dados de 10 milhes de palavras! Os termos que desaparecero,
evidentemente, sero os que, embora ocorram freqentemente num documento, ocorrem
freqentemente na base de dados como um todo.
Evidentemente, os termos selecionados com base na freqncia relativa no devem ser
radicalmente diferentes dos selecionados com base na freqncia absoluta. Para uma
recuperao da informao eficaz precisa-se de termos que sejam bons discriminantes de
documentos, e tambm de termos que formem classes eficazes de documentos; Se for til
mirar exatamente no item raro - o nico documento na base de dados que talvez examine os
riscos para a sade do amianto empregado em forros de bibliotecas -, algum tambm pode
querer recuperar grupos de documentos afins. Palavras como riscos ou perigos talvez no
sejam to raras numa base de dados de biblioteconomia quanto amianto, mas sero teis para
recuperar uma certa classe de documentos que podero interessar a alguns usurios. Para
uma recuperao eficaz da informao, requerem-se, comumente, classes que consistam em
mais de um nico item.

213

Os critrios para extrair termos dos documentos incluem, portanto, freqncia absoluta e
freqncia relativa, ou uma combinao de ambas, alm de critrios posicionais ou sintticos. 1
Se se adotar um mtodo relativo para a seleo de palavras, as listas de palavras proibidas,
claro, no sero necessrias: preposies, conjunes e artigos ocorrero com freqncia nos
itens especficos, mas tambm em toda a base de dados, e sero assim rejeitadas, junto com
palavras significativas mas de ocorrncia comum (como biblioteca em biblioteconomia).
Os termos tambm podem ser extrados do texto quando coincidem com algum tipo de
dicionrio armazenado de termos aceitveis. Essa foi a base do importante trabalho sobre
indexao com auxlio de computador realizado na dcada de 1970 pelo Defense
Documentation Center (ver, por exemplo, Klingbiel, 1971). Essencialmente, as cadeias de
palavras que ocorriam nos ttulos e resumos eram cotejadas com uma base de dados em
linguagem natural [Natural Language Data Base (NLDB)]. As cadeias de palavras que
coincidiam tornavam-se candidatas a termos de indexao. Klingbiel e Rinker (1976)
compararam os resultados da indexao com auxlio de computador com os resultados da
indexao feita por seres humanos. Como resultado de trs estudos de casos, concluram que a
indexao com auxlio de computador e sem reviso posterior alcana nveis de revocao
comparveis aos alcanados pela indexao feita por seres humanos, e que a preciso
alcanada pela indexao com auxlio de computador pelo menos to boa quanto a
alcanada pela indexao feita por seres humanos. A indexao por computador com reviso
posterior logrou resultados de revocao comparveis e melhor preciso do que a indexao
feita por seres humanos. Esta abordagem da indexao atualmente adotada no Center for
Aero Space Information da NASA (Silvester et al., 1993, 1994).
Indexao por atribuio automtica
A extrao de palavras e/ou expresses dos documentos tarefa que os computadores
executam de modo bastante satisfatrio. A extrao automtica apresenta ntida vantagem em
relao extrao feita por seres humanos: totalmente coerente. No entanto, a maior parte
da indexao feita por seres humanos no constitui indexao por extrao, mas indexao
por atribuio, e a realizao desse trabalho por computador , em geral, mais difcil. A
maneira bvia de executar a indexao por atribuio com o emprego de computador
desenvolver, para cada termo a ser atribudo, um perfil de palavras ou expresses que
costumam ocorrer freqentemente nos documentos aos quais um indexador humano atribuiria
esse termo. Esse tipo de perfil, por exemplo, para o termo chuva cida incluiria expresses
como chuva cida, precipitao cida, poluio atmosfrica, dixido de enxofre, etc.
Se a cada termo de um vocabulrio controlado correspondesse um perfil desses, seria
possvel utilizar programas de computador para cotejar as expresses importantes num
documento (essencialmente aquelas que fossem extradas segundo os critrios de freqncia
antes mencionados) com essa coleo de perfis, atribuindo um termo ao documento sempre
que o perfil do documento coincidisse com o perfil de termos acima de determinado limiar.
Isso parece relativamente fcil. Na prtica, porm, diferente. Em primeiro lugar, os
critrios de coincidncia teriam de ser um tanto complexos. Se chuva cida ocorrer dez vezes
num artigo de peridico, quase certamente o termo de indexao CHUVA CIDA ter de ser
atribudo. Suponhamos, por outro lado, que chuva cida ocorra apenas duas vezes no
documento, porm atmosfera, dixido de enxofre e cido sulfrico ocorram com bastante
freqncia. Atribui-se o termo CHUVA CIDA? evidente que muitas combinaes diferentes de
palavras ou expresses sinalizam o fato de que determinado termo de indexao ser
candidato atribuio. Alm do mais, a importncia de cada combinao, como preditor de
que determinado termo ser atribudo, implicaria o emprego de diferentes valores de coocorrncia. Por exemplo, se as palavras calor, lago e poluio ocorressem poucas vezes num
documento, isso seria o suficiente para levar atribuio dos termos POLUIO TRMICA e
POLUIO DA GUA. Porm calor e lago, sem o aparecimento de poluio, teriam de ocorrer
juntos num documento muitas vezes, antes de POLUIO TRMICA ter assegurada sua
atribuio.
A expresso chuva cida apresenta grande probabilidade de ocorrer com freqncia num
documento que trate do assunto, de modo que a atribuio correta do termo de indexao
CHUVA CIDA talvez no seja to difcil quanto estariam a sugerir as consideraes anteriores.
O termo POLUIO TRMICA mais problemtico, pois menos provvel que a maioria dos
itens sobre poluio trmica inclua ocorrncias freqentes dessa expresso. Outros termos
que um indexador humano atribuiria com grande facilidade quase que resistem atribuio
1

Para um exame completo dos vrios critrios adotados para a seleo de termos com base na freqncia de
ocorrncia, ver Salton e McGill (1983).

214

por computador. OConnor (1965) analisou alguns problemas concernentes a isso. Um bom
exemplo o termo TOXICIDADE. Um indexador pode, legitimamente, atribu-lo ao defrontar
com esta redao: Dois dias depois de a substncia haver sido ingerida surgiram diversos
sintomas, mas bastante difcil incorporar num programa de computador todos esses
preditores (de que o termo TOXICIDADE deva ser atribudo), mesmo que fossem identificados
de antemo.
Devido a esses problemas, as tentativas iniciais de atribuir termos automaticamente no
tiveram xito, mesmo quando estavam envolvidos vocabulrios muito pequenos de termos de
indexao (por exemplo, Borko e Bernick, 1963). Nos ltimos 40 anos, porm, desenvolveramse processos melhores, e agora possvel executar, com maior chance de xito, a indexao
por atribuio.
A indexao automtica e processos afins tm, portanto, uma longa histria. No resto do
captulo sero vistos em primeiro lugar outros princpios e abordagens anteriores. Os enfoques
mais atuais sero analisadas mais ao final do captulo.
Estudos anteriores sobre indexao
Van der Meulen e Janssen (1977) relatam uma comparao entre indexao por
atribuio automtica e indexao manual. Neste caso, comparou-se a indexao humana
adotada pelo INSPEC com um esquema de indexao automtica que substitui expresses, que
ocorrem nos resumos, por nmeros conceituais extrados de um tesauro armazenado no
computador. Embora os autores digam que a indexao automtica deu resultados to bons
quanto os obtidos pela indexao humana, tal concluso baseou-se nos resultados de apenas
duas buscas.
Um dos programas mais complexos de indexao por atribuio automtica,
desenvolvido no BIOSIS, foi examinado por Vleduts-Stokolov (1987). As palavras que apareciam
nos ttulos de artigos de peridicos foram cotejadas com um Vocabulrio Semntico, formado
por cerca de 15 000 termos de biologia, os quais, por sua vez, foram ligados a um vocabulrio
de 600 Cabealhos Conceituais (isto , cabealhos de assuntos relativamente genricos).
Assim, os Cabealhos Conceituais podiam ser atribudos pelo computador com base em
palavras/expresses que ocorriam nos ttulos. Vleduts-Stokolov relatou que cerca de 61% dos
Cabealhos Conceituais atribudos por seres humanos poderiam ser atribudos pelo
computador com base apenas nos ttulos. Se se considerassem apenas as atribuies primrias
e secundrias (o BIOSIS utilizava um esquema de ponderao de termos de trs nveis:
primrio, secundrio e tercirio), cerca de 75% das atribuies poderiam ser feitas
automaticamente. Na realidade, porm, os programas no alcanaram um nvel de
desempenho to elevado. Alcanaram de 80 a 90% de xito em atribuies primrias e
secundrias (isto , atribuam de 80 a 90% dos 75% que, teoricamente, seriam atribudos com
base nos ttulos), e quase esse nvel de xito em todas as atribuies (ou seja, por volta de
80%, ou um pouco mais, dos 61% de atribuies que ocorreriam com base apenas nos ttulos).
Em outras palavras, ocorria subatribuio; quer dizer, os programas deixavam de atribuir
termos que deveriam ser e seriam atribudos por seres humanos. Ao mesmo tempo, tambm
se verificava superatribuio: atribuam-se termos que no deveriam ser atribudos. Isso estava
na mesma faixa da subatribuio: entre 80 e 90% das atribuies de termos pelo computador
eram corretas, no sentido de que indexadores humanos tambm as teriam feito.
Um mtodo algo similar, descrito por Trubkin (1979), foi adotado para indexar
automaticamente os resumos de ABI/INFORM (uma base de dados na rea de negcios) no
perodo 1971-77. Construiu-se um vocabulrio-ponte com cerca de 19 000 termos que
remetiam das expresses dos textos para os termos de um vocabulrio controlado. Como
bastava uma nica ocorrncia de um termo num ttulo ou resumo para fazer com que fosse
atribudo um termo controlado, os processos de indexao automtica tendiam a atribuir mais
termos a um item do que o faria a indexao humana (mdia de 16 por item em contraste com
8-12).
Tambm similares ao trabalho realizado no BIOSIS so os processos de indexao com
auxlio de computador implementados pelo American Petroleum Institute (Brenner et al., 1984).
Sua finalidade era desenvolver mtodos que permitissem ao computador atribuir os termos
controlados do tesauro do API com base nos textos dos resumos. Brenner et al. relatam que
uma verso anterior do sistema atribua somente cerca de 40% dos termos que os indexadores
humanos atribuiriam, alm de atribuir muitos termos suprfluos. Com os ensinamentos
adquiridos nessa experincia, os autores, contudo, sentiam-se otimistas quanto possibilidade
de os processos informatizados atriburem cerca de 80% dos termos que deveriam ser
atribudos, e que a isso se seguiria uma reduo significativa das atribuies suprfluas. De
215

fato, desde os primeiros testes, ocorreram melhoramentos notveis. Martinez et al. (1987)
analisam esses melhoramentos e tambm descrevem os problemas encontrados ao fazer a
ligao entre expresses dos textos e os termos do tesauro. Posteriormente, Hlava (1992)
analisou progressos na abordagem do API no que concerne ligao de termos de indexao
em uma lngua com termos de indexao em outra (por exemplo, do ingls com o alemo e
vice-versa).
Um mtodo mais elaborado de ligar expresses de textos a descritores foi desenvolvido
na Technische Hochschule Darmstadt. Sua descrio mais completa, feita por Knorz (1983),
precisa ser complementada com referncias posteriores (por exemplo, Fuhr, 1989; Biebricher
et al., 1997). O mtodo de Darmstadt, que adota a tcnica da ponderao, calcula a
probabilidade que um descritor tem de vir a ser atribudo a um item, supondo-se que
determinada expresso textual ocorra no ttulo ou no resumo. Como foi dito antes neste
captulo, uma das mais bem-sucedidas aplicaes da indexao por atribuio com auxlio de
computador encontra-se atualmente em uso no Center for Aero Space Information (Silvester et
al., 1993, 1994), com base no trabalho de Klingbiel.
Apesar de a indexao por atribuio automtica ter melhorado consideravelmente nos
ltimos 40 anos (ver a seo final deste captulo), ainda no chegamos ao ponto onde termos
de um vocabulrio extenso (digamos, 10 000 descritores de um tesauro) possam ser atribudos
de modo completamente automtico sem interveno humana. Um estudo feito por Hersh et
al. (1993), que trabalhou com textos mdicos, afirma ter obtido melhores resultados com
buscas em textos simples do que com a ligao de textos aos termos do vocabulrio
controlado (termos do Unified Medical Language System).
Na realidade, a indexao por atribuio automtica se reveste hoje em dia de reduzido
interesse, exceto para a produo de ndices impressos. H 30 anos, despertava interesse mais
amplo. Como, ento, era muito dispendioso armazenar e processar grandes quantidades de
texto em computador, justificava-se qualquer mtodo que reduzisse o texto. Hoje em dia,
evidentemente, no caso de existir o texto completo de um item em formato eletrnico, ou se
existir um resumo adequado, faz pouco sentido pretender index-lo, a menos que venha a ser
gerada, a partir da base de dados, alguma forma de ndice impresso. No obstante, conforme
ser visto mais adiante neste captulo, existem realmente aplicaes em que as formas de
indexao por atribuio automtica ainda so teis. Ademais, os mtodos de indexao por
atribuio automtica so essencialmente os mesmos usados na categorizao (classificao)
de textos ou tarefas de encaminhamento de mensagens, a serem examinadas mais adiante.
Uma forma especial de ndice impresso o que aparece no final dos livros. Os trabalhos
visando produo desse tipo de ndice por computador tambm remontam a mais de 40
anos. Aliandi (1963) produziu ndices de livro por computador no campo da qumica. Para cada
entrada de ndice (termo de expresso) ela criou uma lista de expresses associadas (termos
de deteco), e a ocorrncia de qualquer uma dessas expresses numa pgina de texto faria
com que fosse selecionada uma das entradas de ndice para aquela pgina. Artandi afirmava
que um ndice assim produzido comparava-se em qualidade a um ndice feito por seres
humanos, mas custava bem mais caro. Grande parcela do custo correspondia, porm,
transcrio do texto para formato eletrnico. Como hoje praticamente toda impresso de
textos feita a partir de registros eletrnicos, os fatores de custo no mais favoreceriam o
esforo intelectual humano. Apesar disso, os problemas inerentes produo automtica de
ndices de livros so mais difceis do que sugere o trabalho de Artandi. Mesmo num campo
limitado seria preciso um vocabulrio muito grande de termos de expresso e, para cada um
deles, tambm seria muito grande o nmero de termos de deteco possveis. Ademais, ambos
os vocabulrios precisariam ser mantidos atualizados para abrigar os novos desenvolvimentos
e as mudanas terminolgicas nesse campo.
Evidentemente, Artandi procurava fazer a indexao por atribuio. Uma proposta mais
fcil seria extrair expresses do texto do livro que fossem adequadas para funcionar como
entradas de ndice. Earl (1970) descreve um mtodo de elaborao de ndices de livros por
computador que envolve a extrao de sintagmas nominais. Ela afirma que: Tudo indica ser
possvel produzir automaticamente ndices de livros que sejam satisfatrios, com um trabalho
posterior de reviso para eliminar termos suprfluos. Mais tarde, Salton (1989) descreveu
como possvel empregar processos de anlise sinttica para gerar expresses que se
prestam ao uso em ndices de livros. Por outro lado, Korycinski e Newell (1990) examinam os
motivos pelos quais a produo automtica de ndices de livros muito mais difcil do que a
indexao automtica de artigos de peridicos.
A maioria dos sistemas de indexao automtica no so realmente automticos, no
sentido de que substituem o ser humano pelo computador, mas se destinam a auxiliar o
indexador humano. Uma denominao que melhor se ajusta a eles com auxlio de
216

computador. Em geral, identificam-se dois mtodos principais de indexao com auxlio de


computador:
1. Utiliza-se o computador para fornecer vrios tipos de apresentao e mensagens em
linha que ajudam o indexador. Erros cometidos pelo indexador (por exemplo, emprego
de
termos
fora
do
padro
ou
combinaes
indevidas
de
cabealho
principal/subcabealho) so reconhecidos em tempo real com imediata notificao ao
indexador.
2. Utilizam-se programas de computador para ler o texto (talvez apenas ttulos e/ou
resumos) e selecionar termos de indexao mediante processos de extrao ou
atribuio. Os termos assim selecionados so checados por um indexador humano, que
acrescenta outros pontos de acesso que os programas no conseguiram atribuir e/ou
elimina termos atribudos erroneamente.
As abordagens atuais so examinadas na seo final deste captulo.
Outras formas de classificao
Como vimos no captulo 2, a indexao uma forma de classificao: a atribuio de um
termo a um item coloca-o numa classe junto com outros aos quais o mesmo tendo foi
atribudo. So possveis outros tipos de classificao quando h vrios dados sobre itens
bibliogrficos em formato eletrnico. possvel usar processos automticos para criar classes
de documentos ou classes de termos.
Em sistemas convencionais de recuperao, a realizao de uma busca auxiliada pelas
associaes entre termos estabeleci das pela mente humana, com a ajuda s vezes de
relaes constantes de um tesauro ou outro vocabulrio controlado. Num mtodo mais
automtico de recuperao - baseado, por exemplo, no cotejo de consultas em linguagem
natural com o texto completo de itens, resumos, ou representaes de documentos criadas por
computador - tambm convm incorporar processos automticos para desenvolvimento de
relaes entre termos, a fim de melhorar a eficcia das buscas. Co-ocorrncia a relao bvia
a ser explorada pelo computador. Quanto mais freqentemente dois termos ocorrerem juntos
(no texto de documentos ou em listas de termos atribudos aos documentos), mais provvel
ser que tratem de contedo temtico similar. Levando isso sua concluso lgica, se o termo
A nunca ocorre sem B e o termo B nunca ocorre sem A (o que seria uma situao muito rara),
os dois termos so totalmente interdependentes e seriam completamente intercambiveis nas
buscas. Alm da associao direta (x e X tendem a ocorrer juntos), as associaes indiretas
entre termos podem tambm ser derivadas com base nos dados de co-ocorrncia.
Suponhamos que o termo D quase nunca ocorra sem W numa base de dados e que tambm
tenda a no ocorrer sem w, embora D e T jamais co-ocorram nos documentos. Conclui-se que
h uma relao entre D e T: so relacionados entre si pelo fato de cada um co-ocorrer
fortemente com w. Muito provavelmente, D e T so exatamente sinnimos neste contexto:
sinnimos costumam no ocorrer um com o outro, ainda que os termos com os quais coocorram sejam muito similares. No exemplo hipottico, D seria delta, T vo livre e W asa.
Na realidade, no se calcula o grau de associao entre dois termos com base na
freqncia simples de co-ocorrncia, mas na de co-ocorrncia relativa freqncia de
ocorrncia de cada termo. Por exemplo, se os termos A e B co-ocorrerem 20 vezes na base de
dados, enquanto A ocorrer 10 000 vezes, e B 50 000 vezes, o fator de associao entre A e B
ser fraco. Por outro lado, supondo que A ocorra 50 vezes, B ocorra 25 vezes, e ambos coocorram 20 vezes, o fator de associao ser grande, pois muito improvvel que B ocorra
sem A e quase a metade das ocorrncias de A coincida com as ocorrncias de B. Portanto, a
relacionalidade (R) de dois termos comumente definida pela equao simples.

Quando R excede algum limiar preestabelecido, os dois termos so aceitos como se


fossem relacionados.
Os dados de co-ocorrncia so usados de duas formas: 1) desenvolve-se e armazena-se
uma rede de associaes entre termos, ou 2) identificam-se e armazenam-se classes
separadas de termos com base em associaes extradas da rede. No primeiro caso, os termos
introduzidos por quem realiza as buscas, em forma de lista ou dentro de um enunciado em
forma de expresso ou frase, podem ser processados automaticamente para produzir uma lista
expandida de termos de busca. No mtodo desenvolvido por Stiles (Stiles, 1961; Salisbury &
Stiles, 1969), os termos acrescentados a uma estratgia de busca so os relacionados de perto
217

com todos os termos da busca original com base na freqncia de co-ocorrncia. Por exemplo,
A, S e C ocorrem na estratgia original e X e Y so acrescentados porque tendem a co-ocorrer
com todos os trs termos iniciais. O processo poderia continuar de modo a introduzir, digamos,
o termo P porque est associado a A, S, C, X e Y. OS itens da base de dados podem receber um
peso numrico, que reflita o nmero de termos que coincidem entre item e estratgia de busca
e as foras de associao que existem entre esses termos (com base na co-ocorrncia), e os
itens recuperados podem ser ordenados por peso. possvel, assim, que alguns itens que
aparecem no alto da ordenao [ranking] no contenham nenhum dos termos com os quais se
iniciou a busca.
Na segunda aplicao, qualquer palavra que ocorra num enunciado de busca pode ser
substituda pela classe de palavras a que pertence. Isso automtico ou pode ser feito sob
controle de quem faz a busca. Os tipos de classes de palavras que podem ser derivadas dos
dados de co-ocorrncia foram claramente identificados por Salton e McGill.(1983). Num deles,
chamado faco, todas as palavras do grupo so associadas com todas as outras palavras do
grupo acima de um limiar escolhido. Num grupo de ligao nica, por outro lado, cada palavra
precisa estar ligada apenas a uma outra palavra do grupo acima do limiar estabelecido.
As classes formadas mediante processos estatsticos sero muito menos puras do que as
de um tesauro convencional. Um grupo de palavras que coocorram fortemente incluir
relaes de gnero/espcie, parte/todo e outras, como no seguinte exemplo:
ASA
AEROFLIO
DELTA
CAUDA
VIBRAO

AERODINMICA
FLUXO

A pureza da classe no a questo principal. O que importa se a classe


potencialmente til na recuperao. Por exemplo, ser provvel que a classe hipottica de
palavras identificadas acima, se se substitusse automaticamente cada um de seus membros,
melhoraria os resultados da busca? Dependendo da busca, parece provvel que esse tipo de
substituio melhoraria a revocao. Ao mesmo tempo, causaria um grave declnio da
preciso, principalmente se a classe (como no exemplo) fosse um conjunto muito heterogneo
de termos.
Salton e McGill (1983) apresentam exemplos de entradas de tesauro extradas
automaticamente de uma coleo de documentos de engenharia (figura 107). Com esse tipo
de tesauro, a consulta propriedades criognicas de x seria expandida para x em relao ao
conceito 415. O resultado seriam itens recuperados sobre supercondutividade (isto , que
contm o radical supercondut) de x.
Estas consideraes giraram at agora apenas em torno de mtodos com os quais se
formam classes de termos com base nos documentos onde ocorrem. Os dados que permitem
tal classificao so extrados de uma matriz que mostra quais os termos que ocorrem em
quais documentos (matriz termo/documento). claro que, com esses dados, tambm
possvel fazer a operao inversa. Ou seja, formar classes de documentos com base nos
termos que contm. Salton (1975) e Saltonoe McGilI (1983) identificaram vrios tipos dessas
classes:
1. A faco na qual todos os itens A-E tm uma forte ligao entre si.

2. A estrela na qual uma classe AQRST definida pelo fato de Q, R, Se T estarem todos,
de alguma forma, ligados de perto a A.

218

3. A fileira na qual B est ligado de perto a A, C a B, e assim por diante at E, o qual no


est ligado de perto a qualquer outro item exceto D.
A <___> B <___> C <___> D <___> E

4. O conglomerado que pode ser formado com base em vrios critrios. Em geral, no
entanto, cada membro se associa aos outros membros do grupo ao alcanar um valor
acima de determinado limiar.

Estrelas, fileiras e conglomerados so exemplos dos grupos de ligao nica definidos


acima.
Uma abordagem muito similar do agrupamento de itens relacionados, chamada
indexao semntica latente, baseia-se em processo de classificao intimamente
relacionado com a anlise fatorial (ver, por exemplo, Dumais, 1995).
Tambm podem ser formadas classes de documentos com base em caractersticas notermino lgicas, especialmente vrias formas de ligao de citaes. As possibilidades disso
so exemplificadas na figura 108. Aqui, x, Ye Z so documentos publicados recentemente que
citam os itens anteriores A, B e C. Uma classe muito simples consistiria em um documento e os
posteriores que o citam; por exemplo, A, X e Y. Como ambos X e Y citam A, existe uma grande
possibilidade de que todos os trs tenham um contedo temtico em comum. Isso,
evidentemente, a base da indexao de citaes. Ao entrar num ndice de citaes em A,
quem realiza a busca encontrar X e Y, itens estes que citam A. Se A for um item altamente
relevante para os interesses presentes de quem faz a busca, X e Y tambm sero relevantes.
Se assim for, quem realiza a busca ter logrado xito sem ter empregado a indexao de
assuntos convencional.
Identificam-se outras classes nas relaes simples mostradas na figura 108. Por exemplo,
considere-se que X e Y formam uma classe porque ambos citam A e B. Este o princpio do
acoplamento bibliogrfico (Kessler, 1962-1965). Quanto mais referncias dois (ou mais) itens
tiverem em comum, mais forte ser seu acoplamento. X e Y esto fortemente acoplados
porque ambos citam A, B e C. Z est menos fortemente acoplado a X e Y porque tem somente
duas referncias em comum com estes itens. Outra maneira de dizer isso que X e Y formam
uma classe forte (de fora 3), enquanto X e Z e Ye Z so classes fracas (de fora 2). evidente
que quanto mais parecidas forem as listas de referncias includas em duas publicaes mais
provvel ser que tratem do mesmo assunto. Assim, se Q cita F, G, H e I apenas, e o. artigo R
tambm cita somente estes quatro itens, Q e R quase com certeza tratam do mesmo assunto.
Se os dois artigos tiverem essas quatro referncias em comum, porm se cada um incluir,
digamos, dez referncias que o outro no inclui, haver menos chance de Q e R tratarem do
mesmo assunto, embora a relao entre Q e R ainda seja considerada muito prxima.
Uma ltima relao, mostrada na figura 108, a de co-citao (Small, 1973). Afirma-se
que os itens A, B e C formam uma classe porque so citados juntos (co-citados) por Xe Y. Como
acontece com o acoplamento bibliogrfico, a co-citao pode ocorrer com fora varivel. Na
figura 108, os itens A, B e C tm uma relao fraca entre si, pois apenas dois itens os citam
juntos. Quanto mais itens os co-citarem, supe-se que mais fortemente relacionados eles
estaro.
As classes formadas com base nas ligaes de citaes apresentam algumas vantagens
sobre as classes formadas por meio da indexao, de assuntos convencional. O que mais
evidente em tudo isso que sero independentes de lngua e de mudanas terminolgicas. O
nome de uma doena pode mudar mais de uma vez no decorrer do tempo, porm isto no
impedir que se realize uma busca sobre essa doena num ndice de citaes, principalmente
se o documento inicial que a identifica for do conhecimento de quem faz a busca e se ainda for
citado com freqncia. O princpio do acoplamento bibliogrfico pode, naturalmente, ser
utilizado para ligar documentos escritos em lnguas completamente diferentes; por exemplo,
identificar trabalhos em russo e chins que estejam fortemente acoplados a um trabalho em
lngua inglesa. Igualmente, uma classe de documentos co-citados incluiria itens em vrios
idiomas. O que mais importante, evidentemente, que as classes formadas por co-citao
sofrem mudanas com o passar do tempo, pois novas inter-relaes entre os resultados de
219

pesquisas so verificadas por pesquisadores posteriores. Voltando figura 108, os autores de X


e Y vem alguma relao entre os itens A, B e C, mas esta relao poderia ter passado
despercebida durante muitos anos. A, B e C formam uma classe de itens pela primeira vez em,
digamos, 1989, porque foi em 1989 que tanto X quanto Y foram publicados, porm A talvez
tivesse sido publicado na dcada de 1930, C na dcada de 1950 e B na dcada de 1970.
40
8

DISLOCATION
JUNCTION
MINORITY-CARRIER
N-P-N
P-N-P
POINT-CONTACT
RECOMBINE
TRANSITION
UNIJUNCTION

40
9

BLAST-COOLED
HEAT-FLOW
HEAT-TRANSFER

41
0

ANNEAL
STRAIN

41
1

COERCIVE
DEMAGNETIZE
FLUX-LEAKAGE
HYSTERESIS
INDUCT
INSENSITIVE
MAGNETORESISTANCE
SQUARE-LOOP
THRESHOLD

41
2

LONGITUDINAL
TRANSVERSE

413

CAPACITANCE
IMPEDANCE-MATCHING
IMPEDANCE
INDUCTANCE
MUTUAL-IMPEDANCE
MUTUAL-INDUCTANCE
MUTUAL
NEGATIVE-RESISTANCE
POSITIVE-GAP
REACTANCE
RESIST
SELF-IMPEDANCE
SELF-INDUCTANCE
SELF

414

ANTENNA
KLYSTRON
PULSES-PER-BEAM
RECEIVER
SIGNAL-TO-RECEIVER
TRANSMITTER
WAVEGUIDE
CRYOGENIC
CRYOTRON
PERSISTENT-CURRENT
SUPERCONDUCT
SUPER-CONDUCT

415

416

REPLAY

Figura 107 Exemplo de entradas de tesauro extradas por mtodos


automticos
Reproduo de Salton e McGill, Introduction to modern information retrieval, 1983, com
permisso de McGraw-Hill Publishing Company

Figura 108 Ligaes de citaes/referncias

Os estudos que compararam as classes formadas pela indexao convencional de


assuntos com as formadas com base em ligaes de citaes remontam a cerca de 40 anos
(Kessler, 1965). Comparaes posteriores incluem Pao (1988), Pao e Worthen (1989) e Shaw
(1990b). Uma busca baseada em ligaes de citao (citao direta, acoplamento bibliogrfico
ou co-citao) poder descobrir itens teis no encontrados por-meio de buscas temticas
convencionais em ndices impressos ou bases de dados em linha, porm o mtodo
convencional tambm pode localizar itens que as ligaes de citaes no conseguem revelar.
Os dois mtodos so complementares e no concorrentes.
Kwok (1985a, b) menciona o fato de as ligaes de referncias/citaes poderem ser
utilizadas na recuperao de informao para formar uma coleo ampliada de itens
recuperados. Quer dizer, quando se aplica uma estratgia de busca a uma base de dados da
220

forma normal, empregando palavras do texto ou termos controlados, o conjunto de itens assim
recuperados ser ampliado com os itens a eles ligados por meio de citaes bibliogrficas. Ele
sugere que o conjunto de termos associados aos itens originalmente recuperados seja
ampliado com o acrscimo de termos extrados dos itens que eles citam. Estes novos termos
podem ser termos de indexao atribudos aos itens citados, ou expresses do texto extradas
dos resumos ou dos ttulos. Ele sugere que a ampliao mediante a extrao de termos dos
ttulos dos itens citados mais praticvel. Salton e Zhang (1986) testaram a utilidade de
ampliar o conjunto de termos associados aos itens recuperados mediante o acrscimo de
palavras do ttulo extradas de itens bibliograficamente relacionados. As palavras do ttulo
foram extradas de: a) itens citados pelos itens recuperados, b) itens que citavam os itens
recuperados, e c) itens co-citados. A concluso deles que, embora muitas palavras de
contedo til sejam extradas dessa forma, tambm sero extrados muitos termos de
utilidade duvidosa, e que o processo no suficientemente confivel para justificar sua
incluso em sistemas de recuperao operacionais.
bvio que as ligaes explcitas ou implcitas entre os itens numa rede de hipertexto ou
hipermdia so muito similares s ligaes de citaes aqui examinadas. As implicaes para a
indexao das ligaes de hipertexto/hipermdia so mencionadas no captulo 16. Um livro
organizado por Agosti e Smeaton (1996) uma boa fonte de pesquisas sobre a utilizao de
vnculos de hipertexto na recuperao de informaes:
Redao automtica de resumos
Se os computadores podem ser programados para selecionar termos dos documentos
segundo critrios de freqncia, tambm podem ser programados para selecionar frases dos
documentos. Esta a base do que se denomina comumente redao automtica de resumos,
embora fosse mais exato chamar isso elaborao automtica de extratos. Luhn (1958),
criador desse mtodo, adotou os seguintes procedimentos:
1. Uma lista de palavras proibidas elimina do processamento ulterior todas as palavras
no-significativas.
2. Contam-se as ocorrncias de todas as palavras restantes, que so ordenadas segundo
sua freqncia de ocorrncia (em vez de palavras, podem ser usadas razes (radicais)).
3. Todas as palavras que ocorram mais de x vezes so definidas como palavras de alta
freqncia ou significativas.
4. Localizam-se as frases que contenham concentraes dessas palavras de alta
freqncia. Consideram-se duas palavras relacionadas dentro de uma frase se no
houver mais de quatro palavras intermedirias.
5. Calcula-se um fator de significncia para cada frase, da seguinte maneira: a)
determina-se o nmero de aglomerados na frase (aglomerado o grupo de palavras
mais extenso, demarcado por palavras significativas, no qual as palavras significativas
no se acham separadas por mais de quatro palavras intermedirias);
b) determina-se o nmero de palavras significativas no aglomerado e se divide o
quadrado desse nmero pelo nmero total de palavras dentro do aglomerado;
c) define-se o fator de significncia da frase como o valor do aglomerado mais alto
ou como a soma dos valores de todos os aglomerados na frase.
Isso soa mais complicado do que realmente na prtica, e sua explicao fica mais fcil
por meio de um exemplo. Vejamos a frase:
A B C D* E F* G* H I J* K L M N O P Q R
Onde cada letra representa uma palavra, e as palavras seguidas de asterisco so as
consideradas significativas. O aglomerado formado pelas palavras D-J contm quatro palavras
significativas, de modo que o fator de significncia do aglomerado 42/7 ou 2,3. Este
tambm o fator de significncia da frase, uma vez que ela contm somente um aglomerado.
De acordo com os procedimentos de Luhn, as frases que contenham os fatores de
significncia mais altos so selecionadas e impressas, na seqncia em que ocorrem no texto,
a fim de formar o resumo. possvel estabelecer um ponto de corte, para controlar a
quantidade de frases selecionadas. Isso pode basear-se num nmero fixo de frases ou no
nmero de frases necessrias para atingir certo percentual do texto total do documento. A
figura 109 um exemplo de um auto-resumo produzido de acordo com o mtodo de Luhn.
Ao lidar com documentos muito longos talvez seja conveniente fazer com que os
programas selecionem e imprimam frases significativas para cada seo da publicao. Uma
vez que os resumos devem salientar a importncia especfica de um item para a instituio
221

para a qual o resumo preparado, pode-se incluir uma ponderao adicional numa certa
categoria ou lista de palavras, de modo a garantir que as frases que contenham uma ou mais
ocorrncias dessas palavras sejam selecionadas para incluso no resumo.
claro que um resumo montado dessa forma no ser muito parecido com um resumo
preparado por um ser humano. Uma vez que algumas frases podem vir do primeiro pargrafo,
algumas do ltimo, e vrias outras talvez do meio do trabalho, o extrato pode parecer bastante
desconjuntado. Na realidade, isso no chega a ser de grande importncia enquanto as frases
escolhidas oferecerem, em conjunto, um quadro exato daquilo de que trata o documento.
Alguns pesquisadores, no entanto, discordam disso e insistem para que os extratos obtidos por
mtodos automticos apresentem melhor seqncia lgica (Rush et al., 1971, Mathis et al.,
1973).
Enquanto Luhn (1959) e Oswald et al. (1959) utilizaram a freqncia de palavras ou
expresses para a seleo de frases, outros pesquisadores propuseram ou empregaram
critrios alternativos. Edmundson (1969) identificou quatro mtodos possveis:
1. Mtodo da chave. Similar ao critrio de freqncia de palavras adotado por Luhn.
Atribui-se s frases um peso correspondente soma dos pesos das palavras que as
compem.
2. Mtodo da deixa. A presena de certas palavras numa frase sinaliza o fato de que
provvel que ela seja um bom indicador de contedo. Um dicionrio de deixas inclui
uma lista de palavras que recebem peso positivo e uma lista de palavras com peso
negativo. O valor da significncia de uma frase a soma dos pesos das palavras que a
compem.
3. Mtodo do ttulo. A hiptese em que se baseia este mtodo que as palavras que
ocorrem nos ttulos e subttulos so bons indicadores de contedo. Atribui-se um valor
de significncia s frases baseado no nmero de palavras do ttulo e subttulo que elas
contm.
4. Mtodo da localizao. Neste mtodo atribuem-se pesos s frases, tomando por base a
posio onde aparecem num documento. As frases que aparecem em certas sees
(primeira e ltima frase dos pargrafos, primeiro e ltimo pargrafo, texto antecedido
por entre ttulos, como Introduo ou Concluses) so aceitas como mais indicadoras
de contedo do que outras.

Figura 109 Exemplo de um auto-resumo de Luhn (Luhn 1958)


Copyright 1958 by International Business Machines incorporated; reproduzido com
permisso

Descobriu-se que os mtodos de deixa, ttulo e localizao apresentavam maior


probabilidade de concordncia quanto s frases a serem selecionadas do que qualquer
combinao de mtodos que envolvessem o processo de chave, o que levou Edmundson a
concluir que este processo, baseado somente nos critrios de freqncia, era inferior aos
outros mtodos.
Rush et al. (1971) argumentam que qualquer mtodo til de extrao deve incluir
critrios tanto para rejeio como para seleo de frases. O mtodo deles para avaliao de
frases leva em conta a influncia contextual - uma palavra ou seqncia de palavras, e seu
contexto circunjacente, oferecem deixas para a aceitao ou rejeio da frase. O mtodo de
222

extrao que descrevem baseia-se no cotejo do texto com uma Lista de Controle de Palavras
[Word Control List (WCL)], que inclui uma lista de expresses que, se estivessem presentes
numa frase, causariam sua rejeio, e uma lista muito menor de expresses que. a levariam a
ser selecionada. As expresses de rejeio incluem indicadores de que a frase trata de
material relativo a antecedentes e no aos objetivos, mtodos e resultados do trabalho. As
expresses de seleo so as (do tipo este artigo, este estudo ou o presente trabalho) que
quase sempre significam que a frase trata do tema principal do artigo. So tambm
selecionadas frases que possuam palavras significativas do ttulo do documento. Os critrios de
freqncia no so postos de lado, mas usados apenas para modificar os pesos associados s
deixas negativas e positivas no WCL. Os mtodos de extrao desenvolvidos por Rush et al.
ofereciam vrias vantagens em relao a processos anteriores, inclusive a capacidade de
modificar frases extratadas (por exemplo, pela eliminao de expresses parentticas).
Outra caracterstica era a remisso interfrasal: quando uma frase era selecionada para
incluso num extrato era testada, a fim de determinar se seu significado dependia das frases
imediatamente precedentes (por exemplo, por incluir expresses do tipo portanto ou por este
motivo). Se o significado fosse assim dependente, as frases precedentes, at um mximo de
trs, eram includas no resumo, mesmo que no atendessem a outros critrios de aceitao.
Esse mtodo de extrao tem, portanto, o potencial de criar extratos que possuam melhor
seqncia lgica do que os obtidos mediante processos menos complexos. Na figura 110 temse o exemplo de um extrato produzido segundo os procedimentos de Rush et al. (o sistema de
elaborao automtica de resumos ADAM).
Mathis et al. (1973) introduziram aperfeioamentos nos mtodos de extrao descritos
por Rush et al. Tais aperfeioamentos referem-se fundamentalmente s caractersticas de
modificao frasal e remisso interfrasal dos processos anteriores, e se destinam a produzir
representaes que sejam mais legveis.
Earl (1970) realizou experincias a fim de determinar se frases significativas poderiam ou
no ser identificadas por meio de anlise sinttica. A hiptese era que as frases que
contivessem certas estruturas sintticas seriam mais indicativas de contedo do que outras.
Os resultados no foram promissores, devido principalmente ao grande nmero de tipos de
frases que foram identificados. Um processo mais promissor envolvia o uso de critrios tanto
sintticos quanto estatsticos: identificam-se sintagmas nominais no texto, identificam-se as
palavras significativas nos sintagmas, fazem-se contagens de palavras, e as frases so
selecionadas com base no nmero de palavras de alta freqncia que contm.
Paice (1981) descreveu processos de elaborao automtica de extratos baseados na
identificao de frases com probabilidade de serem bons indicadores daquilo de que trata um
documento (por exemplo, que contivessem expresses como o principal objetivo ou
descreve-se um mtodo).
Fum et al. (1982) descreveram um mtodo de elaborao automtica de resumos no
qual, segundo afirmam, processos de anlise sinttica [parsing] e ponderao identificam as
informaes mais importantes transmitidas num texto, eliminam elementos no-essenciais e
reestruturam o restante num resumo condensado e expressivo. Eles apresentam como
exemplo a frase
A necessidade de gerar enorme quantidade adicional de energia eltrica e ao mesmo tempo
proteger o meio ambiente um dos principais problemas sociais e tecnolgicos que nossa
sociedade ter de resolver em futuro prximo [sic]

que se reduz a
A sociedade deve resolver no futuro o problema da necessidade de gerar energia ao mesmo
tempo que protege o meio ambiente.

223

Figura 110 Exemplo de extrato produzido pelo sistema ADAM de redao


automtica de resumos
Reproduzido de Mathis (1972) com permisso do Depanment of Computer and
Information Science, Ohio State University

Embora isso seja esplndido como frase, eles no logram demonstrar que os processos
que descrevem produziro uma condensao expressiva e til de um artigo inteiro.
Hahn e Reimer (1984) descrevem trabalho voltado para o desenvolvimento de um
mtodo, inspirado no conceito de sistema especialista, para condensao de textos, em que
foi adotada uma base de conhecimento de quadros [frame knowledge base] aplicada anlise
sinttica [parsing] de textos. Eles preferem o termo condensao de textos a redao de
resumos porque os mtodos podem, em princpio, ser utilizados para criar condensaes com
vrios nveis de extenso e pormenores.
Evidentemente, quanto mais formais e coerentes forem os textos dos documentos, mais
bem-sucedidos provavelmente sero os processos de elaborao de extratos. Por exemplo,
Borkowski e Martin (1975) alegam ter alcanado mais de 90% de xito na extrao automtica
de ementas e prescries exaradas em processos, partindo do texto de decises judiciais.
As abordagens atuais de extrao automtica, hoje em dia freqentemente chamada de
sumarizao de textos, so mencionadas mais adiante neste captulo. Embora os
procedimentos correntes sejam capazes de fazer coisas mais complexas, como a combinao
bem-sucedida de frases,1 possvel que os critrios relativamente simples introduzidos por
Luhn e Baxendale sejam to bons ou melhores do que quaisquer outros para a seleo prtica
de frases com probabilidade de serem indicativas do contedo do documento. Por exemplo, Hui
e Goh (1996) compararam quatro critrios diferentes na preparao de resumos de notcias:
mtodo de localizao, processo indicativo, freqncia de palavras-chave e palavra-chave do
ttulo. O emprego de expresses indicativas (por exemplo, em concluso, o objetivo era)
para identificar frases significativas deu os piores resultados. O critrio simples de freqncia
de palavras-chave foi melhor, mas os melhores resultados foram obtidos com mtodos que
atribuam peso maior localizao (por exemplo, primeiras frases do pargrafo) ou seleo
de frases que continham maior concentrao de palavras que tambm ocorriam em ttulos,
entre ttulos, legendas ou bibliografias.
Operaes automticas de recuperao
Uma vez que a indexao e a redao de resumos so os temas centrais examinados
neste livro, a ateno deste captulo volta-se para a indexao e a elaborao automticas de
resumos. Todavia, certos mtodos automticos de recuperao da informao guardam com
isso uma relao suficiente para justificar que sejam objeto aqui de algumas consideraes,
ainda que de forma sucinta.
Ao longo dos anos, um dos principais objetivos de inmeros pesquisadores foi o
desenvolvimento de processos que permitiriam que um pedido expresso em texto em
1

Johnson et al. (1997) apresentam um bom exemplo de estudo sobre a situao atual da produo de resumos mais
inteligveis por meio de concatenao de frases.

224

linguagem natural fosse cotejado com os textos dos documentos texto completo, texto parcial
ou alguma forma de representao. Considera-se isso como uma espcie de coincidncia de
padres: atribui-se aos textos da base de dados um tipo de escore, que reflita o grau com que
coincidem com o texto de um pedido, o que permite que sejam apresentados, a quem faz a
busca, na forma de uma sada ordenada por provvel relevncia.
So possveis vrios tipos e nveis de coincidncia. Examinemos, por exemplo, o pedido:
Patologia, fisiologia, radiografia e tratamento de pneumonia causada por irradiao ou
fibrose pulmonar causada por irradiao.

E suponhamos que a base de dados consista em textos de resumos. O mtodo mais


simples de pontuar uma coincidncia seria aquele que simplesmente levasse em conta
quantas palavras do pedido ocorrem num resumo. Assim, um resumo receberia um escore
elevado se contivesse as palavras patologia, fisiologia, radiografia, irradiao e
tratamento (isto , cinco das oito ocorrncias de palavras significativas do pedido), embora,
evidentemente, seja improvvel que possa ser relevante, uma vez que no contm nenhuma
das palavras do pedido que so mais discriminantes.
So possveis muitos refinamentos desse nvel rudimentar de estabelecimento de
coincidncia. Um deles consiste em atribuir a cada palavra um escore que reflita o nmero de
vezes em que ela aparece na base de dados como um todo. Assim, fibrose e pneumonia
receberiam escores bastante altos, tendo em vista que provavelmente so menos comuns
numa base de dados de medicina do que as outras palavras, mais genricas, do pedido. Por
conseguinte, um resumo que contivesse essas duas palavras receberia um escore elevado,
mesmo que no contivesse nenhuma das outras palavras do pedido.
O nmero de ocorrncias de uma palavra num pedido e num resumo tambm pode ser
levado em conta na classificao dos documentos. Segundo este critrio, um resumo que
contenha diversas vezes a palavra irradiao tem a probabilidade de receber um escore
elevado porque esta palavra a nica que ocorre mais de uma vez no pedido. No caso de uma
base de dados que contenha o texto integral dos documentos, preciso ter em conta a
extenso destes. Do contrrio, documentos muito extensos sempre tero uma probabilidade
proporcionalmente maior de serem recuperados.
A coincidncia pode basear-se em radicais de palavras ao invs de palavras completas.
Por este critrio, um resumo que inclua as palavras irradiante e irradia, bem como irradiao,
obteria um escore elevado em relao ao pedido do exemplo.
Se houvesse no sistema um tesauro criado por computador, seria possvel substituir uma
ou mais de uma das palavras do pedido pelo grupo existente no tesauro (ver figura 107) e ao
qual pertencesse essa palavra. Se ocorresse a substituio das palavras irradiao e pulmonar
do pedido, os pesos dos resumos que contivessem as palavras pulmes e raios aumentariam
notavelmente porque pulmes e pulmonar pertenceriam ao mesmo grupo do tesauro (junto,
talvez, com o radical pneum), do mesmo modo que radiografia, irradiao e raios.
Evidentemente, a coincidncia ser mais precisa se se basear em expresses e no em
palavras simples, pelo que qualquer sistema que coteje o texto de um pedido com os textos
dos documentos precisa, definitivamente, ter a possibilidade de realizar buscas em expresses.
Os resumos que contenham a expresso pneumonia por irradiao recebero um escore alto
em relao ao pedido hipottico, do mesmo modo que aqueles que contenham fibrose
pulmonar por irradiao. Os resumos onde houvesse a expresso fibrose pulmonar tambm
receberiam um escore alto, embora com menos probabilidade de ser relevantes, a menos que
o aspecto irradiao tambm estivesse presente. Em posio intermediria entre palavras
simples e expresses est o emprego da proximidade de palavras - neste caso a capacidade de
atribuir pesos maiores a palavras que apaream perto uma da outra no texto, embora no
necessariamente adjacentes.
Fica evidente, com esta exposio, que podem ser usados diferentes critrios na
atribuio de um escore ao texto, a fim de refletir o grau em que ele coincide com o texto de
um pedido, e que o escore atribudo pode basear-se em mais de um dos critrios examinados
(por exemplo, teria em conta o nmero de coincidncias de palavras ou expresses, bem como
o ndice de ocorrncia dessas palavras ou expresses na base de dados como um todo).
Teoricamente, portanto, um sistema automtico deve incorporar diversos critrios possveis
para o estabelecimento de coincidncia, e permitir ao usurio escolher um deles.
O sistema mais elaborado desse tipo geral o SMART de Salton, desenvolvido e
aperfeioado ao longo de um perodo de mais de 30 anos. Existe uma vasta bibliografia acerca
do. SMART, e se encontra uma boa sntese em Salton e McGill (1983). Embora os processos
hajam sido aprimorados desde que esse livro foi publicado, ainda parece ser a melhor
descrio dos princpios bsicos. O SMART foi projetado de modo a atribuir pesos numricos
225

aos itens, a refletir a extenso com que coincidem com os enunciados de pedidos, e a
apresentar esses itens ao usurio de acordo com uma ordenao por provvel relevncia, onde
aparecem em primeiro lugar aqueles com pesos maiores. O SMART incorpora diferentes
critrios para o estabelecimento de coincidncia, inclusive a ponderao de termos, que visa a
refletir seu ndice de ocorrncia numa base de dados, coincidncia de expresses, e
coincidncia baseada em razes de palavras. Tambm possibilita a incorporao de um tesauro,
o que obtido mediante uma combinao de processamento por computador e por seres
humanos. Outro elemento essencial do SMART a retroalimentao de relevncia. Se, numa
sada preliminar, o usurio puder indicar quais os itens que so relevantes e quais os
irrelevantes, o sistema recalcular o peso dos itens da base de dados. Consegue-se isso com a
reduo dos pesos relativos s caractersticas dos itens no relevantes e o aumento dos pesos
das caractersticas relativas aos itens relevantes. Saiton (1989) descreveu como a anlise
sinttica dos textos de captulos de livros, acompanhada de processos de gerao de
expresses, pode ser aplicada produo de ndices de final de livros.
Os mtodos desenvolvidos por Salton determinam essencialmente a similaridade entre
dois textos e expressam essa proximidade como um escore numrico, uma medida de
similaridade. Nas operaes convencionais de recuperao, mede-se a similaridade entre o
texto de uma consulta e textos de documentos numa base de dados, e o escore numrico de
similaridade ser usado para ordenar a sada. Outras utilizaes podero, porm, ser dadas a
essa medida de similaridade dos textos. Por exemplo, possvel medir a proximidade de textos
de documentos, o que permitir a formao de classes de textos similares. Ver, por exemplo, o
mapa de relaes textuais da figura 111, baseado em Salton et al. (1997). Embora os seis
textos representados possam ser considerados semanticamente relacionados, alguns so
intimamente relacionados (por exemplo, 17012 e 17016 so fortemente relacionados com um
valor de 0,57), enquanto as ligaes entre outros pares so fracas (um valor de 0,09 entre
19199 e 22387 e uma ligao completamente no-significante entre 22387 e 8907). Salton et
al. propem que esses processos de medio de similaridade sejam usados para estabelecer
vnculos de hipertexto numa rede de informao. Como ser examinado mais adiante neste
captulo, podem tambm ser utilizados para medir a similaridade entre pargrafos no mesmo
texto (similaridade intradocumental) e isso poder ento ser usado como base para a
sumarizao do texto.

Figura 111 Mapa de relaes textuais baseado em Salton et al. (1997)


Reproduzido com permisso de Elsevier Science Inc. Os valores numricos expressam o
grau de similaridade entre cada par nos seis textos

Savoy (1995) lida com o estabelecimento de vnculos de hipertexto mediante aplicao


de mtodos probabilsticos. Tambm sugere que os vnculos de hipertexto sejam usados para a
obteno automtica de novos termos de busca. Por exemplo, se o item A for altamente
relevante para uma consulta e A tiver fortes vnculos de hipertexto com B, ento B poder
tambm ser relevante. Alm disso, os termos fortemente associados com B podero ser teis
para expandir mais a busca.
Outros sistemas tambm foram desenvolvidos para permitir ao usurio dar entrada a um
pedido na forma de enunciado textual. Um exemplo notvel foi o sistema CITE desenvolvido
por Doszkocs (1983), que tambm incorpora retroalimentao de relevncia. O CITE
(Computerized Information Transfer in English [Transferncia Computadorizada de Informaes
em Ingls]) tem sido empregado como interface em linguagem natural com as bases de dados
226

MEDLINE e CATLINE da National Library of Medicine. O CITE funciona numa base de dados de
registros que possuam termos de indexao (como o MEDLINE) ou numa que envolva texto
livre (por exemplo, resumos). O sistema pode remover automaticamente os sufixos das
palavras (isto , reduzir as palavras a seus radicais), atribuir automaticamente pesos aos
termos da consulta (os pesos refletem a raridade do termo: termos que ocorram raramente na
base de dados obtm peso maior) e apresentar termos possveis para que o usurio os aprove
ou rejeite. Como no SMART, os itens da base de dados recebem um escore numrico que
reflete o grau com que coincidem com o enunciado do pedido.
No CITE, os termos relacionados com aqueles empregados na consulta so identificados
somente quando a consulta houver sido processada na base de dados. A matria-prima
trabalhada o conjunto de palavras (termos) relativas aos documentos recuperados. Assim,
nos itens recuperados sobre os termos A, B e C, os termos R e T tambm podem ocorrer
freqentemente e ser teis na expanso da busca. Os termos R e T no so considerados
significativos, contudo, a menos que ocorram no conjunto recuperado com maior freqncia do
que o esperado. Assim, tambm se leva em conta a freqncia de ocorrncia de um termo na
base de dados como um todo. Por exemplo, uma base de dados de biblioteconomia apresenta
85 resumos em resposta a uma consulta simples, como avaliao de colees (que
interpretada como avaliao e colees). A palavra biblioteca ocorre em 59 desses
resumos, mas no considerada significativa, pois sua taxa de ocorrncia no conjunto
recuperado (59/85) no excede a taxa de ocorrncia na base de dados como um todo. Por
outro lado, a palavra distribuio seria considerada associada significativamente com
colees e avaliao: ainda que s ocorra em 8 dos 85 resumos, sua taxa de ocorrncia
(8/85) excede em muito sua taxa de ocorrncia na base de dados como um todo.
Uma das grandes vantagens do mtodo de Doszkocs no exigir um clculo a priori das
associaes entre termos, uma proposta desanimadora no caso de uma base de dados muito
grande. A possibilidade de obter associaes teis entre termos a posteriori (depois de a
consulta haver sido processada na base de dados), o que requer muito menos processamento
do computador, viabiliza processos de otimizao das buscas automticas em sistemas de
informao operacionais de porte muito grande. Os sistemas baseados em buscas em
linguagem natural e na ordenao por relevncia de itens recuperados encontram-se hoje
disponveis comercialmente, como veremos mais adiante.
Mtodo um pouco diferente adotado no sistema conhecido como Grateful Med (Snow et
al. 1986; Bonham & Nelson, 1988). Uma tela formatada em linha convida o usurio a formular
sua estratgia de busca. O sistema tambm sugere ao usurio termos de busca adicionais
(extrados de itens relevantes j recuperados); uma tela de ajuda oferece sugestes para
modificao de uma estratgia de busca quando esta no tiver levado recuperao de
qualquer item.
A maioria dos sistemas examinados at agora so sistemas de recuperao bastante
convencionais no sentido de que lidam com a busca de registros bibliogrficos (ou textos
bibliogrficos), embora os mtodos adotados possam no ser convencionais. Outros sistemas
foram desenvolvidos para buscas de outros tipos de dados. Um exemplo uma interface em
linguagem natural, pouco comum, descrita por Clemencin (1988), que permite a um assinante
consultar as pginas amarelas da lista telefnica em linha da Frana por meio de enunciados
de problemas do tipo Gostaria de mandar consertar uma cmara fotogrfica antiga, Preciso
contratar um motorista particular, Os limpadores de pra-brisas do meu carro esto
quebrados, ou Torci o tornozelo. Em resposta, a interface recuperar da lista informaes
sobre servios ou profissionais relevantes.
Abordagens atuais
Como foi acima sugerido, a internet provocou tremendo aumento do interesse pelas
tcnicas de recuperao em geral e pelos mtodos automticos em particular. Alguns sistemas
e processos considerados como meramente experimentais h alguns anos so hoje em dia
aplicados comercialmente.
Mencionou-se no captulo anterior que o projeto TIPSTER em muito contribuiu para o
progresso alcanado na ltima dcada em vrias atividades de processamento automtico de
texto. Este programa, bem como esforos correlatos, incluram vrias conferncias sobre
recuperao de textos [Text Retrieval Conferences (TRECS)] - a undcima delas realizada em
2002 - bem como conferncias sobre compreenso de mensagens [Message Understanding
Conferences (MUCS) e, mais recentemente, duas conferncias sobre compreenso de
documentos [Document Understanding Conferences (DUCS), em 2001 e 2002 (ver
http://www-nlpir.nist.gov/projects/duc/). As DUCs tratam da sumarizao de textos e so
227

um componente do TIDES (programa Translingual Information Detection, Extraction, and


Summarization da DARPA. Tambm houve uma importante conferncia sobre avaliao de
mtodos de sumarizao (Mani et al., 1998).
Embora o patrocnio formal do governo ao TIPSTER haja expirado em outubro de 1998
(Gee, 1999), permanece a cooperao nessas reas, inclusive com a continuao das
atividades TREC. O trabalho do TISPTER e as contribuies das TRECs em especial foram
totalmente estudados na literatura (ver, por exemplo, Harman, 1997, Sparck Jones, 1995, e
Voorhees e Harman, 1999,2000). A vertente do TRACK que trata de recuperao interativa foi
revista por Over (2001).
Contriburam tambm de forma importante para as pesquisas nessa rea as conferncias
sobre processamento de linguagem natural aplicada [Conferences on Applied Natural
Language Processing] e as conferncias internacionais sobre anlise e reconhecimento de
documentos [International Conferences on Document Analysis and Recognition].
As atividades de processamento automtico de textos relativas ao assunto deste livro
incluem indexao com auxlio de computador, indexao completamente automtica,
encaminhamento de mensagens (categorizao de textos), sumarizao e extrao de textos,
e ampliao e gerao de textos.
As pesquisas sobre indexao com auxlio de computador, em linha, aplicada a livros,
artigos e outras publicaes remontam a mais de 30 anos (ver, por exemplo, Bennett, 1969 e
Bennett et al., 1972). O auxlio em linha assume vrias formas: sugesto de termos aos
indexadores (por exemplo, com base no ttulo, resumo ou outro texto trabalhado pelo
computador a partir de termos j inseridos pelo indexador), advertncia para certos erros do
indexador (por exemplo, termos que ainda no se acham no vocabulrio do sistema ou
combinaes indevidas de termos), substituio de termos inaceitveis por termos aceitveis,
e interface com a base de dados para permitir ao indexador verificar como certos termos foram
usados anteriormente ou como certos itens foram antes indexados.
Os sistemas de indexao em linha em ambientes operacionais atuais oferecem vrios
graus de ajuda e complexidade. Por exemplo, o sistema em uso na National Library of
Medicine, o DCMS (Data Creation and Maintenance System), mostra vrias mensagens ao
indexador, como foi mencionado no captulo 3.
Sistemas de indexao com auxlio de computador mais complexos superam esses
recursos e chegam ao ponto, por exemplo, de indexar parcialmente um item ou, pelo menos,
sugerir termos ao indexador. Um deles, o CAIN, foi desenvolvido para ser usado no AGREP, a
base de dados da Comunidade Europia sobre projetos de pesquisa agrcola em curso. As
descries dos projetos incluem ttulos, resumos e termos no-controlados que indicam o
campo de ao do projeto. O CAIN compara esse texto com dois vocabulrios controlados
(AGROVOC e o CAB Thesaurus) e sugere termos candidatos extrados dessas fontes (Friis,
1992). Outros sistemas operacionais possuem recursos similares. No caso de sistemas que
funcionam com textos curtos (por exemplo, telegramas) e/ou vocabulrios controlados
relativamente pequenos, sistemas desse tipo so capazes de fazer corretamente grande parte
da indexao antes de o indexador humano fazer a reviso para corrigir ou acrescentar o que
for preciso.
No Center for Aero Space Information (CASI) da NASA existe um sistema totalmente
operacional, em grande escala, de indexao com auxlio do computador, que foi descrito por
Silvester et al. (1994) e Silvester (1998). Uma base de conhecimento constituda de expresses
que podem ocorrer na literatura aeroespacial (128 000 entradas em 1998) empregada para o
estabelecimento de ligaes com os termos do tesauro da NASA. Isto , a ocorrncia dessas
expresses em texto de entrada (normalmente ttulos e resumos) leva o sistema a produzir
uma lista de descdtores candidatos que sero revistos pelo indexador. No CASI, trabalhos
relacionados com esse desenvolveram procedimentos para ligao com os termos do tesauro
da NASA dos termos atribudos a registros por outras agncias e com o emprego de outros
vocabulrios (Silvester et al., 1993).
Ainda perdura um grande interesse pela indexao automtica destinada a pequenas
aplicaes especializadas, particularmente no campo biomdico. Em um exemplo (Borst et al.,
1992), o texto de resumos de alta de pacientes analisado, a fim de atribuir automaticamente
os descritores clnicos relevantes. De certa forma parecido com esse sistema o descrito por
Oliver e Altman (1994), que analisar pronturios mdicos e a eles atribuir termos da
SNOMED (Systematized Nomenclature of Human and Veterinary Medicine).
Embora se reivindique um nvel razovel de desempenho para esse tipo de indexao por
atribuio em reas especializadas, esses processos automticos geralmente no conseguem
alcanar o nvel de desempenho obtido por indexadores humanos (ver, por exemplo, Chute e
Yang, 1993). No obstante, esse tipo de indexao automtica poder reduzir a carga de
228

trabalho dos indexadores humanos ao fazer uma atribuio preliminar. Rindflesch e Aronson
(1994) analisam alguns dos problemas de ambigidade presentes na ligao do texto com
vocabulrios mdicos (neste caso, o Unified Medical Language System) e apresentam vrias
regras de desambiguao.
Est longe de se materializar a indexao por atribuio completamente automtica (isto
, sem qualquer interveno humana) de textos que tenham a extenso de artigos e que
tratem de assuntos complexos (por exemplo, em medicina, qumica ou fsica), especialmente
quando o vocabulrio controlado utilizado for muito grande, e por isso foram empreendidas
pesquisas para obter sistemas especialistas mais complexos para ajudar o indexador. Um
exemplo marcante foi o MedIndEx, que a National Library ofMedicine desenvolveu durante
muitos anos (Humphrey, 1992). Trata-se de uma abordagem convencional de um sistema
especialista baseado em quadros [frame-based). O usurio, que no precisa ser um indexador
experiente, mas deve pelo menos ter alguma noo da literatura mdica e sua terminologia,
guiado para vrios quadros relevantes (por exemplo, tipo de doena, tipo de tratamento) e
solicitado a preench-los. O sistema pode instar o indexador a atribuir determinado termo e
tambm corrigi10 quando o termo for empregado de modo inapropriado. Por exemplo, o
indexador que atribuir um termo em que aparea a palavra neoplasia (cncer) com indicao
da localizao da doena (por exemplo, neoplasia ssea) pode ser lembrado a atribuir um
termo associado que representa o tipo histolgico da neoplasia (por exemplo,
adenocarcinoma). Ou o indexador que atribuir uma combinao imprpria, como fmur e
neoplasias sseas, poder ser informado do termo correto, neste caso neoplasiasfemorais. O
MedlndEx foi abandonado em favor de pesquisas sobre mtodos mais totalmente automticos.
Outros sistemas especialistas foram desenvolvidos para auxiliar no treinamento de
indexadores ao invs de ajudar no processo de indexao de forma rotineira; um sistema desse
tipo - CAIT (Computer- Assisted Indexing Tutor) foi desenvolvido na National Agricultural Library
(Irving, 1997).
Qualquer sistema informatizado que auxilie no trabalho de indexao temtica pode ser
visto como um sistema especialista, pelo menos no sentido mais lato do termo, principalmente
se ajudar uma pessoa menos experiente a se aproximar do trabalho de um indexador
especializado. E sistemas que sugerem termos aos indexadores ou corrigem certos erros deles
podem ser vistos como sistemas que tm pelo menos um tantinho de inteligncia.
Alguns sistemas ou programas descritos na literatura so citados como artificialmente
inteligentes. Encontram-se exemplos em Driscoll et al. (1991) e Jones e Bell (1992). Os dois
ltimos autores descrevem um sistema projetado para extrair palavras ou expresses de
textos, a fim de formar entradas de ndices. Seu funcionamento, em grande parte, baseia-se
em listas armazenadas: de palavras a serem ignoradas, palavras/expresses/nomes de
reconhecido interesse, e listas auxiliares para desambiguao de homgrafos, para fundir
formas do singular/plural e para permitir uma anlise simples (lista de terminaes de
vocbulos). As listas so combinadas para formar um dicionrio, que tambm inclui
informaes que permitem outros recursos, como, de modo limitado, indexao tanto com os
termos especficos quanto com os mais genricos [generic posting].
O sistema descrito por Driscoll et al. tambm se destina a encontrar no texto termos de
indexao teis. O texto processado em cotejo com uma lista de mais de 3 000 expresses. A
ocorrncia de uma delas no texto aciona o uso de regras de insero e eliminao. As regras de
eliminao simplesmente evitam novo processamento de palavras ou expresses que sejam
ambguas, enquanto as regras de insero podem gerar, por implicao, um conjunto limitado
de termos procurados (para completar um padro). Por exemplo, as palavras time, over e
target [tempo, sobre, alvo] geraro AIR WARFARE [guerra area], se aparecerem distncia
de x palavras uma da outra. Malone et al. (1991) apresentam um modelo estatstico para
previso do desempenho deste sistema.
Sistemas como os do tipo descrito por Driscoll et al. e por Jones e Bell so engenhosos.
So capazes de realizar indexao por extrao, ou extrao com atribuio limitada, em nvel
comparvel ao alcanado por indexadores humanos e por um custo menor. No mnimo, so
teis para apresentar termos candidatos que sero revistos por seres humanos. Todavia, no se
pode realmente concordar que apresentem inteligncia verdadeira. O mesmo se pode dizer dos
programas que desenvolvell1 tesauros e outros recursos auxiliares de busca com base na coocorrncia de termos (por exemplo, Chen et al. 1995).
Continuam a aparecer na literatura pesquisas destinadas a identificar melhores critrios
de associao estatstica para a atribuio de termos de vocabulrios controlados, com base
nas ocorrncias de palavras no texto. Plaunt e Norgard (1998), por exemplo, descrevem
experincias com a atribuio de termos do tesauro INSPEC com base numa tcnica de
colocao lexical.
229

A National Library of Medicine (NLM) investe atualmente expressivos recursos no


desenvolvimento de processos para atribuir automaticamente a artigos de peridicos os
cabealhos do Medical Subject Headings (MeSH). Isso est se tornando uma necessidade
crtica, devido ao volume de processamento: cerca de 400 000 artigos por ano de cerca de 4
300 peridicos biomdicos, com mais de 19 000 termos nos vocabulrios MeSH. O problema
abordado pela NLM Indexing Initiative. Aron-son et al. (2000) assim a justifica:
medida que um nmero cada vez maior de documentos torna-se disponvel em formato
eletrnico e mais organizaes desenvolvem bibliotecas digitais para seus acervos, passam
a ser necessrias tcnicas automatizadas para acessar as informaes. No possvel
indexar manualmente cada documento, e novos mtodos devem ser desenvolvidos. Essas
consideraes levaram a promover na biblioteca a Indexing Initiative. Mtodos
automatizados desenvolvidos e implementados nesse projeto tero um impacto importante
na capacidade de a NLM continuar oferecendo servios de alta qualidade a seu pblico (p.
17).

Trs mtodos principais de indexao automtica esto sendo pesquisados na NLM. Cada
um deles pode gerar uma lista de candidatos a cabealhos de assuntos ordenada por
relevncia provvel; alternativamente, a ordenao pode ser obtida pela combinao de dois
mtodos ou, efetivamente, todos trs. Dois desses mtodos envolvem a ligao com os termos
do MeSH de expresses presentes nos ttulos dos artigos e nos resumos. O Unified Medical
Language System utilizado como ferramenta para o estabelecimento dessas ligaes (ver
tambm Wright et al., 1999, e Aronson, 2001). O terceiro mtodo obtm os termos candidatos
mediante o cotejo das palavras, do ttulo e do resumo, de um artigo novo com as palavras
que ocorrem no ttulo e no resumo de artigos j indexados. Os termos atribudos aos artigos
coincidentes tornam-se candidatos para atribuio ao novo artigo.
Humphrey (1999) estudou a relao entre as palavras do texto em ttulos e resumos de
artigos mdicos e a categoria de assunto do peridico onde apareciam. Por exemplo, se certo
grupo de palavras-chave estiver fortemente associado categoria cardiologia, porque
ocorrem freqentemente em peridicos de cardiologia, o termo CARDIOLOGIA ser
automaticamente atribudo a qualquer texto onde ocorra esse grupo de palavras-chave.
Embora essa categorizao genrica no seja adequada para muitas finalidades, poder ter
aplicaes prticas. Por exemplo, poderia ser adotada para categorizar automaticamente stios
biomdicos existentes na Rede (Humphrey, 2000; Humphrey et al., 2003).
Outros grupos de pesquisadores, sem afiliao com a National Library of Medicine,
desenvolveram mtodos de indexao automtica por atribuio em biomedicina. Roberts e
Souter (2000) descrevem tcnicas para atribuio de descritores baseadas em seqncias de
palavras de ttulos de artigos e ocorrncias de palavras em resumos ( preciso que uma
palavra-chave ocorra pelo menos trs vezes para ser considerada importante). Depois de haver
processado 100 registros, a atribuio automtica de descritores foi comparada com
descritores atribudos por seres humanos. Os mtodos automticos omitiram muitos
descritores que as pessoas atriburam corretamente e acrescentaram muitos que no deviam
ter sido atribudos, embora tambm hajam acrescentado uma mdia levemente superior a um
descritor por registro que os seres humanos deveriam ter atribudo mas no o fizeram. Dos 5,5
descritores por registro atribudos automaticamente, apenas 3,5 foram julgados corretos. As
condies em que trabalharam eram muito simples em comparao com as do MEDLINE (por
exemplo, um vocabulrio muito menor e muito menos termos atribudos por item) o que serve
para dar uma idia dos grandes problemas envolvidos na tentativa de automatizar totalmente
a indexao por atribuio no ambiente de uma base de dados real.
Bradshaw e Hammond (1999) descrevem um sistema em que as citaes que uma
publicao faz de outra podem levar extrao de texto que seria uma descrio til para
recuperao. Isto , se a publicao A cita a publicao B, A talvez inclua texto que indica do
que trata B ou, pelo menos, do que acha que B trata. Por exemplo, um trabalho de Harpring
(2002) cita um livro de Panofsky e afirma:
Panofsky identificou trs nveis principais de significado na arte: descrio pr-iconogrfica,
identificao iconogrfica, e interpretao iconogrfica ou iconologia.

claro que este texto oferece alguns termos de indexao teis para Panofsky:
significado, arte, iconografia, iconologia e assim por diante. O mtodo curioso, mas difcil
perceber nele alguma aplicao prtica, exceto, talvez, para uma base de dados de textos em
rea temtica altamente especializada. Os exemplos de buscas bem-sucedidas usados por
Bradshaw e Hammond (em consultas sobre Java e common Lisp) so bastante comuns,

230

principalmente porque resultados iguais teriam sido obtidos com buscas de palavras-chave nos
ttulos.
Woodruff e Plaunt (1994) descrevem um sistema singular para indexao geogrfica
automtica. Destina-se a:
[...] extrair de documentos nomes de lugares e tambm indicadores geogrficos mais
genricos, e utilizar a interseo desses referentes para gerar estimativas da rea qual se
refere um documento (p. 648).

Nomes de lugares identificados no texto podem ser cotejados com uma base de dados
que fornecer coordenadas de latitude/longitude e tambm caractersticas correlatas, como
floresta, reserva, porto e pntano.
Parece provvel que, pelo menos na maior parte das aplicaes, sempre haver itens que
no podem ser indexados automaticamente. Ribeiro-Neto et al. (2001), por exemplo,
descrevem processos para atribuio automtica de categorias da Classificao Internacional
de Doenas (CID) a pronturios mdicos. O texto dos pronturios cotejado com termos
relativos a cada uma das categorias e subcategorias da CID (extradas de seu ndice, junto com
dicionrios de sinnimos e siglas). Com base na indexao de mais de 20 000 pronturios, os
autores afirmam que obtiveram resultados excelentes. Embora muito poucos dos cdigos
atribudos fossem julgados errados, mais de 3 000 registros no receberam o cdigo ideal.
Desses, 918 no receberam cdigo algum (isto , o algoritmo no conseguiu index-los), que,
na grande maioria, asseveram os autores, representam casos que somente podem ser
inteiramente categorizados com auxlio humano (porque, por exemplo, exigem o conhecimento
especfico de determinada patologia).
Continuam as pesquisas na rea de indexao semntica latente. Anderson e PrezCarballo (2001) descrevem o mtodo da seguinte forma:
A indexao semntica latente (ISL) um dos mais elaborados esforos atuais visando a uma
indexao automtica de alta qualidade. Fundamenta-se em agrupamentos de termos
baseados em co-ocorrncia e identificao de documentos relativos a tais agrupamentos. Ao
se apoiar em dados de co-ocorrncia a ISL tambm consegue lidar com o problema da
variedade de termos que expressam idias semelhantes. [...]
Como exemplo da capacidade de a ISL lidar com terminologia divergente, imaginemos
documentos sobre conserto e manuteno de automveis. Documentos diferentes usaro
vrios termos diferentes como automvel, carro, veculo automotor, sed, alm dos
nomes de marcas e modelos - Buick, Plymouth, Cherokee. O programa ISL, mui
provavelmente, relacionar esses termos entre si devido ao alto nvel de co-ocorrncia com
termos como leo, gasolina, combustvel, carburador, pneus, ar-condicionado, etc. O
programa cria agrupamentos de termos altamente relacionados (por meio da co-ocorrncia),
de modo que, quando um nmero suficiente deles ocorre num documento, este pode ser
ligado ao agrupamento respectivo. Assim, possvel fazer buscas sobre cuidado e
manuteno de carburadores de automveis a gasolina sem nos preocuparmos com as
palavras especficas usadas para automvel. Todas as palavras que significam mais ou
menos o mesmo que automvel sero ligadas ao mesmo agrupamento, medida que um
nmero suficiente de outros termos co-ocorrentes coincidir com os termos do agrupamento
(p. 266).

Na realidade, a indexao semntica latente no de fato um mtodo de indexao, mas


uma maneira de desenvolver automaticamente uma estratgia de busca para produzir termos
semanticamente relacionados. Por exemplo, o termo A estar um tanto relacionado com o
termo Y se ambos ocorrerem freqentemente com o termo Q. Com esse mtodo, poder-se-
recuperar documentos possivelmente relevantes cujos termos de indexao diferem dos
termos da consulta mas esto estatisticamente relacionados a ele. Segundo Gordon e Dumais
(1998):
Na prtica, isso significa que dois documentos que usam vocabulrios com alto grau de
duplicidade podem ser ambos recuperados mesmo que a consulta somente empregue os
termos que indexam um deles. Igualmente, termos sero considerados prximos uns dos
outros se ocorrerem em conjuntos de documentos coincidentes (p. 677).

Analisam o emprego desse mtodo como uma maneira de identificar literaturas


desconexas (ver, por exemplo, Swanson, 1990): a literatura A estar relacionada com a
literatura Y se os termos de indexao de A forem similares aos de Q e os de Y forem tambm
semelhantes aos de Q, embora os termos conectivos em cada caso sejam diferentes. Notem-se
as semelhanas entre a indexao semntica latente e a recuperao associativa descrita
muito antes por Stiles (1961).
231

Um importante elemento no processamento automtico de texto o reconhecimento e


extrao de expresses que provavelmente sejam bons indicadores de contedo. As
expresses extradas podem ser empregadas como termos de indexao, ser listadas para
formar um tipo de resumo, ou usadas para ligar os termos de um vocabulrio controlado.
Foram investigados muitos mtodos.
Kim e Wilbur (2001) estudaram trs diferentes mtodos estatsticos para a seleo de
expresses portadoras de contedo no texto, comparou-as e avaliou seu emprego conjunto na
extrao de expresses.
Goodby (2001) comparou a extrao de expresses por meio de processos lingsticos
(anlise sinttica para identificar sintagmas nominais com extrao baseada em estatstica de
freqncia, e chegou concluso de que o mtodo mais simples de freqncia apresenta
resultados to bons quanto os do mtodo de anlise sinttica). O mtodo estatstico pode
identificar pares de palavras que ocorrem freqentemente num corpus, sua freqncia num
documento e sua ocorrncia no documento em expresses mais longas (Goodby e Reighart,
2001).
Os processos de indexao automtica relacionam-se muito de perto com os processos
de categorizao de textos (ou melhor, classificao de textos). 1 Em essncia, vrias
caractersticas de um texto, especialmente a ocorrncia de diversas palavras ou expresses,
so empregadas pelo computador para colocar esse texto numa ou vrias categorias
preestabelecidas. A origem conceitual disso est nos programas que foram desenvolvidos para
a disseminao seletiva de informaes (DSI). Nesta, as caractersticas de itens publicados
recentemente so cotejadas com os perfis de interesse de pessoas ou grupos. Ao ocorrer uma
coincidncia de determinado valor, o item selecionado ser levado ao conhecimento da pessoa
ou grupo. Esse tipo de servio de notificao corrente remonta, de fato, a 1959.
Esse cotejo de documentos recebidos com os perfis de interesses armazenados no
sistema designado filtragem e encaminhamento no ambiente TREC. Robertson (2002) faz
uma reviso desse componente das pesquisas TREC.
Uma aplicao importante do encaminhamento a categorizao de notcias recebidas.
O sistema CONSTRUE, desenvolvido para a Reuters Ltd., classifica uma seqncia de notcias
com o emprego de um esquema de at 674 categorias (Hayes e Weinstein, 1991; Hayes,
1992a). Chen et al. (1994) descrevem processos para identificao de conceitos que ocorrem
no texto de reunies eletrnicas; neste caso, os conceitos so identificados pelos
procedimentos ao invs de serem preestabelecidos. Yang (1999) comparou o desempenho de
vrios mtodos de categorizao de texto, valendo-se de diferentes critrios de avaliao, em
diversas colees de telegramas de notcias da Reuters.
A categorizao automtica de texto est incorporada a muitos sistemas operacionais de
publicao. Encontra-se um bom exemplo no trabalho de Al-Kofahi et al. (2001). A aplicao
inclui a atribuio de ementas de casos jurdicos a um esquema de classificao baseado em
mais de 13 000 conceitos legais. A cada semana so produzidas cerca de 12 000 ementas. A
categorizao baseia-se fundamentalmente nos substantivos e pares de substantivosubstantivo, substantivo-verbo e substantivo-adjetivo que ocorrem no texto da ementa,
cotejados com os substantivos/pares de substantivos relativos a cada categoria. A atribuio
no completamente automtica - os processos resultam em sugestes de categorizao que
so examinadas por uma equipe editorial. Afirma-se que os processos automticos se
comparam favoravelmente com os procedimentos manuais, que substituem, em termos da
quantidade de ementas processadas por semana. Para um ingresso semanal de 12 000
ementas a categorizao automtica faz cerca de 1 600 sugestes, 900 das quais so aceitas,
170 recusadas e 530 no so adotadas por razes editoriais (a preciso estimada em 89% 1430/1600).
H atualmente programas de computador que realizam algum nvel de classificao
automtica de recursos da Rede (Trippe, 2001; Reamy, 2002). Reamy, que trata o processo
como autocategorizao, resume algumas das abordagens:
A primeira e melhor coisa que um programa de autocategorizao pode fazer examinar
com muita rapidez cada palavra do documento e analisar as freqncias de padres de
palavras e, com base numa comparao com a taxonomia existente, atribuir o documento a
determinada categoria dessa taxonomia.
Outras coisas que esto sendo feitas com esse programa so agrupamento ou construo
de taxonomia em que o programa simplesmente apontado para uma coleo de
documentos, por exemplo de 10 000 a 100 000, e ele pesquisa em todas as combinaes de
palavras em busca de aglomerados ou agrupamentos de documentos que paream ser da
mesma classe (p. 18).
1

Ver Guthrie et al. (1999) para uma anlise dos critrios de freqncia na categorizao de textos.

232

Trippe menciona diversos produtos desse tipo, inclusive um da empresa Eprise que
assim descrito:
De acordo com Hank Barnes, vice-presidente de estratgia da Eprise, Um aspecto
importante para tornar os contedos mais eficazes so as metaetiquetas de classificao.
Elas permitem aos usurios de contedos encontrar mais facilmente informaes relevantes
e obter informaes mais profundas sobre assuntos especficos. Barnes observa que a Eprise
utiliza esses tipos de etiquetas para localizar informaes de modo dinmico em resposta a
aes dos usurios, como seguir determinado caminho num stio da Rede. Acrescenta
Barnes, Com freqncia, esse mtodo de fornecimento de contedos que se baseia em
classificao muito mais eficaz do que buscas em texto completo ou de utilidade geral (p.
46).

Kwon e Lee (2003) tambm tratam da classificao de stios da Rede, enquanto Lawrence
et al. (1999) descrevem procedimentos para citao automtica de literatura cientfica na
Rede.
Os processos de categorizao de textos at agora descritos representam formas de
classificao automtica, isto , a atribuio de itens a classes ou categorias preestabelecidas.
Ao longo dos anos, foram feitos estudos sobre a automao do tipo de classificao com o qual
os bibliotecrios esto mais familiarizados, a saber, a atribuio de nmeros de classificao a
livros, mas disso no resultaram sistemas totalmente operacionais. Iyer e Giguere (1995)
fizeram estudo sobre o desenvolvimento de um sistema especialista que estabelecesse ligao
entre um sistema de classificao e outro, no caso especfico do esquema de matemtica da
American Mathematical Society para a classe de matemtica da Classificao Decimal de
Dewey. Afirmam que Uma interface que permita aos matemticos ter acesso aos acervos de
bibliotecas organizados pela Classificao Decimal de Dewey valendo-se do esquema da AMS
como interface ser certamente til. Esse tipo de aplicao, porm,. parece de utilidade muito
limitada.
De interesse mais amplo seria um sistema interativo que ajudasse na atribuio real de
nmeros de classificao. Alguns trabalhos nessa linha j foram realizados, mas no em escala
muito grande. Por exemplo, Gowtham e Kamat (1995) desenvolveram um prottipo de sistema
de classificao no campo da metalurgia com o emprego da Classificao Decimal Universal
(CDU). Embora muito menos ambicioso e complexo do que o sistema MedIndEx antes descrito,
o prottipo que descrevem funciona de maneira semelhante, pois sugere ao usurio construir
um nmero de classificao que contenha todas as facetas necessrias (tipo de metal,
propriedade, tipo de processo adotado, e assim por diante). Cosgrove e Weimann (1992)
tambm examinam uma abordagem de sistema especialista na utilizao da classificao pela
CDU, porm de uma perspectiva terica. No existe qualquer indcio de que algum sistema,
mesmo em carter experimental, haja sido implementado.
Importantes trabalhos sobre classificao automtica foram realizados no OCLC. O
projeto Scorpion, no GCLC, efetuou experincias com a classificao automtica de pginas da
Rede com o emprego da Classificao Decimal de Dewey (Thompson et al., 1997). A atribuio
baseava-se no cotejo de texto da Rede com as definies textuais dos nmeros de classificao
da CDD, mediante o uso de algoritmos desenvolvidos para utilizao no sistema SMART de
Salton.
Antes, Larson (1992) testou, em pequena escala, a atribuio automtica de nmeros de
classificao da Library of Congresso Seu objetivo era diferente: a atribuio automtica de um
nico nmero a um livro com base nos ttulos e cabealhos de assuntos presentes nos registros
MARC. Assim como no estudo feito pelo GCLC, seu algoritmo ordenava os nmeros de
classificao em ordem de probabilidade de correo. Larson concluiu que talvez no fosse
possvel uma classificao totalmente automtica, mas uma classificao semi-automtica. Isto
, o programa produziria uma lista de nmeros candidatos (os de mais alta pontuao) da qual
o classificador selecionaria o que fosse mais apropriado.
Pesquisas sobre classificao automtica tambm so feitas em campos completamente
diversos. Por exemplo, Bailin et al. (1993) examinaram trabalhos sobre classificao de
componentes de programas de computador (para um repositrio de programas reutilizveis);
afirmam que houve caractersticas de aprendizado, de mquina. Savi (1995) lida com as
possibilidades de classificao automtica de correspondncia administrativa.
Em vrios centros de pesquisa, fora do campo da biblioteconomia, cincia da informao,
tm prosseguimento trabalhos sobre a construo automtica de tesauros. As ferramentas
assim construdas, embora, de fato, possivelmente revelem relaes teis entre termos, so

233

muito menos estruturadas do que os tesauros criados por seres humanos. Encontram-se
exemplos em Gao et al. (1995), Chen et al. (1995) e Lu et al. (1995).
Embora a indexao assistida por computador possua uma longa histria, a redao de
resumos assistida por computador (ao contrrio dos mtodos totalmente automticos) tem
recebido muito pouca ateno. Craven (2000, 2001), no entanto, descreveu um sistema que
gerar automaticamente palavras-chave ou expresses a partir de texto completo e as exibir
em janelas para ajudar quem estiver preparando um resumo para esse texto. As expresses
so escolhidas com base num escore numrico que reflete o nmero de palavras-chave
freqentes na expresso, o tamanho da expresso e o nmero de vezes em que ela ocorre. Os
sujeitos de sua experincia julgaram que as expresses extradas no eram mais teis do que
as palavras-chave na redao dos resumos.
A denominao redao automtica de resumos cedeu lugar denominao
sumarizao de textos. Na realidade, nenhum grupo de pesquisa conseguiu produzir
automaticamente o tipo de resumo que uma pessoa consegue redigir. A sumarizao
automtica ainda uma questo de seleo de frases e o objetivo das pesquisas nesta rea