Escolar Documentos
Profissional Documentos
Cultura Documentos
Curso de Indexação
Curso de Indexação
CURSO DE INDEXAÇÃO
Princípios e técnicas de indexação, com vistas à
recuperação da informação
Belo Horizonte
2004
2
Sumário
2 O INDEXADOR
O profissional da informação que desenvolve a atividade de indexar assuntos de
documentos é chamado de indexador, catalogador de assuntos ou classificador. A maioria
desses profissionais é graduado em Biblioteconomia, e deve conhecer os fundamentos
teóricos e técnicos do tratamento temático da informação.
Um dos fatores que interferem no trabalho do indexador é a subjetividade, inerente ao ser
humano e difícil de ser controlada. Vários outros fatores são verificados, ainda, como
interferentes no processo de indexar, como o conhecimento prévio (conhecimento de
mundo, conhecimento tácito) adquirido ao longo da vida, a sua formação e a experiência no
trabalho de indexação. No entanto, o conhecimento da área de atuação é um fator
importante a ser considerado, já que o domínio da terminologia e o conhecimento da
taxonomia das classes de assuntos da área em que está atuando, auxiliam muito o trabalho
de se extrair o conteúdo de documentos.
Observa-se, ainda, a interferência de fatores lingüísticos, (como o conhecimento da língua,
do vocabulário e da sintaxe, além da identificação de tipos de estruturas textuais), fatores
cognitivos (capacidade de abstração, percepção e interpretação de informações contidas nos
textos analisados) e fatores lógicos (elementos de dedução, indução, inferência, silogismo e
outros), o que torna o estudo do processo de indexação altamente interdisciplinar.
3 O PROCESSO DE INDEXAÇÃO
No campo do tratamento da informação, o termo indexação apresenta dois sentidos: um
mais amplo, quando se refere à atividade de criar índices, seja de autor, de título, de
assunto, tanto de publicações (livros, periódicos), quanto de catálogos ou de banco de
5
Diante disso, o que poderia ser afirmado com relação à leitura para fins documentários?
Existe algum modelo a ser seguido? E com relação ao leitor/indexador?
Um documento, inserido num SRI, antes de ser lido pelo leitor, usuário final do sistema, é
lido por um leitor técnico, o indexador, aquele que faz a leitura para fins documentários.
Esse tipo de leitura, conhecido como leitura documentária ou leitura técnica, tem certas
características, não sendo realizada para lazer ou aprendizagem, nem é prazerosa, muito
pelo contrário. O alto grau de incerteza , ansiedade e responsabilidade contido na atividade
já mostra que a mesma traz pouca satisfação. É um tipo de leitura bem racional e rápido,
em que o leitor técnico não tem chances de aproveitar a leitura, já que seu propósito é o de
extrair o conteúdo informativo do texto, tendo em vista a sua posterior recuperação por um
leitor interessado.
Outro aspecto que merece ser ressaltado é que o autor do texto, ao escrevê-lo, tem em
mente um determinado leitor alvo para o qual direciona suas idéias; suas intenções não são
dirigidas para o leitor/indexador e não lhe interessa se esse vai ter capacidade para
interpretar as informações que aquele texto está veiculando.
São várias as tentativas de se estabelecerem alguns critérios e de sistematizar o processo de
leitura do indexador, mas não há um consenso quanto à forma mais adequada de se fazer
essa leitura, visando à extração e ao posterior tratamento das informações contidas no texto.
Quando indexamos um documento por assunto, nós o colocamos em uma ou mais classes, e
cada classe deve ter um número ou rótulo, que são chamados termos indexadores. O
conjunto desses forma a linguagem de indexação.
Há dois métodos fundamentais de indexar o assunto de documentos:
a) Indexação por palavras – utiliza termos empregados pelo autor na apresentação das suas
idéias, isto é, as palavras encontradas nos títulos ou nos textos dos documentos
Ex: A palavra mandioca traduz uma determinada idéia, um dado conceito, que também
pode ser expresso pelas palavras aipim, macaxera.
Uma indexação por palavras registrará os documentos pelos termos utilizados pelos
autores, ou seja, na linguagem natural. O sistema indexará um documento sobre mandioca
e outro sobre aipim ( linguagem natural). Um exemplo típico de indexação por palavra é o
índice KWIC (Key Word in the Context), que utiliza títulos dos documentos. O que
acontece na recuperação de um documento cujo título é “Feijão, angu e couve”? A
recuperação só pode ser feita através dessas palavras, mas o assunto do documento é
“Costumes mineiros”. O que acontecerá com a recuperação deste documento?
b) Indexação por conceitos – a indexação por conceitos pressupõe a análise de assunto do
documento, a decisão sobre conceitos presentes no texto e a tradução destes em
linguagem apropriada. Na indexação por conceitos, determinam-se os cabeçalhos a
empregar, distinguem-se homônimos, controlam-se sinônimos, prevêem-se relações de
eqüivalência, hierárquica e associativa.
É importante ressaltar que o indexador deve estar familiarizado com a linguagem utilizada
no SRI, embora esta linguagem não deva influenciar a análise de assunto dos documentos.
3.3.1 Objetivos:
- possibilitar que o indexador represente os assuntos dos documentos de forma
consistente;
- compatibilizar o vocabulário usado pelo usuário com o vocabulário usado pelo
indexador;
- permitir ao usuário moldar a estratégia de busca de forma a obter alta revocação ou alta
precisão, conforme o exigirem as circunstâncias.
dos textos, pelos indexadores, e pelos usuários ao consultar o índice. Por exemplo, o
vocabulário do sistema usa o termo TESTE DE INTELIGÊNCIA.
Porém, o assunto pode ser procurado por:
TESTES MENTAIS – termo sinônimo
TESTES PSICOLÓGICOS – termo mais geral (abrangente)
TESDE DE APTIDÃO – termo mais especifico
DESENVOLVIMENTO MENTAL – termo relacionado
Estes termos constituem o vocabulário de abordagem.
Se dividem em:
a) de acordo com a apresentação dos assuntos: enumerativos - procuram indicar todos os
assuntos e todas as combinações possíveis entre eles e apresentar os símbolos que os
representam prontos para ser usados. Ex: .Classificação Decimal de Dewey (CDD); e os
analítico-sintéticos – ou facetados - apresentam listas de assuntos – facetas –
acompanhados de símbolos e deixam ao classificador a tarefa de combinar os símbolos
para apresentar os assuntos compostos. Ex: Colon Classification (Classificação de Dois
Pontos) e Bliss Classification.
b) de acordo com a abrangência: gerais – todas as classes do conhecimento. Ex:
Dewey, CDU, Colon, LC; e especiais - classes especiais de assunto – Ex: Coates (Música)
Este controle pode ser feito através de coordenação de conceitos no ato da indexação ou no
momento da recuperação. São as chamadas linguagens pré e pós coordenadas.
3.3.7.3 Desvantagens:
- dificuldade na representação dos diferentes sentidos do termo, e das relações entre os
termos;
- ordem fixa: os termos somente podem ser listados numa determinada seqüência;
- pouca flexibilidade na busca: é quase impossível fazer a combinação entre os termos no
momento da busca;
- tamanho e custo: o uso da “entrada múltipla” encarece o sistema e aumenta o tamanho
do índice
Exemplos de linguagens pré-coordenadas: listas de cabeçalhos de assunto (Library of
Congress, Rovira, Wanda Ferraz), os índices permutados, os índices em cadeia e as
classificações bibliográficas. (Classificação Decimal de Dewey, Classificação Decimal
Universal).
Opções de ordem de citação são dadas por teóricos da área, como Kaiser (1911) – “o
concreto, depois o processo” – Indexação de livros, seria Livros - Indexação; por Coates
(1960) – Coisa – Parte – Material – Ação. Uma das opções, é a utilização das Cinco
19
- pesos iguais para os termos: todo termo atribuído a um documento tem peso igual,
nenhum sendo mais importante que o outro.
3.3.8.2 Vantagens:
- independência da ordem de citação;
- permissão de uma maior revocação;
- mais eficiência, melhorando a qualidade e diminuindo o custo nas buscas
automatizadas.
3.3.8.3 Desvantagens:
- eficiência ligada à automação: as linguagens de indexação pós-coordenadas são
consideradas mais eficientes apenas quando usadas em sistemas automatizados;
- combinação dos termos somente na saída, podendo-se obter associações falsas e
incorretas;
- oferecimento de baixa precisão.
Exemplos de linguagens pós-coordenadas: Tesauros (descritores), o Sistema Unitermo
Nesse contexto, surgem dois conceitos que possibilitam também a avaliação de uma LI: a
revocação e a precisão. Revocação é o coeficiente entre o número de documentos inseridos
no sistema versus o número de documentos relevantes recuperados pelo usuário, e a
precisão é o coeficiente entre o número de documentos inseridos no sistema e a precisão da
busca. Ex. Para a busca de documentos sobre Escultura, se o termo de busca for Artes,
haverá alta revocação e baixa precisão, pois serão recuperados documentos que falam de
escultura, mas não só sobre este assunto. Ao passo que, se a busca for feita pelo próprio
termo Escultura, a revocação será baixa e haverá uma alta precisão, pois só serão
recuperados documentos sobre Escultura.
Pesquisas mostram que um maior grau de especificidade eleva a taxa de precisão e baixa a
de revocação; ao contrário, um aumento de exaustividade, eleva a taxa de revocação,
baixando a de precisão.
REFERÊNCIAS