Escolar Documentos
Profissional Documentos
Cultura Documentos
Em 1951, Calvin Mooers criou o termo “Informatio Retrieval” (Recuperação de Informação) e definiu
os problemas a serem abordados por esta nova disciplina. Para o autor “a recuperação trata dos
aspectos intelectuais da descrição da informação e sua especificação para busca, e também de qualquer
sistema, técnicas ou máquinas que são empregadas para realizar esta operação” (MOOERS, 1951 apud
FERNEDA, 2003, p. 11).
Uma série de falhas pode ocorrer no processo de indexação e influir nos resultados de uma busca.
Quando um indexador atribui a um documento o termo A quando deveria ser atribuído o termo B,
ocorrerão falhas na revocação e na precisão.
Nos últimos anos, diversas ferramentas têm sido estudadas, e algumas empregadas com sucesso, para a
organização da informação e do conhecimento em sites na Internet, incluindo sistemas de
classificação, tesauros e o método de análise de facetas.
Na indexação, a condição para obter resultados positivos na busca da informação é que a pergunta e
a resposta sejam formuladas no mesmo sistema.
Surgiu na década de 1940, quando foram implantados com a utilização de vários tipos de fichas. Um
sistema informatizado moderno, funcionando em linha, pode ser visto como um descendente direto
desses sistemas manuais.
Os índices impressos e os serviços de notificação corrente podem ser derivados de uma base de dados
que, por exemplo, esteja instalada em um dos hospedeiros em linha, ou seja, mantida dentro de uma
organização com a ajuda de um sistema de gerenciamento de informações textuais, são, portanto,
produtos de bases de dados.
Os índices impressos são, por definição, produtos impressos, porém o usuário também pode optar por
notificações gravadas em disquetes, em CD-ROM ou exibidas numa tela. O teletexto e o videotexto
são tecnologias alternativas que oferecem acesso em linha de base de dados. (ROWLEY, 1994, p. 205)
Segundo Lancaster (1993), os índices impressos e os catálogos em fichas são pré-coordenados; suas
características são as seguintes:
É difícil representar a multidimensionalidade das representações entre os termos;
Os termos podem somente ser listados numa determinada seqüência (a, b, c, d, e), o que implica que
o primeiro termo é mais importante do que os outros;
Não é fácil (senão complemente impossível) combinar termos no momento em que se faz a busca.
Originalmente, a produção de índice será uma operação isolada, mas, hoje em dia, muitos índices
constituem simplesmente uma série de produtos (ROWLEY, 1994, p. 205).
Existem vários pontos de acessos diferentes em índices impressos, dentre estes, o de assunto e de autor,
são considerados os mais importantes, os outros caracterizados como sendo possíveis pontos de acesso
são: as formulas química, nomes comerciais, nomes de empresas e números de patentes.
Segundo Rowley (1994, p. 206), “todos os índices consistem numa série de termos de entrada,
normalmente dispostos em ordem alfabética. Cada termo de entrada pode ter um qualitativo, sendo
necessário um elo (de ligação) que encaminhe o usuário a outras listas de documentos”.
Os índices gerados por computador baseiam-se em termos de indexação atribuídos pela máquina ou
por um processo de análise intelectual, são as seguintes as possibilidades:
Kwic, Kwoc, Kwit e Kwac;
Índices baseados em manipulação de sequências;
Índices articulados de assuntos;
Precis e o Current Technology index (CTI);
Outros índices (LANCASTER, 1993).
Um índice do tipo Kwic (Keyword-in-Context [ Palavra chave no contexto]) é o mais elementar dos
índices baseados em linguagem natural. Os índices Kwic ou Kwit (Kwyword-in-Title[Palavra-chave
no Título]) são populares por serem de criação fácil e respectivamente barata. Nos índices Kwic mais
simples, as palavras de um título são cortejadas com umas listas de palavras proibidas, com a
finalidade de impedir a geração de entradas inúteis (ROWLEY, 1994, p. 206).
O Kwic é um índice que se encontra baseado numa listagem simples e são consideradas populares
porque são criadas facilmente e por terem um custo baixo, as formas como as palavras são cortejadas é
feita através do uso de uma lista de palavras proibidas, no qual contém palavras sob as quais não há a
necessidade de entradas, como por exemplo: Eles, Elas, Seus, entre outras; ou seja, são excluídas
aquelas palavras que tem significado, mas não representam conteúdos por si só. Neste índice, cada
palavra do título é cortejada através da utilização das listas de palavras proibidas, e no caso de ocorrer
uma coincidência entre elas, dar-se-á sua suspensão. Caso, não haja nenhuma coincidência, o termo
será designado por uma palavra-chave.
Segundo Rowley (1994) o Índice Permutem que é adotado pelo Science Citation Index e pelo Social
Sciencies Citation Index baseia-se em pares de palavras significativas extraídas do título. Na estrutura
desse índice, todos os pares de termos significativos são usados como base na construção de suas
entradas. Além disso, esses pares são dispostos em ordem alfabética em relação ao outro. Todos os
pares de termos significativos de um título são usados como base de entradas no Índice Permutem, no
qual, estes se baseiam nos pares de palavras significativas extraídas do título. Os pares encontram-se
em ordem alfabética e também do número de documentos, com excessão do título, pois os números
dos documentos, títulos e outras informações, estão numa lista a parte. Da mesma forma, o índice
Kwic duplo, apresenta subarranjo dos termos de entradas, sendo, porém, mais completo do que o
Permutem, pois o título é mostrado como parte das entradas no índice (ROWLEY, 1994).
Nos índices baseados em manipulação de sequência, as linguagens controladas de indexação ainda são
a preferidas por muitos produtores de índices. Assim, nestes índices mesmo com o uso do computador
na sua produção toma-se como base os termos de indexação que foram atribuídos pelo Bibliotecário-
indexador.
Rowley (1994, p. 209) acrescenta ainda que “no índice articulado de assuntos, a entrada consiste num
cabeçalho de assunto e uma expressão modificadora, que podem ser combinados para formar uma
frase semelhante a um titulo. As expressões modificadoras são respostas em ordem alfabética sob um
cabeçalho de assuntos”.
Os índices articulados de assuntos têm como base de entrada a utilização de um cabeçalho de assunto e
uma expressão modificadora, que por sua vez, podem ser relacionados entre si, visando a formação de
uma frase. Neste tipo de índice, faz-se necessário além do controle de semântica, ou seja, de
significado, o controle de sintaxe, que define a ordem de citação dos termos.
O Precis e o Current Technology Index (CTI) são índices rotatos ou deslocados que se baseiam numa
estrutura de analise conceitual mais rígida do que a indexação articulada de assuntos. Isso se deve ao
fato de no processo de elaboração destes, se escolher uma série de termos extraídos de um vocabulário
controlado de termos conceituais únicos para representar o documento. O índice Precis, no entanto,
apresenta uma diferença em relação ao CTI no que se relaciona a função, mas não quanto a sua
concepção básica (ROWLEY, 1994).
Segundo Rowley (1994), há vários sistemas de indexação rotacional. A autora explica lançando mão
de três conceitos A,B,C que representarão três termos de indexação. A indexação Selective Listing in
Combination (SLIC) envolve, pois, a combinação de elementos somente num único sentido. Em outras
palavras, as entradas do índice extraídas de uma seqüência ABC seriam abc, ac, bc, e c.
Diferentemente, a indexação por alternação (Cyclic indexing) baseia-se no deslocamento do termo de
entrada para a ultima posição até que cada elemento tenha ocupado a posição de entrada. As entradas
nesse sistema seriam da seguinte forma: ABC, BCA ,CAB. A indexação rotacional conservando-se a
mesma ordem de citação, mas sublinhando os elementos que funcionem como termos de entrada.
A indexação por palavra utiliza os mesmos termos empregados pelo autor na apresentação das suas
ideias. Uma indexação por palavra registrará os documentos pelos vocábulos utilizados pelos autores.
O exemplo de indexação por palavra é o índice KWIC, que utiliza os títulos dos documentos, ao
indexar empregando palavras encontradas no próprio documento, usa-se uma linguagem natural.
A indexação por conceito pressupõe a análise do conteúdo temático do documento (análise conceitual),
a decisão sobre os conceitos presentes no texto e a tradução do observado em linguagem apropriada
com a qual se rotulam os documentos e os seus requisitos bibliográficos.
Alguns índices, provavelmente, incluirão entradas específicas, vários pontos de acesso por item e uma
abundância de instruções, pois são os que têm como base, as sequências de termos atribuídos por um
processo de análise intelectual. Por outro lado, outros índices, em particular, os rudimentares,
constituídos por temos atribuído por computadores, ficarão desprovidos de notas úteis que poderá levar
a dispersão dos documentos sob uma variedade de termos. Nesse sentido, podemos destacar que a
própria estrutura dos cabeçalhos que compõe o índice condiciona o processo de recuperação de
informações. Devemos, portanto, considerar seu formato no processo de informatização do sistema.
Outras Considerações
Num serviço especializado de informação, um documento contendo o texto da lei brasileira que trata
do direito de autor deverá ser indexado, preferencialmente, da seguinte forma:
O Vocabulário Controlado Básico - VCB é a linguagem documental adotada pela Rede Virtual de
Bibliotecas – Congresso Nacional – RVBI para manter a uniformidade da indexação e da recuperação
das informações de sua base de dados bibliográficos. Possui cerca de 9.500 descritores de todos os
campos do conhecimento cientifico, com destaque para as Ciências Sociais e Humanas e, neste campo,
ênfase no Direito, refletindo as áreas de atuação das bibliotecas participantes da Rede.
Para indexar e recuperar documentos jurídicos de forma satisfatória, uma biblioteca especializada em
direito poderá se valer do WEBTHES, um site na internet que pemite o acesso ao THES: Thesaurus e
ao VCBS: Vocabulário Controlado Básico, mantidos pelo Senado Federal.
O Grupo de Estudo do Tesauro da RVBI, constituído por representantes da maioria das bibliotecas da
Rede, desde 2002 se dedica Para manter a atualidade da terminologia, desde 2002.