Você está na página 1de 65

COLETANEA DE INDEXAÇÃO E SISTEMA DE RECUPERÇÃO

DA INFORMAÇÃO

SISTEMAS DE RECUPERAÇÃO DA INFORMAÇÃO – SRI

A recuperação de informação trás os aspectos intelectuais da descrição


da informação e a sua especificação para busca, assim como também
quaisquer sistemas, técnicas ou máquinas que sejam empregadas para efetuar
a operação (SARACEVIC, 1995).
O trabalho determinado pela necessidade de recuperar informações
suscitou questões e promoveu pesquisas exploratórias de fenômenos,
processos e variáveis, bem como das causas, efeitos, comportamentos e
manifestações relacionados.
Bastante significativa, também, foi a emergência do pragmatismo na
aplicação empresarial da recuperação da informação: a indústria
informacional ou, para ser mais preciso, o setor que lida com a criação e
distribuição de bases de dados e de serviços on-line decorrentes, bem como
o acesso à informação e sua disseminação. Essa indústria da informação tem
suas raízes diretamente relacionadas com os trabalhos de recuperação da
informação dos anos 50 e 60, que culminaram com a emergência de serviços
on-line nos 70 e com a viabilização internacional da indústria da informação
nos anos 80.
Nesse sentido, o trabalho com a recuperação da informação foi
responsável pelo desenvolvimento de inúmeras aplicações bem-sucedidas
(produtos, sistemas, redes, serviços). Mas, também, foi o responsável por
duas outras coisas: primeiro, pelo desenvolvimento da Ciência da
Informação como um campo onde se interpenetram os componentes
científicos e profissionais.
Saracevic (1996, p.47) aponta que na ciência da informação é um
campo dedicado as questões científicas e a pratica profissional voltadas para
os problemas de efetiva comunicação do conhecimento e de seus registros
entre os seres humanos, no contexto social, institucional ou individual do uso
e das necessidades de informação. No tratamento destas questões são
consideradas de particular interesse as vantagens das modernas tecnologias
informacionais.
A biblioteconomia tem uma longa e orgulhosa história, remontando a
três mil anos, devotada à organização, à preservação e ao uso dos registros
gráficos humanos. Bradford apud Braga (1995) afirma que a biblioteca
precede o papel impresso seu nascimento adveio como caixa, arquivo dos
livros e evoluiu dentro do contexto do livro e seus sucedâneos. A informação,
na biblioteca, está ligada à documentação. Que hoje pela explosão da
informação e o caos documentário estão presentes.
Shera (1972, p. 214) define as bibliotecas como contribuindo para o
sistema total de comunicação na sociedade... embora as bibliotecas tenham
sido criadas como instrumentos para maximizar a utilização dos registros
gráficos em benefício da sociedade, elas atingem sua meta trabalhando com
os indivíduos e através deles, atingem a sociedade.
Shera (1972, p. 214) define as bibliotecas como contribuindo para o
sistema total de comunicação na sociedade... embora as bibliotecas tenham
sido criadas como instrumentos para maximizar a utilização dos registros
gráficos em benefício da sociedade, elas atingem sua meta trabalhando com
os indivíduos e através deles, atingem a sociedade.
Essas atividades são realizadas pelas bibliotecas não apenas como uma
organização particular ou um tipo de sistema de informação, mas
principalmente, como uma instituição social, cultural e educacional
indispensável, de valor comprovado muitas vezes ao longo da história
humana e através das fronteiras das diferentes culturas, civilizações, nações
ou épocas.
A Ciência da Informação nasce do encontro da documentação e da
recuperação da informação com a preocupação de organizar e disseminar
para a posterior consulta criando uma necessidade que Saracevic (1996)
afirma ser uma sensibilização a comunidade científica e tecnológica, naquele
período, onde o fato da informação ser considerada como meio para se
alcançar o desenvolvimento.
Os conteúdos de informação nos bancos de dados variam, de acordo
com a diversidade temática das respectivas bases de dados oferecidas em
cada banco. Algumas são orientadas para um determinado assunto, enquanto
outras são orientadas para a missão da instituição.
A indexação e o arquivamento com a máxima precisão, a fim de
viabilizar a sua recuperação, sempre foi uma grande preocupação em
bibliotecas. Os avanços das pesquisas para simplificação desse trabalho
foram primordiais para resolver problemas gerados na extração das
informações. Sendo importante pontuar que processo de recuperação de
informação compreende basicamente nas três etapas: o indexar, o
armazenar e a recuperação.
A busca por mecanismos adequados para o uso, transferência e
recuperação da informação é item primordial nas bibliotecas. Os esforços se
concentram no sentido de implantar sistemas que tornem disponíveis as
informações existentes no acervo. A recuperação da informação consiste
numa multiplicidade de operações consecutivas, executadas para localizar
uma informação necessária ou documentos que a contenham com a
recuperação subsequente desses documentos.
As organizações de materiais documentados foram estabelecidas
desde antes do século XX. Já nessa época grandes teóricos buscavam
classificar quaisquer tipos de documentos de forma a tornar fácil sua
recuperação. As classificações foram modificadas ou adaptadas para uma
melhor representação. Com o passar dos anos e a evolução de tecnologias na
organização de documentos foi necessária a criação de um Sistema de
Recuperação de Informação (SRI), efetivado em 1950. Desde então, o uso
de SRIs tornou se necessários para extrair todo e qualquer tipo informações.
Como toda solução suscita seus próprios e específicos problemas,
assim também a recuperação da informação e esses problemas estão contidos
na concepção proposta por Calvin Mooers (1951):
1- Como descrever intelectualmente a informação?
2- Como especificar intelectualmente a busca?
3- Que sistemas, técnicas ou máquinas devem ser empregados

Embora tenham surgido outros problemas, mais específicos, esses três


continuam fundamentais ainda hoje. De tais questões, surgiu uma grande
variedade de conceitos e construtos teóricos, empíricos e pragmáticos, bem
como numerosas realizações práticas.
No âmbito da recuperação da informação, a estratégia de busca pode
ser definida como uma técnica ou conjunto de regras para tornar possível o
encontro entre uma pergunta formulada e a informação armazenada em uma
base de dados. Isto significa que, a partir de um arquivo, um conjunto de
itens que constituem a resposta de uma determinada pergunta será
selecionado.
Um SRI na perspectiva da Ciência da Informação pode ser descrito
conforme a figura abaixo:
TABELA I - SRI - NA VISÃO DA CIÊNCIA DA INFORMAÇÃO

A Recuperação da Informação afeta o bibliotecário, como profissional


que pretende satisfazer a necessidade social do homem: ter acesso a diversos
tipos de informação. O problema da recuperação da informação pode ser
visto, por um lado, como uma acumulação constante de um volume sempre
crescente da informação e, por outro lado, o crescimento e a complexidade,
cada vez maior, das necessidades de informação.

TABELA II - RECUPERAÇÃO DA INFORMAÇÃO


Entende-se como SRI, mecanismos especificamente planejados
para possibilitar uma boa recuperação da informação. (ARAUJO,
1995).
A recuperação da informação é efetuada por meio de Sistemas de
Recuperação da Informação, e um SRI é uma organização para armazenar e
tornar disponível a informação, podendo ser um catálogo, uma base dada,
etc., e deve ter os seguintes componentes:
1- Seleção e Aquisição - O início de um SRI se dá pela formação de
um conjunto de documentos previamente selecionados e
adquiridos dentro dos critérios estabelecidos pela instituição que o
mantém e de acordo com os objetivos a que ele se propõe atingir.
No estabelecimento de uma política de seleção das informações
que alimentarão o sistema, é fundamental que o usuário possa se
manifestar e seja ouvido.
2- Indexação - considerada a parte mais importante para a eficácia de
um SRI.

Em qualquer SRI, os documentos podem ser analisados de duas


maneiras:
1- Bibliográfica ou objetivamente - trata-se do tratamento descritivo
dos documentos, em que são identificados dados físicos do
documento, como autor, título, edição, local de publicação, editora,
data da publicação. São dados objetivos, pois estão explícitos,
geralmente, na capa e folha de rosto. Existem regras para este tipo
de análise.
2- Intelectual ou subjetivamente - trata-se do tratamento temático
dos documentos, em que são definidos os termos do seu conteúdo,
ocorrendo aí o processo de indexação de assuntos. Para este tipo de
análise, não existem regras fixas que a padronizem.
ASPECTOS CONCEITUAIS DO BROWSING NA RECUPERAÇÃO
DA INFORMAÇÃO

A quantidade de documentos que uma biblioteca pode captar aumenta


a dificuldade em recuperar a informação correta dentro do contexto de busca
desejado pelo usuário. Assim os estudos sobre a Recuperação de Informação
(Information Retrieval) vêm recebendo importante destaque pelos estudiosos
do tema. Os Sistemas de Recuperação de Informação (SRI) possibilitam o
acesso às informações potencialmente contidas em documentos registrados,
organizados e processados, garantindo a eficácia do processo de busca e
maximizar o uso.
O procedimento na recuperação de documentos inicia-se quando o
usuário informa os termos principais a serem pesquisados na base de índice
e os submete à consulta. A listagem dos termos informada pelo usuário é
avaliada, de forma a identificar os termos.

MODELO DE RECUPERAÇÃO DE DOCUMENTOS IMPLEMENTADO

No estudo da teoria da classificação pode ser identificada a relevância


das classificações bibliográficas para a organização do conhecimento, bem
como para a recuperação da informação contida em documentos.
A complexidade de um sistema de recuperação da informação é
indiscutível, considerando o mesmo envolver uma série de aspectos que são
interdependentes. Dentre estes, destaca-se a busca de informação em uma
coleção ou base de dados previamente tratados e organizados.
Este guia de estudos pretende colocar em questão uma das formas de
organização do conhecimento, a classificação de assuntos, como
importante instrumento de organização de livros nas estantes e sua relação
com uma das técnicas de busca, o chamado browsing.
Observa-se uma escassez de autores nacionais que tratam sobre este
tema, além da falta de um termo correspondente no português.
Diante disso, será mantido o termo em inglês e tentar-se-á traçar um
esboço conceitual baseado nas leituras feitas em literatura estrangeira.
Este estudo limitará a abrangência conceitual do termo à busca de
informação em estantes de bibliotecas ou telas de computador que tenham
como forma de organização a classificação por assunto.
O QUE É BROWSING: No jargão da biblioteca, browsing é um
termo técnico e consiste no processo de exploração entre pilhas e pilhas de
documentos – livros, periódicos, folhetos – os quais podem ser examinados
pela utilização dos sentidos.
Para Levine (1969), o limite exato desse processo é obscuro. A pessoa,
ao fazer browsing, utiliza não só seus olhos, mas também os ouvidos, nariz,
tato, examina os títulos, as páginas, a textura do papel, a impressão, a cor e
outros aspectos associados ao material que tem em suas mãos.
Browsing é considerado uma atividade não orientada, não
programada, informal, não sistemática, casual, o que talvez possa justificar
a dificuldade em defini-lo precisamente. Tem sido definido por alguns
autores como um tipo de busca com critérios e objetivos não definidos
previamente.
Baseando-se em discussões levantadas na revisão de literatura feita em
1993, Chang e Rice propõem uma definição de browsing para compreensão
e estudo do termo. Segundo os autores, é o processo de se expor a um espaço
de recursos pelo esquadrinha mento (scanning) de seu conteúdo (objetos ou
representações) e/ ou estrutura, possivelmente resultando em um
conhecimento inesperado, novo conteúdo ou caminho nesse espaço de
recursos.
O verbo correspondente, to browse, também é analisado pelos autores
e, para eles, é o ato de examinar casualmente um livro, passar os olhos por
ele, lendo passagens ao acaso e ainda examinar livros (em livrarias ou
bibliotecas) especialmente procurando decidir o que se quer comprar, tomar
emprestado ou ler.
Browsing é considerado ainda um comportamento, sendo
influenciado por vários fatores e, como processo, pode apresentar
conseqüências positivas e negativas.
O PROCESSO BROWSING

O processo browsing envolve a interação entre o estoque de


informação do indivíduo e a assimilação da nova informação. Levine (1969),
aponta três diferentes níveis de atenção ao se fazer browsing:
1- Ao acaso, com uma coleção desconhecida;
2- Quase ao acaso, por meio de uma área de um edifício ou coleção
previamente exploradas;
3- Semideterminado em uma área física limitada ou área intelectual
direcionada.
Uma tipologia multidimensional é sugerida por Chang e Rice (1993),
criada com o objetivo de distinguir essa atividade de outros tipos de busca
de informação e para caracterizar seus diferentes tipos. São apresentadas as
seguintes dimensões:
1- Dimensão contextual: Esta dimensão parte do pressuposto de que
as pessoas constroem significados a partir de contextos, que
incluem: organização, interface, feedback e economia. Todos esses
itens influenciam o browsing.
2- Dimensão comportamental: Este aspecto envolve
esquadrinhamento e movimento, conduzindo à exposição a novas
informações ou objetos e assim à aprendizagem e à descoberta.
3- Dimensão motivacional: Esta dimensão inclui os propósitos e
motivos de engajamento em certas atividades e ainda qual a
intenção da pessoa ao realizar browsing.
4- Dimensão cognitiva: Os aspectos cognitivos de browsing incluem
planos, conhecimento e experiência. Categorização e estruturação
prévia do conteúdo facilitam a busca.
5- Dimensão de recursos: Neste aspecto, estão incluídos a forma
(objeto e representação) e o foco (conteúdo e caminho). Objetos
como livros podem oferecer mais atributos e experiências
sensoriais para os usuários do que suas representações. Vale
ressaltar a importância do browsing no estudo dos diferentes tipos
de necessidades dos usuários de informação. Neste contexto, o
processo vem ao encontro de uma necessidade de informação
específica, devendo, por isso, merecer a atenção do profissional
que tem como meta atender a demanda de seu usuário podendo
obter subsídios na tarefa de traçar seu perfil de interesse.
“LIVRE ACESSO” E BROWSING EM ESTANTES DE BIBLIOTECAS

Quando se fala em busca de livros em estantes de bibliotecas, vem à


tona a questão do “livre acesso”. A abertura do acervo ao público e a busca
feita diretamente nas estantes têm suas vantagens e desvantagens. Ao mesmo
tempo em que possibilita ao usuário um contato direto com os livros, ou com
uma fonte de pesquisa direta, também contribui para a desorganização da
coleção, à medida que deixa o usuário completamente livre para tirar e
recolocar o material consultado na estante, correndo o risco de fazê-lo
erroneamente.
O “livre acesso” é então aquele que possibilita o “folhear” livros nas
estantes de uma biblioteca à procura de informações adicionais às que
contêm os catálogos. Nesse sentido, é que se dá a importância devida à
classificação bibliográfica, pois, para que seja de “livre acesso”, é preciso
que os livros estejam dispostos e ordenados nas estantes por assunto.
A popularidade crescente do “livre acesso” se deu no final do século
XIX e foi atribuída ao surgimento do sistema de classificação desenvolvido
por Melvil Dewey– a Classificação Decimal de Dewey –, que utiliza uma
notação decimal com caráter mnemônico. Svenonius (1983) afirma que, pelo
menos nos EUA, classificação tem tido como seu principal uso facilitar
browsing de livros nas estantes, apontando, como possibilidade de uso
futuro, facilitar essa mesma atividade em registros bibliográficos em
terminal de computador, o que já vem ocorrendo há algum tempo e será
abordado adiante.
Um problema apontado por Levine (1969) é a frustração que pode
ocorrer quando a coleção é muito grande, comparando o processo, nesse
caso, a um safári na selva. Ainda nesse sentido, Morse, citado por Baker
(1986) acha que problemas surgem quando coleções se tornam muito
grandes, sugerindo o desenvolvimento de estratégias de browsing. Pensa que
é muito importante o papel do bibliotecário na orientação do browser, ou
daquele que irá às estantes à procura do material de que necessita. Convém
registrar aqui que, aliada ao “livre acesso”, é essencial a existência de um
bom serviço de referência e um catálogo adequado.
Para Greene (1977) o principal argumento para o “livre acesso” é que
este permite o browsing, considerado o método utilizado com maior
frequência para se saber sobre fontes de informação impressa. Entretanto,
seu estudo conclui que esta atividade é a menos efetiva maneira de descobrir
os livros. Diante disso, sugere que os administradores de bibliotecas
necessitam reavaliar a utilidade e custo ao se adotar esse tipo de política. Ao
dar esta sugestão, o autor revela reconhecer pouco que o processo de
browsing é uma necessidade do usuário.
Uma questão proposta por alguns autores é a sobrevivência do “livre
acesso” na biblioteca tradicional devido a problemas relativos às limitações
dos esquemas de classificação e a arranjos de materiais não-bibliográficos.
Críticos das classificações comumente usadas (como Classificação Decimal
de Dewey e Classificação Decimal Universal) posicionam-se favoráveis ao
maior detalhamento da análise de assunto em um nível de especificidade e
compreensão não possibilitados com os sistemas generalistas existentes
(Hyman, 1982). As novas tecnologias computacionais e seus avanços
surgem como solução para essa problemática.

BROWSING EM COMPUTADOR

Como foi afirmado anteriormente, o browsing ocorre não só em


estantes de livros em bibliotecas, sendo possível acontecer também de outras
formas, como em telas de computador. No entanto, parece ocorrer de forma
menos satisfatória, considerando não haver o contato físico e o manuseio do
objeto que está sendo esquadrinhado. O esquadrinhamento via interface com
o computador não é o mesmo que via interface física, sendo a primeira
principalmente cognitiva.
Já, na década de 70, surgia a preocupação em torno da dicotomia entre
classificação bibliográfica e arranjo nas estantes. No Subject Retrieval in the
Seventies, Simpósio ocorrido em 1971 na Inglaterra, foram apontados como
necessários dois tipos de sistemas de classificação disponíveis:
1- Os sistemas que abordam o universo do conhecimento;
2- Os sistemas que abordam o universo dos conceitos. Foram
apresentadas duas conseqüências significativas: assim, os que
abordam o universo dos conceitos são ideais para recuperação na
máquina e talvez pouco úteis para ordenação nas estantes, por
causa das embaraçosas sequências notacionais.
Diante disso, é necessária a utilização dos dois sistemas se o sistema
de recuperação da informação mecânico for usado pela análise de assunto de
documentos em um centro de informação onde é costume e permitido o
browsing pelos usuários. (Hyman, 1982).
São discutidas na literatura as possibilidades de browsing em sistemas
on-line e como as bases de dados e as buscas interface poderiam ser
efetivadas. Os conceitos de browsing em SRI estão se tornando cada vez
mais sofisticados. Segundo Bates (1989), há uma tendência tardia em ciência
da informação em ver browsing em contraste com a busca direta. Sugere que
poderiam estar disponíveis em sistemas automatizados uma variedade de
tipos de informação, como páginas de conteúdo, listas de citações, termos
por assunto, entre outros.
Ainda são examinados, pelo referido autor, algumas técnicas de
browsing, quais sejam:
A- Buscas de notas de rodapé – onde aparecem referências das obras
citadas no texto;
B- Busca de citações – leitura de lista de referências ou de alguns
artigos citados;
C- Pesquisa em revistas – identificação de textos e artigos em listas
de conteúdo e abstracts do assunto coberto pela revista;
D- Área de esquadrinhamento – técnica mais comumente usada com
livros arranjados em estantes por um sistema de classificação
bibliográfica;
E- Busca por assunto em bibliografias e serviços de indexação e
resumo – o termo browsing refere-se à leitura de pequenas listas
arranjadas alfabeticamente por assunto ou leitura de citações e
respectivos resumos;
F- Busca por autor – os sistemas on-line poderiam agrupar em um
local todos os textos de um autor, seja de qualquer forma física.

Browsing em um ambiente manual é uma atividade física que envolve


movimentos do corpo e dos olhos e, para se efetivar em um ambiente on-
line, é necessário se habilitar para isso, permitindo-se um movimento feito
ao acaso, pelo menos dos olhos. Um aspecto desta atividade enfatizado por
Bates é a justaposição, em tempo ou espaço, de ideias ou documentos
diferentes que estimulam o pensamento do usuário que busca informação.
Para reproduzir isso em um ambiente on-line, é necessário fazer movimentos
rápidos entre grande quantidade de textos.

SISTEMAS AUTOMATIZADOS QUE PERMITEM O


BROWSING

Um exemplo de um sistema que permite o acesso por browsing em


uma crescente base de dados de livros, relatórios técnicos, artigos de
periódicos e outros é o Browse System, um catálogo de biblioteca on-line
desenvolvido na Carnegie-Mellon University Computer Science, baseado no
Sistema “Zog”, que é um sistema de seleção de menu usado para a
comunicação homem-máquina. O sistema possibilita browsing, por permitir
que o usuário se mova rápida e facilmente pela classificação hierárquica,
mudando de uma classe a outra de forma simples. A mesma entrada possui
múltiplas classificações por autor, instituição, revista, palavra-chave etc.,
proporcionando rica lista de referências cruzadas. Chamam a isso de
“browsing inteligente”, porque cada classificação provê informação sobre a
classe, sua estrutura e semântica (FOX e PALAY, 1979).
Com relação ao browsing, afirmam ser essencialmente a forma
automática do acesso aos catálogos de fichas convencionais. Os itens são
arranjados em uma sequência alfabética ou outra apropriada ao conteúdo.
Uma lista de palavras-chave é disposta, e isso é passado até a palavra
desejada aparecer na tela. A palavra é selecionada, e o resultado é criado.
Essa técnica é mais eficaz quando o usuário tem conhecimento da área de
busca e pode facilmente reconhecer palavras apropriadas.

CLASSIFICAÇÃO COMO FERRAMENTA QUE FAVORECE


BROWSING

O tipo mais comum de browsing se dá em registros de dados


organizados por assunto. Nesse contexto, é que se observa a importância do
papel desempenhado pela classificação de assuntos como ferramenta útil que
facilita essa atividade, seja em documentos ordenados em estantes de
bibliotecas, seja em bases de dados computadorizadas.
Criadas em uma época em que o conhecimento era relativamente
estático, as classificações bibliográficas enumerativas tornaram-se
inflexíveis para acomodar novos assuntos que são inseridos dia após dia no
universo do conhecimento. Sistemas mais modernos foram surgindo, como
as classificações facetadas, desenvolvidas por Ranganathan, pensador
indiano, matemático e filósofo, para permitir a combinação de assuntos
complexos e de conceitos básicos.
Uma pesquisa desenvolvida por Losee (1992) enfoca e discute a
classificação como ferramenta para favorecer atividades de browsing, em
estantes de bibliotecas e bases de dados automatizadas. O pesquisador
acredita que, para que isso seja possível, é necessário:
A- Determinar objetivamente os valores da classificação
(objetividade);
B- Prover um único sistema de classificação capaz de classificar todos
os documentos possíveis (inclusão);
C- Prover uma estrutura linear (linearidade);
Determinar valores a documentos – desta forma, quando se mover de
algum documento em alguma direção em uma estante ou em uma base de
dados, os documentos se tornam progressivamente dissimilares (distância –
dissimilaridade crescente).
Outras características consideradas também importantes em um
sistema de classificação:
A- Ser facilmente (rapidamente) procurado;
B- Ser fácil para bibliotecários usarem quando classificam
documentos;
C- Permitir classificação pelo computador;
D- Ser consistente com um sistema popular existente;
E- Permitir incorporação de mudanças nos materiais classificados
(adição e cancelamento).

Pode-se concluir que um dos principais objetivos da utilização de um


sistema de classificação é permitir a usuários da informação to browse por
meio dos documentos.
INDEXAÇÃO

O processo de indexação pelo bibliotecário é o processo pelo qual as


palavras ou termos que compõem um documento, seja livro, artigos ou outra
parte do acervo, são extraídas e armazenadas em uma base de dados,
formando uma estrutura denominada índice.
Como a indexação de um documento pode resultar em uma grande
relação de termos, fagundes; kroth (2008) afirmam que a avaliação dos
termos indexados é importante para que o processo de recuperação seja mais
preciso e retorne, de forma mais ágil, apenas resultados que se enquadram
no escopo desejado.
O bom funcionamento do SRI depende principalmente do
conhecimento da linguagem do usuário que irá interagir com o sistema. Esse
conhecimento é importante para o indexador que trabalha as informações
pondo-as de acordo com a linguagem do usuário para que, assim, possa
interagir bem com o sistema.
Um dos fatores que interferem no trabalho do indexador é a
subjetividade, inerente ao ser humano e difícil de ser controlada. Vários
outros fatores são verificados, ainda, como interferentes no processo de
indexar, como o conhecimento prévio (conhecimento de mundo,
conhecimento tácito) adquirido ao longo da vida, a sua formação e a
experiência no trabalho de indexação.
No entanto, o conhecimento da área de atuação é um fator importante
a ser considerado, já que o domínio da terminologia e o conhecimento da
taxonomia das classes de assuntos da área em que está atuando, auxiliam
muito o trabalho de se extrair o conteúdo de documentos.
Observa-se, ainda, a interferência de fatores linguísticos, (como o
conhecimento da língua, do vocabulário e da sintaxe, além da identificação
de tipos de estruturas textuais), fatores cognitivos (capacidade de abstração,
percepção e interpretação de informações contidas nos textos analisados) e
fatores lógicos (elementos de dedução, indução, inferência, silogismo e
outros), o que torna o estudo do processo de indexação altamente
interdisciplinar.
O indexador deve submeter-se as bases de documentos cujo conteúdo
tenha sido previamente processado e indexado, gerando estruturas de índices
que determinam a relevância de determinadas palavras no contexto do
documento. Esses índices funcionam como filtros com a função de
selecionar os objetos que pertencem ao contexto geral da busca submetida.
No campo do tratamento da informação, o termo indexação apresenta
dois sentidos: um mais amplo, quando se refere à atividade de criar índices,
seja de autor, de título, de assunto, tanto de publicações (livros, periódicos),
quanto de catálogos ou de banco de dados, em bibliotecas ou centros de
informação. O outro sentido mais restrito refere-se à indexação, classificação
ou catalogação de assuntos das informações contidas em documentos.
O procedimento de catalogação dos documentos consiste em incluir o
documento em uma base de dados formal, extrair seu texto, analisá-lo em
busca de termos simples e compostos e de stopwords e, por fim, indexar os
termos resultantes (FAGUNDES; KROTH E; 2008.).

FLUXO DE EXECUÇÃO DO CATÁLOGO E INDEXAÇÃO


DOS DOCUMENTOS

Os índices podem ser encabeçados e ordenados por autores, títulos,


lugares de publicações, etc., mas, frequentemente, a ideia de RI está ligada
à recuperação de documentos pelos assuntos que tratam.

O Arquivo StopWords é um arquivo que complementa a definição de


uma base de dados CDS/ISIS. Seu objetivo é fornecer ao sistema,
informações sobre termos que nunca deverão constituir chaves de entrada
em um índice de busca e, portanto, deverão ser ignorados durante processos
de extração de chaves para composição do arquivo invertido (índice).
EXTRAÇÃO DA INFORMAÇÃO EM TERMOS SIMPLES E
COMPOSTOS

O Índice tem sido descrito como a chave para o acesso ao conteúdo


dos documentos, ou como uma ponte ou elo entre o conteúdo de um arquivo
e seus usuários.
Um índice é o instrumento mais importante num SRI. Indexar é o ato
de incluir o registro de um documento num arquivo de informações.
Na literatura é feita essa distinção: a indexação back-of-book
(primeiro sentido citado) permite ao leitor localizar informação sobre um
tópico dentro do livro, sendo a tarefa do indexador ler o texto, distinguir
entre informação relevante e periférica e empregar os tipos de processamento
de informação presentes na leitura. Por sua vez, a indexação acadêmica
(segundo sentido citado) fornece um termo útil estabelecido pela indexação
praticada em bases de dados de resumos e em catálogos de bibliotecas.
Este guia de estudos concentra-se nos aspectos da indexação
acadêmica, que compreende duas etapas distintas: a análise de assunto,
quando ocorre a extração de conceitos que possam representar o conteúdo
de um documento, expresso em linguagem natural, e a tradução desses
conceitos para termos de instrumentos de indexação, que são as chamadas
linguagens de indexação, linguagens artificiais ou linguagens
documentárias.
Back-of-Book é a indexação de livros cujo índice é feito para os
assuntos contidos num único livro, devendo ser localizado no final da
publicação. Farrow (1995).

Indexação e a classificação é o processo de discernir a essência de


um documento e representar essa essência num modo de expressão em
linguagem de indexação.

TABELA V- CLASSIFICAÇÃO E INDEXAÇÃO

Alguns autores denominam esse processo de análise documentária,


que é definida como um conjunto de procedimentos efetuados com o fim de
expressar o conteúdo de documentos, sob formas destinadas a facilitar a
recuperação da informação. Essa passagem de um texto original para um tipo
de representação é uma operação semântica, mesmo que não obedeça a
nenhuma regra precisa e varie em função de cada organismo e do analista,
que seleciona as palavras-chave, normalmente de forma intuitiva, em função
de sua ocorrência e do seu interesse para a instituição.
1 - ANÁLISE DE ASSUNTO

ANÁLISE DE ASSUNTOS: Esta é a primeira etapa da indexação,


considerada por muitos como a etapa intelectual do trabalho do indexador.
O processo de ler um documento para extrair conceitos que traduzam a sua
essência é conhecido como análise de assunto para alguns, análise temática
para outros, ou, ainda, análise documentária, análise conceitual ou, mesmo,
análise de conteúdo. Como se pode ver, trata-se de um processo em que há
uma certa confusão conceitual e para o qual aparecem diferentes concepções.
A análise de assunto feita pelo indexador humano se dá em dois
momentos: quando ele vai analisar um documento para inseri-lo num SRI, e
quando recebe um pedido de informação do usuário.

O processo de análise de assunto compreende três fases:

1 - A leitura do texto pelo indexador: O texto é o ponto de partida


para operações analítico-documentárias, sendo constante a presença dos
elementos conteúdo e forma, como partes essenciais do mesmo. Para ter uma
competência textual é preciso que, além de conhecer o texto que tem em
mãos para análise sob todos os aspectos, o indexador faça dele uma leitura
adequada, e sabe-se que um texto pode gerar muitas leituras, interessando
mais, neste estudo, a leitura para fins documentários.
Para que os conteúdos dos textos sejam assimilados e compreendidos,
é preciso que as informações sejam processadas na mente do leitor e,
atualmente, parece ser consenso entre os especialistas em leitura que o
processamento do ato de ler se dá interativamente, dependendo dessa
interação a não compreensão ou a compreensão de um texto. Durante a
compreensão do texto pelo indexador, ocorrem dois tipos de processamento
mental da informação: o top-down e o bottom-up, que parecem ocorrer
simultaneamente na mente humana ao fazer a leitura de um texto. São
inversos e complementares, e chamados por alguns autores de modelos de
leitura: é o tipo ascendente, guiado por dados, indutivo, bottom-up, no qual
a leitura é linear, das partes para o todo textual, e o tipo descendente,
dedutivo, top-down, no qual se move na forma inversa, obtendo vantagem
da base de conhecimento do leitor. Trata-se de uma dupla ação: percepção e
compreensão.
A interferência de vários fatores subjetivos / cognitivos torna a leitura
um ato subjetivo e individual, posto que o sentido dado ao texto lido sempre
vai variar de leitor para leitor. Diante disso, o que poderia ser afirmado com
relação à leitura para fins documentários? Existe algum modelo a ser
seguido? E com relação ao leitor / indexador?
Um documento, inserido num SRI, antes de ser lido pelo leitor,
usuário final do sistema, é lido por um leitor técnico, o indexador, aquele
que faz a leitura para fins documentários. Esse tipo de leitura, conhecido
como leitura documentária ou leitura técnica, tem certas características, não
sendo realizada para lazer ou aprendizagem, nem é prazerosa, muito pelo
contrário. O alto grau de incerteza, ansiedade e responsabilidade contida na
atividade já mostram que a mesma traz pouca satisfação. É um tipo de leitura
bem racional e rápido, em que o leitor técnico não tem chances de aproveitar
a leitura, já que seu propósito é o de extrair o conteúdo informativo do texto,
tendo em vista a sua posterior recuperação por um leitor interessado.

2 - Extração de conceitos: Para definir em termos adequados os


assuntos de um texto, é necessária que primeiro se extraiam os conceitos que
nele estão contidos. Se, para fazer uma análise conceitual, devem-se extrair
conceitos. Pergunta-se: o que é um conceito? Conceitos são unidades do
conhecimento identificadas através de enunciados verdadeiros sobre um
item de referência, representados por um termo ou palavra. A formação de
conceitos é um processo que envolve discriminação e agrupamento.
Tipos de relações entre conceitos (estabelece a sintaxe):
A - Relação de equivalência Sinônimos:
Meio ambiente X Ecologia;
Quase sinônimos: Datiloscopia X Impressão Digital;
Abreviaturas e Acrônimos: ONU X Organização das Nações
Unidas;
Traduções: Recall X Revocação.

B- Relação hierárquica
Gênero / espécie
Quase genérica: (Gato X Animal de estimação)
Verdadeiramente genérica: (Gato X Mamífero)
Todo / parte: (Sistema respiratório X Pulmão)

C- Relação associativa (afinidade ou de coordenação)


Coordenação: Terra X Marte
Genética: Pais X Filhos
Instrumental: Escrita X Lápis
Concorrente: Ensino X Aprendizagem
Material: Livro X Papel
Similaridade de processo: Catalogação X Classificação
AS VARIÁVEIS (EXAUSTIVIDADE E ESPECIFICIDADE)

Duas variáveis interferem na escolha de conceitos: a exaustividade e


a especificidade. Ambas dependem da política de indexação adotada no
SRI, que deve seguir critérios pré-estabelecidos, tendo em vista os objetivos
do sistema, os recursos disponíveis e o tipo de usuário.

A exaustividade - relaciona-se à capacidade do sistema de indexar o


documento em profundidade, ou seja, além do assunto principal, são
indexados também os assuntos secundários.

A especificidade - é a capacidade do sistema de nos permitir ser


precisos ao especificarmos o assunto de um documento. Os s fatores de
especificidade e exaustividade têm influência em todo o processo de
recuperação da informação, havendo ligação desses com as medidas de
revocação e precisão.

A análise conceitual tem como produto, um assunto, que representa o


conteúdo informacional de um texto.
Tipos de assuntos: São identificados três tipos de assuntos:
Assunto simples (formado por um único conceito). Ex: Indexação;
Assunto composto (formado por mais de um conceito pertencentes a
uma mesma área do conhecimento) Ex: Indexação de materiais especiais
(são dois conceitos da Biblioteconomia);
Assunto complexo: (formado por conceitos de áreas diferentes) Ex:
A arte como terapia para idosos (conceitos da Arte e da Psicologia).

Na determinação do assunto, é preciso que se verifique o contexto no


qual o documento é produzido e para o qual ele existe, em determinado
momento.
DETERMINAÇÃO DA ATINÊNCIA

Terminada a fase de extração de conceitos, é necessário que se faça


uma seleção daqueles que realmente sintetizem o assunto do texto, partindo-
se, assim, para a terceira fase do processo de análise de assunto, que é a
determinação da chamada atinência, termo traduzido do inglês aboutness
(outras traduções: concernência, sobrecidade, temacidade).
Nesta fase da determinação da atinência para representar os conceitos
extraídos do texto, inicia-se um processo lingüístico e o problema de
descrever documentos para recuperação é, principalmente, o problema de
como a linguagem é usada. Há uma forte relação entre a atinência do
documento e seu (s) significado (s) identificado (s) pelos indivíduos. Um
texto tem uma atinência relativamente permanente, mas um número variado
de significados.
O produto final da atinência é uma frase de indexação, elaborada pelo
indexador em linguagem natural. Após todo o processo intelectual de leitura
do texto, de extração e seleção de conceitos, é o momento em que ele afirma:
Este documento trata de...
Das etapas de indexação, a análise de assunto é a que sofre mais
influência da subjetividade do indexador, sendo, por isso, considerada muito
complexa. Por todos os aspectos considerados neste item, pode-se concluir
que essa não é uma atividade possível de ser ensinada, não havendo uma
receita, ou uma rotina a ser seguida no desenvolvimento da mesma.
Tentativas de automatizar a análise de assunto já vêm sendo
implementadas em pesquisas de cursos de pós-graduação, mas pode-se
verificar que, por enquanto, o limite da máquina ainda é a capacidade
humana de percepção e abstração.
2 - TRADUÇÃO DA FRASE DE INDEXAÇÃO PARA
LINGUAGENS DE INDEXAÇÃO
Quando termina a primeira etapa da indexação, com o(s) assunto(s) já
definidos em linguagem natural, chega o momento de inseri-lo(s) no SRI.
Para isso, é feita a tradução da frase de indexação para os termos da
linguagem de indexação, o que significa transformar os conceitos
selecionados em termos ou símbolos autorizados para representá-los no
sistema. Quando indexamos um documento por assunto, nós o colocamos
em uma ou mais classes, e cada classe deve ter um número ou rótulo, que
são chamados termos indexadores. O conjunto dessa forma a linguagem de
indexação.
Há dois métodos fundamentais de indexar o assunto de documentos:

Indexação por palavras - utiliza termos empregados pelo autor na


apresentação das suas ideias, isto é, as palavras encontradas nos títulos ou
nos textos dos documentos.
Ex: A palavra mandioca traduz uma determinada idéia, um dado
conceito, que também pode ser expresso pelas palavras aipim, macaxera.
Uma indexação por palavras registrará os documentos pelos termos
utilizados pelos autores, ou seja, na linguagem natural. O sistema indexará
um documento sobre mandioca e outro sobre aipim (linguagem natural). Um
exemplo típico de indexação por palavra é o índice KWIC (Key Word in the
Context), que utiliza títulos dos documentos. O que acontece na recuperação
de um documento cujo título é “Feijão, angu e couve”? A recuperação só
pode ser feita através dessas palavras, mas o assunto do documento é
“Costumes mineiros”. O que acontecerá com a recuperação deste
documento?
Indexação por conceitos - a indexação por conceitos pressupõe a
análise de assunto do documento, a decisão sobre conceitos presentes no
texto e a tradução destes em linguagem apropriada. Na indexação por
conceitos, determinam-se os cabeçalhos a empregar, distinguem-se
homônimos, controlam-se sinônimos, prevêem-se relações de equivalência,
hierárquica e associativa.
É importante ressaltar que o indexador deve estar familiarizado com a
linguagem utilizada no SRI, embora esta linguagem não deva influenciar a
análise de assunto dos documentos.
3- LINGUAGENS DE INDEXAÇÃO

A linguagem de indexação é aquela cujo objetivo é representar o


conteúdo temático dos documentos. Alguns sistemas utilizam a linguagem
natural (escrita e falada, pouco usada por apresentar grande inconsistência)
como linguagem de indexação e, nesses casos, adotam como termos
indexadores os termos na forma como aparecem nos documentos, sem
modificações. Isso traz alguns problemas, como diferentes autores usando
palavras diversas para expressarem o mesmo conceito (dispersão
terminológica) ou o caso do uso de diferentes estruturas para expressarem a
mesma idéia (dispersão sintática).
No entanto, comumente, são utilizadas linguagens artificiais. Essas
refletirão um vocabulário controlado, para o qual foram tomadas decisões
cuidadosas sobre os termos a serem usados, o significado de cada um, e os
relacionamentos que apresentam.
Uma linguagem de indexação deve procurar indicar os
relacionamentos entre os termos no seu vocabulário. Por exemplo, se um
sistema inclui os termos ensino médio e escolas profissionalizantes, pode-se
indicar a relação entre esses dois termos, pois um usuário, procurando
informação sobre ensino médio, poderá encontrar documentos relevantes
sob o termo escolas profissionalizantes que, usualmente, se ocupam também
do ensino médio. Uma linguagem de indexação que tem um vocabulário
controlado e que tenta indicar as relações entre os termos no seu vocabulário
é chamada estruturada.

OBJETIVOS LINGUAGEM DE INDEXAÇÃO

o Possibilitar que o indexador represente os assuntos dos documentos de


forma consistente;
o Compatibilizar o vocabulário usado pelo usuário com o vocabulário
usado pelo indexador;
o Permitir ao usuário moldar a estratégia de busca de forma a obter alta
revocação ou alta precisão, conforme o exigirem as circunstâncias.
FUNÇÕES DAS LINGUAGENS DE INDEXAÇÃO

 Substituir a grande variedade de expressões da linguagem natural por


uma linguagem formal;
 Estabelecer um ponto comum entre linguagem do autor, linguagem do
indexador e linguagem do usuário;
 Estabelecer um vocabulário que mostre as relações entre termos e
conceitos: relações semânticas (equivalência, hierarquia e associativa)
e relações sintáticas (coordenação de dois ou mais elementos para
formar assuntos compostos); economizar espaço de arquivo;
 Ajudar na recuperação de conceitos específicos.

CONSTRUÇÃO DE LINGUAGENS DE INDEXAÇÃO

A geração de um vocabulário controlado não é uma tarefa simples, e


têm-se verificado várias iniciativas nesse sentido, pela necessidade de se
tratarem, cada vez mais, de assuntos complexos que exigem uma análise
mais aprofundada e com alto grau de especificidade.
Deste modo, um sistema de recuperação possui duas bases de dados
distintas: uma armazena o conjunto de documentos, dos quais se deseja obter
informações, e a outra contém as entradas que representam os documentos
do sistema. Estas entradas são os descritores obtidos no processo de
indexação, podendo ser considerado como um índice da outra base de dados
(LANCASTER, 1993).
Alguns aspectos são levantados para a criação das linguagens
controladas, como: gerar um vocabulário com base nos termos de indexação
de um conjunto de documentos; modificar um vocabulário já existente ou
extrair o vocabulário de outro já existente; reunir termos de diferentes fontes:
especialistas da área, dicionários, glossários, índices, etc.
Um vocabulário controlado deve ser capaz de representar conceitos
que realmente ocorrem na literatura do assunto. Este é o princípio da garantia
literária. É importante ressaltar, ainda, dois pontos que não podem ser
ignorados na construção de uma linguagem, como as questões formuladas
pelos usuários, que devem ser levadas em consideração na definição dos
termos da linguagem, pois refletem suas necessidades de informação, e a
consulta a especialistas da área especializada da linguagem.
Depois do levantamento dos termos, parte-se para o estabelecimento
das relações entre os conceitos, podendo-se utilizar, para isso, a análise
facetada, que consiste na divisão do assunto em facetas (categorias de
assuntos). Passa-se a optar pelo melhor termo para representar um conceito
(geral ou específico), e estabelecer as hierarquias necessárias.

COMPONENTES DA LINGUAGEM DE INDEXAÇÃO

As linguagens de indexação são formadas por dois componentes


básicos: vocabulário e sintaxe.
Vocabulário - Conjunto de termos de indexação utilizáveis para
representar o conteúdo temático dos documentos, que podem ser cabeçalhos
de assuntos (listas de cabeçalhos de assunto), descritores (tesauros) ou
símbolos de classificação (sistemas de classificação bibliográfica).
O vocabulário empregado em um sistema de recuperação deve ser um
vocabulário controlado, caracterizado por um conjunto limitado de termos,
os quais se encontram organizados em alguma forma de estrutura que
permita controlar sinônimos e remissivos que indiquem relações entre os
termos (LANCASTER, 1993).
O vocabulário é sempre menor do que os vocabulários dos usuários,
dos documentos indexados e do próprio indexador, por causa do controle do
vocabulário. Diante disso, é necessário fornecer, além do vocabulário de
indexação (termos usados no índice), um vocabulário de abordagem, que
consiste de termos que não são usados no sistema para representar os
conceitos, mas que podem ser usados pelos autores dos textos, pelos
indexadores, e pelos usuários ao consultar o índice.
O vocabulário, por exemplo, do sistema usa o termo TESTE DE
INTELIGÊNCIA.
Porém, o assunto pode ser procurado por:
TESTES MENTAIS – termo sinônimo
TESTES PSICOLÓGICOS – termo mais geral (abrangente)
TESDE DE APTIDÃO – termo mais especifico
DESENVOLVIMENTO MENTAL – termo relacionado
Estes termos constituem o vocabulário de abordagem.
Sintaxe - Conjunto de artifícios empregados para revelar as relações
entre os conceitos e as regras para estabelecer os descritores e determinar a
ordem em que devem ser citados. Ocorrem da necessidade de se poder
recuperar a interseção entre duas ou mais classes de conceitos, e o
reconhecimento das relações entre os conceitos é produto de uma análise de
assunto cuidadosa, que é básica para todas as linguagens de indexação
estruturadas.
São evidenciadas, as relações semânticas (ou de significado) e as
relações sintáticas que existem entre os termos indexadores.
As relações semânticas devem ser controladas ou mostradas nas
linguagens de indexação com o objetivo de se indicarem os termos
alternativos ou substitutivos de indexação e busca. As relações semânticas
podem ser de 3 tipos: equivalência, hierárquicas e associativas.
Dependendo da estrutura da linguagem de indexação (verbal ou simbólica),
o estabelecimento das relações semânticas pode ser mais complexo ou mais
simples, utilizadas em tesauros e listas de cabeçalhos de assuntos.
Relações de equivalência - (ver, see, use, x)
UP (usado para = Used For - UF)
Relações hierárquicas - TG (Termo Geral = Broader Term - BT),
TE (Termo Específico = Narrowed Term - NT).
Relações associativas (ver também, see also, xx)
TR (Termo Relacionado = Related Term - RT)
As relações sintáticas entre os termos de uma linguagem de indexação
originam-se da necessidade de se poder recuperar a interseção entre duas ou
mais classes de conceitos distintos. Ex. pode existir interesse pelo assunto
“fundição do alumínio” e não por “fundição” e “alumínio”. Essas relações
constituem-se da associação de termos para representar assuntos compostos.
São temporárias, ao contrário das relações semânticas, que são permanentes.
As linguagens controladas são mais eficientes no SRI, embora
apresentem maior dificuldade para o usuário. Quanto maior a diferença entre
a linguagem natural e a linguagem controlada, maiores as dificuldades dos
usuários no momento da busca.
O vocabulário de uma linguagem de indexação pode ser verbal ou
simbólico (codificado), que constituem as linguagens verbais e as linguagens
simbólicas.

LINGUAGENS VERBAIS
Nas linguagens verbais, os assuntos são representados por palavras,
como por exemplo, um documento que trate da História da França, será
representado por FRANÇA – História.
São linguagens verbais as listas de cabeçalhos de assunto, os tesauros.
As LCA são arranjadas em ordem alfabética de cabeçalhos de assunto, e
têm abrangência geral de todas as áreas do conhecimento. Apresentam pouca
flexibilidade, pois são pré-coordenadas, havendo o estabelecimento de uma
ordem de citação entre os termos.
Os tesauros, por sua vez, são especializados numa determinada área do
conhecimento, e mais flexíveis, apresentando uma ordem alfabética e
sistemática entre os termos de assuntos, chamados descritores. Utiliza
termos simples, não havendo ordem de citação entre os termos, constituindo
uma linguagem pós-coordenada.

LINGUAGENS SIMBÓLICAS

Nas linguagens simbólicas, os assuntos são representados por códigos


ou símbolos, na forma da notação de um sistema de classificação
bibliográfica.
Assim, o exemplo de História da França, o assunto será representado por
944 (CDD).
Uma das linguagens simbólicas mais usadas em bibliotecas é a
classificação bibliográfica. Um mapa completo de qualquer área do
conhecimento, mostrando todos os seus conceitos e suas relações é chamado
de tabela, esquema ou sistema de classificação.
Sistemas de classificação se dividem em:
1- De acordo Com a apresentação dos assuntos: Enumerativos -
procuram indicar todos os assuntos e todas as combinações possíveis
entre eles e apresentar os símbolos que os representam prontos para
serem usados. Ex: Classificação Decimal de Dewey (CDD); e os
analítico-sintéticos – ou facetados - apresentam listas de assuntos –
facetas – acompanhados de símbolos e deixam ao classificador a
tarefa de combinar os símbolos para apresentar os assuntos
compostos. Ex: Colon Classification (Classificação de Dois Pontos)
e Bliss Classification.
2- De acordo com a abrangência: Gerais – todas as classes do
conhecimento. Ex: Dewey, CDU, Colon, LC; e especiais - classes
especiais de assunto – Ex: Coates (Música).

Elementos de um sistema de classificação:


1- Apresentação ou introdução – Origem e evolução do sistema.
Atualização. Ordem de citação. Ordem de arquivamento. Instruções
para a construção de números de classificação.
2- Tabelas Auxiliares, classe geral, assuntos.
3- Notação4) Índice alfabético.
Nas linguagens simbólicas, os assuntos são representados por códigos
ou símbolos, na forma da notação de um sistema de classificação
bibliográfica.
Como classificar: há três estágios diferentes na indexação, e denominou-
os de Plano Idéia (análise de assunto em nossas próprias palavras; decisão
sobre a classe principal apropriada; decisão sobre a ordem de citação para a
classe; re-arranjo da análise de assunto na ordem apropriada), Plano Verbal
(exame do índice e das tabelas do esquema para encontrar os conceitos
necessários) e Plano Notacional (construção da notação para os conceitos,
de acordo com as regras estabelecidas).
Em todo SRI, é necessário o controle de terminologia para assegurar a
coincidência das perguntas e respostas, fazendo com que determinado
assunto pesquisado seja recuperado. Este controle pode ser feito através de
coordenação de conceitos no ato da indexação ou no momento da
recuperação. São as chamadas linguagens pré e pós coordenadas.

LINGUAGENS PRÉ-COORDENADAS

Os sistemas pré-coordenados estabelecem a coordenação dos vários


tópicos referentes a um assunto composto no momento da indexação, e, com
grande subjetividade, determinam uma prioridade na citação desses
elementos. Essa ordem é determinada a partir da importância que os
conceitos representam para os usuários.
Características da pré-coordenação:
1- Subjetividade (conceitos compostos); Entradas múltiplas (remissivas
+ referências);
2- Autonomia do indexador;
3- Fáceis de serem usadas.

Vantagens:
1- Um único lugar para um assunto composto: prover apenas um lugar
inequívoco para qualquer assunto composto;
2- Personalização da busca: fazer com que os usuários possam
familiarizar-se com o sistema e, com o tempo, passem a formular
questões de acordo com a linguagem do sistema;
3- Limitação do tamanho: a entrada única ajuda a evitar o crescimento
desmesurado do catálogo, tornando mais simples o seu uso e menos
dispendioso a sua manutenção;
4- Flexibilidade na estratégia de busca: podem ocorrer mudanças na
estratégia da pesquisa, podendo seguir um assunto mais restrito, mais
genérico ou correlato, sem ter que se começar pela estaca zero;
5- Busca sequencial manual rápida: as linguagens pré-coordenadas
funcionam melhor nesses sistemas tradicionais de registro de
documentos. Elas geram arquivos maiores, mas a busca manual,
quando realizada sequencialmente, é mais rápida;
6- Evita falsas associações e relações incorretas;
7- É mais precisa.

Desvantagens:
1- Dificuldade na representação dos diferentes sentidos do termo, e das
relações entre os termos;
2- Ordem fixa: os termos somente podem ser listados numa determinada
sequência;
3- Pouca flexibilidade na busca: é quase impossível fazer a combinação
entre os termos no momento da busca;
4- Tamanho e custo: o uso da “entrada múltipla” encarece o sistema e
aumenta o tamanho do índice.

Nas linguagens simbólicas, os assuntos são representados por códigos


ou símbolos, na forma da notação de um sistema de classificação
bibliográfica.
Exemplos de linguagens pré-coordenadas: Listas de cabeçalhos de
assunto (Library of Congress, Rovira, Wanda Ferraz), os índices
permutados, os índices em cadeia e as classificações bibliográficas.
(Classificação Decimal de Dewey, Classificação Decimal Universal).

ORDEM DE CITAÇÃO

O problema das linguagens pré-coordenadas é a necessidade de se


estabelecer uma ordem de prioridade para os diversos conceitos. É a
chamada ordem de citação, a ser determinada a partir da importância que os
conceitos têm para os usuários e, nesse caso, somente o primeiro elemento
citado é recuperado, ficando os outros ocultos. Existem algumas regras
básicas tentando estabelecer a ordem de citação dos assuntos complexos,
como:
1- O assunto antes da forma bibliográfica: Geologia – Enciclopédia;
2- O assunto antes do lugar (com a preposição em): A fome no Brasil,
Fome-Brasil;
3- O assunto depois do lugar (com a preposição de): Montanhas do
Brasil, seria Brasil-Montanhas;
4- Todo-parte: Índices de Periódicos, seria periódico – Índices.

Opções de ordem de citação são dadas por teóricos da área, como


Kaiser (1911) – “o concreto, depois o processo” – Indexação de livros, seria
Livros - Indexação; por Coates (1960) – Coisa – Parte – Material – Ação.
Uma das opções é a utilização das Cinco Categorias Fundamentais: PMEST
– Personalidade (núcleo do assunto), Matéria, Energia (processo), Espaço e
Tempo.
Ex: Plantação de soja no Paraná em 2003
A ordem dos termos será: SOJA-Plantação-Paraná-2003

Como se pode verificar, apenas o termo soja poderá ser recuperado na


ordem alfabética. Uma solução para isso é a adoção de “entradas múltiplas”,
ou a utilização de uma “rede sindética” (uso de remissivas e referências) bem
elaborada.

LINGUAGENS PÓS-COORDENADAS

Os sistemas pós-coordenados adotam conceitos simples usados na


indexação, que são combinados pelo usuário no momento da busca. Os
termos são combinados de qualquer maneira, conforme a necessidade mais
geral ou mais específica do usuário.
Os sistemas mais modernos de recuperação da informação,
principalmente os sistemas automatizados, passaram a usar as linguagens
pós-coordenadas.
Neste tipo de sistema, não existe a preocupação com a importância dos
elementos de um assunto composto, e, consequentemente, com a ordem de
citação desses elementos (ordem de prioridade definida nas linguagens pré-
coordenadas). Uma linguagem pós-coordenada consiste de entradas que
normalmente são conceitos únicos, podendo-se dar a entrada de todos os
termos no sistema, sem a necessidade de decisões a respeito da prioridade
dos itens. Cria-se uma entrada única para cada assunto considerado
relevante. Como recurso que auxilia a busca em sistemas pós-coordenados e
automatizados, é utilizada a lógica booleana, com os elementos and, or, nor.
Características da pós-coordenação:
1- Conceitos únicos: são indexados os conceitos simples;
2- Comparação das entradas de assunto: permite determinar
coincidências que revelam documentos pertinentes ao assunto
pesquisado;
3- Objetividade: dá-se a entrada a todos os termos relevantes, sem a
necessidade de decisões a respeito dos itens;
4- Flexibilidade na busca: os termos podem ser combinados entre si, de
qualquer forma, no momento da busca;
5- Pesos iguais para os termos: todo termo atribuído a um documento
tem peso igual, nenhum sendo mais importante que o outro.

Vantagens:
1- Independência da ordem de citação;
2- Permissão de uma maior revocação;
3- Mais eficiência, melhorando a qualidade e diminuindo o custo nas
buscas automatizadas.

Desvantagens:
1- Eficiência ligada à automação: as linguagens de indexação pós-
coordenadas são consideradas mais eficientes apenas quando usadas
em sistemas automatizados;
2- Combinação dos termos somente na saída, podendo-se obter
associações falsas e incorretas;
3- Oferecimento de baixa precisão.

Exemplos de linguagens pós-coordenadas: Tesauros (descritores), o


Sistema Unitermo.

AVALIAÇÃO DAS LINGUAGENS DE INDEXAÇÃO

A escolha de uma determinada linguagem de indexação para um SRI é


uma tarefa complexa e que exige muito conhecimento da área do
conhecimento em que o sistema está inserido, os objetivos da instituição à
qual está subordinado e, principalmente, os interesses dos usuários da
informação.
Alguns aspectos gerais devem ser observados para avaliação das LI pelo
indexador: Qualquer LI deve estar permanentemente sendo avaliada (em
comparação com a evolução da área e a consequente mutação do
vocabulário, tanto dos autores como dos leitores) e atualizada (eliminação
de termos obsoletos e introdução de termos novos).
A criação de uma linguagem de indexação nova é um processo lento,
caro e que exige recursos humanos qualitativa e quantitativamente
preparados e disponíveis para isso, e a adaptação de uma linguagem já
existente pode ser racional, eficiente e mais barata.
Se a biblioteca ou centro de informação participar de uma rede ou de um
sistema cooperativo, as decisões devem ser comuns, e apresentadas ao
sistema para que possam ser incorporadas por todos os membros
participantes.
Se a instituição é isolada, a possibilidade de soluções individuais que
melhor se adaptem ao SRI são maiores, devendo-se considerar as
características da biblioteca. - Caso sejam detectadas falhas na recuperação
da informação, deve-se pesquisar as causas: Problemas na análise de
assunto? Inadequações do vocabulário controlado? Falta de
treinamento do usuário? Falta de remissivas e referências?
Qual a providência tomar no caso de não existirem, na LI adotada no
sistema, conceitos que não estão representados? Em alguns sistemas, a
admissão de novos termos é aceita, mas, em outros casos, o indexador deverá
usar descritores mais genéricos.
Nesse contexto, surgem dois conceitos que possibilitam também a
avaliação de uma LI: a revocação e a precisão. Revocação é o coeficiente
entre o número de documentos inseridos no sistema versus o número de
documentos relevantes recuperados pelo usuário, e a precisão é o coeficiente
entre o número de documentos inseridos no sistema e a precisão da busca.
Ex. Para a busca de documentos sobre Escultura, se o termo de busca for
Artes, haverá alta revocação e baixa precisão, pois serão recuperados
documentos que falam de escultura, mas não só sobre este assunto. Ao passo
que, se a busca for feita pelo próprio termo Escultura, a revocação será baixa
e haverá uma alta precisão, pois só serão recuperados documentos sobre
Escultura.
Pesquisas mostram que um maior grau de especificidade eleva a taxa de
precisão e baixa a de revocação; ao contrário, um aumento de exaustividade,
eleva a taxa de revocação, baixando a de precisão.
CONSISTÊNCIA DA INDEXAÇÃO

Um aspecto importante a ser considerado é a consistência da indexação,


que também será muito afetada pela qualidade da linguagem adotada. O
estabelecimento da linguagem de indexação deverá ser feito tendo em vista
a sua adequação ao sistema a que irá servir. Um fator importante é a
qualidade de atualização dessas linguagens, com a inclusão dos novos
termos que surgem nos diversos campos das ciências, adequando-se as
linguagens controladas às terminologias dessas áreas.
A consistência da indexação está ligada a dois elementos básicos: ao
desempenho do indexador e à qualidade dos instrumentos de indexação. É
importante que essa consistência seja regular, considerando-se o fator tempo
na operação de um determinado sistema, sendo necessário ao indexador um
alto grau de imparcialidade e uma submissão às diretrizes da indexação
adotadas pelo sistema. Deve-se procurar controlar a subjetividade, inerente
a qualquer trabalho humano, e presente na atividade de indexação. A
consistência é difícil de ser obtida quando é grande o grupo de indexadores,
ou quando trabalham em diferentes locais. Nesses casos, é aconselhável que
se estabeleça um grupo de controle centralizado para a verificação das
indexações feitas.
Para se obter consistência na indexação é preciso, ainda, que se tenha
bem estabelecida uma política de indexação, que siga critérios como nº de
termos indexadores para cada documento (exaustividade), uso de singular ou
plural, uso de siglas, termos em inglês e rede sindética.

INDEXAÇÃO AUTOMÁTICA VERSUS


AUTOMATIZADA

Para a eficácia do controle e da organização das informações contidas


em documentos, na atualidade, torna-se imprescindível a automação de
várias atividades desenvolvidas em bibliotecas e centros de informação, e a
adoção de tecnologias da informação já é uma realidade na maioria desses.
A indexação de documentos é uma das atividades em que se tem investido
muitos recursos, visando aumentar a rapidez e a precisão na recuperação de
informações relevantes para os usuários.
Há uma controvérsia quanto ao uso das terminologias indexação
automática e automatizada, podendo-se sintetizar que, na primeira, o
trabalho desenvolvido para indexar assuntos é totalmente feito pelo
computador, como indexação por palavras (KWIC), pela freqüência com que
as palavras aparecem no texto, entre outros. Já na indexação automatizada,
a primeira etapa de extrair o conteúdo do documento (análise de assunto) é
feita por um indexador humano, que após seu trabalho intelectual, insere os
termos numa base de dados automatizada.
No entanto, não há um consenso quanto a essa diferença apresentada,
podendo-se verificar os dois termos usados, também, como sinônimos.
Para finalizar, levanta-se uma questão para reflexão dos bibliotecários:
até que ponto pode-se delegar à máquina a tarefa de indexação? Onde
poderia se apontar um limite para as atividades desenvolvidas pela máquina?
Seria, essa, já programada para exercer atividades mentais como abstrair,
interpretar, compreender e perceber, características inerentes ao ser humano?

FIM ESPECIALIZAÇÃO
LINGUAGEM DE INDEXAÇÃO

As linguagens de indexação possuem 3 características:


• Controle da linguagem de indexação;
• Linguagem de indexação livre;
• Linguagem de indexação natural

Linguagem de indexação livre:


• Listas de palavras-chave - é constituída por uma coleção de palavras
significativas ordenadas alfabeticamente. Não entram, desta forma, artigos,
conjunções, pronomes, preposições, numerais, alguns verbos e advérbios.
• Lista de descritores livres - é constituída por uma coleção de
conceitos apreendidos por meio de um processo intelectual, a partir dos
documentos registrados em um dado sistema. Estes conceitos são expressos
por palavras ou por expressões extraídas dos documentos.

A linguagem controlada é construída antes da indexação dos documentos


de uma coleção. Existem dois tipos de linguagens controladas:
• Lista de autoridades - é constituída por uma coleção de conceitos
destinados a representar, de maneira unívoca, o conteúdo dos documentos e
das buscas em um dado sistema.
• Tesauro - lista estruturada de conceitos destinados a representar, de
maneira unívoca, o conteúdo dos documentos e das buscas em um dado
sistema, e a apoiar o usuário na indexação dos documentos.

De acordo com Araújo Junior: " o processo de indexação, por estar


envolvido diretamente com a descrição e representação do conteúdo dos
documentos, além de desempenhar um papel preponderante no processo de
busca e recuperação da informação, tem na análise, descrição e
representação dos conteúdos dos documentos seus fatores críticos de
sucesso" (p. 45).
A tradução de um documento em termos documentários para expressar
o seu conteúdo deve ser operacionalizado por:
1- . Leitura analítica do documento feita pelo indexador para identificar
e selecionara descritores que possam representar de forma fidedigna
o seu conteúdo;
2- Controle e avaliação da coerência e qualidade da indexação; e
3- Consideração das necessidades de informação dos usuários.
INDEXAÇÃO E RESUMO: ASPECTOS TEÓRICOS E PRÁTICOS

Indexação e Resumo: representação sucinta do conteúdo do


documento. Objetivos:
1- Representação do conteúdo;
2- Elaboração de pontos de acesso para compor uma base de dados;
3- Recuperação da informação.

Indexação e Resumo: representação sucinta do conteúdo do


documento. Objetivos:

O SRI busca, ao mesmo tempo:


1- Recuperar documentos pertinentes/relevantes/úteis;
2- Evitar recuperar documentos impertinentes/irrelevantes/inúteis.

INDEXAÇÃO E RESUMO NO SISTEMA DE RECUPERAÇÃO DE INFORMAÇÃO


EXTENSÃO DA INDEXAÇÃO

Conceito: extensão com que os documentos são representados:


1- Especificidade:
 A extensão em que o SRI nos permite ser precisos ao
especificarmos um assunto de um documento;
 Está relacionada à abrangência semântica da representação;
 O seu oposto corresponde à generalidade;

O aumento da especificidade pode ser obtido com os acréscimos de


delimitadores (subcabeçalhos):
Exs: BIBLIOTECA = > BIBLIOTECA ESCOLAR
BIBLIOTECONOMIA = > HISTÓRIA DA BIBIOTECONOMIA
SISTEMAS DE INFORMAÇÃO = > IMPLANTAÇÃO DE SISTEMAS DE
INFORMAÇÃO.

Com a substituição e/ou acréscimos (neste caso aumenta a especificidade


exaustividade) de cabeçalhos:
Exs: REPRESENTAÇÃO DA INFORMAÇÃO => CLASSIFICAÇÃO
ARQUITETURA RELIGIOSA => ARQUITETURA DE CATEDRAIS
CIÊNCIAS DA INFORMAÇÃO => ARQUIVOLOGIA

2- Exaustividade:
 A extensão (profundidade) com que analisamos um
determinado documento;
 Está relacionada à quantidade de pontos de acessos atribuídos
ao documento;
 O seu oposto concerne à seletividade;

O aumento da exaustividade se dá necessariamente com o acréscimo


depostos de acesso:
1- Ponto de acesso: CATALOGAÇÃO;
2- Ponto de acesso: CLASSIFICAÇÃO;
3- Ponto de acesso: INDEXAÇÃO;
4- Ponto de acesso: RESUMO
MEDIDAS DE EXTENSÃO DA INDEXAÇÃO

Fonte: Lancaster (2003).


COEFICIENTES DE RECUPERABILIDADE

Conceito: índices de recuperação de documentos em um SRI;


Coeficientes de recuperabilidade:
1- Precisão: a capacidade que o SRI tem de recuperar apenas
documentos úteis; a relação entre os itens úteis e o total de itens
recuperados.

CP = itens úteis recuperados = 6 = 0,10 = 10% total de itens


recuperados 57 ◦ revocação: a extensão com que os itens úteis são
recuperados;
A relação entre os itens úteis recuperados e os itens úteis existentes no
SRI.
CONCEITOS E TIPOLOGIA DE RESUMOS

Conceito: representação concisa do conteúdo do documento. Tipos de


resumo:
1- Indicativo: indica os pontos principais (descrição); não apresenta
dados qualitativo e quantitativo; não dispensa, de modo geral, a
consulta do original (texto-fonte).
2- Informativo: informa as finalidades, metodologia, resultados e
conclusões do texto fonte (explicação), dispensa a consulta do
original (texto-fonte).
3- Crítico: análise crítica de um documento; redigido por especialista;
também chamado de resenha; quando analisa uma edição do
documento entre várias, denomina-se recensão

ELABORAÇÃO DE RESUMOS

Regras gerais de apresentação:


1- Elementos: objetivo, método, resultados e conclusões;
2- Ordem dos elementos e extensão: tipo de resumo (indicativo ou
informativo); tratamento dado pelo texto-fonte;
3- Estrutura: o resumo deve ser precedido da referência do texto-fonte,
salvo quando estiver inserido no próprio documento (artigos,
trabalhos acadêmicos e relatórios técnico-científicos); frases concisas
e afirmativas, iniciando com um tópico frasal (frase significativa);
não se trata de enumeração de tópicos; uso de parágrafo único
(recomenda-se); discurso na voz ativa e na terceira pessoa do
singular; as palavras-chave são dispostas logo abaixo do resumo,
precedidas da expressão “palavras-chave”, separadas entre si por
ponto e finalizadas também por ponto
ELABORAÇÃO DE RESUMOS

Deve-se evitar:
1- Símbolos e contrações que não sejam de uso corrente;
2- Fórmulas, equações, diagramas, etc., que não sejam
absolutamente necessários;

Extensão:
1- Trabalhos acadêmicos (monografias, dissertações e teses) e
relatórios técnico-científicos: de 150 a 500 palavras;
2- Artigos de periódicos: de 100 a 250 palavras;
3- Indicações breves: de 50 a 100 palavras (ABNT/NBR 6028,
2003).

FIM – APOSTILA 1
A RECUPERAÇÃO DA INFORMAÇÃO E OS SISTEMAS DE
RECUPERAÇÃO DA INFORMAÇÃO – SRI

A recuperação da informação consiste numa multiplicidade de operações


consecutivas, executadas para localizar uma informação necessária ou
documentos que a contenham, com a recuperação subsequente desses
documentos.
A recuperação da informação afeta o bibliotecário, como profissional
que pretende satisfazer a necessidade social do homem: ter acesso a diversos
tipos de informação. O problema da recuperação da informação pode ser
visto, por um lado, como uma acumulação constante de um volume sempre
crescente da informação e, por outro lado, o crescimento e a complexidade,
cada vez maior, das necessidades de informação.
A RI é efetuada por meio de Sistemas de Recuperação da Informação, e
um SRI é uma organização para armazenar e tornar disponível a informação,
podendo ser um catálogo, uma base dada, etc., e deve ter os seguintes
componentes:
1- Seleção e Aquisição – O início de um SRI se dá pela formação de
um conjunto de documentos previamente selecionados e adquiridos
dentro dos critérios estabelecidos pela instituição que o mantém e de
acordo com os objetivos a que ele se propõe atingir. No
estabelecimento de uma política de seleção das informações que
alimentarão o sistema, é fundamental que o usuário possa se
manifestar e seja ouvido.
2- Indexação - considerada a parte mais importante para a eficácia de
um SRI

Em qualquer SRI, os documentos podem ser analisados de duas


maneiras:
1- Bibliográfica ou objetivamente – trata-se do tratamento descritivo
dos documentos, em que são identificados dados físicos do
documento, como autor, título, edição, local de publicação, editora,
data da publicação. São dados objetivos, pois estão explícitos,
geralmente, na capa e folha de rosto. Existem regras para este tipo de
análise.
2- Intelectual ou subjetivamente – trata-se do tratamento temático dos
documentos, em que são definidos os termos do seu conteúdo,
ocorrendo aí o processo de indexação de assuntos. Para este tipo de
análise, não existem regras fixas que a padronizem.
O INDEXADOR

O profissional da informação que desenvolve a atividade de indexar


assuntos de documentos é chamado de indexador, catalogador de assuntos
ou classificador. A maioria desses profissionais é graduado em
Biblioteconomia, e deve conhecer os fundamentos teóricos e técnicos do
tratamento temático da informação.
Um dos fatores que interferem no trabalho do indexador é a
subjetividade, inerente ao ser humano e difícil de ser controlada. Vários
outros fatores são verificados, ainda, como interferentes no processo de
indexar, como o conhecimento prévio (conhecimento de mundo,
conhecimento tácito) adquirido ao longo da vida, a sua formação e a
experiência no trabalho de indexação. No entanto, o conhecimento da área
de atuação é um fator importante a ser considerado, já que o domínio da
terminologia e o conhecimento da taxonomia das classes de assuntos da área
em que está atuando, auxiliam muito o trabalho de se extrair o conteúdo de
documentos.
Observa-se, ainda, a interferência de fatores linguísticos, (como o
conhecimento da língua, do vocabulário e da sintaxe, além da
identificação de tipos de estruturas textuais), fatores cognitivos
(capacidade de abstração, percepção e interpretação de informações contidas
nos textos analisados) e fatores lógicos (elementos de dedução, indução,
inferência, silogismo e outros), o que torna o estudo do processo de
indexação altamente interdisciplinar.

O PROCESSO DE INDEXAÇÃO

No campo do tratamento da informação, o termo indexação apresenta


dois sentidos: um mais amplo, quando se refere à atividade de criar índices,
seja de autor, de título, de assunto, tanto de publicações (livros, periódicos),
quanto de catálogos ou de banco de dados, em bibliotecas ou centros de
informação. O outro sentido, mais restrito, refere-se à indexação,
classificação ou catalogação de assuntos das informações contidas em
documentos.
Os índices podem ser encabeçados e ordenados por autores, títulos,
lugares de publicações, etc. mas, frequentemente, a idéia de RI está ligada à
recuperação de documentos pelos assuntos que tratam.
Índice tem sido descrito como a chave para o acesso ao conteúdo dos
documentos, ou como uma ponte ou elo entre o conteúdo de um arquivo e
seus usuários.
Um índice é o instrumento mais importante num SRI. Indexar é o ato de
incluir o registro de um documento num arquivo de informações.
Na literatura é feita essa distinção: a indexação back-of-book (primeiro
sentido citado) permite ao leitor localizar informação sobre um tópico dentro
do livro, sendo a tarefa do indexador ler o texto, distinguir entre informação
relevante e periférica e empregar os tipos de processamento de informação
presentes na leitura. Por sua vez, a indexação acadêmica (segundo sentido
citado) fornece um termo útil estabelecido pela indexação praticada em bases
de dados de resumos e em catálogos de bibliotecas.
Indexação acadêmica, que compreende duas etapas distintas: a análise
de assunto, quando ocorre a extração de conceitos que possam representar
o conteúdo de um documento, expresso em linguagem natural, e a tradução
desses conceitos para termos de instrumentos de indexação, que são as
chamadas linguagens de indexação, linguagens artificiais ou linguagens
documentárias.
Indexação é o processo de discernir a essência de um documento e
representar essa essência num modo de expressão em linguagem de
indexação. Alguns autores denominam esse processo de análise
documentária, que é definida como um conjunto de procedimentos
efetuados com o fim de expressar o conteúdo de documentos, sob formas
destinadas a facilitar a recuperação da informação. Essa passagem de um
texto original para um tipo de representação é uma operação semântica,
mesmo que não obedeça a nenhuma regra precisa e varie em função de cada
organismo e do analista, que seleciona as palavras-chave, normalmente de
forma intuitiva, em função de sua ocorrência e do seu interesse para a
instituição.

ANÁLISE DE ASSUNTO

Esta é a primeira etapa da indexação, considerada por muitos como a


etapa intelectual do trabalho do indexador. O processo de ler um documento
para extrair conceitos que traduzam a sua essência é conhecido como análise
de assunto para alguns, análise temática para outros, ou, ainda, análise
documentária, análise conceitual ou, mesmo, análise de conteúdo. Como se
pode ver, trata-se de um processo em que há uma certa confusão conceitual
e para o qual aparecem diferentes concepções.
A análise de assunto feita pelo indexador humano se dá em dois
momentos: quando ele vai analisar um documento para inseri-lo num SRI, e
quando recebe um pedido de informação do usuário.

O processo de análise de assunto compreende três fases:

1- A LEITURA DO TEXTO PELO INDEXADOR:


O texto é o ponto de partida para operações analítico-documentárias,
sendo constante a presença dos elementos conteúdo e forma, como partes
essenciais do mesmo. Para ter uma competência textual é preciso que, além
de conhecer o texto que tem em mãos para análise sob todos os aspectos, o
indexador faça dele uma leitura adequada, e sabe-se que um texto pode gerar
muitas leituras, interessando mais, neste estudo, a leitura para fins
documentários.
Para que os conteúdos dos textos sejam assimilados e compreendidos, é
preciso que as informações sejam processadas na mente do leitor e,
atualmente, parece ser consenso entre os especialistas em leitura que o
processamento do ato de ler se dá interativamente, dependendo dessa
interação a não compreensão ou a compreensão de um texto. Durante a
compreensão do texto pelo indexador, ocorrem dois tipos de processamento
mental da informação: o top-down e o bottom-up, que parecem ocorrer
simultaneamente na mente humana ao fazer a leitura de um texto. São
inversos e complementares, e chamados por alguns autores de modelos de
leitura: é o tipo ascendente, guiado por dados, indutivo, bottom-up, no qual
a leitura é linear, das partes para o todo textual, e o tipo descendente,
dedutivo, top-down, no qual se move na forma inversa, obtendo vantagem
da base de conhecimento do leitor. Trata-se de uma dupla ação: percepção e
compreensão.
A interferência de vários fatores subjetivos/cognitivos torna a leitura um
ato subjetivo e individual, posto que o sentido dado ao texto lido sempre vai
variar de leitor para leitor. Diante disso, o que poderia ser afirmado com
relação à leitura para fins documentários? Existe algum modelo a ser
seguido? E com relação ao leitor/indexador?
Um documento, inserido num SRI, antes de ser lido pelo leitor, usuário
final do sistema, é lido por um leitor técnico, o indexador, aquele que faz a
leitura para fins documentários. Esse tipo de leitura, conhecido como leitura
documentária ou leitura técnica, tem certas características, não sendo
realizada para lazer ou aprendizagem, nem é prazerosa, muito pelo contrário.
O alto grau de incerteza, ansiedade e responsabilidade contido na atividade
já mostra que a mesma traz pouca satisfação. É um tipo de leitura bem
racional e rápido, em que o leitor técnico não tem chances de aproveitar a
leitura, já que seu propósito é o de extrair o conteúdo informativo do texto,
tendo em vista a sua posterior recuperação por um leitor interessado.
Outro aspecto que merece ser ressaltado é que o autor do texto, ao
escrevê-lo, tem em mente um determinado leitor alvo para o qual direciona
suas ideias; suas intenções não são dirigidas para o leitor/indexador e não lhe
interessa se esse vai ter capacidade para interpretar as informações que
aquele texto está veiculando.
São várias as tentativas de se estabelecerem alguns critérios e de
sistematizar o processo de leitura do indexador, mas não há um consenso
quanto à forma mais adequada de se fazer essa leitura, visando à extração e
ao posterior tratamento das informações contidas no texto.

2- EXTRAÇÃO DE CONCEITOS:
Para definir em termos adequados o assunto de um texto, é necessário
que primeiro se extraiam os conceitos que nele estão contidos. Se, para fazer
uma análise conceitual, devem-se extrair conceitos, pergunta-se: o que é um
conceito?
Conceitos são unidades do conhecimento identificadas através de
enunciados verdadeiros sobre um item de referência, representados por um
termo ou palavra. É uma idéia, uma representação mental que nos permite
categorizar objetos. Existem tipos de conceitos, como os individuais
(representados por nomes de coisas individuais, em linguagem simples) os
gerais (representados por nomes de classes de coisas e podem ser expressos
em uma multiplicidade de expressões lexicais e não lexicais) os científicos
(podem ser aprendidos na vida acadêmica, e, depois, são estabelecidas
conexões entre eles e os eventos da vida diária) os cotidianos (são objetos
usados normalmente, como roupas, carros).
A formação de conceitos é um processo que envolve discriminação e
agrupamento. Os fatores que afetam o processo são experiência prévia,
tempo, fatores sociais, etc.
Conceitos, palavras e significados: Não há uma correspondência exata
entre palavras e conceitos; há pelo menos dois conceitos que se apresentam
quando vemos a palavra volume. Não somente as palavras estimulam
diferentes conceitos para indivíduos diferentes, como, para o mesmo
indivíduo, de acordo com as circunstâncias. Uma das razões para os
diferentes significados que diferentes palavras têm, para diferentes pessoas,
é que há duas espécies de significado: denotação e conotação. Denotação de
uma palavra é a coisa que ela representa ou a que se refere. Apontando para
um gato, eu posso dizer: “Isto é um gato”. Já a conotação de uma palavra é
altamente individual e pessoal. Se eu gosto de gatos, minha conotação de
“gato” inclui a noção de amizade, calor, etc. Se não, inclui mau cheiro e grito
à noite.
Tipos de relações entre conceitos:
1- Relação de equivalência
 Sinônimos: Meio ambiente X Ecologia
 Quase sinônimos: Datiloscopia X Impressão Digital
 Grafias diferentes: Contato X Contacto
 Abreviaturas e Acrônimos: ONU X Organização das
Nações Unidas
 Traduções: Recall X Revocação

2- Relação hierárquica
 Gênero/espécie: Quase genérica: (Gato X Animal de
estimação) - Verdadeiramente genérica: (Gato X Mamífero)
 Todo/parte (Sistema respiratório X Pulmão)

3- Relação associativa (afinidade ou de coordenação)


 Coordenação: Terra X Marte
 Genética: Pais X Filhos
 Instrumental: Escrita X Lápis
 Concorrente: Ensino X Aprendizagem
 Material: Livro X Papel
 Similaridade de processo: Catalogação X Classificação

Duas variáveis interferem na escolha de conceitos: a exaustividade e a


especificidade. Ambas dependem da política de indexação adotada no SRI,
que deve seguir critérios pré-estabelecidos, tendo em vista os objetivos do
sistema, os recursos disponíveis e o tipo de usuário.
A EXAUSTIVIDADE - relaciona-se à capacidade do sistema de
indexar o documento em profundidade, ou seja, além do assunto principal,
são indexados também os assuntos secundários.
A ESPECIFICIDADE - é a capacidade do sistema de nos permitir ser
precisos ao especificarmos o assunto de um documento.
Os s fatores de especificidade e exaustividade têm influência em todo o
processo de recuperação da informação, havendo ligação desses com as
medidas de revocação e precisão.
A análise conceitual tem, como produto, um assunto, que representa o
conteúdo informacional de um texto. A noção de assunto de um texto é
indeterminada, pois há casos em que é impossível, em princípio, decidir qual
de duas diferentes e igualmente precisas descrições, é a descrição do assunto,
ou se o texto tem dois assuntos ao invés de um.
Tipos de assuntos: São identificados três tipos de assuntos: assunto
simples (formado por um único conceito). Ex: Indexação; assunto
composto (formado por mais de um conceito pertencentes a uma mesma
área do conhecimento) Ex: Indexação de materiais especiais (são dois
conceitos da Biblioteconomia); e assunto complexo (formado por conceitos
de áreas diferentes) Ex: A arte como terapia para idosos (conceitos da Arte
e da Psicologia).
A atividade de identificar a (s) idéia (s) principal (ais) do texto exige a
capacidade de compreensão de seu conteúdo, o que está ligado a processos
cognitivos.
Na determinação do assunto, é preciso que se verifique o contexto no
qual o documento é produzido e para o qual ele existe, em determinado
momento.
Conceito, assunto e contexto são aspectos interdependentes que ocorrem
durante todo o processo de análise de assunto, até o momento de se afirmar
sobre o que trata o documento, próxima fase.

3 - DETERMINAÇÃO DA ATINÊNCIA:

Terminada a fase de extração de conceitos, é necessário que se faça uma


seleção daqueles que realmente sintetizem o assunto do texto, partindo-se,
assim, para a terceira fase do processo de análise de assunto, que é a
determinação da chamada atinência, termo traduzido do inglês aboutness.
(Outras traduções: concernência, sobrecidade, temacidade)
Nesta fase da determinação da atinência para representar os conceitos
extraídos do texto, inicia-se um processo linguístico e o problema de
descrever documentos para recuperação é, principalmente, o problema de
como a linguagem é usada. Há uma forte relação entre a atinência do
documento e seu (s) significado (s) identificado (s) pelos indivíduos. Um
texto tem uma atinência relativamente permanente, mas um número variado
de significados.
O produto final da atinência é uma frase de indexação, elaborada pelo
indexador em linguagem natural. Após todo o processo intelectual de leitura
do texto, de extração e seleção de conceitos, é o momento em que ele afirma:
Este documento trata de..........
Das etapas de indexação, a análise de assunto é a que sofre mais
influência da subjetividade do indexador, sendo, por isso, considerada muito
complexa. Por todos os aspectos considerados neste item, pode-se concluir
que essa não é uma atividade possível de ser ensinada, não havendo uma
receita, ou uma rotina a ser seguida no desenvolvimento da mesma.
Tentativas de automatizar a análise de assunto já vêm sendo
implementadas em pesquisas de cursos de pós-graduação, mas pode-se
verificar que, por enquanto, o limite da máquina ainda é a capacidade
humana de percepção e abstração.

TRADUÇÃO DA FRASE DE INDEXAÇÃO PARA


LINGUAGENS DE INDEXAÇÃO:

Tentativas de automatizar a análise de assunto já vêm sendo


implementadas em pesquisas de cursos de pós-graduação, mas pode-se
verificar que, por enquanto, o limite da máquina ainda é a capacidade
humana de percepção e abstração.
Quando termina a primeira etapa da indexação, com o (s) assunto (s) já
definidos em linguagem natural, chega o momento de inseri-lo (s) no SRI.
Para isso, é feita a tradução da frase de indexação para os termos da
linguagem de indexação, o que significa transformar os conceitos
selecionados em termos ou símbolos autorizados para representá-los no
sistema.
Quando indexamos um documento por assunto, nós o colocamos em
uma ou mais classes, e cada classe deve ter um número ou rótulo, que são
chamados termos indexadores. O conjunto dessa forma a linguagem de
indexação.
Há dois métodos fundamentais de indexar o assunto de documentos:
1- Indexação por palavras – utiliza termos empregados pelo autor na
apresentação das suas ideias, isto é, as palavras encontradas nos
títulos ou nos textos dos documentos Ex: A palavra mandioca traduz
uma determinada idéia, um dado conceito, que também pode ser
expresso pelas palavras aipim, macaxera. Uma indexação por
palavras registrará os documentos pelos termos utilizados pelos
autores, ou seja, na linguagem natural. O sistema indexará um
documento sobre mandioca e outro sobre aipim (linguagem natural).
Um exemplo típico de indexação por palavra é o índice KWIC (Key
Word in the Context), que utiliza títulos dos documentos. O que
acontece na recuperação de um documento cujo título é “Feijão, angu
e couve”? A recuperação só pode ser feita através dessas palavras,
mas o assunto do documento é “Costumes mineiros”. O que
acontecerá com a recuperação deste documento?
2- Indexação por conceitos - a indexação por conceitos pressupõe a
análise de assunto do documento, a decisão sobre conceitos presentes
no texto e a tradução destes em linguagem apropriada. Na indexação
por conceitos, determinam-se os cabeçalhos a empregar, distinguem-
se homônimos, controlam-se sinônimos, preveem-se relações de
equivalência, hierárquica e associativa.
É importante ressaltar que o indexador deve estar familiarizado com a
linguagem utilizada no SRI, embora esta linguagem não deva influenciar a
análise de assunto dos documentos.

LINGUAGENS DE INDEXAÇÃO

.
A linguagem de indexação é aquela cujo objetivo é representar o
conteúdo temático dos documentos. Alguns sistemas utilizam a linguagem
natural (escrita e falada, pouco usada por apresentar grande inconsistência)
como linguagem de indexação e, nesses casos, adotam como termos
indexadores os termos na forma como aparecem nos documentos, sem
modificações. Isso traz alguns problemas, como diferentes autores usando
palavras diversas para expressarem o mesmo conceito (dispersão
terminológica) ou o caso do uso de diferentes estruturas para expressarem a
mesma idéia (dispersão sintática).
No entanto, comumente, são utilizadas linguagens artificiais. Essas
refletirão um vocabulário controlado, para o qual foram tomadas decisões
cuidadosas sobre os termos a serem usados, o significado de cada um, e os
relacionamentos que apresentam.
Uma linguagem de indexação deve procurar indicar os relacionamentos
entre os termos no seu vocabulário. Por exemplo, se um sistema inclui os
termos ENSINO MÉDIO e ESCOLAS PROFISSIONALIZANTES, pode-
se indicar a relação entre esses dois termos, pois um usuário, procurando
informação sobre ensino médio, poderá encontrar documentos relevantes
sob o termo escolas profissionalizantes que, usualmente, se ocupam também
do ensino médio. Uma linguagem de indexação que tem um vocabulário
controlado e que tenta indicar as relações entre os termos no seu vocabulário
é chamada estruturada.
Objetivos das Linguagens de indexação:

 Possibilitar que o indexador represente os assuntos dos


documentos de forma consistente;
 Compatibilizar o vocabulário usado pelo usuário com o
vocabulário usado pelo indexador;
 Permitir ao usuário moldar a estratégia de busca de forma a obter
alta revocação ou alta precisão, conforme o exigirem as
circunstâncias.

Funções das linguagens de indexação:

 Substituir a grande variedade de expressões da linguagem natural


por uma linguagem formal;
 Estabelecer um ponto comum entre linguagem do autor,
linguagem do indexador e linguagem do usuário;
 Estabelecer um vocabulário que mostre as relações entre termos e
conceitos: relações semânticas (equivalência, hierarquia e
associativa) e relações sintáticas (coordenação de dois ou mais
elementos para formar assuntos compostos)
 Economizar espaço de arquivo;
 Ajudar na recuperação de conceitos específicos.

Construção de linguagens de indexação:

A geração de um vocabulário controlado não é uma tarefa simples, e


têm-se verificado várias iniciativas nesse sentido, pela necessidade de se
tratarem, cada vez mais, de assuntos complexos que exigem uma análise
mais aprofundada e com alto grau de especificidade.
Alguns aspectos são levantados para a criação das linguagens
controladas, como: gerar um vocabulário com base nos termos de indexação
de um conjunto de documentos; modificar um vocabulário já existente ou
extrair o vocabulário de outro já existente; reunir termos de diferentes fontes:
especialistas da área, dicionários, glossários, índices, etc.
Um vocabulário controlado deve ser capaz de representar conceitos que
realmente ocorrem na literatura do assunto. Este é o princípio da garantia
literária. É importante ressaltar, ainda, dois pontos que não podem ser
ignorados na construção de uma linguagem, como as questões formuladas
refletem suas necessidades de informação, e a consulta a especialistas da área
especializada da linguagem.
Depois do levantamento dos termos, parte-se para o estabelecimento das
relações entre os conceitos, podendo-se utilizar, para isso, a análise facetada,
que consiste na divisão do assunto em facetas (categorias de assuntos).
Passa-se a optar pelo melhor termo para representar um conceito (geral ou
específico), e estabelecer as hierarquias necessárias. pelos usuários, que
devem ser levadas em consideração na definição dos termos da linguagem,
pois

Componentes da linguagem de indexação:

As linguagens de indexação são formadas por dois componentes básicos:


vocabulário e sintaxe.

Vocabulário - é o conjunto de termos de indexação utilizáveis para


representar o conteúdo temático dos documentos, que podem ser cabeçalhos
de assuntos (listas de cabeçalhos de assunto), descritores (tesauros) ou
símbolos de classificação (sistemas de classificação bibliográfica). O
vocabulário é sempre menor do que os vocabulários dos usuários, dos
documentos indexados e do próprio indexador, por causa do controle do
vocabulário. Diante disso, é necessário fornecer, além do vocabulário de
indexação (termos usados no índice), um vocabulário de abordagem, que
consiste de termos que não são usados no sistema para representar os
conceitos, mas que podem ser usados pelos autores dos textos, pelos
indexadores, e pelos usuários ao consultar o índice. Por exemplo, o
vocabulário do sistema usa o termo TESTE DE INTELIGÊNCIA.
Porém, o assunto pode ser procurado por:
TESTES MENTAIS – termo sinônimo
TESTES PSICOLÓGICOS – termo mais geral (abrangente)
TESDE DE APTIDÃO – termo mais especifico
DESENVOLVIMENTO MENTAL – termo relacionado
Estes termos constituem o vocabulário de abordagem.

Sintaxe - é o conjunto de artifícios empregados para revelar as relações


entre os conceitos e as regras para estabelecer os descritores e determinar a
ordem em que devem ser citados. Ocorrem da necessidade de se poder
recuperar a interseção entre duas ou mais classes de conceitos, e o
reconhecimento das relações entre os conceitos (item 3.1.2) é produto de
uma análise de assunto cuidadosa, que é básica para todas as linguagens de
indexação estruturadas.
São evidenciadas, as relações semânticas (ou de significado) e as
relações sintáticas que existem entre os termos indexadores.
As relações semânticas devem ser controladas ou mostradas nas
linguagens de indexação com o objetivo de se indicarem os termos
alternativos ou substitutivos de indexação e busca. As relações semânticas
podem ser de 3 tipos: equivalência, hierárquicas e associativas.
Dependendo da estrutura da linguagem de indexação (verbal ou simbólica),
o estabelecimento das relações semânticas pode ser mais complexo ou mais
simples, utilizadas em tesauros e listas de cabeçalhos de assuntos).

1- Relações de equivalência (ver, see, use, x) UP (usado para = Used


For - UF)
2- Relações hierárquicas - TG (Termo Geral = Broader Term - BT),
TE (Termo Específico = Narrowed Term - NT).
3- Relações associativas (ver também, see also, xx) TR (Termo
Relacionado = Related Term - RT)

As linguagens controladas são mais eficientes no SRI, embora


apresentem maior dificuldade para o usuário. Quanto maior a diferença entre
a linguagem natural e a linguagem controlada, maiores as dificuldades dos
usuários no momento da busca.

O vocabulário de uma linguagem de indexação:

O vocabulário de uma linguagem de indexação pode ser verbal ou


simbólico (codificado), que constituem as linguagens verbais e as
linguagens simbólicas.

Linguagens verbais: Nas linguagens verbais, os assuntos são


representados por palavras, como por exemplo, um documento que trate da
História da França, será representado por FRANÇA – História.
São linguagens verbais as listas de cabeçalhos de assunto, os tesauros.
As LCA são arranjadas em ordem alfabética de cabeçalhos de assunto,
e têm abrangência geral de todas as áreas do conhecimento. Apresentam
pouca flexibilidade, pois são pré-coordenadas (ver item 3.3.7), havendo o
estabelecimento de uma ordem de citação entre os termos.
Os tesauros, por sua vez, são especializados numa determinada área do
conhecimento, e mais flexíveis, apresentando uma ordem alfabética e
sistemática entre os termos de assuntos, chamados descritores. Utiliza
termos simples, não havendo ordem de citação entre os termos, constituindo
uma linguagem pós-coordenada.

Linguagens simbólicas: Nas linguagens simbólicas, os assuntos são


representados por códigos ou símbolos, na forma da notação de um sistema
de classificação bibliográfica. Assim, o exemplo de História da França, o
assunto será representado por 944 (CDD)
Uma das linguagens simbólicas mais usadas em bibliotecas é a
classificação bibliográfica. Um mapa completo de qualquer área do
conhecimento, mostrando todos os seus conceitos e suas relações é chamado
de tabela, esquema ou sistema de classificação.

SISTEMAS DE CLASSIFICAÇÃO

Se dividem em:
A- De acordo com a apresentação dos assuntos: enumerativos -
procuram indicar todos os assuntos e todas as combinações
possíveis entre eles e apresentar os símbolos que os representam
prontos para serem usados. Ex: Classificação Decimal de Dewey
(CDD); e os analítico-sintéticos – ou facetados - apresentam listas
de assuntos – facetas – acompanhados de símbolos e deixam ao
classificador a tarefa de combinar os símbolos para apresentar os
assuntos compostos. Ex: Colon Classification (Classificação de
Dois Pontos) e Bliss Classification.
B- De acordo com a abrangência: gerais – todas as classes do
conhecimento. Ex: Dewey, CDU, Colon, LC; e especiais - classes
especiais de assunto – Ex: Coates (Música).

Elementos de um sistema de classificação:

1- Apresentação ou introdução – Origem e evolução do sistema.


Atualização. Ordem de citação. Ordem de arquivamento. Instruções
para a construção de números de classificação.
2- Tabelas Auxiliares, classe geral, assuntos
3- Notação
4- Índice alfabético
Como classificar:

Ranganathan enfatizou que há três estágios diferentes na indexação, e


denominou-os de Plano Idéia (análise de assunto em nossas próprias
palavras; decisão sobre a classe principal apropriada; decisão sobre a ordem
de citação para a classe; re-arranjo da análise de assunto na ordem
apropriada), Plano Verbal (exame do índice e das tabelas do esquema para
encontrar os conceitos necessários) e Plano Notacional (construção da
notação para os conceitos, de acordo com as regras estabelecidas).
Em todo SRI, é necessário o controle de terminologia para assegurar a
coincidência das perguntas e respostas, fazendo com que determinado
assunto pesquisado seja recuperado. Este controle pode ser feito através de
coordenação de conceitos no ato da indexação ou no momento da
recuperação. São as chamadas linguagens pré e pós coordenadas.

LINGUAGENS PRÉ-COORDENADAS

Os sistemas pré-coordenados estabelecem a coordenação dos vários


tópicos referentes a um assunto composto no momento da indexação, e, com
grande subjetividade, determinam uma prioridade na citação desses
elementos. Essa ordem é determinada a partir da importância que os
conceitos representam para os usuários.

Características da pré-coordenação:

 Subjetividade (conceitos compostos);


 Entradas múltiplas (remissivas + referências);
 Autonomia do indexador;
 Fáceis de serem usadas.

Vantagens:

 Um único lugar para um assunto composto: prover apenas um


lugar inequívoco para qualquer assunto composto;
 Personalização da busca: fazer com que os usuários possam
familiarizar-se com o sistema e, com o tempo, passem a formular
questões de acordo com a linguagem do sistema;
 Limitação do tamanho: a entrada única ajuda a evitar o
crescimento desmesurado do catálogo, tornando mais simples o
seu uso e menos dispendioso a sua manutenção;
 Flexibilidade na estratégia de busca: podem ocorrer mudanças na
estratégia da pesquisa, podendo seguir um assunto mais restrito,
mais genérico ou correlato, sem ter que se começar pela estaca
zero;
 Busca sequencial manual rápida: as linguagens pré-coordenadas
funcionam melhor nesses sistemas tradicionais de registro de
documentos. Elas geram arquivos maiores, mas a busca manual,
quando realizada sequencialmente, é mais rápida;
 Evita falsas associações e relações incorretas;
 São mais precisas.

Desvantagens:

 Dificuldade na representação dos diferentes sentidos do termo, e


das relações entre os termos;
 Ordem fixa: os termos somente podem ser listados numa
determinada sequência;
 Pouca flexibilidade na busca: é quase impossível fazer a
combinação entre os termos no momento da busca;
 Tamanho e custo: o uso da “entrada múltipla” encarece o sistema
e aumenta o tamanho do índice.

Os sistemas pré-coordenados estabelecem a coordenação dos vários


tópicos referentes a um assunto composto no momento da indexação, e, com
grande subjetividade, determinam uma prioridade na citação desses
elementos. Essa ordem é determinada a partir da importância que os
conceitos representam para os usuários.
Exemplos de linguagens pré-coordenadas: listas de cabeçalhos de
assunto (Library of Congress, Rovira, Wanda Ferraz), os índices
permutados, os índices em cadeia e as classificações bibliográficas.
(Classificação Decimal de Dewey, Classificação Decimal Universal).
ORDEM DE CITAÇÃO

O problema das linguagens pré-coordenadas é a necessidade de se


estabelecer uma ordem de prioridade para os diversos conceitos. É a
chamada ordem de citação, a ser determinada a partir da importância que
os conceitos têm para os usuários e, nesse caso, somente o primeiro elemento
citado é recuperado, ficando os outros ocultos. Existem algumas regras
básicas tentando estabelecer a ordem de citação dos assuntos complexos,
como:
1- O assunto antes da forma bibliográfica: Geologia – Enciclopédia
2- O assunto antes do lugar (com a preposição em): A fome no Brasil,
Fome-Brasil
3- O assunto depois do lugar (com a preposição de): Montanhas do
Brasil, seria Brasil-Montanhas
4- Todo-parte: Índices de Periódicos, seria periódico - Índices

Opções de ordem de citação são dadas por teóricos da área, como Kaiser
(1911) – “o concreto, depois o processo” – Indexação de livros, seria Livros
- Indexação; por Coates (1960) – Coisa – Parte – Material – Ação. Uma das
opções, é a utilização das Cinco Categorias Fundamentais, estabelecidas por
Ranganathan: PMEST - Personalidade (núcleo do assunto), Matéria, Energia
(processo), Espaço e Tempo.

Ex: Plantação de soja no Paraná em 2003


A ordem dos termos será: SOJA-Plantação-Paraná-2003

Como se pode verificar, apenas o termo soja poderá ser recuperado na


ordem alfabética. Uma solução para isso, é a adoção de “entradas múltiplas”,
ou a utilização de uma “rede sindética” (uso de remissivas e referências) bem
elaborada.
LINGUAGENS PÓS-COORDENADAS

Os sistemas pós-coordenados adotam conceitos simples usados na


indexação, que são combinados pelo usuário no momento da busca. Os
termos são combinados de qualquer maneira, conforme a necessidade mais
geral ou mais específica do usuário.
Os sistemas mais modernos de recuperação da informação,
principalmente os sistemas automatizados, passaram a usar as linguagens
pós-coordenadas. Neste tipo de sistema, não existe a preocupação com a
importância dos elementos de um assunto composto, e, consequentemente,
com a ordem de citação desses elementos (ordem de prioridade definida nas
linguagens pré-coordenadas).
Uma linguagem pós-coordenada consiste de entradas que normalmente
são conceitos únicos, podendo-se dar a entrada de todos os termos no
sistema, sem a necessidade de decisões a respeito da prioridade dos itens.
Cria-se uma entrada única para cada assunto considerado relevante. Como
recurso que auxilia a busca em sistemas pós-coordenados e automatizados,
é utilizada a lógica booleana, com os elementos and, or, nor.

Características da pós-coordenação:

 Conceitos únicos: são indexados os conceitos simples;


 Comparação das entradas de assunto: permite determinar
coincidências que revelam documentos pertinentes ao assunto
pesquisado;
 Objetividade: dá-se a entrada a todos os termos relevantes, sem
a necessidade de decisões a respeito dos itens;
 Flexibilidade na busca: os termos podem ser combinados entre
si, de qualquer forma, no momento da busca;
 Pesos iguais para os termos: todo termo atribuído a um
documento tem peso igual, nenhum sendo mais importante que o
outro.

Vantagens:

 Independência da ordem de citação;


 Permissão de uma maior revocação;
 Mais eficiência, melhorando a qualidade e diminuindo o custo
nas buscas automatizadas.

Desvantagens:

 Eficiência ligada à automação: as linguagens de indexação pós-


coordenadas são consideradas mais eficientes apenas quando
usadas em sistemas automatizados;
 Combinação dos termos somente na saída, podendo-se obter
associações falsas e incorretas;
 Oferecimento de baixa precisão.

Exemplos de linguagens pós-coordenadas: Tesauros (descritores), o


Sistema Unitermo

AVALIAÇÃO DAS LINGUAGENS DE INDEXAÇÃO

A escolha de uma determinada linguagem de indexação para um SRI é


uma tarefa complexa e que exige muito conhecimento da área do
conhecimento em que o sistema está inserido, os objetivos da instituição à
qual está subordinado e, principalmente, os interesses dos usuários da
informação.
Alguns aspectos gerais devem ser observados para avaliação das LI pelo
indexador:
1- Qualquer LI deve estar permanentemente sendo avaliada (em
comparação com a evolução da área e a consequente mutação do
vocabulário, tanto dos autores como dos leitores) e atualizada
(eliminação de termos obsoletos e introdução de termos novos);
2- A criação de uma linguagem de indexação nova é um processo lento,
caro e que exige recursos humanos qualitativa e quantitativamente
preparados e disponíveis para isso, e a adaptação de uma linguagem
já existente pode ser racional, eficiente e mais barata;

3- Se a biblioteca ou centro de informação participar de uma rede ou de


um sistema cooperativo, as decisões devem ser comuns, e
apresentadas ao sistema para que possam ser incorporadas por todos
os membros participantes.
4- Se a instituição é isolada, a possibilidade de soluções individuais que
melhor se adaptem ao SRI são maiores, devendo-se considerar as
características da biblioteca;
5- Caso sejam detectadas falhas na recuperação da informação, deve-se
pesquisar as causas: Problemas na análise de assunto? Inadequações
do vocabulário controlado? Falta de treinamento do usuário? Falta de
remissivas e referências?
6- Qual a providência tomar no caso de não existirem, na LI adotada no
sistema, conceitos que não estão representados? Em alguns sistemas,
a admissão de novos termos é aceita, mas, em outros casos, o
indexador deverá usar descritores mais genéricos.
Nesse contexto, surgem dois conceitos que possibilitam também a
avaliação de uma LI: a revocação e a precisão. Revocação é o coeficiente
entre o número de documentos inseridos no sistema versus o número de
documentos relevantes recuperados pelo usuário, e a precisão é o coeficiente
entre o número de documentos inseridos no sistema e a precisão da busca.
Ex. Para a busca de documentos sobre Escultura, se o termo de busca for
Artes, haverá alta revocação e baixa precisão, pois serão recuperados
documentos que falam de escultura, mas não só sobre este assunto. Ao passo
que, se a busca for feita pelo próprio termo Escultura, a revocação será baixa
e haverá uma alta precisão, pois só serão recuperados documentos sobre
Escultura.
Pesquisas mostram que um maior grau de especificidade eleva a taxa de
precisão e baixa a de revocação; ao contrário, um aumento de
exaustividade, eleva a taxa de revocação, baixando a de precisão.

CONSISTÊNCIA DA INDEXAÇÃO

Um aspecto importante a ser considerado é a consistência da indexação,


que também será muito afetada pela qualidade da linguagem adotada. O
estabelecimento da linguagem de indexação deverá ser feito tendo em vista
a sua adequação ao sistema a que irá servir. Um fator importante é a
qualidade de atualização dessas linguagens, com a inclusão dos novos
termos que surgem nos diversos campos das ciências, adequando-se as
linguagens controladas às terminologias dessas áreas.
A consistência da indexação está ligada a dois elementos básicos: ao
desempenho do indexador e à qualidade dos instrumentos de indexação. É
importante que essa consistência seja regular, considerando-se o fator tempo
na operação de um determinado sistema, sendo necessário ao indexador um
alto grau de imparcialidade e uma submissão às diretrizes da indexação
adotadas pelo sistema. Deve-se procurar controlar a subjetividade, inerente
a qualquer trabalho humano, e presente na atividade de indexação. A
consistência é difícil de ser obtida quando é grande o grupo de indexadores,
ou quando trabalham em diferentes locais. Nesses casos, é aconselhável que
se estabeleça um grupo de controle centralizado para a verificação das
indexações feitas.
Para se obter consistência na indexação é preciso, ainda, que se tenha
bem estabelecida uma política de indexação, que siga critérios como nº de
termos indexadores para cada documento (exaustividade), uso de singular ou
plural, uso de siglas, termos em inglês e rede sindética.

INDEXAÇÃO AUTOMÁTICA VERSUS AUTOMATIZADA

Para a eficácia do controle e da organização das informações contidas


em documentos, na atualidade, torna-se imprescindível a automação de
várias atividades desenvolvidas em bibliotecas e centros de informação, e a
adoção de tecnologias da informação já é uma realidade na maioria desses.
A indexação de documentos é uma das atividades em que se tem investido
muitos recursos, visando aumentar a rapidez e a precisão na recuperação de
informações relevantes para os usuários.
Há uma controvérsia quanto ao uso das terminologias indexação
automática e automatizada, podendo-se sintetizar que, na primeira, o
trabalho desenvolvido para indexar assuntos é totalmente feito pelo
computador, como indexação por palavras (KWIC), pela freqüência com que
as palavras aparecem no texto, entre outros. Já na indexação automatizada,
a primeira etapa de extrair o conteúdo do documento (análise de assunto) é
feita por um indexador humano, que após seu trabalho intelectual, insere os
termos numa base de dados automatizada. No entanto, não há um consenso
quanto a essa diferença apresentada, podendo-se verificar os dois termos
usados, também, como sinônimos.
Para finalizar, levanta-se uma questão para reflexão dos bibliotecários:
até que ponto pode-se delegar à máquina a tarefa de indexação? Onde
poderia se apontar um limite para as atividades desenvolvidas pela máquina?
Seria, essa, já programada para exercer atividades mentais como abstrair,
interpretar, compreender e perceber, características inerentes ao ser humano?

FIM DA APOSTILA
TESAURO

Tesauro é um vocabulário controlado organizado em uma ordem


preestabelecida e estruturado de modo que os relacionamentos de
equivalência, de homografia, de hierarquia, e de associação entre termos
sejam indicados claramente e identificados por indicadores de
relacionamento padronizados.

As finalidades primordiais de um tesauro são:

 Facilitar a recuperação dos documentos e alcançar a consistência


na indexação dos documentos escritos ou registrados de outra
forma e outros tipos, principalmente para sistemas de
armazenamento e de recuperação de informação pós-coordenados
 Instrumento de controle terminológico utilizado para traduzir a
linguagem natural dos documentos, dos indexadores e dos
usuários, para uma linguagem sistêmica mais contida.

Terminologia:

 Tesauro
 Thesauro
 Linguagem de Indexação
 Vocabulário Controlado
 Microtesauro
 Macrotesauro

Theasaurus (Webster’s) é um dicionário que lista palavras que com


significados similares, e com significados opostos.
Theasaurus usualmente não contém informações sobre etimologia,
pronúncia e uso.
CAMPOS DO TESAURO

Theasaurus usualmente não contém informações sobre etimologia,


pronúncia e uso.
Descritor: Termo escolhido para representar um conceito no Tesauro e
que será utilizado na indexação e na recuperação de determinado assunto.
Quando houver outros termos que representem o mesmo conceito, antes do
termo descritor, constará a sigla USE.
Não-descritor: Termo que, embora descreva o mesmo conceito que o
descritor, não é autorizado na indexação, para evitar a proliferação de
sinônimos. Antes de cada não-descritor, constará a sigla UP.
Nota explicativa (NE): Fornece uma definição do termo ou uma
orientação sobre como utilizá-lo em uma indexação.
Termo genérico (TG): Indica que há relação hierárquica entre termos
com relação gênero-espécie e que este descritor representa o termo com o
conceito mais abrangente.
Termo específico (TE): Indica os termos subordinados ao termo
genérico na cadeia hierárquica.
Termo relacionado (TR): Indica relação entre termos que não formam
uma hierarquia (gênero-espécie), mas que são associados mentalmente, de
forma automática. Servem para orientar o indexador quanto às possibilidades
de encadeamento de descritores e para sugerir ao usuário formas de limitar
ou expandir uma pesquisa.
Categoria (CAT): Grande grupo ao qual pertence o descritor.
Frutas
TG Produtos agrícolas TE Frutas Cítricas

Frutas Cítricas
TG Frutas
TE Laranja
TE Limão

Laranja
TG Frutas Cítricas

Limão
TG Frutas Cítricas

Produtos Agrícolas
TE Frutas
Características do Tesauros:

 Os tesauros são construídos para uma área específica do


conhecimento.
 Não existe um tesauro geral; alguns cobrem vários assuntos.
 Nascem da necessidade de se reunir e sistematizar a informação
contida em documentos de determinado nicho do conhecimento.

Objetivos do Tesauros:

 Representar assuntos nos documentos;


 Representar assuntos nas solicitações de busca;

No momento da indexação, por meio dos processos consecutivos de:

1- Análise do documento;
2- Identificação de seu conteúdo;
3- Tradução para os termos do tesauro de acordo com a;
4- Política de indexação.

No momento da recuperação, a representação da solicitação é feita no


momento em que o usuário busca uma informação.

Você também pode gostar