Recuperação de informação e sistemas de indexação

RECUPERAÇÃO DE INFORMAÇÃO
Em 1951, Calvin Mooers criou o termo “Informatio Retrieval” (Recuperação de Informação) e definiu
os problemas a serem abordados por esta nova disciplina. Para o autor “a recuperação trata dos
aspectos intelectuais da descrição da informação e sua especificação para busca, e também de qualquer
sistema, técnicas ou máquinas que são empregadas para realizar esta operação” (MOOERS, 1951 apud
FERNEDA, 2003, p. 11).
Recuperação da informação consiste em encontrar a informação desejada em um armazém de

informação ou base de dados (MEADOWS, 1992 apud CÉNDON, 2005, p. 61).
Revocação e Precisão (LANCASTER, 2004, p. 4)
Revocação (recall): designa a capacidade de recuperar documentos úteis.

Precisão: designa a capacidade de evitar documentos inúteis
Dispositivos da linguagem de indexação

Estes dispositivos são considerados dispositivos de precisão porque possibilitam que se aumente a
precisão durante uma busca em uma base dados (LANCASTER, 2004, p. 197).
 Indexação ponderada ou probabilística por Ihaon: o indexador atribui a um termo um valor

numérico que reflete sua opinião sobre a importância desse termo para indicar de que trata
determinado documento, sendo implícito em certos sistemas de recuperação automáticos ou
semiautomáticos, como o SMART. Oferece a quem faz a busca à capacidade de variar a
exaustividades da indexação (LANCASTER, 2004, p. 185).
 Elos entre termos de indexação: o documento é, em certo sentido, segmentado em diversos
subdocumentos, cada um deles referindo-se a um assunto separado, ainda que possivelmente os
assuntos de cada um estejam intimamente relacionados entre si, evitando falsas associações
(LANCASTRE, 2004, p. 189).
 Indicadores de função ou indicadores relacionais: códigos que tornam explícitas as relações
entre os termos (LANCASTER, 2004, p. 190).
Sistemas de Recuperação da Informação

O que se almeja, evidentemente, ao fazer uma busca em uma base dados, é encontrar documentos que
sejam úteis para satisfazer uma necessidade de informação, e evitar a recuperação de itens inúteis.
‘Relevante’ e ‘Pertinente’ são termos frequentemente empregados para se referir a itens ‘úteis’, e
foram definidos de diferentes formas. (LANCASTRE, 2004, p. 3).
Comunicação Documentária: Processo que envolve a codificação e a decodificação de conteúdos

informacionais, ou seja, o tratamento e a recuperação da informação.
Em sistemas de recuperação de informações, existem fatores que identificam os documentos a que se

referem, de forma rápida e precisa, como é o caso de uma pesquisa por autor ou por uma determinada
lei. Há, porém, fatores que não conduzem a documentos específicos, como é o caso de uma busca por
assunto ou ponto de vista.
Um sistema de recuperação de informações responderá satisfatoriamente às necessidades de

informação de seus usuários quando proporcionar alta relevância, ainda que a revocação seja baixa.
São fatores que influenciam o desempenho geral de um sistema de recuperação de informações a

especificidade e a precisão.
Para permitir o acesso a artigos de revista especializadas, seja por autor, título ou assunto, uma
biblioteca que possua uma grande quantidade de periódicos internacionais recorrerá aos índices,
resumos ou abstracts e outros instrumentos bibliográficos similares.
Uma série de falhas pode ocorrer no processo de indexação e influir nos resultados de uma busca.
Quando um indexador atribui a um documento o termo A quando deveria ser atribuído o termo B,
ocorrerão falhas na revocação e na precisão.
Nos últimos anos, diversas ferramentas têm sido estudadas, e algumas empregadas com sucesso, para a
organização da informação e do conhecimento em sites na Internet, incluindo sistemas de
classificação, tesauros e o método de análise de facetas.
Os sistemas de recuperação da informação que oferecem liberdade na fase de entrada de dados (a

indexação) exigem maior esforço na etapa de saída (a recuperação) do que sistemas que são mais
rígidos na fase de entrada. É exemplo de sistema mais flexível na fase de indexação a linguagem
natural.
Na indexação, a condição para obter resultados positivos na busca da informação é que a pergunta e
a resposta sejam formuladas no mesmo sistema.
Um Sistema de Recuperação da Informação (S.R.I.) é uma organização para armazenar e tornar

disponível a informação. Espera-se que um S.R.I. explore a informação de modo positivo e ofereça
outros serviços. E também que possua um índice e o equipamento físico que permita a recuperação de
referências.
Pós-coordenado (LANCASTER, 2004, p. 38)

O sistema de recuperação da informação permite que uma busca combine os termos de qualquer
maneira é frequentemente denominado pós-coordenado (outras denominações empregadas têm sido
pós-combinação ou manipulatório)
Surgiu na década de 1940, quando foram implantados com a utilização de vários tipos de fichas. Um
sistema informatizado moderno, funcionando em linha, pode ser visto como um descendente direto
desses sistemas manuais.
A respeito dos sistemas pós-coordenados:

 Os termos podem ser combinados entre si de qualquer forma no momento em que se faz a
busca.
 Preserva-se a multidimensionalidade das relações entre os termos.
 Todo termo atribuído a um documento tem peso igual – nenhum é mais importante do que o
outro.
Pré-coordenado (LANCASTER, 2004, p. 50)

Os índices impressos e os catálogos em fichas são pré-ccordenados; tendo por característica:
 A difícil representação da multidimensionalidade das relações entre os termos
 Os termos somente podem ser listados em uma determinada sequência (A, B, C, D, E), o que
implica que o primeiro termo é mais importante do que os outros.
 Não é fácil (senão completamente impossível) combinar os termos no momento em que se faz a
busca.
Tipos de índices pré-coordenados

Vários programas de computador foram desenvolvidos para gerar automaticamente um conjunto de
entradas de índice a partir de uma sequencia de termos.
Índices
Produto da Indexação.
Os índices são preparados com o objetivo de ordenar os elementos de informações registrados,

segundo alguns critérios, facilitando assim, a busca e a recuperação da informação a partir de
linguagens obtidas.
Os índices impressos e os serviços de notificação corrente podem ser derivados de uma base de dados
que, por exemplo, esteja instalada em um dos hospedeiros em linha, ou seja, mantida dentro de uma
organização com a ajuda de um sistema de gerenciamento de informações textuais, são, portanto,
produtos de bases de dados.
Os índices impressos são, por definição, produtos impressos, porém o usuário também pode optar por
notificações gravadas em disquetes, em CD-ROM ou exibidas numa tela. O teletexto e o videotexto
são tecnologias alternativas que oferecem acesso em linha de base de dados. (ROWLEY, 1994, p. 205)
Segundo Lancaster (1993), os índices impressos e os catálogos em fichas são pré-coordenados; suas
características são as seguintes:
 É difícil representar a multidimensionalidade das representações entre os termos;
 Os termos podem somente ser listados numa determinada seqüência (a, b, c, d, e), o que implica que
o primeiro termo é mais importante do que os outros;
 Não é fácil (senão complemente impossível) combinar termos no momento em que se faz a busca.
Estes itens são traços familiares desses tipos de índices e catálogos.
Decorrente dessas características de pré-coordenação, os índices apresentam outras características que

estão diretamente ligadas à sua estrutura, tais como, sistema fechado, prescritivo e unidimensional.
Além disso, é interessante destacar que os índices précoordenados utilizam além de conceitos simples,
conceitos compostos e complexos.
Uma das primeiras aplicações do computador na recuperação da informação constitui na produção de

índices impressos, ele foi empregado tanto no índice de circulação interna de lista de relatórios,
boletins locais de resumos e indexação, listas de patentes, etc., quanto para a produção de índices
publicados de muitos dos principais periódicos de resumos. No caso particular das grandes
organizações produtoras de resumos e índices, a informatização dos índices e da indexação
proporcionou notáveis economias no processo de produção e acumulação de índices.
Originalmente, a produção de índice será uma operação isolada, mas, hoje em dia, muitos índices
constituem simplesmente uma série de produtos (ROWLEY, 1994, p. 205).
Existem vários pontos de acessos diferentes em índices impressos, dentre estes, o de assunto e de autor,
são considerados os mais importantes, os outros caracterizados como sendo possíveis pontos de acesso
são: as formulas química, nomes comerciais, nomes de empresas e números de patentes.
Segundo Rowley (1994, p. 206), “todos os índices consistem numa série de termos de entrada,
normalmente dispostos em ordem alfabética. Cada termo de entrada pode ter um qualitativo, sendo
necessário um elo (de ligação) que encaminhe o usuário a outras listas de documentos”.
Os índices gerados por computador baseiam-se em termos de indexação atribuídos pela máquina ou
por um processo de análise intelectual, são as seguintes as possibilidades:
 Kwic, Kwoc, Kwit e Kwac;
 Índices baseados em manipulação de sequências;
 Índices articulados de assuntos;
 Precis e o Current Technology index (CTI);
 Outros índices (LANCASTER, 1993).
Um índice do tipo Kwic (Keyword-in-Context [ Palavra chave no contexto]) é o mais elementar dos
índices baseados em linguagem natural. Os índices Kwic ou Kwit (Kwyword-in-Title[Palavra-chave
no Título]) são populares por serem de criação fácil e respectivamente barata. Nos índices Kwic mais
simples, as palavras de um título são cortejadas com umas listas de palavras proibidas, com a
finalidade de impedir a geração de entradas inúteis (ROWLEY, 1994, p. 206).
O Kwic é um índice que se encontra baseado numa listagem simples e são consideradas populares
porque são criadas facilmente e por terem um custo baixo, as formas como as palavras são cortejadas é
feita através do uso de uma lista de palavras proibidas, no qual contém palavras sob as quais não há a
necessidade de entradas, como por exemplo: Eles, Elas, Seus, entre outras; ou seja, são excluídas
aquelas palavras que tem significado, mas não representam conteúdos por si só. Neste índice, cada
palavra do título é cortejada através da utilização das listas de palavras proibidas, e no caso de ocorrer
uma coincidência entre elas, dar-se-á sua suspensão. Caso, não haja nenhuma coincidência, o termo
será designado por uma palavra-chave.
Segundo Rowley (1994) o Índice Permutem que é adotado pelo Science Citation Index e pelo Social
Sciencies Citation Index baseia-se em pares de palavras significativas extraídas do título. Na estrutura
desse índice, todos os pares de termos significativos são usados como base na construção de suas
entradas. Além disso, esses pares são dispostos em ordem alfabética em relação ao outro. Todos os
pares de termos significativos de um título são usados como base de entradas no Índice Permutem, no
qual, estes se baseiam nos pares de palavras significativas extraídas do título. Os pares encontram-se
em ordem alfabética e também do número de documentos, com excessão do título, pois os números
dos documentos, títulos e outras informações, estão numa lista a parte. Da mesma forma, o índice
Kwic duplo, apresenta subarranjo dos termos de entradas, sendo, porém, mais completo do que o
Permutem, pois o título é mostrado como parte das entradas no índice (ROWLEY, 1994).
As linguagens controladas de indexação, (como as que acham registradas em tesauros e listas de

cabeçalhos de assunto), ainda são as preferidas por muitos produtores de índices, inclusive, por
exemplo, Index Medicus, Science Abstracts, Engineering Index e a Brisith National Bibliography. Não
obstante, o computador ainda tem sua função na produção de índices baseados em termos de indexação
atribuídos por seres humanos. Além de imprimir e formatar esses índices, ele é de particular valia na
preparação de índices baseados na manipulação de sequência (ROWLEY, 1994, p. 209).
Nos índices baseados em manipulação de sequência, as linguagens controladas de indexação ainda são
a preferidas por muitos produtores de índices. Assim, nestes índices mesmo com o uso do computador
na sua produção toma-se como base os termos de indexação que foram atribuídos pelo Bibliotecário-
indexador.
Rowley (1994, p. 209) acrescenta ainda que “no índice articulado de assuntos, a entrada consiste num
cabeçalho de assunto e uma expressão modificadora, que podem ser combinados para formar uma
frase semelhante a um titulo. As expressões modificadoras são respostas em ordem alfabética sob um
cabeçalho de assuntos”.
Os índices articulados de assuntos têm como base de entrada a utilização de um cabeçalho de assunto e
uma expressão modificadora, que por sua vez, podem ser relacionados entre si, visando a formação de
uma frase. Neste tipo de índice, faz-se necessário além do controle de semântica, ou seja, de
significado, o controle de sintaxe, que define a ordem de citação dos termos.
O Precis e o Current Technology Index (CTI) são índices rotatos ou deslocados que se baseiam numa
estrutura de analise conceitual mais rígida do que a indexação articulada de assuntos. Isso se deve ao
fato de no processo de elaboração destes, se escolher uma série de termos extraídos de um vocabulário
controlado de termos conceituais únicos para representar o documento. O índice Precis, no entanto,
apresenta uma diferença em relação ao CTI no que se relaciona a função, mas não quanto a sua
concepção básica (ROWLEY, 1994).
Segundo Rowley (1994), há vários sistemas de indexação rotacional. A autora explica lançando mão
de três conceitos A,B,C que representarão três termos de indexação. A indexação Selective Listing in
Combination (SLIC) envolve, pois, a combinação de elementos somente num único sentido. Em outras
palavras, as entradas do índice extraídas de uma seqüência ABC seriam abc, ac, bc, e c.
Diferentemente, a indexação por alternação (Cyclic indexing) baseia-se no deslocamento do termo de
entrada para a ultima posição até que cada elemento tenha ocupado a posição de entrada. As entradas
nesse sistema seriam da seguinte forma: ABC, BCA ,CAB. A indexação rotacional conservando-se a
mesma ordem de citação, mas sublinhando os elementos que funcionem como termos de entrada.
A indexação por citação mediante a utilização da capacidade do computador no arranjo e reformatação

das entradas constitui um meio de produzir um índice eficaz. A forma como são consultados os índices
impressos produzidos pelo computador, em principio, corresponde a mesma forma usada pelos índices
impressos manualmente. A natureza dos índices produzidos por computadores irá variar enormemente,
e as pessoas que fazem as buscas terão resultados se reconhecerem suas limitações.
A indexação por palavra utiliza os mesmos termos empregados pelo autor na apresentação das suas
ideias. Uma indexação por palavra registrará os documentos pelos vocábulos utilizados pelos autores.
O exemplo de indexação por palavra é o índice KWIC, que utiliza os títulos dos documentos, ao
indexar empregando palavras encontradas no próprio documento, usa-se uma linguagem natural.
A indexação por conceito pressupõe a análise do conteúdo temático do documento (análise conceitual),
a decisão sobre os conceitos presentes no texto e a tradução do observado em linguagem apropriada
com a qual se rotulam os documentos e os seus requisitos bibliográficos.
Na indexação por conceito determina cabeçalhos a empregar, distinguem-se homônimos, controlam-se

sinônimos, preveem-se ligações hierárquicas e colaterais, etc., emprega-se uma linguagem artificial ou
controlada.
Alguns índices, provavelmente, incluirão entradas específicas, vários pontos de acesso por item e uma
abundância de instruções, pois são os que têm como base, as sequências de termos atribuídos por um
processo de análise intelectual. Por outro lado, outros índices, em particular, os rudimentares,
constituídos por temos atribuído por computadores, ficarão desprovidos de notas úteis que poderá levar
a dispersão dos documentos sob uma variedade de termos. Nesse sentido, podemos destacar que a
própria estrutura dos cabeçalhos que compõe o índice condiciona o processo de recuperação de
informações. Devemos, portanto, considerar seu formato no processo de informatização do sistema.
Outras Considerações
Num serviço especializado de informação, um documento contendo o texto da lei brasileira que trata
do direito de autor deverá ser indexado, preferencialmente, da seguinte forma:
Lei do direito do autor
A forma mais adequada para tratar e armazenar os atos jurisprudenciais de um Centro de

Documentação Jurídica tradicional é indexá-lo por assunto, em catálogo.
Para Lancaster, Indexação de assuntos e Catalogação de assuntos são a mesma coisa.
A biblioteconomia e a ciência da informação usufruem crescentemente das tecnologias da

informação e da telecomunicação. Com isso, desenvolve-se um universo digital em que são geradas
novas formas de organização de informações e, simultaneamente, são criados novos meios para
recuperá-las. Nesse universo, encontram-se web sites, listas de discussão, softwares e uma variedade
de documentos digitalizados, que passam a requerer novos tipos de tratamento, visando a uma
recuperação bem-sucedida. Nesse novo contexto, uma das principais mudanças que afetam a
concepção dos sistemas de representação e recuperação de informações é a desterritorialização do
documento, que passa a ter sua materialidade desvinculada da forma física tradicional, possibilitando
uma organização integrada de informações e os correspondentes índices de acesso.
O Vocabulário Controlado Básico - VCB é a linguagem documental adotada pela Rede Virtual de
Bibliotecas – Congresso Nacional – RVBI para manter a uniformidade da indexação e da recuperação
das informações de sua base de dados bibliográficos. Possui cerca de 9.500 descritores de todos os
campos do conhecimento cientifico, com destaque para as Ciências Sociais e Humanas e, neste campo,
ênfase no Direito, refletindo as áreas de atuação das bibliotecas participantes da Rede.
As linguagens documentárias, como o VCBS (vocabulário controlado básico especializado em direito),

apresentam estruturas e abordagens distintas, como por exemplo, tesauros, que estabelecem relações de
associação e equivalência entre os termos.
Para indexar e recuperar documentos jurídicos de forma satisfatória, uma biblioteca especializada em
direito poderá se valer do WEBTHES, um site na internet que pemite o acesso ao THES: Thesaurus e
ao VCBS: Vocabulário Controlado Básico, mantidos pelo Senado Federal.
Um dos tesauros com descritores jurídicos da Library of Congress é o GLIN thesaurus.
O Grupo de Estudo do Tesauro da RVBI, constituído por representantes da maioria das bibliotecas da
Rede, desde 2002 se dedica Para manter a atualidade da terminologia, desde 2002.
TESAURO JURÍDICO - O vocabulário jurídico controlado adotado pela Secretaria de Jurisprudência

do Superior Tribunal de Justiça para elaboração das informações complementares do acórdão se
compõe de elementos que garantem a recuperação da informação com maior precisão, flexibilidade e
uniformidade.
Extraído de LINS, CARLOS PEREIRA. GERENCIAMENTO ELETRÔNICO DE

DOCUMENTOS: Índices como Instrumento de Recuperação de Informação, 2002.

Recuperação de informação e sistemas de indexação

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Recuperação de informação e sistemas de indexação

Enviado por

Direitos autorais:

Formatos disponíveis

RECUPERAÇÃO DE INFORMAÇÃO

Recuperação da informação consiste em encontrar a informação desejada em um armazém de

Revocação e Precisão (LANCASTER, 2004, p. 4)

Revocação (recall): designa a capacidade de recuperar documentos úteis.

Dispositivos da linguagem de indexação

 Indexação ponderada ou probabilística por Ihaon: o indexador atribui a um termo um valor

Sistemas de Recuperação da Informação

Comunicação Documentária: Processo que envolve a codificação e a decodificação de conteúdos

Em sistemas de recuperação de informações, existem fatores que identificam os documentos a que se

Um sistema de recuperação de informações responderá satisfatoriamente às necessidades de

São fatores que influenciam o desempenho geral de um sistema de recuperação de informações a

Os sistemas de recuperação da informação que oferecem liberdade na fase de entrada de dados (a

Um Sistema de Recuperação da Informação (S.R.I.) é uma organização para armazenar e tornar

Pós-coordenado (LANCASTER, 2004, p. 38)

A respeito dos sistemas pós-coordenados:

Pré-coordenado (LANCASTER, 2004, p. 50)

Tipos de índices pré-coordenados

Os índices são preparados com o objetivo de ordenar os elementos de informações registrados,

Estes itens são traços familiares desses tipos de índices e catálogos.

Decorrente dessas características de pré-coordenação, os índices apresentam outras características que

Uma das primeiras aplicações do computador na recuperação da informação constitui na produção de

As linguagens controladas de indexação, (como as que acham registradas em tesauros e listas de

A indexação por citação mediante a utilização da capacidade do computador no arranjo e reformatação

Na indexação por conceito determina cabeçalhos a empregar, distinguem-se homônimos, controlam-se

Lei do direito do autor

A forma mais adequada para tratar e armazenar os atos jurisprudenciais de um Centro de

Para Lancaster, Indexação de assuntos e Catalogação de assuntos são a mesma coisa.

A biblioteconomia e a ciência da informação usufruem crescentemente das tecnologias da

As linguagens documentárias, como o VCBS (vocabulário controlado básico especializado em direito),

Um dos tesauros com descritores jurídicos da Library of Congress é o GLIN thesaurus.

TESAURO JURÍDICO - O vocabulário jurídico controlado adotado pela Secretaria de Jurisprudência

Extraído de LINS, CARLOS PEREIRA. GERENCIAMENTO ELETRÔNICO DE

Você também pode gostar