Escolar Documentos
Profissional Documentos
Cultura Documentos
TEORIA E PRÁTICA
Indexação: teoria e métodos - noturno
processos afins
Capítulo 2: Princípios da indexação
RESUMO INDEXAÇÃO
1. Análise conceitual
2. Tradução
3 perguntas:
● De que trata?
● Por que foi incorporado a nosso acervo?
● Quais de seus aspectos serão de interesse para nossos usuários?
Capítulo 2: Princípios da indexação
● “indexação centrada no usuário” (FIDEL, 1994 apud LANCASTER, 2004, p.
10)
● Métodos colaborativos de indexação.
● É preciso que os indexadores
saibam muito mais do que os
princípios da indexação. Devem,
em especial, estar inteiramente a
par dos interesses da comunidade
atendida e das necessidades de
informação de seus membros.”
(LANCASTER, 2004, p. 12)
Capítulo 2: Princípios da indexação
2. Tradução “[...] envolve a conversão da análise conceitual de um documento
num determinado conjunto de termos de indexação.” (LANCASTER, 2004, p. 18)
O autor frisa que esses pressupostos são Usando como referência um texto de Browne
considerados para documentos que são (2001), fala-se da particularidade em indexar
possíveis de se ler, a já citada Methods for sites na web, para ter-se uma base e a
examining documents fala sobre diferentes indexação ser possível, o profissional deve:
procedimentos para os outros tipos de anotar o tipo de informação, a quantidade de
documentos, como os audiovisuais. Como informação, a qualidade dos vínculos de
no caso dos documento impressos, navegação, o tamanho dos arquivos e, por
geralmente, o documento não é todo fim; solicitar ao responsável informações
analisado (neste caso, assistido ou importantes dos arquivos, inclusive a
escutado), sendo a indexação feita a partir quantidade de autores que contribuem com a
do título e/ou da sinopse. página.
Capítulo 3: A prática da indexação
Exaustividade e exatidão da indexação: Figura que mostra o problema de uma indexação
exaustiva, em que o indexador quer incluir todos os
assuntos abordados no texto.
Existem dois fatores que influem diretamente na O correto seria uma indexação equilibrada (seletiva +
exaustiva), que busque identificar os termos mais
eficiência de um sistema de recuperação da relevantes para o usuário.
informação, ligados diretamente a indexação, são
eles: a política de indexação e a exatidão da
indexação. A principal decisão política diz a
respeito à exaustividade da indexação, o que é
relacionado ao número de termos atribuídos em
média. Não é recomendado que exista um limite
para esses termos mas, que se estabeleça uma
faixa de termos padrão.
Capítulo 3: A prática da indexação
Princípio da especificidade: Incluir esses termos mais abrangentes
tornará a tarefa de diferenciar artigos mais
É o mais importante princípio da indexação de genéricos dos mais específicos mais difícil e
assuntos, remontando a Cutter. Este princípio demorada. Deve se entender que é possível
ter especificidade com a combinação de
defende que um tópico deve ser indexado sob o
termos, se nenhum termo sozinho possa
termo mais específico que o abranja
representar um tópico.
completamente e se torna muito comum
indexadores serem redundantes quando não o
seguem. Lancaster usa o exemplo de um artigo
sobre o cultivo de laranjas para exemplificar o
princípio, o mesmo seria indexado sob o termo
LARANJAS e não com um termo mais genérico
como FRUTAS ou FRUTAS CÍTRICAS.
Capítulo 3: A prática da indexação
Índices pós-coordenados:
A extração automática apresenta nítida vantagem em relação à extração feita por seres
humanos: é totalmente coerente. No entanto, a maior parte da indexação feita por seres
humanos não constitui indexação por extração, mas indexação por atribuição, e a realização
desse trabalho por computador é, em geral, mais difícil.
Ex: termo “chuva ácida” chuva ácida, precipitação ácida, poluição atmosférico, etc.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
● Outras formas de classificação: ○ Método automático: de
classificação é baseado na
A indexação é uma forma de classificação na comparação (cotejar) da linguagem
qual há atribuição de “itens”, nela são criadas natural, resumos e/ou
classes de documentos ou classes de termos. representações documentais.
○ Eficácia das buscas: o método
O capítulo 15 trata principalmente da “indexação”
automático vem incorporando
e a “elaboração automática de resumos”.
processos automáticos.
○ Em sistemas “convencionais”: ○ Co-ocorrência: que é a relação
recuperação da informação é realizada entre termos explorada pelo
na forma de buscas auxiliadas por computador.
associações estabelecidas entre termos.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
Ex. de co-ocorrência: Quanto mais ○ O cálculo de associação:
frequentemente dois termos ocorrerem juntos
[...], mais provável será que tratem de É feito através da co-ocorrência relativa à
conteúdo temático similar [...] se o termo A frequência de ocorrência de cada termo.
nunca ocorre em B e o termo B nunca ocorre
A relacionalidade “R” de dois termos é definida
sem A [...] os dois termos são totalmente
pela equação
interdependentes e seriam completamente
intercambiáveis na busca. Além da associação
direta: (X e X tendem a ocorrer juntos).
Quanto mais formais e coerentes forem os textos dos documentos, mais bem
sucedidos provavelmente serão os processos de elaboração de extratos.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
● Operações “automáticas” de ○ Método simples de coincidência: Levar em
recuperação: conta quantas palavras do pedido ocorrem
em um resumo.
Processo que permitiria que um pedido ○ São possíveis muitos refinamentos desse
expresso em texto em linguagem natural fosse nível rudimentar de estabelecimento de
cotejado com o texto dos documentos (texto coincidência.
completo, texto parcial ou alguma forma de ○ A coincidência pode basear-se em radicais,
apresentação), considera-se isso como uma ao invés de palavras completas.
espécie de coincidência de padrões. ○ Mais precisa se tiver como base expressões
e não palavras simples.
○ Escore: Atribui-se aos textos de base de ○ Na posição intermediária entre palavras
dados um tipo de escore, que reflete o simples e expressões está o emprego da
proximidade de palavras (capacidade de
grau de coincidência de um texto com um
atribuir pesos maiores a palavras que
pedido, de modo que possam ser
apareçam perto uma da outra).
apresentados em forma de saída ordena
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
● diferentes critérios na atribuição de um Salton (1989): os métodos de Salton
escore ao texto, a fim de refletir o grau em determinam essencialmente a similaridade
que ele coincide com o texto de um entre dois textos e expressam essa proximidade
pedido. como um escore numérico, uma “medida de
● escore atribuído pode basear-se em mais similaridade”, que será usada para ordenar a
de um dos critérios. saída.
● Portanto um sistema “automático” deve
incorporar diversos critérios possíveis Pode-se atribuir outras utilizações para essa
para o estabelecimento de coincidência, e medida de similaridade dos textos (ex. medir
permitir ao usuário escolher um deles (ex. proximidade de textos de documentos,
sistema mais elaborado SMART de permitindo formar classes de textos similares).
Salton, elaborado por mais de 30 anos).
Esse escore pode estabelecer vínculos de
hipertexto em uma rede de informação.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
Savoy (1995) postula o estabelecimento de CITE: tem sido empregado como interface em
vínculos de hipertexto mediante aplicação de linguagem natural com bases de dados
métodos probabilísticos. Também sugere que MEDLINE e CATLINE da National Library of
os vínculos de hipertexto sejam usados para a Medicine.
obtenção automática de novos termos de
busca. Ele funciona em uma base de dados de
registros que possuem termos de indexação ou
Outros sistemas também foram criados para que envolva textos livres.
permitir ao usuário dar entrada a um pedido na
forma de enunciado textual (ex. CITE
desenvolvido por Doszkocs (1983)).
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
Abordagens atuais:
Conferências:
Jones e Bell (1992) - “[...] sistema projetado para extrair palavras ou expressões de textos, a
fim de formar entradas de índices [...] baseia-se em listas armazenadas: de palavras a serem
ignoradas, palavras/expressões/nomes de reconhecido interesse, e listas auxiliares para
desambiguação de homógrafos.” (LANCASTER, 2004, p. 313)
Driscoll et al (1991) - “O texto é processado em cotejo com uma lista de mais de 3000
expressões. A ocorrência de uma delas no texto aciona o uso de regras de inserção e
eliminação.” (LANCASTER, 2004, p. 313)
Plaunt e Norgard (1998) - uso do tesauro INSPEC com base na técnica de “colocação lexical”.
NLM (National Library of Medicine) desenvolve processos para atribuir automaticamente a
artigos de periódicos os cabeçalhos do Medical Subject Heading (MeSH):
● método de ligação com os termos do MeSH com expressões presentes nos títulos dos
artigos e nos resumos, utilizando o Unified Medical Language System;
● método de cotejo das palavras, do título e do resumo de um artigo ‘novo’ com as
palavras que ocorrem no título e no resumo de artigos já indexados, assim os termos
atribuídos coincidentes tornam-se candidatos para atribuição ao novo artigo.
“A sumarização automática ainda é uma questão de seleção de frases e o objetivo das pesquisas
nesta área consiste em otimizar essa seleção e organizar as frases selecionadas para melhorar a
clareza e utilidade do extrato.”
Hahn e Mani (2000) - modelo de ponderação linear, com localização no texto, número de
ocorrências na base de dados como um todo e expressões-deixa (cue phrases)
Salton et al (1997) - medição das semelhanças entre pares de parágrafos no mesmo documento