Indexação de Assunto Automática de Texto (IEKO)

31/07/2019 Indexação de assunto automática de texto (IEKO)
ISKO Enciclopédia da Organização do Conhecimento

editado por Birger Hjørland e Claudio Gnoli
home
sobre ISKO
juntar ISKO
Indexação automática de assunto do texto
Knowledge
Organization de Koraljka Golub
revista
ISKO Tabela de conteúdos:
eventos 1. Introdução
2. Definição e terminologia
ISKO 3. Abordagens para indexação automática de assuntos
capítulos 3.1. Abordagem básica: 3.1.1 Pré-processamento; 3.1.2 Ponderação de prazo;
3.1.3 Outras representações; 3.1.4 Atribuição de termos de indexação
ISKO
3.2. Tipos de documentos
pessoas
3.3. Abordagens para indexação automática de assuntos: 3.3.1. Categorização
publicações de texto; 3.3.2. Agrupamento de documentos; 3.3.3. Classificação de
ISKO documentos
4. Aplicação em sistemas operacionais
Enciclopédia
5 Conclusão
KO Agradecimentos
literatura Referências
Colophon
KO
instituições Resumo :
⇗ KOS A indexação automática de assunto aborda problemas de escala e
registro sustentabilidade e pode ser usada ao mesmo tempo para enriquecer registros de
metadados existentes, estabelecer mais conexões entre recursos entre vários
🔒 metadados e coleções de recursos e aprimorar a consistência dos metadados.
membros Nesta entrada, a indexação automática de assunto se concentra na atribuição de
termos ou classes de índice de sistemas de organização do conhecimento (KOS)
contate-nos
estabelecidos para indexação de assunto, como tesauros, sistemas de cabeçalhos
de assunto e sistemas de classificação. As principais abordagens a seguir são
discutidas, em termos de suas semelhanças e diferenças, vantagens e
desvantagens para indexação automática atribuída a partir de KOSs:
“categorização de texto”, “agrupamento de documentos” e “classificação de
documentos”. A categorização de texto é talvez a mais difundida, abordagem de
aprendizado de máquina com o que parece ser um bom desempenho relatado.
Isso, no entanto, depende da disponibilidade de corpora de treinamento com
documentos já categorizados que, em muitos casos, não estão lá. O
agrupamento de documentos automaticamente cria grupos de documentos
relacionados e extrai os nomes dos assuntos que representam o grupo em
questão. Não requer documentos de treinamento, mas os termos e estruturas
automaticamente extraídos relatados nem sempre são de boa qualidade,
refletindo os problemas subjacentes da linguagem natural; Além disso, ambos
mudam quando novos documentos são adicionados à coleção e essa
mutabilidade pode não ser amigável ao usuário. A classificação de documentos
reutiliza o esforço intelectual investido na criação de KOSs para indexação de
assuntos e até algoritmos simples de correspondência de strings foram relatados
para alcançar bons resultados porque um conceito pode ser descrito usando
vários termos diferentes, incluindo equivalentes, relacionados, mais estreitos e
mais amplos. termos. Finalmente, a aplicabilidade da indexação automática de
assuntos a sistemas operativos de informação e os desafios de avaliação são
delineados, sugerindo a necessidade de mais pesquisas.
https://www.isko.org/cyclo/automatic.htm 1/26
[ início da entrada ]
1. Introdução
Cada vez mais, diferentes tipos de recursos de informação estão sendo disponibilizados
online. Os mecanismos de busca atuais geram bons resultados para tarefas de busca
específicas, mas são inadequados para buscas conceituais ou por assuntos que exigem alta
precisão e recall, comuns em pesquisas acadêmicas ou sérias pesquisas públicas (para uma
discussão sobre (des) vantagens de indexação automática de texto completo , veja Keyser
2012 , capítulo 2). Diferenças na terminologia entre várias comunidades e até mesmo
indivíduos levam ao fato de que a pesquisa literal de cadeias de caracteres, em muitos casos,
não oferece uma pesquisa efetiva. Isso é exacerbado na busca e recuperação entre sistemas e
em vários idiomas, onde o acesso integrado a assuntos é provavelmente o desafio mais difícil
de resolver. Termos do índice de assuntos retirados de → sistemas de organização do
conhecimento(KOS) tais como → tesauros , sistemas de cabeçalhos de assuntos e →
sistemas de classificação fornecem numerosos benefícios em comparação com a indexação
de texto livre de motores de busca comerciais: consistência através de uniformidade no
formato de termo e atribuição de termos; provisão de relações semânticas entre os termos;
e suporte para navegar por hierarquias consistentes e claras (consulte Mazzocchi 2017 ).
No entanto, esses termos de índice de assunto exigem recursos substanciais para produzir.
Por causa do crescente número de documentos, existe o risco de que os objetivos
reconhecidos dos sistemas bibliográficos, como encontrar todos os documentos sobre um
determinado assunto, sejam deixados para trás. Como exemplo, um recente estudo
exploratório de catálogos de bibliotecas suecas indica que o acesso a assuntos não é
abordado sistematicamente, que em novas coleções digitais os KOSs são aplicados em um
grau muito limitado e em bancos de dados integrados de bibliotecas e comerciais os
mapeamentos entre os diferentes KOS não existem, evitando assim a procura de qualidade
através deles ( Golub 2016 ). Os meios automáticos poderiam ser uma solução para
preservar os objetivos reconhecidos dos sistemas bibliográficos ( Svenonius 200030). Além
de abordar problemas de escala e sustentabilidade, a indexação automática de assuntos pode
ser usada para enriquecer os registros bibliográficos existentes, estabelecer mais conexões
entre os recursos e melhorar a consistência dos dados bibliográficos ( Golub et al. 2016 ).
Além disso, a indexação automática é usada hoje em uma ampla variedade de aplicações,
como a colheita tópica; roteamento personalizado de artigos de notícias; classificação dos
resultados dos mecanismos de busca; análise de sentimento (ver, por exemplo, Hu e Li 2011
), e muitos outros ( Sebastiani 2002 ).
Pesquisas sobre indexação automática de assuntos começaram com a disponibilidade de

textos eletrônicos na década de 1950 ( Luhn, 1957; Baxendale, 1958; Maron, 1961 ) e
continuam a ser um tópico desafiador, pelas razões e propósitos descritos acima. Para uma
visão geral histórica da indexação automática, veja Stevens ( 1965 ) e Sparck Jones ( 1974 )
cobrindo o período inicial de indexação automática, e Lancaster ( 2003 , 289-292) para o
posterior. Um termo relacionado é indexação assistida por máquina (MAI) ou indexação
assistida por computador (CAI) onde é o indexador humano que decide, com base em uma
sugestão fornecida pelo computador (ver, por exemplo, Medical Text Indexer ( Biblioteca
Nacional de Medicina 2016)). Uma abordagem semelhante é aplicada por Martinez-Alvarez,
Yahyaei e Roelleke ( 2012 ), que propõem uma abordagem semi-automática, na qual apenas
as previsões prováveis de serem corretas são processadas automaticamente, enquanto
decisões mais complexas são deixadas para especialistas humanos decidirem.
Existem diferentes abordagens para a indexação automática, com base no propósito da

aplicação, mas também provenientes de diferentes campos de pesquisa e tradições. A
terminologia é, portanto, variada. Além disso, a pesquisa de ferramentas de indexação
automática em ambientes de informações operacionais geralmente é realizada em condições
de laboratório, excluindo as complexidades de sistemas e situações da vida real. O restante
desta entrada reflete sobre essas questões e está estruturado da seguinte maneira: a próxima
seção (2) discute os principais termos e fornece a definição de indexação automática de
assunto, conforme usado para os propósitos deste trabalho. A seção 3 discute abordagens
para a indexação automática de assuntos em relação às suas principais semelhanças e
diferenças. Seção 4contém uma discussão sobre quão boas são as soluções automáticas
endereçadas hoje e a seção 5 contém observações finais.
2. Definição e terminologia
De acordo com o atual padrão de indexação ISO (ISO 5963: 1985, confirmado em 2008,
International Organization for Standardization 1985 ), a indexação de assunto realizada pelo
profissional da informação é definida como um processo que envolve três etapas: (1)
determinar o conteúdo da disciplina. documento; (2) uma análise conceitual para decidir
quais aspectos do conteúdo devem ser representados; e (3) tradução desses conceitos ou
aspectos em um vocabulário controlado (CV). A indexação automática de assunto é então
uma indexação de assunto baseada em máquina, onde os processos intelectuais humanos das
três etapas acima são substituídos, por exemplo, por técnicas de linguística estatística e
computacional, que serão discutidas em mais detalhes abaixo.
A terminologia relacionada à indexação automática de assuntos é utilizada de forma

inconsistente na literatura. Isto é provavelmente porque este tópico de pesquisa foi abordado
por diferentes campos de pesquisa e disciplinas, baseado em várias tradições epistemológicas.
Para esclarecer as diferenças, os principais termos usados são brevemente discutidos e
definidos abaixo. A discussão começa já com o termo assunto, que está neste artigo, usado de
forma intercambiável com o → aboutness , embora a literatura relacionada apresente
diferentes pontos de vista sobre o assunto (ver Hjørland 2016 para uma visão geral).
Na biblioteconomia, a terminologia da indexação de assuntos envolve vários conceitos

importantes. Os termos de índice de assunto podem ser derivados do próprio documento,
que é conhecido como indexação derivada (por exemplo, palavras-chave tiradas do título) ou
de linguagens de indexação formalizadas e especificamente projetadas para descrever o
conteúdo dos documentos, conhecido como atribuído indexação ou classificação. Na
indexação atribuída, os termos de índice são obtidos de linguagens de indexação alfabética
(usando termos de linguagem natural com controle de terminologia, como thesauri e
cabeçalhos de assunto); na classificação, as aulas são tiradas de sistemas de classificação
(usando símbolos, operando com conceitos). O objetivo principal da indexação atribuída
usando linguagens de indexação alfabética é permitir a recuperação de um documento de
muitas perspectivas diferentes; tipicamente 3 a 20 termos de assunto elementar ou
moderadamente pré-combinados são atribuídos. O principal objetivo da classificação,
designar classes a partir de esquemas de classificação, é agrupar documentos semelhantes
para permitir a navegação (de bibliotecas no ambiente tradicional e navegação no estilo de
diretório no ambiente online); algumas classes de assunto altamente pré-combinadas,
normalmente uma, são atribuídas. (Veja também Lancaster (2003 , 20-21) sobre as
semelhanças entre indexação e classificação.
Na ciência da computação, a distinção entre diferentes tipos de linguagens de indexação

raramente é feita. Enquanto uma distinção comum é feita entre ontologias formais, ontologias
leves (com conceitos conectados usando relações associativas gerais ao invés de formais
estritas típicas do primeiro) e taxonomias, às vezes o termo ontologia é usado para se referir
a vários sistemas diferentes de organização do conhecimento. . Por exemplo, Mladenic e
Grobelnik ( 2005, 279) use o termo para se referir a diretórios web hierárquicos de
mecanismos de busca e serviços relacionados, bem como sistemas de cabeçalhos de
assuntos: “A maioria das ontologias existentes foi desenvolvida com esforços humanos
consideráveis. Exemplos são o Yahoo! e ontologias de tópico DMOZ contendo páginas da
Web ou ontologia MESH de termos médicos conectados à coleção de artigos médicos
Medline. ”Além disso, a indexação derivada pode ser denominada, por exemplo , atribuição de
palavra-chave , extração de palavra-chave ou extração de frase nominal ( referindo-se
especificamente a frases nominais).
Na literatura relacionada, outros termos para indexação automática de assunto são usados. A
geração de metadados do assunto é um exemplo geral. Termos categorização de texto e
classificação de texto são comuns na comunidade de aprendizado de máquina. A classificação
automática é outro exemplo de um termo, usado para denotar a atribuição automática de
uma classe ou categoria de um sistema de classificação ou taxonomia pré-existente. No
entanto, essa frase também pode ser usada para se referir ao agrupamento de documentos,
no qual grupos de documentos semelhantes são descobertos e nomeados automaticamente.
Aqui, o termo indexação automática de assuntoé usado como o termo principal. Ele denota
processos não-intelectuais, baseados em máquina, de indexação de assunto, conforme
definido pela comunidade de biblioteconomia: indexação derivada e atribuída usando
sistemas de indexação alfabética e de classificação, para fins de recuperação de informações
aprimorada. A justificativa para combiná-los em uma entrada é o fato de que os princípios
subjacentes baseados em máquinas são bastante semelhantes, especialmente quando se trata
de aplicação em documentos textuais. No entanto, o foco principal nessa entrada está na
indexação atribuída, devido ao valor agregado fornecido pelos sistemas de indexação para
pesquisa de informações na biblioteconomia, como maior precisão e recordação resultante
do controle de linguagem natural de, por exemplo, homonímia, sinonímia, forma de palavra, e
vantagens para navegação hierárquica, por exemplo, quando o usuário final não sabe qual
termo de pesquisa usar devido à falta de familiaridade com seu tópico ou quando não está
procurando por um item específico. Além disso, termoa indexação de assuntos pressupõe a
aplicação de sistemas de indexação alfabética e de classificação, porque princípios similares se
aplicam quando se trata de processos automáticos; embora também seja comum referir-se ao
processo de utilização da indexação do primeiro sujeito e a classificação do segundo sujeito.
Finalmente, enquanto a palavra automatizada mais diretamente implica que o processo é
baseado em máquina, a palavra automática é mais comumente usada na literatura relacionada
e, portanto, tornou-se o termo de escolha aqui também.
Além disso, a terminologia para distinguir entre diferentes abordagens para a indexação
automática de assuntos é ainda menos consistente (ver também Smiraglia e Cai 2017 ). Por
exemplo, Hartigan ( 1996 , 2) escreve: “O termo análise de cluster é usado mais comumente
para descrever o trabalho neste livro, mas eu prefiro muito mais o termo classificação”. Ou:
“classificação ou categorização é a tarefa de atribuir objetos de um universo a duas ou mais
classes ou categorias” ( Manning e Schütze 1999 , 575). Nesses termos de entrada, a
categorização de texto e o agrupamento de documentos são escolhidos porque tendem a ser os
termos predominantes na literatura das comunidades correspondentes. Classificação de
documentos a termoé usado para distinguir consistentemente entre as três abordagens. Essas
abordagens são descritas e discutidas na seção seguinte.
3. Abordagens para indexação automática de assunto

A Seção 3.1 descreve primeiro a metodologia subjacente comum em diferentes abordagens
específicas. A seção 3.2 fornece uma breve visão geral do endereçamento de vários tipos de
documentos. A seção 3.3 discute as principais abordagens, categorização de texto,
agrupamento de documentos e classificação de documentos.
3.1. Abordagem básica
De um modo geral, a indexação automática de assuntos geralmente segue um curso de várias

etapas principais. A primeira é uma etapa de preparação em que os documentos a serem
indexados são processados para criar representações adequadas para manipulação do
computador. Esse processo é comparável à preparação de documentos para recuperação de
informações.
3.1.1 Pré-processamento
Uma lista de palavras que aparecem no documento é criada com base na tokenização, o
processo de reconhecimento automático de palavras. Além disso, toda a pontuação é
retirada. Além disso, palavras que tendem a ter menos significado são retiradas, tais como
conjunções, determinantes, preposições e pronomes, que são conhecidos como palavras-stop
. Essa representação resultante de documentos é conhecida como modelo de saco de palavras
. Uma representação mais avançada é o modelo n -gram de palavras que é usado, por
exemplo, quando sintagmas nominais precisam ser extraídos em indexação derivada ou
quando a correspondência de strings é conduzida contra termos contendo mais de uma
palavra (veja a seção 3.3.3 abaixo ). Classificação de documentos). Palavra n-grams podem ser
unigramas (palavras individuais), bigramas (quaisquer duas palavras adjacentes), trigramas
(quaisquer três palavras adjacentes) etc. Além disso, técnicas mais avançadas de
processamento de linguagem natural podem ser executadas; em conter cada palavra é
reduzido ao seu tronco, o que significa a remoção de seus afixos - por exemplo,
illegallypode ser reduzido ao seu tronco, legalpelo qual seu prefixo il- e seu sufixo -ly são
removidos. A lógica por trás disso é que palavras com o mesmo radical têm o mesmo
significado. Além disso, os taggers de linguagem de fala e analisadores sintáticos também
podem ser aplicados. Para uma visão geral do processamento de textos, veja Manning e
Schütze ( 1999 ) e Weisser ( 2015 ).
3.1.2 Ponderação de termos
A etapa principal seguinte é determinar a importância de cada termo para descrever o grau
de conhecimento do documento em questão. O termo pode ser uma palavra individual ou
uma frase composta, dependendo da tarefa determinada. Para cada termo, um peso expresso
como um número é calculado e atribuído. Aqui, diferentes regras estatísticas e outras regras
heurísticas podem ser aplicadas. Um exemplo de regras estatísticas, palavras que aparecem
muitas vezes tanto no documento em questão quanto em todos os outros documentos da
coleção, provavelmente não são particularmente indicativas do assunto do documento e vice-
versa. Isso é conhecido como peso de freqüência de documento de frequência inversa de
freqüência ( TF-IDF , Salton e McGill 1983 , 63; 205): combina (1) frequência de termo (Luhn
1957 ), onde o peso do termo em questão é considerado proporcional ao número de vezes
que aparece no documento, com (2) freqüência inversa do documento ( Sparck Jones 1972 ),
onde o peso do termo é uma fração inversa do os documentos que contêm a palavra. Uma
visão geral das medidas de ponderação de termo pode ser encontrada em Roelleke ( 2013 ).
Recursos como a localização do termo, o tamanho da fonte ou o tipo de fonte, também

podem ser incluídos na determinação da importância do termo. Em páginas da web, por
exemplo, palavras que aparecem em títulos, cabeçalhos ou metadados podem ser
consideradas mais indicativas da atualidade do que aquelas escritas em tamanho de fonte
normal em outro lugar. Um exemplo conhecido é o Google, que deve muito de seu sucesso
ao algoritmo PageRank ( Page et al. 1998 ), que classifica mais alto as páginas da web que têm
mais páginas da web externas vinculadas a elas. Gil-Leiva ( 2017) apontou que geralmente há
menos uso de regras heurísticas de localização do que de regras estatísticas (delineadas no
parágrafo anterior) e realizou um experimento comparando os dois conjuntos de regras, que
mostraram que os melhores resultados são obtidos com as regras heurísticas de localização.
Vários outros princípios também foram investigados. Uma co-ocorrência, ou baseada em
citações, aplica a ideia de que, se a publicação A citar a publicação B, A pode incluir texto
que indica o que B é sobre ( Bradshaw e Hammond, 1999 ). Chung, Miksa e Hastings ( 2010)
comparou como as fontes às quais os indexadores humanos normalmente recorrem para
determinar o assunto do documento em questão, como conclusão, resumo, introdução,
título, texto completo, trabalhos citados e palavras-chave de artigos científicos, contribuem
para o desempenho da indexação automática. Usando a implementação SVM em Weka (
Witten e Frank 2000 ), eles obtiveram resultados que a palavra-chave superou o texto
completo, enquanto os trabalhos citados, título da fonte (título da revista ou conferência) e

título foram tão eficazes quanto o texto completo.
As regras podem ser de diferentes tipos. Driscoll et al. ( 1991 ) combinou o texto do
documento com mais de 3.000 frases e um conjunto de regras de exclusão e inserção. Essas
regras foram usadas para transformar a lista de termos do documento para a lista de frases
de índice; por exemplo, se 'time', 'over' e 'target' aparecessem dentro de um certo número
de palavras um do outro, uma frase de índice 'air warfare' seria gerada. Fuhr e Knorz ( 1984 )
criaram cerca de 150.000 regras para correspondência de documentos físicos com termos
do KOS. Jones e Bell ( 1992extraímos termos de índice baseados em termos de
correspondência do documento contra várias listas: uma lista de palavras paradas, uma lista
de termos de interesse, uma lista para auxiliar na desambiguação de homógrafos, uma lista
para combinar formas singular e plural e uma lista de terminações de palavras para permitir
uma análise simples. Ruiz, Aronson e Hlava ( 2008 ) afirmam que as abordagens baseadas em
regras dominaram nas décadas de 1970 e 1980 e que aprendizado de máquina ou abordagens
estatísticas surgiram nos anos 90. Abordagens baseadas em regras são baseadas em regras
criadas manualmente, enquanto no aprendizado de máquina, conjuntos de exemplos são
necessários para treinar o algoritmo para aprender conceitos. Hlava ( 2009) descreve melhor
a indexação baseada em regras e afirma que a maioria das regras é simples e pode ser criada
automaticamente, enquanto regras complexas são adicionadas pelos editores. Por outro lado,
no domínio dos documentos médicos, Humphrey et al. ( 2009 ) compararam uma abordagem
baseada em regras e estatística e mostraram que a última superou a primeira. Abordagens
que combinam o melhor dos dois mundos podem ser superiores.
3.1.3 Outras representações
Com base nos dois principais processos comumente aplicados, cada documento original é
agora transformado em uma lista de termos (contidos, analisados) e seus pesos de termo
atribuídos. Parece haver duas maneiras possíveis de continuar a partir daqui: (a)
representação vetorial, ou (b) correspondência de cadeia.
(a) A representação vetorial é a abordagem dominante na qual o resultado das duas primeiras
etapas é agora transformado em vetores em um espaço vetorial de termos. Nesse espaço
vetorial, cada termo com seu peso é representado como uma dimensão nesse espaço
(espaço de tempo). Quando recursos como localização são adicionados, cada recurso se
torna uma dimensão no espaço vetorial chamado espaço de recurso que poderia conter o
espaço do termo. Muitos termos e características levarão ao desafio da alta
dimensionalidade; pesquisas têm sugerido métodos de redução de dimensionalidade, tais
como: escolher apenas termos com pesos mais altos, selecionar grupos de termos mais
próximos em vez de termos, tomando apenas partes de documentos como resumos ou
trechos de páginas da web. A representação do espaço vetorial permite manipulações
matemáticas avançadas além do que seria possível com apenas cadeias de texto.
(b) Menos comumente aplicada é uma abordagem de correspondência de string entre termos
do documento e termos que descrevem conceitos de uma linguagem de indexação.
Na indexação automática atribuída, está ocorrendo um processo paralelo para representar

os termos do índice de destino (por exemplo, classes de um sistema de classificação,
descritores de um tesauro). Por exemplo, em linguagens de indexação de assunto, como →
thesauri , um conceito pode ser representado por um certo número de termos sinônimos,
termos relacionados, termos mais estreitos e mais amplos. Ou, cada conceito pode ser
representado por termos extraídos de documentos que foram indexados manualmente pelo
termo que representa esse conceito. Essas representações precisam ser transformadas em
vetores quando os documentos são representados como vetores para permitir a
comparação.
3.1.4 Atribuição de termos de indexação
Nesta etapa final, (a) comparações e cálculos baseados em vetor (quando vetores são
usados), ou (b) correspondência de cadeia entre termos dos documentos e termos que
representam os termos de índice de destino, são conduzidos. Normalmente, uma lista de
termos candidatos é o primeiro resultado, a partir do qual os melhores candidatos são
selecionados, aplicando também várias regras estatísticas e heurísticas. Um exemplo é
atribuir o termo candidato se ele estiver entre os cinco primeiros e aparecer no título do
documento ou, mais simplesmente, selecionar top, digamos, três candidatos com maior peso.
Como visto nos quatro passos acima, a abordagem básica dominante leva em conta apenas
termos, em vez de conceitos ou relações semânticas entre os termos. Aproveitar os
relacionamentos em linguagens de indexação como tesauros e ontologias para identificar
conceitos é outra possibilidade (ver seção 3.3 ). Também há exemplos que tentam abordar
esse problema de outras maneiras; eg, Huang et al. ( 2012 ) que experimentaram uma medida
para identificar conceitos, primeiro mapeando palavras de documentos para conceitos da
Wikipédia e WordNet.
Além de usar KOSs, outras abordagens foram sugeridas. Na indexação semântica latente (LSI) ,
talvez o exemplo mais conhecido, supõe-se que os termos usados em documentos
semanticamente relacionados tendem a ter significados semelhantes. Com base nessa
suposição, as associações entre os termos que ocorrem em documentos semelhantes são
calculadas e, em seguida, os conceitos para esses documentos são extraídos. O LSI foi
aplicado pela primeira vez na recuperação de informações para comparar termos de consulta
de pesquisa a documentos, no nível conceitual e não no nível literal ( Deerwester et al. 1988;
Meng, Lin e Yu, 2011 ). O LSI foi desenvolvido em abordagens relacionadas, tais como LSI
probabilístico (pLSI) ( Hofmann 2001 ) e alocação latente de Dirichlet (LDA) (Blei, Ng e Jordan
2003 ). As abordagens estatísticas também tentam identificar conceitos, em particular os
baseados na hipótese distributiva ( Harris 1954 ). Segundo a hipótese, palavras que aparecem
nos mesmos contextos tendem a ter significados semelhantes. Isso foi aplicado em modelos
word2vec ( Mikolov et al. 2013; Goldberg e Levy 2014 ) que aplicam redes neurais para
reconstruir contextos de palavras. Cada palavra única é atribuída a um vetor e posicionada
perto de vetores que representam palavras com frequência aparecem nos mesmos
contextos.
3.2. Tipos de documentos
Embora essa entrada da enciclopédia se concentre na indexação automática de assunto de

documentos textuais, a indexação automática de documentos não textuais ou heterogêneos
compartilha princípios básicos com aqueles apresentados aqui. Por exemplo, documentos
multimídia como imagens, som e vídeo também podem ser representados por vetores e
processados de forma semelhante. No entanto, como exatamente os recursos de multimídia,
como formas e distribuição de cores, precisam ser selecionados e processados, está além do
escopo desta entrada. Para indexação automática de recursos não textuais, os leitores
podem querer se referir a Rasmussen Neal ( 2012 ).
Outro tipo de documento comum hoje é o de dados, em que a categorização automática é

normalmente aplicada para fins de previsão (por exemplo, previsão do tempo, diagnóstico
médico, marketing) em diferença para o nosso contexto de descrição. Ainda assim, muitos
dos princípios são semelhantes aos nossos. Para mais informações, consulte Kelleher, Mac
Namee e D'Arcy ( 2015 ).
Quando se trata de documentos textuais, existem muitos subtipos diferentes também, e

embora a abordagem básica descrita acima tenda a ser aplicada na maioria dos casos, desafios
especiais podem surgir, bem como características especiais que poderiam ser exploradas
adicionalmente. Por exemplo, os documentos da Web têm características específicas, como
hiperlinks e âncoras, metadados e informações estruturais, que podem servir como recursos
complementares para melhorar a classificação automática. Além disso, a localização

geográfica, os perfis de uso, a citação e a vinculação, como no PageRank mencionado
anteriormente, podem ser utilizados. Por outro lado, eles são bastante heterogêneos; muitos
deles contêm pouco texto, os metadados fornecidos são escassos e podem ser mal
utilizados, as tags estruturais podem ser mal aplicadas e os títulos podem ser gerais (“home
page”, “untitled document”) (ver, por exemplo,Gövert, Lalmas e Fuhr 1999; Golub e Ardö
2005; Klassen e Paturi 2010 ). Além das páginas da web, o seguinte é uma lista não exaustiva
de exemplos de documentos textuais onde pesquisas em indexação automática foram
realizadas (em nenhuma ordem particular): registros de arquivos (por exemplo, Sousa 2014 ),
teses de doutorado (por exemplo, Hamm e Schenider 2015 ), documentos médicos clínicos
(por exemplo, Stanfill et al. 2010 ), governo eletrônico (por exemplo, Svarre e Lykke 2013 ),
informações comerciais ( Flett e Laurie 2012 ), discussões on-line (por exemplo, Mu et al.
2012 ), resoluções parlamentares ( De Campos e Romero 2008 ), textos políticos na web (
Dehghani et al. 2015), literatura cinza (por exemplo, Mynarz e Skuta 2011 ), documentos
escritos de empresas como faturas, lembretes e extratos de conta (por exemplo, Esser et al.
2012 ), documentos legais para litígios (por exemplo, Roitblat, Kershaw e Oot 2010 ),
documentos da indústria da construção, tais como atas de reuniões, reclamações e
correspondências (por exemplo, Mahfouz 2012 ), e documentos relacionados a dados de
pesquisa, como questionários e estudos de caso ( El-Haj et al. 2013 ).
3.3. Abordagens para indexação automática de assunto
Conforme descrito na seção 3.1acima, os métodos para indexar ou classificar

automaticamente estão em seu nível fundamental efetivamente os mesmos - aplicando
princípios heurísticos para determinar computacionalmente o assunto de um documento e,
em seguida, atribuir um termo de índice apropriado com base nisso. Abordagens e diferenças
entre eles podem ser agrupadas com base em vários critérios, e ainda assim a distinção nem
sempre será clara. Os critérios aqui seguidos baseiam-se no contexto geral definido para essa
entrada, que é atribuída à indexação de assunto para fins de recuperação de informações. Os
critérios são: (a) fins de aplicação, (b) um corpo mais ou menos coerente de pesquisa
publicada seguindo a abordagem, (c) abordagem geral: aprendizagem supervisionada,
aprendizado não supervisionado ou correspondência de cadeia.Golub e Larsen 2005 ) e uma
discussão sobre as mesmas abordagens aplicadas a páginas da web ( Golub 2006b ). Cada
abordagem é descrita através de sua definição, diferenças dentro da abordagem, aplicação e
avaliação.
3.3.1. Categorização de texto
Categorização de texto ou classificação de texto são dois termos que, na maioria das vezes,
referem-se à indexação automática de documentos textuais em que ambos os documentos
manualmente (intelectualmente) e o KOS de destino existem. Trata-se de uma abordagem de
aprendizado de máquina que emprega aprendizado supervisionado, no qual o algoritmo
"aprende" sobre as características dos termos do índice de destino com base nas
características dos documentos que foram pré-atribuídos manualmente a esses termos de
índice. Uma das características comumente usadas é a frequência de palavras; por exemplo,
palavras que geralmente ocorrem em documentos atribuídos ao mesmo termo de índice em
diferença àqueles que ocorrem em documentos atribuídos a outros termos de índice.
O processo compreende três etapas principais. Primeiro, uma coleção de coleções indexadas
manualmente (intelectualmente) em um KOS pré-definido é escolhida ou criada para o
processo de categorização de texto. Os documentos desta coleção são chamados de
documentos de treinamento . Na segunda etapa, para cada categoria, um classificador é
construído, geralmente usando o modelo de espaço vetorial. Os classificadores são testados
com um novo conjunto de documentos da coleção; estes são chamados documentos de teste .
Finalmente, a terceira etapa é a categorização real em que o classificador é aplicado a novos

documentos.
A literatura relata uma variedade de formas diferentes de construir classificadores, por

exemplo, máquinas de vetores de suporte (SVM) (por exemplo, Lee et al. 2012 ), redes
neurais artificiais (eg, Ghiassi et al. 2012 ), aprendizado aleatório de florestas ( Klassen e
Paturi 2010 ), impulsionador adaptativo (AdaBoost) ( Freund e Schapire 1997 ), para citar
alguns considerados como estado-da-arte hoje. Para uma visão geral de diferentes
classificadores, veja Mitchell 1997 ; para comparações entre eles, ver Yang ( 1999 ) e
Sebastiani ( 2002 ). Além disso, dois ou mais classificadores diferentes e maneiras de
construí-los podem ser combinados para tomar uma decisão de classificação - estes são
conhecidos como comitês classificadores.ou metaclasse (por exemplo, Liere e Tadepalli, 1998;
Wan et al., 2012; Miao et al., 2012 ).
Abordagens de categorização de texto podem ser divididas em hard e soft; no duro, uma
decisão é feita sobre se o documento pertence ou não a uma categoria; em soft, uma lista
classificada de categorias de candidatos é criada para cada documento e um ou mais dos
melhores classificados são escolhidos como as categorias apropriadas ( Sebastiani 2002 ). A
abordagem suave é melhor reflexiva da realidade (cf. seção 4, onde a tendência é discutida).
A categorização de texto foi aplicada a KOSs que incorporam hierarquias de conceitos, como
Wikipedia , Open Directory Project e Yahoo's Directory (para uma visão geral, ver, por exemplo,
Ceci e Malerba 2007 , e um workshop de Kosmopoulos et al. 2010 ). Quando comparados a
uma abordagem plana, muitos relataram que incluir características baseadas na estrutura da
hierarquia no classificador melhora a precisão da classificação (por exemplo, McCallum et al.
1998; Ruiz e Srinivasan 1999; Dumais e Chen 2000 ). Li, Yang e Park ( 2012algoritmos
combinados de categorização de texto com o WordNet e um tesauro construído
automaticamente e que ganhou alta eficácia conforme medido por precisão, recordação e F-
medidas (veja abaixo). Maghsoodi e Homayounpour ( 2011 ) estenderam o vetor de recursos
do classificador SVM pelos conceitos da Wikipedia e obtiveram melhores resultados (para o
idioma farsi). Isso está de acordo com a pesquisa na classificação de documentos (consulte a
seção 3.3 ), onde outros recursos dos KOSs existentes foram usados para melhorar os
resultados do algoritmo.
Exemplos de coleções de testes especialmente projetadas para uso na categorização de texto

incluem reportagens da agência de notícias Reuters (por exemplo, Reuters-21578),
OHSUMED com metadados da MEDLINE, WebKB para páginas da web, para citar alguns. No
entanto, para muitas coleções de documentos, não haverá documentos de treinamento
disponíveis para treinar e testar o classificador. Se não houver recursos ou possibilidades para
criar um manualmente, abordagens como aprendizado semi-supervisionado e aprendizado
não supervisionado podem ser adotadas. Para uma visão geral da aprendizagem semi-
supervisionada, veja Mladenic e Grobelnik ( 2014 ). Aprendizado não supervisionado é
basicamente agrupamento de documentos descrito na seção a seguir.
A avaliação na categorização de texto geralmente é realizada por comparação com categorias

pré-atribuídas em coleções de teste criadas para essa tarefa. A avaliação geralmente exclui
considerações mais profundas de contextos como tarefas do usuário final na vida real e
práticas de informações. Além disso, problemas de uso de coleções de testes existentes para
categorização de texto foram relatados. Yang ( 1999) afirma que o problema mais sério em
avaliações de categorização de texto é a falta de coleções de dados padrão e mostra como
diferentes versões da mesma coleção têm um forte impacto no desempenho. Isso
corresponde ao conhecimento bem estabelecido de estudos de consistência entre
indexadores de que a indexação humana é muito inconsistente e que a inconsistência é uma
característica inerente à indexação, em vez de uma anomalia esporádica. Portanto, Hjørland (
2018 , Seção 3.2) concluiu: “Que a indexação humana é às vezes tomada como o padrão de
ouro para o qual a indexação de computadores é ajustada é claro problemático à luz do
grande grau de inconsistência encontrado em investigações empíricas e da incerteza sobre
como indexação deve ser avaliada ”.
A comparação entre categorias atribuídas automaticamente e manualmente é calculada

usando medidas de desempenho, como precisão e recordação, usadas na avaliação de
recuperação de informações (ver, por exemplo, Manning, Raghavan e Schütze 2008 , capítulo
8). Na recuperação de informações, a precisão é definida como a fração de documentos
recuperados que são relevantes para a consulta e a recuperação como a fração de
documentos relevantes para a consulta que são recuperados com êxito.
Traduzida para indexação automática de assunto, a precisão é calculada como o número de

termos de índice atribuídos automaticamente e divididos pelo número de todos os termos
de índice atribuídos. Recall é o número de termos de índice atribuídos automaticamente
corretos, dividido pelo número de termos de índice atribuídos manualmente.
Precisão = | número de termos atribuídos automaticamente corretos | Número de

todos os termos de índice atribuídos automaticamente |
Recall = | number of correct automatically terms designados | Número de termos de

índice atribuídos manualmente |
A macroavaliação e a microavaliação são usadas para obter o desempenho médio em todos

os termos do índice. Outros aspectos do desempenho do algoritmo podem ser avaliados,
como a velocidade de computação entre as diferentes etapas do processo. Para uma visão
detalhada dessas e outras medidas de avaliação na categorização de textos, ver Sebastiani (
2002 , 32-39).
Para mais informações sobre a categorização do texto em termos de detalhes técnicos,

consulte Sebastiani ( 2002 ), e para uma visão geral mais geral de Mladenic e Grobelnik (
2014 ).
3.3.2. Agrupamento de documentos
O agrupamento de documentos é o termo mais usado para se referir à construção automática

de grupos de documentos relacionados topicamente e à derivação automática de nomes para
esses grupos de documentos. Além disso, os relacionamentos entre os grupos de
documentos podem ser determinados automaticamente, como os hierárquicos. Nenhum
documento de treinamento é usado, a partir do qual o algoritmo pode "aprender" a atribuir
documentos semelhantes aos mesmos tópicos. Portanto, essa abordagem é conhecida como
aprendizado não supervisionado, por meio do qual o algoritmo aprende com exemplos
existentes sem qualquer "supervisão".
A abordagem de agrupamento de documentos é mais adequada para situações em que não

há KOS de destino disponível e nenhum documento de treinamento, mas os documentos
precisam ser agrupados topicamente. Ele tem sido tradicionalmente usado para melhorar a
recuperação de informações, por exemplo, ao agrupar os resultados do mecanismo de
pesquisa em tópicos. Por outro lado, a derivação automática de nomes e relacionamentos
ainda é um aspecto muito desafiador do agrupamento de documentos. “Estruturas derivadas
automaticamente resultam frequentemente em critérios heterogêneos para membros da
categoria e podem ser difíceis de entender” ( Chen e Dumais, 2000 ). Além disso, os clusters
e relacionamentos entre eles mudam à medida que novos documentos são adicionados à
coleção; mudanças freqüentes de nomes de cluster e relações entre eles podem não seruser-
friendly, por exemplo, quando aplicado para navegação tópica hierárquica de uma coleção de
documentos. Koch, Zettergren e Day ( 1999 ) sugerem que o agrupamento de documentos é
mais adequado para organizar os resultados dos mecanismos de pesquisa da web.
O processo de agrupamento de documentos normalmente envolve duas etapas principais.

Primeiro, os documentos na coleção em questão são tipicamente representados por vetores.
Os vetores são então comparados entre si usando medidas de similaridade de vetores, como
a medida de cosseno. Uma variedade de princípios heurísticos pode ser aplicada ao derivar
vetores, conforme descrito na seção 3.1 . Em segundo lugar, o algoritmo de clustering

escolhido é aplicado para agrupar documentos semelhantes, nomear os clusters e, se
decidido, derivar relações entre clusters.
Semelhante à categorização de texto, há duas abordagens diferentes para clustering, hard e

fuzzy (ou soft). No armazenamento em cluster rígido, um documento pode ser um membro
de apenas um cluster, enquanto que, no armazenamento em cluster difuso, qualquer
documento pode pertencer a qualquer número de clusters. O armazenamento em cluster
rígido é a abordagem mais comum para armazenamento em cluster. Seus subtipos são
parciais (também chamados planos) e clustering hierárquico. Um exemplo típico de clustering
parcial é o algoritmo k- means, em que o primeiro passo é criar aleatoriamente um knúmero
de clusters e, em seguida, novos documentos são adicionados aos diferentes clusters com
base em sua similaridade. À medida que o documento é adicionado ao cluster, os clusters e
seus centróides (centro de um cluster) são recalculados. No agrupamento hierárquico,
existem algoritmos de divisão e aglomerativos. O agrupamento hierárquico divisivo é uma
abordagem de cima para baixo em que, no início, todos os documentos são agrupados em
um cluster, que é então subdividido em clusters menores e menores até que cada cluster
contenha um documento. O agrupamento hierárquico aglomerativo é uma abordagem
ascendente, partindo de um conjunto de clusters, cada um compreendendo um único
documento e mesclando gradualmente aqueles com vetores mais semelhantes. Exemplos de
abordagens menos comuns para clustering incluem mapas de auto-organização (veja, por
exemplo,Paukkeria et al. 2012; Lin, Brusilovsky e He 2011; Saarikoski 2011 ) e algoritmos
genéticos (ver, por exemplo, Song, Yang e Park 2011 ).
A bibliometria também aplica agrupamento de documentos para mapear campos de pesquisa

ou representar categorias de assunto. Ele faz isso vinculando documentos através do
estabelecimento de relações entre documentos que se citam mutuamente (co-citação), ou
que compartilham os mesmos conjuntos de referências (acoplamento bibliográfico), por
exemplo. A hipótese subjacente é que quanto mais conexões são estabelecidas, mais os
documentos têm em comum cientificamente, o que também pode ser interpretado como
diferentes especializações em pesquisa, áreas de pesquisa ou categorias de assuntos. Para
atribuir palavras tópicas a clusters em vez de nomes de autores ou de periódicos a partir de
referências, pode-se realizar uma análise conjunta de títulos, palavras-chave ou resumos. A
combinação da análise de referência / citação com a análise conjunta é outra abordagem. Para
mais detalhes sobre estas questões, veja Åström ( 2014).
A avaliação no agrupamento de documentos geralmente é realizada por comparação com um

KOS criado manualmente e / ou classes pré-atribuídas manualmente. As medidas usadas
incluem o número de decisões corretas em comparação com todas as decisões (índice
Rand); precisão, recall e relacionados. Estas são chamadas medidas de validade externa . Há
também medidas de validade interna que estimam a compactação, ou seja, quão próximos os
documentos estão uns dos outros em cada cluster (quanto mais próximo melhor, pois indica
melhor similaridade), e separabilidade, ou seja, quão distantes dois clusters são um do outro
mais distante, melhor) ( Frommholz e Abbasi 2014 ).
Para mais detalhes sobre medidas de similaridade e outros aspectos do agrupamento de

documentos, consulte os capítulos 16 e 17 de Manning, Raghvan e Schütze ( 2008 ) e
Frommholz e Abbasi ( 2014 ).
3.3.3. Classificação de documentos
Uma abordagem talvez menos estabelecida que identificamos nesta entrada é aquela que
tende a surgir mais especificamente da comunidade de biblioteconomia e ciência da
informação, na qual o objetivo é aplicar KOSs de controle de qualidade mais diretamente às
tarefas típicas de indexação de assunto (incluindo classificação) na biblioteca. catálogos ou
sistemas de recuperação de informações estreitamente relacionados, a fim de melhorar a
pesquisa e a navegação. Para os propósitos deste trabalho e para distinguir entre as duas
abordagens anteriores, bem como para seguir a linha de pesquisa publicada anteriormente
(cf. Golub 2006a ) nomeamos esta abordagem como classificação de documentos.. No entanto,
como essa abordagem parece menos estabelecida do que as duas anteriores, a comunidade
em torno dela é menos coerente, os princípios e os métodos aplicados podem não ser tão
homogêneos.
Além de usar KOSs com controle de qualidade para indexação e classificação de assunto,
essa parece ser a única abordagem usando correspondência de strings entre os termos dos
documentos a serem indexados e os termos do índice de destino. Como na categorização de
texto e agrupamento de documentos, o pré-processamento de documentos a serem
classificados normalmente inclui a remoção de palavras de parada; o stemming pode ser
conduzido; palavras ou frases do texto dos documentos a serem classificados são extraídas e
pesos são atribuídos a eles com base em diferentes heurísticas; enquanto representações e
manipulações de vetores não são necessárias. Além disso, também exemplos usando o
aprendizado de máquina existem como visto abaixo. No entanto, no que diz respeito à
aprendizagem de máquina supervisionada, a pesquisa aponta para cenários em que ela pode
não funcionar devido à falta de documentos de treinamento, especialmente para grandes
KOSs: Wang ( 2009)) e Waltinger et al. ( 2011 ) argumentam que as hierarquias profundas e
detalhadas da Classificação Decimal de Dewey levam à escassez de dados e, assim, distorcem
a distribuição em abordagens de aprendizado de máquina supervisionadas.
Embora essa abordagem seja obviamente diferente do cluster de documentos, em que aqui
temos um KOS de destino, ele compartilha esse recurso específico com a abordagem de
categorização de texto. Seguindo os critérios para distinguir entre as abordagens
estabelecidas no início da seção 3.3 , a abordagem de classificação do documento é diferente
da categorização do texto, na medida em que:
sua aplicação tende a estar fortemente relacionada à aplicação de KOSs de qualidade

controlada diretamente às tarefas típicas de indexação e classificação de assuntos em
catálogos de bibliotecas ou sistemas relacionados de recuperação de informações
operacionais;
essa parece ser a única abordagem usando correspondência de strings entre os termos
dos documentos a serem indexados e os termos do índice de destino, embora também
existam exemplos usando aprendizado de máquina, sendo este último problemático
devido ao escassez de dados de treinamento, especialmente para grandes KOSs.
No entanto, como em muitas classificações, existem zonas cinzentas que são discutidas
abaixo.
Muitas vezes, no foco da pesquisa, estão disponíveis sistemas de informação operacionais

publicamente usando KOSs conhecidos. Exemplos incluem KOS universais: Dewey Decimal
Classification (DDC); Classificação Decimal Universal (UDC); Classificação da Biblioteca do
Congresso (LCC); RÁPIDO (aplicação facetada da terminologia do assunto); Cabeçalhos de
assuntos alemães (Schlagwortnormdatei, SWD); assim como temas específicos: Medical
Subject Headings (MeSH), National Library of Medicine (NLM), sistema de classificação do
Index Engineering e thesaurus (usado pelo banco de dados Compendex), sistema de
classificação Inspec e thesaurus, Fachinformationszentrums Technik (FIZ Technik ) Thesaurus
e sistema de classificação, Thesaurus Agrovoc, Thesaurus Electrónico de Ciências Humanas e
Sociais (HASSET) e Thesaurus Eurovoc. Como a relevância prevista dessa abordagem para os
leitores da Enciclopédia KO é alta, uma visão geral mais detalhada, embora não exaustiva, da
pesquisa será fornecida nesta seção para fins de ilustração. A visão geral é estruturada em
torno dos KOSs específicos.
O projeto Scorpion ( OCLC 2004 ) do Online Computer Library Center (OCLC ) construiu
ferramentas para reconhecimento automático de assunto, usando o DDC. A idéia principal
era tratar um documento para ser indexado como uma consulta na base de conhecimento
do DDC. Os resultados da "pesquisa" foram tratados como sujeitos do documento. Larson (
1992 ) usou essa ideia anteriormente para livros. No Scorpion, o clustering também foi
usado, para refinar o conjunto de resultados e agrupar ainda mais documentos na mesma
classe de DDC ( Subramanian e Shafer, 1998 ). Outro projeto da OCLC, WordSmith (

Godby and Reighart 2001), foi desenvolver um software para extrair significantes
substantivos de um documento. A ideia por trás disso era que a precisão da indexação
automática poderia ser melhorada se a entrada para o classificador fosse representada como
uma lista das frases substantivas mais significativas, em vez do texto completo do documento
bruto. No entanto, mostrou que não houve diferenças significativas. A Wolverhampton Web
Library era um catálogo de bibliotecas da Web mantido manualmente, dentro do qual foram
realizados experimentos para automatizar a classificação do DDC ( Jenkins et al. 1998 ).
Recorrendo a DDC já atribuído, Joorabchi e Mahdi ( 2011extraiu referências do documento
a ser classificado, compilou uma lista de publicações que citam o documento a ser classificado
ou uma de suas referências, e descobriu seus números DDC correspondentes a partir de
catálogos de bibliotecas existentes para então atribuir a correspondência mais provável à
documento na mão. Da mesma forma, Joorabchi e Mahdi ( 2013 ) atribuíram DDC e FAST
identificando primeiro os conceitos da Wikipédia no documento a serem indexados /
classificados e, em seguida, pesquisando no WorldCat os registros que contêm esses
conceitos. Em seguida, eles compararam os registros recuperados com o documento e
atribuíram DDC e FAST aos que obtiveram maior pontuação correspondente. Khoo et al. (
2015) tentou resolver o problema de pesquisar bibliotecas não relacionadas. Nessa medida,
criaram termos e números do DDC a partir de metadados Dublin Core preexistentes. Os
resultados indicam que os melhores resultados são alcançados quando se combinam título,
descrição e termos de assunto. Além disso, eles demonstram como tirar proveito das
hierarquias DDC para desambiguação na correspondência de strings simples pode alcançar
resultados competitivos para abordagens de aprendizado de máquina, ainda sem a
necessidade de documentos de treinamento.
No Projeto Nórdico WAIS / World Wide Web, 1993-1996 ( Ardö et al. 1994; Koch 1994 ), a
indexação automática dos bancos de dados da World Wide Web e Wide Area Information
Server (WAIS) usando UDC foi experimentada. Uma árvore de assunto WAIS foi construída
com base em dois níveis superiores de UDC, ou seja, 51 classes. A UDC também foi usada
pelo GERHARD, um índice da web gerado por robôs de documentos da web na Alemanha (
Möller et al. 1999 ) que empregou uma versão multilíngüe da UDC em inglês, alemão e
francês.
Wartena e Sommer ( 2012 ) experimentaram a indexação automática de artigos em

repositórios acadêmicos usando cabeçalhos de assuntos alemães (SWD). Os cabeçalhos de
assuntos alemães têm uma estrutura semelhante a um dicionário de sinônimos com
sinônimos, subordinados e termos relacionados. Além disso, cerca de 40.000 termos foram
aprimorados com as classes DDC. Como Khoo et al. ( 2015 ) (ver acima), eles concluem que
bons resultados são alcançados quando se aplica a correspondência de strings, que eles
atribuem à versão enriquecida de cabeçalhos de assuntos alemães. Junger ( 2014relatórios de
experimentos realizados pela Biblioteca Nacional Alemã com o objetivo de usar indexação
automática para publicações on-line para as quais eles não têm recursos para catalogar
manualmente. Eles adquiriram um software comercial de aprendizado de máquina que
anteriormente se especializou em indexação automática de publicações médicas, chamada
Averbis. Com os bibliotecários catalogadores como avaliadores, o recall foi considerado alto,
mas a precisão foi muito baixa para ser satisfatória, atribuindo isso à falta de mecanismos de
desambiguação; eles propuseram a análise de co-ocorrência e relacionadas para serem
implementados no futuro.
Frank e Paynter ( 2004 ) aplicaram técnicas de aprendizado de máquina para atribuir

notações da Classificação da Biblioteca do Congresso (LCC) a recursos que já possuem um
termo LCSH atribuído. Sua solução foi aplicada a INFOMINE (gateway de assunto para
recursos acadêmicos na época), onde foi usado para dar suporte a navegação hierárquica.
Um dos softwares de indexação automática mais bem pesquisados foi criado em 1996 pela
National Library of Medicine, conhecido como Medical Text Indexer (MTI) (muitas
publicações e outros recursos sobre ele podem ser encontrados em seu site, https: //
ii.nlm.nih.gov/Publications/ ). É um software semi-automático destinado a atribuir o MeSH. A
abordagem geral é combinar o trabalho intelectual incorporado no rico UMLS Metathesaurus
(UMLS, Sistema Unificado de Linguagem Médica), extrair termos MeSH de citações

relacionadas, com regras de indexação abrangentes e aprendizado de máquina. Em um dos
artigos mais recentes intitulado “12 anos em diante - o indexador de texto médico da NLM
ainda é útil e relevante?”, Mork, Aronson e Demner-Fushman ( 2017) mostram como os
indexadores aumentaram continuamente o uso do MTI, de 15,75% dos artigos indexados em
2002, para 62,44% em 2014, ao mesmo tempo em que também se expandiram para novas
áreas de uso, indicando sua utilidade. Além disso, as estatísticas de desempenho do MTI
mostram uma melhora significativa nas medidas de precisão e F , ao mesmo tempo em que
apontam para a necessidade de melhorar a recuperação. Um ponto para mais pesquisas e
desenvolvimentos é recorrer mais ao aprendizado de máquina, mantendo os componentes
existentes. De outros tipos de documentos médicos, Pratt ( 1997 ) experimentou organizar
os resultados da pesquisa em categorias MeSH. Lüschow e Wartena ( 2017 ) aplicado k-
nearest-neighbors (kNN) para uma coleção de documentos médicos com classes pré-
atribuídas de vários sistemas de classificação, com o objetivo de usá-los como uma base para
atribuir automaticamente o sistema de classificação da Biblioteca Nacional de Medicina,
usando assim já atribuído classes de outros sistemas de classificação em vez de usar, por
exemplo, títulos de livros ou palavras-chave como representação de conteúdo para cada
documento.
'All' Engineering foi um índice web gerado por robôs de cerca de 300.000 documentos web,
desenvolvido como um módulo experimental do portal de engenharia criado manualmente,
Engineering Electronic Library (EELS) ( Koch e Ardö 2000 ). Utilizou-se o thesaurus
Engineering Index (Ei); Neste tesauro, os termos são enriquecidos com seus mapeamentos
para o esquema de classificação Ei. O projeto provou a importância de aplicar um bom KOS
na obtenção da precisão de indexação automática: 60% dos documentos foram classificados
corretamente, usando apenas um algoritmo de correspondência de strings muito simples,
baseado em um conjunto limitado de heurísticas e ponderação simples. Outro índice da web
gerado pelo robô, Engine-e, usou uma abordagem de indexação automática levemente
modificada à desenvolvida em 'All' Engineering ( Lindholm, Schönthal and Jansson 2003).). O
Engine-e forneceu a navegação por assunto de documentos de engenharia com base nos
termos Ei, com seis categorias mais amplas como pontos de partida. Golub, Hamon e Ardö (
2007 ) aplicaram string-matching onde os termos do thesaurus Ei foram enriquecidos com
termos automaticamente extraídos de registros bibliográficos do banco de dados
Compendex, usando análise morfossintática multi-palavra e aquisição de sinônimo, com base
no existente preferido e sinônimo termos (como eles deram melhores resultados de
precisão). Golub ( 2011) Trabalhou com o Ei para organizar automaticamente as páginas da
web em estruturas hierárquicas para navegação por assunto, obtendo resultados sugerindo
como um KOS com um número suficiente de classes de designação de termos de entrada
poderia aumentar significativamente o desempenho dos algoritmos de indexação automática.
Além disso, se o mesmo KOS tivesse uma estrutura hierárquica apropriada, forneceria uma
boa estrutura de navegação para a coleta de documentos classificados automaticamente.
Plaunt e Norgard ( 1997 ) aplicaram um algoritmo de treinamento supervisionado baseado na

extração de termos lexicais de registros bibliográficos e na sua associação com termos do
tesauro INSPEC designados manualmente. Projeto BINDEX (Indexação e Classificação
Paralela Automática Bilingue) ( Maas et al. 2002) aplicou a indexação automática de resumos
em engenharia disponível nos idiomas inglês e alemão. Utilizou o tesauro e o sistema de
classificação English Inspec, bem como o thesaurus e o sistema de classificação bilíngüe da
FIZ Technik. A análise morfo-sintática de um documento foi realizada. Envolveu a
identificação de termos de palavras únicas e múltiplas, marcação e lematização e resolução
homográfica. As palavras-chave foram extraídas e comparadas com os tesauros e, em seguida,
os códigos de classificação foram derivados. Palavras-chave acima de um determinado limite
que não estavam no tesauro foram designadas como termos de índice livre. Enriquecer
registros com outros termos além do KOS em mãos pode levar a uma recuperação
aprimorada. Nesta medida, Joorabchi e Mahdi ( 2014 ) experimentaram adicionar a Wikipedia
conceitos para registros de biblioteca existentes.
Lauser e Hotho ( 2004 ) aplicaram um algoritmo de máquinas de vetores de suporte (SVM)

para indexar uma coleção de documentos agrícolas com o tesauro Agrovoc. O algoritmo
melhorou quando fizeram uso da informação semântica contida no Agrovoc. Da mesma
forma, Medelyan e Witten ( 2008 ) usaram o KEA, um algoritmo Naïve Bayes para extração
de termos de índices derivados e designados, e obtiveram bom desempenho com poucos
dados de treinamento porque também usaram a informação semântica da Agrovoc.
De outros exemplos, De Campos e Romero ( 2008 ) usaram aprendizado de máquina para

classificar resoluções parlamentares do Parlamento regional da Andaluzia na Espanha usando
o Eurovoc. El-Haj et al. ( 2013 ) experimentaram aplicar os termos HASSET à coleção de
documentos relacionados a dados do UK Data Archive / UK Data Service. A abordagem
deles baseou-se na aplicação de um extrator de frases-chave KEA (Keyphrase Extraction
Algorithm) de código aberto e de aprendizado de máquina.
Como vemos nos exemplos acima, em muitos dos casos, os relacionamentos incorporados
ao KOS são explorados com resultados favoráveis. Willis e Losee ( 2013 ) especificamente
experimentaram exatamente isso. Eles empregaram quatro thesauri para determinar em que
grau as relações internas podem ser usadas em benefício da indexação automática de
assunto. Seus resultados indicam um grande potencial, embora o grau de sucesso pareça
depender do tesauro e da coleta.
Uma grande vantagem dessa abordagem é que ela não requer documentos de treinamento,
mantendo uma estrutura predefinida do KOS em mãos. Se estiver usando um esquema de
classificação KOS de alta qualidade, ele também será adequado para pesquisa de assunto e
navegação em sistemas de recuperação de informações. Além de melhorar a recuperação de
informações, outra motivação para aplicar KOSs na classificação automática é reutilizar o
esforço intelectual que foi usado para criar um KOS desse tipo. Ele pode ser empregado com
vocabulários contendo hierarquias irregulares ou distribuição esparsa em uma determinada
coleção.
Quanto aos métodos de avaliação, medidas como precisão e recordação e medida F são
comumente usadas. Essa parece ser a única abordagem em que, pelo menos, a discussão é
ocasionalmente levantada, exigindo a necessidade de atender às complexidades da avaliação
mais próximas das necessidades e dos cenários da vida real. Mesmo aspectos como
mandados de indexação automáticos são assumidos; Chung, Miksa e Hastings ( 2010 )
concluem que a garantia literária é mais adequada na indexação automática de artigos
científicos do que a garantia do usuário.
4. Aplicação em sistemas operativos

A discussão sobre como a indexação de assunto automática aplicável é hoje exige que você
examine pelo menos vários problemas conectados. Teoricamente, a automação da
determinação do assunto pertence ao positivismo lógico - um assunto é considerado uma
string que ocorre acima de certa frequência, não é uma palavra de parada e está em um
determinado local, como um título ( Svenonius 2000 , 46-49). Em algoritmos, inferências são
feitas como: se o documento A está no assunto X, então se o documento B é
suficientemente similar ao documento A (por exemplo, eles compartilham palavras ou
referências similares), então o documento B está sobre aquele assunto. Outra crítica dada é a
falta de justificativas teóricas para manipulações de vetores, como a medida cosseno que é
freqüentemente usada para obter similaridades vetoriais ( Salton 1991).975). Além disso,
supõe-se que os conceitos tenham nomes, que podem ser mais comuns, por exemplo, em
ciências naturais, mas muito menos em humanidades e ciências sociais, embora tentativas de
resolver isso tenham sido adotadas mais recentemente (ver seção 3.1 ).
Uma variedade de fatores contribui para o desafio da indexação automática de assuntos. Os

textos são um fenômeno cognitivo e social complexo, e a compreensão cognitiva do texto
envolve muitas fontes de conhecimento, sustenta múltiplas inferências e envolve uma

interpretação pessoal ( Moens 2000 , 7-10). Morris ( 2010investigaram diferenças individuais
na interpretação do significado do texto utilizando cadeias lexicais (grupos de palavras
semanticamente relacionadas) baseadas em 3 textos e com 26 participantes; os resultados
mostraram cerca de 40% de diferença na interpretação. A pesquisa em compreensão
automática de texto abrange a codificação lingüística (vocabulário, sintaxe e semântica das
propriedades da linguagem e do discurso), conhecimento do domínio mundial, conhecimento
compartilhado entre o criador e usuário do texto e o contexto completo da compreensão
em um específico ponto no tempo, incluindo a ideologia, as normas, o histórico do usuário e
os propósitos do uso do texto. Em 2003, Lancaster alegou que as ferramentas de indexação
de assunto automáticas existentes estão longe de serem capazes de lidar com as
complexidades, e em aplicações raramente é possível ir muito além da análise de vocabulário
e sintaxe.Lancaster 2003 , 330-331).
Ainda assim, fornecedores de software e pesquisadores experimentais falam do alto potencial

das ferramentas de indexação automática. Embora alguns afirmem substituir totalmente a
indexação manual em determinadas áreas (por exemplo, Roitblat, Kershaw e Oot 2010 ),
outros reconhecem a necessidade de indexação manual (humana) e assistida por
computador, cada uma com suas (des) vantagens (por exemplo, Anderson). e Perez-Carballo
2001, Svarre e Lykke 2013 ). Exemplos reportados de sistemas de informação operacional
onde a indexação assistida por máquina é aplicada incluem o software MAI da NASA, que
mostrou aumentar a produção e melhorar a qualidade da indexação ( Silvester 1997 ); e o
Medical Text Indexer na Biblioteca Nacional de Medicina dos EUA, que até 2017 foi
consultado por indexadores em mais de 60% da indexação de artigos (Mork, Aronson e
Demner-Fushman 2017 ).
Evidências sólidas sobre o sucesso de ferramentas de indexação automática em ambientes de

informações operacionais, no entanto, são escassas; a pesquisa é geralmente conduzida em
condições de laboratório, excluindo as complexidades de sistemas e situações da vida real. O
valor prático das ferramentas de indexação automática é amplamente desconhecido devido a
abordagens de avaliação problemáticas. Tendo revisado um grande número de estudos de
indexação automática, Lancaster concluiu que a pesquisa que compara a indexação
automática versus manual é falha ( 2003, 334). Uma abordagem de avaliação comum é testar
a qualidade da recuperação com base nos termos de índice atribuídos. Mas os testes de
recuperação também estão repletos de problemas; os resultados dependem de muitos
fatores, portanto, o teste de recuperação não pode isolar a qualidade dos termos do índice.
Outra abordagem é medir diretamente a qualidade da indexação. Um método para fazer isso
é comparar automaticamente os termos de metadados atribuídos aos termos ou classes
existentes, atribuídos à pessoa, da coleção de documentos usada (como um 'padrão ouro'),
mas esse método também apresenta problemas. Ao indexar, as pessoas cometem erros,
como relacionados à exaustividade (muitos ou poucos sujeitos designados) ou especificidade
(geralmente porque o assunto designado não é o mais específico disponível); eles podem
omitir assuntos importantes, ou atribuir um assunto obviamente incorreto (ver
tambémHjørland 2016 para uma discussão detalhada sobre os diferentes aspectos do
¿nearness¿ . Além disso, tem sido relatado que pessoas diferentes, sejam usuários ou
indexadores de assunto profissionais, atribuem diferentes assuntos ao mesmo documento.
Uma razão para isso são as diferenças na abordagem: por um lado, seguindo a idéia
racionalista de que há uma maneira correta de indexar um documento (ou uma coleção) e,
por outro, a ideia pragmática de que propósitos e usuários diferentes podem necessidade de
indexação diferente ( Hjørland 2018 ). Portanto, os registros de metadados existentes não
podem ser usados como "o padrão ouro": as classes atribuídas por algoritmos (mas não
designadas a humanos) podem estar erradas ou estar corretas, mas omitidas durante a
indexação humana por engano ou obedecendo a uma determinada política de indexação.
A fim de abordar as complexidades que envolvem o problema da cerca, Golub et al. ( 2016 )
propõem um quadro abrangente envolvendo três etapas principais: avaliar a qualidade da
indexação diretamente por meio de avaliação por um avaliador ou por comparação com um
padrão-ouro; avaliar a qualidade da indexação assistida por computador diretamente no
contexto de um fluxo de trabalho de indexação e avaliar indiretamente a qualidade da

indexação por meio da análise do desempenho da recuperação. A estrutura ainda precisa ser
testada empiricamente e espera-se que muito mais pesquisas sejam necessárias para
desenvolver projetos de avaliação apropriados para tais fenômenos complexos envolvendo
indexação e recuperação de objetos e interação de informações em geral.
Embora as abordagens de avaliação frequentemente assumam que a indexação humana é a

melhor, e que a tarefa de indexação automática é atender aos padrões de indexadores
humanos, uma bolsa de estudos mais séria precisa ser dedicada à avaliação para aprofundar
nossa compreensão do valor das ferramentas automáticas de atribuição de assunto. e para
nos permitir fornecer uma entrada totalmente informada para o seu desenvolvimento e
aprimoramento. Hjørland ( 2011)) aponta para a problemática da avaliação da indexação em
um exemplo de estudo empírico e discute isso por meio de uma teoria do ponto de vista do
conhecimento, ao analisar sua posição epistemológica. Ele conclui propondo que a fórmula
ideal para o futuro da indexação é que o indexador humano adota o que a indexação
automática é boa (uma vez entendido) e investe seus recursos na indexação de valor
agregado que requer julgamento e interpretação humanos. Isso pode estar de acordo com a
indexação auxiliada por máquina em sistemas operacionais como o Medical Text Indexer
mencionado no início desta seção.
5. Conclusões
Princípios básicos aplicados em várias abordagens para atribuir automaticamente termos de
índice estão efetivamente em seu nível fundamental. O foco ainda é em grande parte ao nível
das palavras, e não dos conceitos, e geralmente inclui a pontuação e a remoção de palavras-
chave, as regras heurísticas e as representações e manipulações de vetores. Embora existam
tentativas de determinar conceitos em vez de palavras e incluam LSI e word2vec, bem como
explorar relacionamentos de KOSs existentes, muito mais pesquisas são necessárias a esse
respeito.
Abordagens para a indexação automática de assuntos podem ser agrupadas com base em
vários critérios; os que são seguidos neste trabalho são baseados no contexto geral
estabelecido para essa entrada, que é atribuída à indexação de assuntos para fins de
recuperação de informações. As abordagens nomeadas também estão de acordo com
pesquisas anteriores e incluem: categorização de texto, agrupamento de documentos e
classificação de documentos. As principais diferenças entre eles incluem propósitos de
aplicação e presença ou ausência de aprendizado de máquina, bem como se o aprendizado de
máquina é supervisionado ou não supervisionado. A abordagem de classificação de
documentos emprega, mais do que outros, linguagens de indexação de assuntos, como
esquemas de classificação, sistemas de cabeçalhos de assuntos e tesauros, que também são
adequados para pesquisa de assunto e navegação em um sistema de recuperação de
informações (embora, muitas vezes, melhorias sugeridas, como ser mais atualizado, amigável
ao usuário, etc., devem ser abordadas). Não menos importante, explorar o trabalho
intelectual que foi investido na criação de tais linguagens de indexação de assuntos, a fim de
melhorar a indexação automática, mostrou ser um caminho que vale a pena explorar mais
extensivamente no futuro.
Devido a complexidades de nearness, sistemas e abordagens experimentais existentes não

foram adequadamente testados e, portanto, o conhecimento sobre sua utilidade para
sistemas operacionais parece ser falho. Uma estrutura de avaliação abrangente recentemente
proposta envolve três etapas principais: avaliar a qualidade da indexação diretamente por
meio de avaliação por um avaliador ou por comparação com um padrão-ouro; avaliar a
qualidade da indexação assistida por computador diretamente no contexto de um fluxo de
trabalho de indexação e avaliar indiretamente a qualidade da indexação por meio da análise
do desempenho da recuperação. Mais pesquisas são necessárias para testá-la empiricamente,
bem como conceber abordagens de avaliação mais apropriadas para diferentes contextos
específicos.
Agradecimentos
Muito obrigado a Birger Hjørland , editor-chefe da enciclopédia, por conselhos, e dois
revisores anônimos por comentários detalhados que melhoraram este artigo.
Referências
Anderson, James D. e Jose Perez-Carballo. 2001. “A Natureza da Indexação: Como Humanos
e Máquinas Analisam Mensagens e Textos para Recuperação, Parte II: Indexação de Máquina
e a Alocação do Esforço Humano versus Esforço da Máquina.” Processamento e Gestão da
Informação 37, no. 2: 255-77.
Ardö, A. et al. 1994. “Melhorando a Descoberta e Recuperação de Recursos na Internet: O

Relatório Nórdico do WAIS / World Wide Web”. NORDINFO Nytt 17, no. 4: 13-28.
Åström, Fredrik. 2014. “Bibliometria e representação do sujeito”. Em Acesso à Informação:

Uma Abordagem Interdisciplinar , ed. Koraljka Golub. Santa Bárbara, CA: Libraries Unlimited,
107-17.
Baxendale, Phyllis B. 1958. “Índice feito à máquina para a literatura técnica - uma experiência.
Revista IBM de Pesquisa e Desenvolvimento 2: 354-361.
Blei, David M., Andrew Y. Ng e Michael I. Jordan. 2003. “Alocação de Dirichlet Latente.”
Journal of Machine Learning Research 3: 993-1022.
Bradshaw, Shannon e Kristian Hammond. 1999. “Construindo Índices de Citações em

Coleções de Trabalhos de Pesquisa. Proceedings da Sociedade Americana para Ciência da
Informação 36: 741-750.
Ceci, Michelangelo e Donato Malerba. 2003. “Classificação Hierárquica de Documentos

HTML com WebClassII”. Avanços na Recuperação de Informações, 25ª Conferência Européia de
Pesquisa sobre RI, ECIR 2003, Pisa, Itália, 14-16 de abril de 2003 : 57-72.
Chen, Hao e Susan Dumais. 2000. “Levando ordem para a Web: categorizando
automaticamente os resultados da pesquisa”. Proceedings of ACM Conferência Internacional
sobre Fatores Humanos em Sistemas Computacionais , Den Haag: 145-152.
Chung, EunKyung, Shawne Miksa e Samantha K. Hastings. 2010. “Uma estrutura de atribuição
automática de termos de assunto para categorização de texto: uma abordagem baseada na
concepção de indexação.” Revista da Sociedade Americana de Ciência da Informação e Tecnologia
61, no. 4: 688-99.
De Campos, Louis M. e Alfonso E. Romero. 2009. “Modelos de Rede Bayesiana para

Classificação de Texto Hierárquico de um Tesauro”. Revista Internacional de Raciocínio
Aproximado 50, no. 7: 932-944.
Deerwester, Scoot, Susan T. Dumais, Thomas K. Landauer, George W. Furnas e Louis Beck.
1988. “Melhorando a Recuperação de Informações com a Indexação Semântica Latente”.
Anais da 51ª Reunião Anual da American Society for Information Science 25: 36-40.
Dehghani Mostafa, Hosein Azarbonyad, Maarten Marx e Jaap Kamps. 2015. “Fontes de
Evidência para Indexação Automática de Textos Políticos”. In Advances in Information Retrieval:
ECIR 2015 , eds. Hanbury A., Kazai G., A. Rauber, Fuhr N .: 568-573.
Driscoll, James R. 1991. A Operação e o Desempenho de um Sistema Artificialmente

Inteligente de Palavras-Chave. Processamento e Gerenciamento de Informações 27: no. 1: 43-54.
Dumais, Susan T. e Hao Chen. 2000. “Classificação hierárquica do conteúdo da web”. Anais
da 23ª Conferência Internacional Anual da ACM SIGIR sobre Pesquisa e Desenvolvimento em
Recuperação de Informação, 24 a 28 de julho de 2000, Atenas, Grécia : 256-263.
El-Haj, Mahmoud, Lorna Balcãs, Suzanne Barbalet, Lucy Bell e John Shepherdson. 2003. “Um
experimento em indexação automática usando o Thesaurus HASSET.” Conferência de Ciência
da Computação e Engenharia Eletrônica (CEEC) : 13-18.
Esser, Daniel, Daniel Schuster, Klemens Muthmann, Michael Berger e Alexander Schill.
“Indexação automática de documentos digitalizados: uma abordagem baseada em layout”.
Proc. SPIE 8297, Document Recognition and Retrieval XIX, 82970H (23 de janeiro de 2012) .
Flett, Alan e Laurie, Stuart. 2012. “Aplicando Taxonomias Através da Auto-Classificação”.

Revisão de informações comerciais 29, no. 2: 111-120.
Freund, Yoav e Robert E. Schapire. 1997. “Uma Generalização Teórica da Decisão da

Aprendizagem On-line e uma Aplicação ao Impulsionamento”. Revista de Computação e
Ciências do Sistema 55, no. 119: 119-139.
Frank, Eibe e Gordon W. Paynter. 2004. “Prever as Classificações da Biblioteca do Congresso

dos Anexos da Biblioteca do Congresso.” Revista da Sociedade Americana de Ciência da
Informação e Tecnologia 55, no. 3: 214-27.
Frommholz, Ingo e Muhammad Kamran Abbasi. 2014. Categorização automatizada de texto e

clusters. Em Acesso à Informação: Uma Abordagem Interdisciplinar , ed. Koraljka Golub. Santa
Bárbara, CA: Libraries Unlimited, 117-131.
Fuhr, Norbert e Gerhard Knorz. 1984. “Avaliação de Teste de Recuperação de uma

Indexação Automatizada baseada em Regras (AIR / PHYS)”. 7ª Conferência Internacional da
ACM sobre Pesquisa e Desenvolvimento em Recuperação de Informação, SIGIR-84 : 391-408.
Ghiassi, Manoochehr, Michael Olschimke, Brian Moon e Paul Arnaudo. 2012. “Classificação
Automatizada de Texto Usando um Modelo Dinâmico de Rede Neural Artificial.” Sistemas
Especialistas com Aplicações 39, no. 12: 10967-0976.
Gil-Leiva, Isidoro. 2017. “SISA - Sistema de Indexação Automática para Artigos Científicos:
Experiências com Regras de Heurística de Localização versus Regras TF-IDF.” Knowledge
Organization 44, no. 3: 139-162.
Godby, C. Jean e Ray R. Reighart. 2001. “The WordSmith Indexing System”. Jornal da
Administração da Biblioteca 34, no. 3-4: 375-85.
Goldberg, Yoav e Omer Levy. 2014. “Word2vec Explicado: Derivando o Método de

Incorporação de Palavras por Amostragem Negativa de Mikolov et al.”. Disponível em:
arxiv.org/abs/1402.3722
Golub, Koraljka. 2006a. “Classificação automática de assunto de documentos da Web em

texto”. Jornal da Documentação 62, no. 3: 350-371.
Golub, Koraljka. 2006b. “Classificação automática de assunto de páginas da Web textuais,

com base em um vocabulário controlado: desafios e recomendações”. Nova revisão de
hipermídia e multimídia 12, no. 1: 11-27.
Golub, Koraljka. 2016. “Potencial e Desafios do Acesso ao Assunto em Bibliotecas Hoje no

Exemplo de Bibliotecas Suecas.” International Information & Library Review 48, no. 3: 204-10.
Golub, Koraljka e Anders Ardö. 2005. “Importância dos Elementos Estruturais e Metadados
do HTML na Classificação Automática de Assunto”. Actas da 9ª Conferência Europeia sobre
Investigação e Tecnologia Avançada para Bibliotecas Digitais, Viena, Áustria, 18 a 23 de Setembro :
368-378.
Golub, Koraljka, Thierry Hamon e Anders Ardö. 2007. “Classificação Automatizada de

Documentos Textuais com base em um Vocabulário Controlado em Engenharia”. Organização
do Conhecimento 34, no. 4: 247-263.
Golub, Koraljka e Birger Larsen. 2005. “Diferentes Abordagens para a Classificação

Automatizada: Existe uma troca de idéias?”. Anais da 10ª Conferência Internacional da Sociedade
Internacional de Scientometria e Informática, Estocolmo, Suécia, 24-28 de julho : 270-274.
Golub, Koraljka, Dagobert Soergel, George Buchanan, Douglas Tudhope, Marianne Lykke e
Debra Hiom. 2016. “Uma Estrutura para Avaliar a Indexação ou Classificação Automática no
Contexto da Recuperação”. Jornal da Associação de Ciência da Informação e Tecnologia 67, no.
1: 3-16.
Grobelnik, Marko e Dunja Mladenic. 2005. “Classificação Simples em Ontologia de Grandes

Tópicos de Documentos da Web.” Revista de Computação e Tecnologia da Informação 13, no. 4:
279-285.
Gövert, Norbert, Mounia Lalmas e Norbert Fuhr. 1999. “Uma Abordagem Orientada à
Descrição Probabilística para Categorizar Documentos da Web”. Proceedings da Oitava
Conferência Internacional sobre Informação e Gestão do Conhecimento : 475-482.
Hamm, Sandra; Schneider, Kurt. 2015. “Automatische Erschliessung von

Universitätsdissertationen”. Dialog mit Bibliotheken 27, no. 1: 18-22.
Harris, Zellig S. 1954. ”Estrutura Distribuidora.” Palavra 10, no. 23: 146-162.
Hartigan, John A. 1996. "Introdução". Agrupamento e classificação . Cingapura: World

Scientific: 3-5.
Hjørland, Birger. 2011. “A Importância das Teorias do Conhecimento: Indexação e

Recuperação da Informação como um Exemplo”. Jornal da Sociedade Americana de Ciência da
Informação e Tecnologia 62, no. 1: 72-77.
Hjørland, Birger. 2016. “Subject (of Documents)”. Enciclopédia ISKO da Organização do

Conhecimento . Disponível em: http://www.isko.org/cyclo/subject
Hjørland, Birger. 2018. “Indexação: conceitos e teoria”. Enciclopédia ISKO da Organização do

Conhecimento , ed. Birger Hjørland, coed. Claudio Gnoli. http://www.isko.org/cyclo/indexing .
Hlava, Majorie K. 2009. “Entendendo 'Baseada em Regras' vs. 'Sistemas de Indexação

Baseados em Estatísticas': White paper da Data Harmony.” Disponível em:
https://web.archive.org/web/20090417210346/http://www .dataharmony.com: 80 / library /
whitePapers / auto_indexing_rule-based_vs_statistics-based.htm
Hofmann, Thomas. 2001. “Aprendizagem não supervisionada por análise semântica latente
probabilística”. Machine Learning 42, no. 1: 177-96.
Hu, Yi e Wenjie Li. 2011. “Document Sentiment Classification por Exploring Description
Model of Topical Terms.” Linguagem e Linguagem do Computador 25, no. 2: 386-403.
Huang, Lan, Milne, Davi, Frank, Eibe e Witten, Ian H. 2012. “Aprender uma Medida de
Similaridade de Documentos Baseada em Conceitos. (Relatório). ” Jornal da Sociedade
Americana para Ciência da Informação e Tecnologia 63, no. 8: 1593-608.
Humphrey, Susanne M .; Névéol, Aurélie; Browne, Allen; Gobeil, Julien; Ruch, Patrick;
Darmoni, Stéfan J. 2009. “Comparando um sistema estatístico versus baseado em regras para
categorização automática de documentos MEDLINE de acordo com a Biomedical Specialty.”

Revista da Sociedade Americana para Ciência e Tecnologia da Informação 60, nº 12: 2530–2539.
Hwang, San-Yih, Wan-Shiou Yang e Kang-Di Ting. 2010. “Construção automática de índice
para bibliotecas digitais multimídia.” Information Processing & Management 46, no. 3: 295-307.
Organização Internacional para Padronização. 1985. Documentação - Métodos para Examinar

Documentos, Determinar seus Assuntos e Selecionar Termos de Índice: ISO 5963 . Genebra:
Organização Internacional para Padronização.
Jenkins, Charlotte Mike Jackson, Peter Burden e Jon Wallis. 1998. “Classificação Automática
de Recursos da Web Usando Classificação Decimal de Java e Dewey”. Redes de Computadores
e Sistemas RDIS 30: 646-648.
Jones, KP e CLM Bell. 1992. “Programa de Inteligência Artificial para Indexação Automática
(AIPIA)”. In: Online Information 92 : 187-196. Medford, NJ, Learned Information.
Joorabchi, Arash e Abdulhussain E Mahdi. 2014. “Para vincular bibliotecas e Wikipedia:

Indexação Automática de Registros de Bibliotecas com Conceitos da Wikipedia”. Journal of
Information Science 40, no. 2: 211-21.
Joorabchi Arash e Abdulhussain E. Mahdi. 2013. “Classificação de Publicações Científicas de

acordo com os Vocabulários Controlados em Bibliotecas: Uma Nova Abordagem Baseada em
Correspondência de Conceitos.” Library Hi Tech 31, no. 4: 725-47.
Junger, Ulrike. 2014. “A indexação pode ser automatizada? O Exemplo da Deutsche

Nationalbibliothek. ” Catalogação e Classificação Trimestral 52, no. 1: 102-109.
Kelleher, John D., Brian Mac Namee e Aoife D'Arcy. 2015. Fundamentos de Aprendizado de
Máquina para Análise Preditiva de Dados: Algoritmos, Exemplos Trabalhados e Estudos de Caso .
MIT Press.
Keyser, Pierre de. 2012. Indexação: De Thesauri à Web Semântica . 1ª ed. Capítulos 2 e 3.
Chandos Publishing.
Khoo, Michael John, Jae-wook Ahn, Ceri Binding, Hilary Jane Jones, Xia Lin, Diana Massam e
Douglas Tudhope. 2015. “Aumentando os Metadados da Biblioteca Digital Dublin Core com
a Classificação Decimal de Dewey”. Journal of Documentation 71, no. 5: 976-98.
Klassen, Myungsook e Nikhila Paturi. 2010. “Classificação de documentos da Web por

palavras-chave usando florestas aleatórias”. Comunicações em Computação e Ciência da
Informação 88, no. 2: 256-261.
Koch, Traugott. 1994. “Experimentos com Classificação Automática de Bancos de Dados

WAIS e Indexação de WWW”. Mundo da Internet e entrega de documentos World International
94, Londres : 112-115.
Koch, Traugott e Anders Ardö. 2000. “Classificação Automática”. DESEJO II D3.6a, Visão geral
dos resultados , disponível em:
https://web.archive.org/web/20050301133443/http://www.lub.lu.se:80/desire/DESIRE36a-
overview.html
Koch, Traugott, Ann-Sofie Zettergren e Michael Day. 1999. “Fornecer navegação usando
esquemas de classificação”. EU Project DESIRE II , disponível em:
https://web.archive.org/web/20050403233258/http://www.lub.lu.se/desire/handbook/class.html
Kosmopoulos, Aris, Eric Gaussier, Georgios Paliouras e Sujeevan Aseervatham. 2010. “O

Workshop de Classificação Hierárquica em Grande Escala do ECIR 2010”. ACM SIGIR Forum
44, no. 1: 23-32.
Lancaster, Frederick W. 2003. Indexação e abstração em teoria e prática . 3 ed. Londres: Faceta.
Larson, Ray R. 1992. “Experimentos na Classificação Automática da Biblioteca do

Congresso”, Jornal da Sociedade Americana de Ciência da Informação 43, no. 2: 130-148.
Lauser, Boris e Andreas Hotho. 2003. “Indexação Automática de Múltiplos Discos em

Ambiente Multilingue”. No ECDL 2003 , o LNCS 2769, eds. Traugott Koch e Ingeborg T.
Sølvberg: 140–151.
Lee, Lam, Hong Wan, Chin Rajkumar e Heng Isa. 2012. “Uma Estrutura de Classificação de
Máquina de Vetor de Suporte Aprimorado Usando a Função de Distância Euclidiana para
Categorização de Documentos de Texto.” Applied Intelligence 37, no. 1: 80-99.
Lee, Lam, Hong Wan, Chin Rajkumar e Heng Isa. 2012. “Uma Estrutura de Classificação de
Máquina de Vetor de Suporte Aprimorado Usando a Função de Distância Euclidiana para
Categorização de Documentos de Texto.” Applied Intelligence 37, no. 1: 80-99.
Liere, Ray e Prasad Tadepalli. 1998. “Ativa Aprendizagem com Comitês: Resultados
Preliminares na Comparação de Winnow e Perceptron na Categorização de Texto”. Anais da
1ª Conferência sobre Aprendizagem e Descoberta Automatizada : 591-596.
Lin, Yi-ling, Peter Brusilovsky e Daqing He. 2011. “Melhorando Mapas de Informações Auto-
organizáveis como Ferramentas de Navegação: Uma Abordagem Semântica.” Online
Information Review 35, no. 3: 401-24.
Lindholm, Jessica, Tomas Schönthal e Kjell Jansson. 2003. “Experiências de Colheita de

Recursos da Web em Engenharia usando Classificação Automática”. Ariadne não. 37.
Disponível em: http://www.ariadne.ac.uk/issue37/lindholm/
Liu, Rey-Long. 2010. “Avaliação de Frequência de Termo Baseada no Contexto para

Classificação de Texto”. Revista da Sociedade Americana de Ciência da Informação e Tecnologia
61, no. 2: 300-09
Lösch, Mathias, Ulli Waltinger, Wolfram Hortsmann e Alexander Mehler. 2011. “Construindo
um Corpus anotado em DDC a partir de metadados OAI”. Jornal de Informação Digital 12, no.
2. Disponível em: https://journals.tdl.org/jodi/index.php/jodi/article/view/1765
Luhn, Hans P. 1957. "Uma abordagem estatística para a codificação mecanizada e busca de
informações literárias." IBM Journal of Research and Development 1: 309-317.
Lüschow, Andreas e Christian Wartena. 2017. “Classificando Literatura Médica Usando o

Algoritmo k-Nearest-Neighbours.” Oficina NKOS 2017 , Procedimentos CEUR (em
publicação).
Maghsoodi, Nooshin e Mohammad Mehdi Homayounpour. 2011. “Usando o Thesaurus para

melhorar a classificação de texto multiclasse”. Notas de Aula em Ciência da Computação 6609:
244-253.
Mahfouz, Tarek. 2011. “Modelo de Classificação de Documentos de Construção não

Estruturados através da Máquina de Vetores de Suporte (SVM)”. Em: Computação em
Engenharia Civil: Anais do 2011 ASCE International Workshop em Computação em Engenharia Civil
, eds. Y. Zhu e RR Issa: 126-133. Reston, VA, Sociedade Americana de Engenheiros Civis.
Manning, Christopher e Hinrich Schütze. 1999. Fundamentos do Processamento Estatístico da

Linguagem Natural . Cambridge, MA: MIT Press.
Manning, Christopher D., Prabhakar Raghavan e Hinrich Schütze. 2008. Introdução à

Recuperação da Informação . Cambridge University Press.
Maron, ME 1961. “Indexação Automática: Uma Investigação Experimental.” Revista da

Associação de Máquinas de Computação 8, no. 3: 404-417.
Martinez-Alvarez, Miguel, Sirvan Yahyaei e Thomas Roelleke. 2012. “Classificação Semi-

Automática de Documentos: Explorando Dificuldade do Documento”. Notas de Aula em
Ciência da Computação: Avanços na Recuperação de Informação 7224: 468-471.
Mazzocchi, Fulvio. 2017. “Knowledge Organization System (KOS)”. Enciclopédia ISKO da

Organização do Conhecimento . Disponível em: http://www.isko.org/cyclo/kos
McCallum, Andrew, Ronald Rosenfeld, Tom Mitchell e Andrew Y. Ng. 1998. “Melhorando a
classificação de texto por encolhimento em uma hierarquia de classes”. ICML-98, 15ª
Conferência Internacional sobre Machine Learning : 359-367.
Medelyan, Olena e Ian H. Witten. 2008. “Indexação automática de keyphrase independente

de domínio com pequenos conjuntos de treinamento”. Jornal da Sociedade Americana para
Ciência da Informação e Tecnologia 59, no. 7: 1026-1040.
Meng, Jiana, Hongfei Lin e Yuhai Yu. “Um método de seleção de recurso de dois estágios para
categorização de texto.” Computadores e matemática com aplicativos 62, no. 7: 2793-800.
Miao, Duoqian, Qiguo Duan, Hongyun Zhang e Na Jiao. 2009. “Algoritmo Híbrido Baseado
em Conjunto para Classificação de Texto.” Sistemas Especialistas com Aplicações 36, no. 5:
9168-174.
Mikolov, Tomas, Kai Chen, Greg Corrado e Jeffrey Dean. 2013. “Estimativa Eficiente de
Representações de Palavras no Espaço Vectorial”. Disponível em:
http://arxiv.org/abs/1301.3781
Mladenic, Dunja e Marko Grobelnik. 2014. “Machine Learning on Text”. Em Acesso à

Informação: Uma Abordagem Interdisciplinar , ed. Koraljka Golub. Santa Bárbara, CA: Libraries
Unlimited, 132-8.
Moens, Marie-Francine. 2000. Indexação Automática e Abstração de Textos de Documentos .

Kluwer, Boston.
Mork, James, Alan Aronson e Dina Demner-Fushman. 2017. “12 anos em diante - o NLM
Medical Text Indexer ainda é útil e relevante?”. Jornal de Semântica Biomédica 8, no. 8
Morris, Jane. 2010 “Diferenças Individuais na Interpretação do Texto: Implicações para a

Ciência da Informação”. Revista da Sociedade Americana de Ciência da Informação e Tecnologia
61, no. 1: 141-49.
Mynarz, Jindrich e Ctibor Škuta. 2010. “Integração do Sistema de Indexação Automática no

Fluxo de Documentos no Repositório Cinzento de Literatura.” Em: Décima Segunda
Conferência Internacional sobre Literatura Cinza: Transparência na Literatura Cinza, 6-7 de
dezembro de 2010 , eds. Dominic J. Farace e Jerry Frantzen. Amesterdão: TextRelease.
Möller, Gerhard, Kai-Uwe Carstensen, Bernd Diekman e Han Wätjen. 1999. “Classificação
Automática da WWW Usando a Classificação Decimal Universal”. Anais do 23º Encontro
Internacional de Informação Online, Londres, 7-9 de dezembro : 231-238.
Mu, Jin, Karsten Stegmann, Elijah Mayfield, Carolyn Rose e Frank Fischer. 2012. “A Estrutura
da ACODEA: Desenvolvendo Segmentação e Esquemas de Classificação para Análise
Totalmente Automática de Discussões On-line”. International Journal of Computer-Supported
Collaborative Learning 7, no. 2 (2012): 285-305.
Maas, Dieter, Rita Nuebel, Catherine Pease e Paul Schmidt. 2002. “Indexação Bilíngue para
Recuperação de Informação com AUTINDEX”. Terceira Conferência Internacional sobre
Recursos de Idiomas e Avaliação, 29, 30 e 31 de maio, Las Palmas de Gran Canária (Espanha) :
1136-1149.
OCLC. 2004. "Scorpion". Software da OCLC . Disponível em:

http://www.oclc.org/research/software/scorpion/default.htm
Page, Larry, Sergey Brin, Rajeev Motwani e Terry Winograd. 1998. O ranking de citações do
Pagerank: trazendo ordem para a web . Relatório técnico, Projeto Stanford Digital Library
Technologies. Disponível em: http://citeseer.ist.psu.edu/page98pagerank.html
Paukkeria, Mari-Sanna, Alberto Pérez Garcia-Plazab, Víctor Fresnob, Raquel Martínez

Unanueb e TimoHonkela. 2012. “Aprender uma taxonomia a partir de um conjunto de
documentos de texto”. Soft Computing Aplicada 12, no. 3: 1138-1148.
Perry, James W., Allen Kent, Madeline M. Berry. 1955. “Pesquisa de literatura de máquina X.
Linguagem de máquina; factores subjacentes à sua concepção e desenvolvimento ”.
Documentação Americana 6: 242.
Plaunt, Christian e Barbara A. Norgard. 1998. “Um método baseado em associação para
indexação automática com um vocabulário controlado”. Journal of the American Society for
Information Science 49, no. 10: 888-902.
Pratt, Wanda. 1997. “Organização dinâmica de resultados de pesquisa usando o UMLS”.

Simpósio de Queda da American Medical Informatics Association : 480-484.
Rasmussen Neal, D. (Ed.). 2012. Indexação e Recuperação de Informações Não Textuais . Berlim:
De Gruyter Saur.
Roelleke, Thomas. 2013. Modelos de Recuperação de Informação: Fundamentos e

Relacionamentos . San Rafael, CA: Morgan & Claypool.
Roitblat, Herbert L., Anne Kershaw e Patrick Oot. 2010. “Categorização de Documentos em
Descoberta Eletrônica Legal: Classificação de Computador vs. Revisão Manual”. Revista da
Sociedade Americana de Ciência da Informação e Tecnologia 61, no. 1: 70-80.
Ruiz, Miguel E. e Padmini Srinivasan. 1999. “Redes Neurais Hierárquicas para Categorização
de Texto”. Anais da 22ª Conferência Internacional ACM SIGIR sobre Pesquisa e Desenvolvimento
em Recuperação de Informação : 281-282.
Ruiz, Miguel E., Alan R. Aronson e Marjorie Hlava. 2008. “Adoção e avaliação de problemas
de sistemas de indexação automáticos e assistidos por computador”. Procedimentos da
Sociedade Americana de Ciência da Informação e Tecnologia 45, no. 1: 1-4
Saarikoski, Jyri, Jorma Laurikkala, Kalervo Järvelin e Martti Juhola (2011). “Mapas auto-
organizáveis na classificação de documentos: uma comparação com seis métodos de
aprendizado de máquina”. Notas de Aula em Ciência da Computação 6593: 260-269.
Salton, Gerard e Michael McGill. 1983. Introdução à Recuperação Moderna de Informação .

McGraw-Hill, Auckland.
Salton, Gerard. 1991. “Developments in Automatic Text Retrieval”. Science 253: 974-979.
Sebastiani, Fabrizio. 2002. “Machine Learning in Automated Text Categorization”. ACM

Computing Surveys 34, no. 1: 1-47.
Silvester, June P. 1997. “Computer Supported Indexing: Uma História e Avaliação do Sistema
MAI da NASA”. In: Encylopedia of Library e Information Services 61, Suplemento 24: 76-90.
Smiraglia, Richard P. e Xin Cai. 2017. “Acompanhamento da Evolução do Cluster,

Aprendizado de Máquina, Indexação Automática e Classificação Automática na Organização
do Conhecimento ”. Organização do Conhecimento 44, no. 3: 215-233.
Canção, Wei, Jucheng Yang, Chenghua Li e Sooncheol Park. 2011. “Intelligent Information
Retrieval System Usando Automatic Thesaurus Construction”. International Journal of General
Systems 40, no. 4: 395-415.
Sousa, Renato Tarciso Barbosa de. 2014. “A Representação da Informação: Classificação

Automática e Indexação de Registros de Arquivos”. In: Informação: além das nuvens,
expandindo-se como matéria da Ciência da Informação: Atas do Décimo Quinto Encontro Nacional
de Pesquisa em Ciência da Informação : 798-811.
Souza, Renato Rocha e Koti S. Raghavan. 2014. “Extração de palavras-chave de textos: um

estudo exploratório usando frases substantivas”. Informação & Tecnologia (ITEC) 1, no. 1: 5-16.
Sparck Jones, Karen. 1972. “Uma Interpretação Estatística da Especificidade de Termo e sua
Aplicação na Recuperação”. Journal of Documentation : 11-21.
Stanfill, Mary H., Margaret Williams, Susan H. Fenton, Robert A. Jenders e William R Hersh.
2010. “Uma Revisão Sistemática da Literatura de Codificação Clínica Automatizada e
Sistemas de Classificação.” Revista da American Medical Informatics Association 17, no. 6: 646-51.
Stevens, Mary E. 1965. Indexação Automática: Um Relatório Sobre o Estado da Arte , Monografia
91. Washington, DC: National Bureau of Standards.
Subramanian, Srividhya e Keith E. Shafer. 1998. "Clustering". Publicações da OCLC.

Disponível em:
https://web.archive.org/web/20040514080331/http://digitalarchive.oclc.org/da/ViewObject.jsp?
objid=0000003409
Svarre, Tanja e Marianne Lykke. 2013. “O Papel da Categorização Automatizada na

Recuperação de Informações de Governo Eletrônico”. In: Knowledge Organization: Empurrando
os Limites, Conferência bienal da ISKO UK, 8 a 9 de julho de 2013, Londres .
Svenonius, E. 2000. As Fundações Intelectuais da Organização da Informação . MIT Press,

Cambridge, MA.
Biblioteca Nacional de Medicina dos EUA. 2016. NLM Medical Text Indexer (MTI) . Disponível
em https://ii.nlm.nih.gov/MTI/ .
Waltinger, Ulli, Alexander Mehler, Mathias Lösch e Wolfram Horstmann, 2011. “Classificação
Hierárquica de Metadados OAI Usando a Taxonomia DDC”. Tecnologias de Linguagem
Avançada para Bibliotecas Digitais . Notas de Aula em Ciência da Computação Volume 6699: 9-
40.
Wan, Chin Heng, Lam Hong Lee, Rajprasad Rajkumar, Dino Isa. 2012. “Uma Abordagem de
Classificação de Texto Híbrida com Baixa Dependência no Parâmetro Integrando o K-vizinho
mais próximo e a Máquina de Vetor de Suporte.” Sistemas especialistas com aplicações 39, no.
15: 11880-11888.
Wang, Jun. 2009. “Um Estudo Extensivo sobre Classificação Decimal Automatizada de
Dewey.” Revista da Sociedade Americana de Ciência da Informação e Tecnologia 60, no. 11: 2269-
286.
Wartena, Christian e Maike Sommer. 2012. “Classificação automática de registros científicos

usando o arquivo de autoridade de cabeçalho de assunto alemão (SWD)”. Anais do 2º
Workshop Internacional sobre Arquivos Digitais Semânticos (SDA 2012, Paphos, em TPDL 2012) :
37-48.
Weisser, Martin. Linguística Prática de Corpus: Uma Introdução à Análise da Linguagem Baseada
em Corpus . Wiley, 2015
Willis, Craig e Robert M. Losee. 2013. “Uma Caminhada Aleatória em uma Ontologia:
Usando a Estrutura do Thesaurus para Indexação Automática de Assunto.” Revista da
Sociedade Americana para Ciência da Informação e Tecnologia 64, no. 7: 1330-344.
Witten, Ian H. e Eibe Frank. 2000. Data mining: Ferramentas e técnicas práticas de aprendizado
de máquina com implementações JAVA . San Diego, CA: Academic Press.
Yang, Yiming. 1999. “Uma avaliação de abordagens estatísticas para categorização de texto”.
Journal of Information Retrieval 1, no. 1/2: 67-88.
Tempos visitados desde 2018-11-13 (primeira publicação da versão 1.1).
Versão 1.2 (= 1.0 com algumas mudanças na precisão, recordação, racionalismo etc.); versão
1.0 publicado em 2017-10-16, esta versão 2019-03-07, última edição em 2019-04-16
Categoria do artigo:KO processes
Este artigo (versão 1.1) é publicado em Knowledge Organization , vol. 46 (2019), Issue 2, pp.
104-121.
Como citar (versão 1.1): Golub, Koraljka. 2019. “Indexação automática de assunto do texto”.
Organização do Conhecimento 46, no. 2: 104-121. Também disponível na Enciclopédia ISKO da
Organização do Conhecimento , eds. Birger Hjørland e Claudio Gnoli,
http://www.isko.org/cyclo/automatic
© 2017 ISKO Todos os direitos reservados.

Indexação de Assunto Automática de Texto (IEKO)

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Indexação de Assunto Automática de Texto (IEKO)

Enviado por

Direitos autorais:

Formatos disponíveis

31/07/2019 Indexação de assunto automática de texto (IEKO)

ISKO Enciclopédia da Organização do Conhecimento

Pesquisas sobre indexação automática de assuntos começaram com a disponibilidade de

Existem diferentes abordagens para a indexação automática, com base no propósito da

A terminologia relacionada à indexação automática de assuntos é utilizada de forma

Na biblioteconomia, a terminologia da indexação de assuntos envolve vários conceitos

Na ciência da computação, a distinção entre diferentes tipos de linguagens de indexação

3. Abordagens para indexação automática de assunto

3.1. Abordagem básica

De um modo geral, a indexação automática de assuntos geralmente segue um curso de várias

3.1.2 Ponderação de termos

Recursos como a localização do termo, o tamanho da fonte ou o tipo de fonte, também

completo, enquanto os trabalhos citados, título da fonte (título da revista ou conferência) e

3.1.3 Outras representações

Na indexação automática atribuída, está ocorrendo um processo paralelo para representar

3.2. Tipos de documentos

Embora essa entrada da enciclopédia se concentre na indexação automática de assunto de

Outro tipo de documento comum hoje é o de dados, em que a categorização automática é

Quando se trata de documentos textuais, existem muitos subtipos diferentes também, e

complementares para melhorar a classificação automática. Além disso, a localização

3.3. Abordagens para indexação automática de assunto

Conforme descrito na seção 3.1acima, os métodos para indexar ou classificar

3.3.1. Categorização de texto

Finalmente, a terceira etapa é a categorização real em que o classificador é aplicado a novos

A literatura relata uma variedade de formas diferentes de construir classificadores, por

Exemplos de coleções de testes especialmente projetadas para uso na categorização de texto

A avaliação na categorização de texto geralmente é realizada por comparação com categorias

A comparação entre categorias atribuídas automaticamente e manualmente é calculada

Traduzida para indexação automática de assunto, a precisão é calculada como o número de

Precisão = | número de termos atribuídos automaticamente corretos | Número de

Recall = | number of correct automatically terms designados | Número de termos de

A macroavaliação e a microavaliação são usadas para obter o desempenho médio em todos

Para mais informações sobre a categorização do texto em termos de detalhes técnicos,

3.3.2. Agrupamento de documentos

O agrupamento de documentos é o termo mais usado para se referir à construção automática

A abordagem de agrupamento de documentos é mais adequada para situações em que não

O processo de agrupamento de documentos normalmente envolve duas etapas principais.

vetores, conforme descrito na seção 3.1 . Em segundo lugar, o algoritmo de clustering

Semelhante à categorização de texto, há duas abordagens diferentes para clustering, hard e

A bibliometria também aplica agrupamento de documentos para mapear campos de pesquisa

A avaliação no agrupamento de documentos geralmente é realizada por comparação com um

Para mais detalhes sobre medidas de similaridade e outros aspectos do agrupamento de

3.3.3. Classificação de documentos

sua aplicação tende a estar fortemente relacionada à aplicação de KOSs de qualidade

Muitas vezes, no foco da pesquisa, estão disponíveis sistemas de informação operacionais

classe de DDC ( Subramanian e Shafer, 1998 ). Outro projeto da OCLC, WordSmith (

Wartena e Sommer ( 2012 ) experimentaram a indexação automática de artigos em

Frank e Paynter ( 2004 ) aplicaram técnicas de aprendizado de máquina para atribuir

(UMLS, Sistema Unificado de Linguagem Médica), extrair termos MeSH de citações

Plaunt e Norgard ( 1997 ) aplicaram um algoritmo de treinamento supervisionado baseado na

Lauser e Hotho ( 2004 ) aplicaram um algoritmo de máquinas de vetores de suporte (SVM)

De outros exemplos, De Campos e Romero ( 2008 ) usaram aprendizado de máquina para

4. Aplicação em sistemas operativos

Uma variedade de fatores contribui para o desafio da indexação automática de assuntos. Os

envolve muitas fontes de conhecimento, sustenta múltiplas inferências e envolve uma

Ainda assim, fornecedores de software e pesquisadores experimentais falam do alto potencial

Evidências sólidas sobre o sucesso de ferramentas de indexação automática em ambientes de

contexto de um fluxo de trabalho de indexação e avaliar indiretamente a qualidade da

Embora as abordagens de avaliação frequentemente assumam que a indexação humana é a

Devido a complexidades de nearness, sistemas e abordagens experimentais existentes não

Ardö, A. et al. 1994. “Melhorando a Descoberta e Recuperação de Recursos na Internet: O

Åström, Fredrik. 2014. “Bibliometria e representação do sujeito”. Em Acesso à Informação:

Bradshaw, Shannon e Kristian Hammond. 1999. “Construindo Índices de Citações em

Ceci, Michelangelo e Donato Malerba. 2003. “Classificação Hierárquica de Documentos