Escolar Documentos
Profissional Documentos
Cultura Documentos
juntar ISKO
Indexação automática de assunto do texto
Knowledge
Organization de Koraljka Golub
revista
ISKO Tabela de conteúdos:
eventos 1. Introdução
2. Definição e terminologia
ISKO 3. Abordagens para indexação automática de assuntos
capítulos 3.1. Abordagem básica: 3.1.1 Pré-processamento; 3.1.2 Ponderação de prazo;
3.1.3 Outras representações; 3.1.4 Atribuição de termos de indexação
ISKO
3.2. Tipos de documentos
pessoas
3.3. Abordagens para indexação automática de assuntos: 3.3.1. Categorização
publicações de texto; 3.3.2. Agrupamento de documentos; 3.3.3. Classificação de
ISKO documentos
4. Aplicação em sistemas operacionais
Enciclopédia
5 Conclusão
KO Agradecimentos
literatura Referências
Colophon
KO
instituições Resumo :
⇗ KOS A indexação automática de assunto aborda problemas de escala e
registro sustentabilidade e pode ser usada ao mesmo tempo para enriquecer registros de
metadados existentes, estabelecer mais conexões entre recursos entre vários
🔒 metadados e coleções de recursos e aprimorar a consistência dos metadados.
membros Nesta entrada, a indexação automática de assunto se concentra na atribuição de
termos ou classes de índice de sistemas de organização do conhecimento (KOS)
contate-nos
estabelecidos para indexação de assunto, como tesauros, sistemas de cabeçalhos
de assunto e sistemas de classificação. As principais abordagens a seguir são
discutidas, em termos de suas semelhanças e diferenças, vantagens e
desvantagens para indexação automática atribuída a partir de KOSs:
“categorização de texto”, “agrupamento de documentos” e “classificação de
documentos”. A categorização de texto é talvez a mais difundida, abordagem de
aprendizado de máquina com o que parece ser um bom desempenho relatado.
Isso, no entanto, depende da disponibilidade de corpora de treinamento com
documentos já categorizados que, em muitos casos, não estão lá. O
agrupamento de documentos automaticamente cria grupos de documentos
relacionados e extrai os nomes dos assuntos que representam o grupo em
questão. Não requer documentos de treinamento, mas os termos e estruturas
automaticamente extraídos relatados nem sempre são de boa qualidade,
refletindo os problemas subjacentes da linguagem natural; Além disso, ambos
mudam quando novos documentos são adicionados à coleção e essa
mutabilidade pode não ser amigável ao usuário. A classificação de documentos
reutiliza o esforço intelectual investido na criação de KOSs para indexação de
assuntos e até algoritmos simples de correspondência de strings foram relatados
para alcançar bons resultados porque um conceito pode ser descrito usando
vários termos diferentes, incluindo equivalentes, relacionados, mais estreitos e
mais amplos. termos. Finalmente, a aplicabilidade da indexação automática de
assuntos a sistemas operativos de informação e os desafios de avaliação são
delineados, sugerindo a necessidade de mais pesquisas.
https://www.isko.org/cyclo/automatic.htm 1/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
[ início da entrada ]
1. Introdução
Cada vez mais, diferentes tipos de recursos de informação estão sendo disponibilizados
online. Os mecanismos de busca atuais geram bons resultados para tarefas de busca
específicas, mas são inadequados para buscas conceituais ou por assuntos que exigem alta
precisão e recall, comuns em pesquisas acadêmicas ou sérias pesquisas públicas (para uma
discussão sobre (des) vantagens de indexação automática de texto completo , veja Keyser
2012 , capítulo 2). Diferenças na terminologia entre várias comunidades e até mesmo
indivíduos levam ao fato de que a pesquisa literal de cadeias de caracteres, em muitos casos,
não oferece uma pesquisa efetiva. Isso é exacerbado na busca e recuperação entre sistemas e
em vários idiomas, onde o acesso integrado a assuntos é provavelmente o desafio mais difícil
de resolver. Termos do índice de assuntos retirados de → sistemas de organização do
conhecimento(KOS) tais como → tesauros , sistemas de cabeçalhos de assuntos e →
sistemas de classificação fornecem numerosos benefícios em comparação com a indexação
de texto livre de motores de busca comerciais: consistência através de uniformidade no
formato de termo e atribuição de termos; provisão de relações semânticas entre os termos;
e suporte para navegar por hierarquias consistentes e claras (consulte Mazzocchi 2017 ).
No entanto, esses termos de índice de assunto exigem recursos substanciais para produzir.
Por causa do crescente número de documentos, existe o risco de que os objetivos
reconhecidos dos sistemas bibliográficos, como encontrar todos os documentos sobre um
determinado assunto, sejam deixados para trás. Como exemplo, um recente estudo
exploratório de catálogos de bibliotecas suecas indica que o acesso a assuntos não é
abordado sistematicamente, que em novas coleções digitais os KOSs são aplicados em um
grau muito limitado e em bancos de dados integrados de bibliotecas e comerciais os
mapeamentos entre os diferentes KOS não existem, evitando assim a procura de qualidade
através deles ( Golub 2016 ). Os meios automáticos poderiam ser uma solução para
preservar os objetivos reconhecidos dos sistemas bibliográficos ( Svenonius 200030). Além
de abordar problemas de escala e sustentabilidade, a indexação automática de assuntos pode
ser usada para enriquecer os registros bibliográficos existentes, estabelecer mais conexões
entre os recursos e melhorar a consistência dos dados bibliográficos ( Golub et al. 2016 ).
Além disso, a indexação automática é usada hoje em uma ampla variedade de aplicações,
como a colheita tópica; roteamento personalizado de artigos de notícias; classificação dos
resultados dos mecanismos de busca; análise de sentimento (ver, por exemplo, Hu e Li 2011
), e muitos outros ( Sebastiani 2002 ).
assunto, conforme usado para os propósitos deste trabalho. A seção 3 discute abordagens
para a indexação automática de assuntos em relação às suas principais semelhanças e
diferenças. Seção 4contém uma discussão sobre quão boas são as soluções automáticas
endereçadas hoje e a seção 5 contém observações finais.
[ início da entrada ]
2. Definição e terminologia
De acordo com o atual padrão de indexação ISO (ISO 5963: 1985, confirmado em 2008,
International Organization for Standardization 1985 ), a indexação de assunto realizada pelo
profissional da informação é definida como um processo que envolve três etapas: (1)
determinar o conteúdo da disciplina. documento; (2) uma análise conceitual para decidir
quais aspectos do conteúdo devem ser representados; e (3) tradução desses conceitos ou
aspectos em um vocabulário controlado (CV). A indexação automática de assunto é então
uma indexação de assunto baseada em máquina, onde os processos intelectuais humanos das
três etapas acima são substituídos, por exemplo, por técnicas de linguística estatística e
computacional, que serão discutidas em mais detalhes abaixo.
Na literatura relacionada, outros termos para indexação automática de assunto são usados. A
geração de metadados do assunto é um exemplo geral. Termos categorização de texto e
classificação de texto são comuns na comunidade de aprendizado de máquina. A classificação
automática é outro exemplo de um termo, usado para denotar a atribuição automática de
uma classe ou categoria de um sistema de classificação ou taxonomia pré-existente. No
entanto, essa frase também pode ser usada para se referir ao agrupamento de documentos,
no qual grupos de documentos semelhantes são descobertos e nomeados automaticamente.
Aqui, o termo indexação automática de assuntoé usado como o termo principal. Ele denota
processos não-intelectuais, baseados em máquina, de indexação de assunto, conforme
definido pela comunidade de biblioteconomia: indexação derivada e atribuída usando
sistemas de indexação alfabética e de classificação, para fins de recuperação de informações
aprimorada. A justificativa para combiná-los em uma entrada é o fato de que os princípios
subjacentes baseados em máquinas são bastante semelhantes, especialmente quando se trata
de aplicação em documentos textuais. No entanto, o foco principal nessa entrada está na
indexação atribuída, devido ao valor agregado fornecido pelos sistemas de indexação para
pesquisa de informações na biblioteconomia, como maior precisão e recordação resultante
do controle de linguagem natural de, por exemplo, homonímia, sinonímia, forma de palavra, e
vantagens para navegação hierárquica, por exemplo, quando o usuário final não sabe qual
termo de pesquisa usar devido à falta de familiaridade com seu tópico ou quando não está
procurando por um item específico. Além disso, termoa indexação de assuntos pressupõe a
aplicação de sistemas de indexação alfabética e de classificação, porque princípios similares se
aplicam quando se trata de processos automáticos; embora também seja comum referir-se ao
processo de utilização da indexação do primeiro sujeito e a classificação do segundo sujeito.
Finalmente, enquanto a palavra automatizada mais diretamente implica que o processo é
baseado em máquina, a palavra automática é mais comumente usada na literatura relacionada
e, portanto, tornou-se o termo de escolha aqui também.
Além disso, a terminologia para distinguir entre diferentes abordagens para a indexação
automática de assuntos é ainda menos consistente (ver também Smiraglia e Cai 2017 ). Por
exemplo, Hartigan ( 1996 , 2) escreve: “O termo análise de cluster é usado mais comumente
para descrever o trabalho neste livro, mas eu prefiro muito mais o termo classificação”. Ou:
“classificação ou categorização é a tarefa de atribuir objetos de um universo a duas ou mais
classes ou categorias” ( Manning e Schütze 1999 , 575). Nesses termos de entrada, a
categorização de texto e o agrupamento de documentos são escolhidos porque tendem a ser os
termos predominantes na literatura das comunidades correspondentes. Classificação de
documentos a termoé usado para distinguir consistentemente entre as três abordagens. Essas
abordagens são descritas e discutidas na seção seguinte.
[ início da entrada ]
[ início da entrada ]
[ início da entrada ]
https://www.isko.org/cyclo/automatic.htm 4/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
3.1.1 Pré-processamento
Uma lista de palavras que aparecem no documento é criada com base na tokenização, o
processo de reconhecimento automático de palavras. Além disso, toda a pontuação é
retirada. Além disso, palavras que tendem a ter menos significado são retiradas, tais como
conjunções, determinantes, preposições e pronomes, que são conhecidos como palavras-stop
. Essa representação resultante de documentos é conhecida como modelo de saco de palavras
. Uma representação mais avançada é o modelo n -gram de palavras que é usado, por
exemplo, quando sintagmas nominais precisam ser extraídos em indexação derivada ou
quando a correspondência de strings é conduzida contra termos contendo mais de uma
palavra (veja a seção 3.3.3 abaixo ). Classificação de documentos). Palavra n-grams podem ser
unigramas (palavras individuais), bigramas (quaisquer duas palavras adjacentes), trigramas
(quaisquer três palavras adjacentes) etc. Além disso, técnicas mais avançadas de
processamento de linguagem natural podem ser executadas; em conter cada palavra é
reduzido ao seu tronco, o que significa a remoção de seus afixos - por exemplo,
illegallypode ser reduzido ao seu tronco, legalpelo qual seu prefixo il- e seu sufixo -ly são
removidos. A lógica por trás disso é que palavras com o mesmo radical têm o mesmo
significado. Além disso, os taggers de linguagem de fala e analisadores sintáticos também
podem ser aplicados. Para uma visão geral do processamento de textos, veja Manning e
Schütze ( 1999 ) e Weisser ( 2015 ).
[ início da entrada ]
A etapa principal seguinte é determinar a importância de cada termo para descrever o grau
de conhecimento do documento em questão. O termo pode ser uma palavra individual ou
uma frase composta, dependendo da tarefa determinada. Para cada termo, um peso expresso
como um número é calculado e atribuído. Aqui, diferentes regras estatísticas e outras regras
heurísticas podem ser aplicadas. Um exemplo de regras estatísticas, palavras que aparecem
muitas vezes tanto no documento em questão quanto em todos os outros documentos da
coleção, provavelmente não são particularmente indicativas do assunto do documento e vice-
versa. Isso é conhecido como peso de freqüência de documento de frequência inversa de
freqüência ( TF-IDF , Salton e McGill 1983 , 63; 205): combina (1) frequência de termo (Luhn
1957 ), onde o peso do termo em questão é considerado proporcional ao número de vezes
que aparece no documento, com (2) freqüência inversa do documento ( Sparck Jones 1972 ),
onde o peso do termo é uma fração inversa do os documentos que contêm a palavra. Uma
visão geral das medidas de ponderação de termo pode ser encontrada em Roelleke ( 2013 ).
https://www.isko.org/cyclo/automatic.htm 5/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
As regras podem ser de diferentes tipos. Driscoll et al. ( 1991 ) combinou o texto do
documento com mais de 3.000 frases e um conjunto de regras de exclusão e inserção. Essas
regras foram usadas para transformar a lista de termos do documento para a lista de frases
de índice; por exemplo, se 'time', 'over' e 'target' aparecessem dentro de um certo número
de palavras um do outro, uma frase de índice 'air warfare' seria gerada. Fuhr e Knorz ( 1984 )
criaram cerca de 150.000 regras para correspondência de documentos físicos com termos
do KOS. Jones e Bell ( 1992extraímos termos de índice baseados em termos de
correspondência do documento contra várias listas: uma lista de palavras paradas, uma lista
de termos de interesse, uma lista para auxiliar na desambiguação de homógrafos, uma lista
para combinar formas singular e plural e uma lista de terminações de palavras para permitir
uma análise simples. Ruiz, Aronson e Hlava ( 2008 ) afirmam que as abordagens baseadas em
regras dominaram nas décadas de 1970 e 1980 e que aprendizado de máquina ou abordagens
estatísticas surgiram nos anos 90. Abordagens baseadas em regras são baseadas em regras
criadas manualmente, enquanto no aprendizado de máquina, conjuntos de exemplos são
necessários para treinar o algoritmo para aprender conceitos. Hlava ( 2009) descreve melhor
a indexação baseada em regras e afirma que a maioria das regras é simples e pode ser criada
automaticamente, enquanto regras complexas são adicionadas pelos editores. Por outro lado,
no domínio dos documentos médicos, Humphrey et al. ( 2009 ) compararam uma abordagem
baseada em regras e estatística e mostraram que a última superou a primeira. Abordagens
que combinam o melhor dos dois mundos podem ser superiores.
[ início da entrada ]
Com base nos dois principais processos comumente aplicados, cada documento original é
agora transformado em uma lista de termos (contidos, analisados) e seus pesos de termo
atribuídos. Parece haver duas maneiras possíveis de continuar a partir daqui: (a)
representação vetorial, ou (b) correspondência de cadeia.
(a) A representação vetorial é a abordagem dominante na qual o resultado das duas primeiras
etapas é agora transformado em vetores em um espaço vetorial de termos. Nesse espaço
vetorial, cada termo com seu peso é representado como uma dimensão nesse espaço
(espaço de tempo). Quando recursos como localização são adicionados, cada recurso se
torna uma dimensão no espaço vetorial chamado espaço de recurso que poderia conter o
espaço do termo. Muitos termos e características levarão ao desafio da alta
dimensionalidade; pesquisas têm sugerido métodos de redução de dimensionalidade, tais
como: escolher apenas termos com pesos mais altos, selecionar grupos de termos mais
próximos em vez de termos, tomando apenas partes de documentos como resumos ou
trechos de páginas da web. A representação do espaço vetorial permite manipulações
matemáticas avançadas além do que seria possível com apenas cadeias de texto.
(b) Menos comumente aplicada é uma abordagem de correspondência de string entre termos
do documento e termos que descrevem conceitos de uma linguagem de indexação.
[ início da entrada ]
https://www.isko.org/cyclo/automatic.htm 6/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
3.1.4 Atribuição de termos de indexação
Nesta etapa final, (a) comparações e cálculos baseados em vetor (quando vetores são
usados), ou (b) correspondência de cadeia entre termos dos documentos e termos que
representam os termos de índice de destino, são conduzidos. Normalmente, uma lista de
termos candidatos é o primeiro resultado, a partir do qual os melhores candidatos são
selecionados, aplicando também várias regras estatísticas e heurísticas. Um exemplo é
atribuir o termo candidato se ele estiver entre os cinco primeiros e aparecer no título do
documento ou, mais simplesmente, selecionar top, digamos, três candidatos com maior peso.
Como visto nos quatro passos acima, a abordagem básica dominante leva em conta apenas
termos, em vez de conceitos ou relações semânticas entre os termos. Aproveitar os
relacionamentos em linguagens de indexação como tesauros e ontologias para identificar
conceitos é outra possibilidade (ver seção 3.3 ). Também há exemplos que tentam abordar
esse problema de outras maneiras; eg, Huang et al. ( 2012 ) que experimentaram uma medida
para identificar conceitos, primeiro mapeando palavras de documentos para conceitos da
Wikipédia e WordNet.
Além de usar KOSs, outras abordagens foram sugeridas. Na indexação semântica latente (LSI) ,
talvez o exemplo mais conhecido, supõe-se que os termos usados em documentos
semanticamente relacionados tendem a ter significados semelhantes. Com base nessa
suposição, as associações entre os termos que ocorrem em documentos semelhantes são
calculadas e, em seguida, os conceitos para esses documentos são extraídos. O LSI foi
aplicado pela primeira vez na recuperação de informações para comparar termos de consulta
de pesquisa a documentos, no nível conceitual e não no nível literal ( Deerwester et al. 1988;
Meng, Lin e Yu, 2011 ). O LSI foi desenvolvido em abordagens relacionadas, tais como LSI
probabilístico (pLSI) ( Hofmann 2001 ) e alocação latente de Dirichlet (LDA) (Blei, Ng e Jordan
2003 ). As abordagens estatísticas também tentam identificar conceitos, em particular os
baseados na hipótese distributiva ( Harris 1954 ). Segundo a hipótese, palavras que aparecem
nos mesmos contextos tendem a ter significados semelhantes. Isso foi aplicado em modelos
word2vec ( Mikolov et al. 2013; Goldberg e Levy 2014 ) que aplicam redes neurais para
reconstruir contextos de palavras. Cada palavra única é atribuída a um vetor e posicionada
perto de vetores que representam palavras com frequência aparecem nos mesmos
contextos.
[ início da entrada ]
https://www.isko.org/cyclo/automatic.htm 7/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
[ início da entrada ]
[ início da entrada ]
Categorização de texto ou classificação de texto são dois termos que, na maioria das vezes,
referem-se à indexação automática de documentos textuais em que ambos os documentos
manualmente (intelectualmente) e o KOS de destino existem. Trata-se de uma abordagem de
aprendizado de máquina que emprega aprendizado supervisionado, no qual o algoritmo
"aprende" sobre as características dos termos do índice de destino com base nas
características dos documentos que foram pré-atribuídos manualmente a esses termos de
índice. Uma das características comumente usadas é a frequência de palavras; por exemplo,
palavras que geralmente ocorrem em documentos atribuídos ao mesmo termo de índice em
diferença àqueles que ocorrem em documentos atribuídos a outros termos de índice.
O processo compreende três etapas principais. Primeiro, uma coleção de coleções indexadas
manualmente (intelectualmente) em um KOS pré-definido é escolhida ou criada para o
processo de categorização de texto. Os documentos desta coleção são chamados de
documentos de treinamento . Na segunda etapa, para cada categoria, um classificador é
construído, geralmente usando o modelo de espaço vetorial. Os classificadores são testados
com um novo conjunto de documentos da coleção; estes são chamados documentos de teste .
https://www.isko.org/cyclo/automatic.htm 8/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
Abordagens de categorização de texto podem ser divididas em hard e soft; no duro, uma
decisão é feita sobre se o documento pertence ou não a uma categoria; em soft, uma lista
classificada de categorias de candidatos é criada para cada documento e um ou mais dos
melhores classificados são escolhidos como as categorias apropriadas ( Sebastiani 2002 ). A
abordagem suave é melhor reflexiva da realidade (cf. seção 4, onde a tendência é discutida).
A categorização de texto foi aplicada a KOSs que incorporam hierarquias de conceitos, como
Wikipedia , Open Directory Project e Yahoo's Directory (para uma visão geral, ver, por exemplo,
Ceci e Malerba 2007 , e um workshop de Kosmopoulos et al. 2010 ). Quando comparados a
uma abordagem plana, muitos relataram que incluir características baseadas na estrutura da
hierarquia no classificador melhora a precisão da classificação (por exemplo, McCallum et al.
1998; Ruiz e Srinivasan 1999; Dumais e Chen 2000 ). Li, Yang e Park ( 2012algoritmos
combinados de categorização de texto com o WordNet e um tesauro construído
automaticamente e que ganhou alta eficácia conforme medido por precisão, recordação e F-
medidas (veja abaixo). Maghsoodi e Homayounpour ( 2011 ) estenderam o vetor de recursos
do classificador SVM pelos conceitos da Wikipedia e obtiveram melhores resultados (para o
idioma farsi). Isso está de acordo com a pesquisa na classificação de documentos (consulte a
seção 3.3 ), onde outros recursos dos KOSs existentes foram usados para melhorar os
resultados do algoritmo.
https://www.isko.org/cyclo/automatic.htm 9/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
[ início da entrada ]
https://www.isko.org/cyclo/automatic.htm 10/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
[ início da entrada ]
Uma abordagem talvez menos estabelecida que identificamos nesta entrada é aquela que
tende a surgir mais especificamente da comunidade de biblioteconomia e ciência da
informação, na qual o objetivo é aplicar KOSs de controle de qualidade mais diretamente às
tarefas típicas de indexação de assunto (incluindo classificação) na biblioteca. catálogos ou
sistemas de recuperação de informações estreitamente relacionados, a fim de melhorar a
pesquisa e a navegação. Para os propósitos deste trabalho e para distinguir entre as duas
https://www.isko.org/cyclo/automatic.htm 11/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
abordagens anteriores, bem como para seguir a linha de pesquisa publicada anteriormente
(cf. Golub 2006a ) nomeamos esta abordagem como classificação de documentos.. No entanto,
como essa abordagem parece menos estabelecida do que as duas anteriores, a comunidade
em torno dela é menos coerente, os princípios e os métodos aplicados podem não ser tão
homogêneos.
Além de usar KOSs com controle de qualidade para indexação e classificação de assunto,
essa parece ser a única abordagem usando correspondência de strings entre os termos dos
documentos a serem indexados e os termos do índice de destino. Como na categorização de
texto e agrupamento de documentos, o pré-processamento de documentos a serem
classificados normalmente inclui a remoção de palavras de parada; o stemming pode ser
conduzido; palavras ou frases do texto dos documentos a serem classificados são extraídas e
pesos são atribuídos a eles com base em diferentes heurísticas; enquanto representações e
manipulações de vetores não são necessárias. Além disso, também exemplos usando o
aprendizado de máquina existem como visto abaixo. No entanto, no que diz respeito à
aprendizagem de máquina supervisionada, a pesquisa aponta para cenários em que ela pode
não funcionar devido à falta de documentos de treinamento, especialmente para grandes
KOSs: Wang ( 2009)) e Waltinger et al. ( 2011 ) argumentam que as hierarquias profundas e
detalhadas da Classificação Decimal de Dewey levam à escassez de dados e, assim, distorcem
a distribuição em abordagens de aprendizado de máquina supervisionadas.
Embora essa abordagem seja obviamente diferente do cluster de documentos, em que aqui
temos um KOS de destino, ele compartilha esse recurso específico com a abordagem de
categorização de texto. Seguindo os critérios para distinguir entre as abordagens
estabelecidas no início da seção 3.3 , a abordagem de classificação do documento é diferente
da categorização do texto, na medida em que:
No entanto, como em muitas classificações, existem zonas cinzentas que são discutidas
abaixo.
O projeto Scorpion ( OCLC 2004 ) do Online Computer Library Center (OCLC ) construiu
ferramentas para reconhecimento automático de assunto, usando o DDC. A idéia principal
era tratar um documento para ser indexado como uma consulta na base de conhecimento
do DDC. Os resultados da "pesquisa" foram tratados como sujeitos do documento. Larson (
1992 ) usou essa ideia anteriormente para livros. No Scorpion, o clustering também foi
usado, para refinar o conjunto de resultados e agrupar ainda mais documentos na mesma
https://www.isko.org/cyclo/automatic.htm 12/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
No Projeto Nórdico WAIS / World Wide Web, 1993-1996 ( Ardö et al. 1994; Koch 1994 ), a
indexação automática dos bancos de dados da World Wide Web e Wide Area Information
Server (WAIS) usando UDC foi experimentada. Uma árvore de assunto WAIS foi construída
com base em dois níveis superiores de UDC, ou seja, 51 classes. A UDC também foi usada
pelo GERHARD, um índice da web gerado por robôs de documentos da web na Alemanha (
Möller et al. 1999 ) que empregou uma versão multilíngüe da UDC em inglês, alemão e
francês.
Um dos softwares de indexação automática mais bem pesquisados foi criado em 1996 pela
National Library of Medicine, conhecido como Medical Text Indexer (MTI) (muitas
publicações e outros recursos sobre ele podem ser encontrados em seu site, https: //
ii.nlm.nih.gov/Publications/ ). É um software semi-automático destinado a atribuir o MeSH. A
abordagem geral é combinar o trabalho intelectual incorporado no rico UMLS Metathesaurus
https://www.isko.org/cyclo/automatic.htm 13/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
'All' Engineering foi um índice web gerado por robôs de cerca de 300.000 documentos web,
desenvolvido como um módulo experimental do portal de engenharia criado manualmente,
Engineering Electronic Library (EELS) ( Koch e Ardö 2000 ). Utilizou-se o thesaurus
Engineering Index (Ei); Neste tesauro, os termos são enriquecidos com seus mapeamentos
para o esquema de classificação Ei. O projeto provou a importância de aplicar um bom KOS
na obtenção da precisão de indexação automática: 60% dos documentos foram classificados
corretamente, usando apenas um algoritmo de correspondência de strings muito simples,
baseado em um conjunto limitado de heurísticas e ponderação simples. Outro índice da web
gerado pelo robô, Engine-e, usou uma abordagem de indexação automática levemente
modificada à desenvolvida em 'All' Engineering ( Lindholm, Schönthal and Jansson 2003).). O
Engine-e forneceu a navegação por assunto de documentos de engenharia com base nos
termos Ei, com seis categorias mais amplas como pontos de partida. Golub, Hamon e Ardö (
2007 ) aplicaram string-matching onde os termos do thesaurus Ei foram enriquecidos com
termos automaticamente extraídos de registros bibliográficos do banco de dados
Compendex, usando análise morfossintática multi-palavra e aquisição de sinônimo, com base
no existente preferido e sinônimo termos (como eles deram melhores resultados de
precisão). Golub ( 2011) Trabalhou com o Ei para organizar automaticamente as páginas da
web em estruturas hierárquicas para navegação por assunto, obtendo resultados sugerindo
como um KOS com um número suficiente de classes de designação de termos de entrada
poderia aumentar significativamente o desempenho dos algoritmos de indexação automática.
Além disso, se o mesmo KOS tivesse uma estrutura hierárquica apropriada, forneceria uma
boa estrutura de navegação para a coleta de documentos classificados automaticamente.
https://www.isko.org/cyclo/automatic.htm 14/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
Como vemos nos exemplos acima, em muitos dos casos, os relacionamentos incorporados
ao KOS são explorados com resultados favoráveis. Willis e Losee ( 2013 ) especificamente
experimentaram exatamente isso. Eles empregaram quatro thesauri para determinar em que
grau as relações internas podem ser usadas em benefício da indexação automática de
assunto. Seus resultados indicam um grande potencial, embora o grau de sucesso pareça
depender do tesauro e da coleta.
Uma grande vantagem dessa abordagem é que ela não requer documentos de treinamento,
mantendo uma estrutura predefinida do KOS em mãos. Se estiver usando um esquema de
classificação KOS de alta qualidade, ele também será adequado para pesquisa de assunto e
navegação em sistemas de recuperação de informações. Além de melhorar a recuperação de
informações, outra motivação para aplicar KOSs na classificação automática é reutilizar o
esforço intelectual que foi usado para criar um KOS desse tipo. Ele pode ser empregado com
vocabulários contendo hierarquias irregulares ou distribuição esparsa em uma determinada
coleção.
Quanto aos métodos de avaliação, medidas como precisão e recordação e medida F são
comumente usadas. Essa parece ser a única abordagem em que, pelo menos, a discussão é
ocasionalmente levantada, exigindo a necessidade de atender às complexidades da avaliação
mais próximas das necessidades e dos cenários da vida real. Mesmo aspectos como
mandados de indexação automáticos são assumidos; Chung, Miksa e Hastings ( 2010 )
concluem que a garantia literária é mais adequada na indexação automática de artigos
científicos do que a garantia do usuário.
[ início da entrada ]
https://www.isko.org/cyclo/automatic.htm 15/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
A fim de abordar as complexidades que envolvem o problema da cerca, Golub et al. ( 2016 )
propõem um quadro abrangente envolvendo três etapas principais: avaliar a qualidade da
indexação diretamente por meio de avaliação por um avaliador ou por comparação com um
padrão-ouro; avaliar a qualidade da indexação assistida por computador diretamente no
https://www.isko.org/cyclo/automatic.htm 16/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
[ início da entrada ]
5. Conclusões
Princípios básicos aplicados em várias abordagens para atribuir automaticamente termos de
índice estão efetivamente em seu nível fundamental. O foco ainda é em grande parte ao nível
das palavras, e não dos conceitos, e geralmente inclui a pontuação e a remoção de palavras-
chave, as regras heurísticas e as representações e manipulações de vetores. Embora existam
tentativas de determinar conceitos em vez de palavras e incluam LSI e word2vec, bem como
explorar relacionamentos de KOSs existentes, muito mais pesquisas são necessárias a esse
respeito.
Abordagens para a indexação automática de assuntos podem ser agrupadas com base em
vários critérios; os que são seguidos neste trabalho são baseados no contexto geral
estabelecido para essa entrada, que é atribuída à indexação de assuntos para fins de
recuperação de informações. As abordagens nomeadas também estão de acordo com
pesquisas anteriores e incluem: categorização de texto, agrupamento de documentos e
classificação de documentos. As principais diferenças entre eles incluem propósitos de
aplicação e presença ou ausência de aprendizado de máquina, bem como se o aprendizado de
máquina é supervisionado ou não supervisionado. A abordagem de classificação de
documentos emprega, mais do que outros, linguagens de indexação de assuntos, como
esquemas de classificação, sistemas de cabeçalhos de assuntos e tesauros, que também são
adequados para pesquisa de assunto e navegação em um sistema de recuperação de
informações (embora, muitas vezes, melhorias sugeridas, como ser mais atualizado, amigável
ao usuário, etc., devem ser abordadas). Não menos importante, explorar o trabalho
intelectual que foi investido na criação de tais linguagens de indexação de assuntos, a fim de
melhorar a indexação automática, mostrou ser um caminho que vale a pena explorar mais
extensivamente no futuro.
https://www.isko.org/cyclo/automatic.htm 17/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
bem como conceber abordagens de avaliação mais apropriadas para diferentes contextos
específicos.
[ início da entrada ]
Agradecimentos
Muito obrigado a Birger Hjørland , editor-chefe da enciclopédia, por conselhos, e dois
revisores anônimos por comentários detalhados que melhoraram este artigo.
[ início da entrada ]
Referências
Anderson, James D. e Jose Perez-Carballo. 2001. “A Natureza da Indexação: Como Humanos
e Máquinas Analisam Mensagens e Textos para Recuperação, Parte II: Indexação de Máquina
e a Alocação do Esforço Humano versus Esforço da Máquina.” Processamento e Gestão da
Informação 37, no. 2: 255-77.
Baxendale, Phyllis B. 1958. “Índice feito à máquina para a literatura técnica - uma experiência.
Revista IBM de Pesquisa e Desenvolvimento 2: 354-361.
Blei, David M., Andrew Y. Ng e Michael I. Jordan. 2003. “Alocação de Dirichlet Latente.”
Journal of Machine Learning Research 3: 993-1022.
Chen, Hao e Susan Dumais. 2000. “Levando ordem para a Web: categorizando
automaticamente os resultados da pesquisa”. Proceedings of ACM Conferência Internacional
sobre Fatores Humanos em Sistemas Computacionais , Den Haag: 145-152.
Chung, EunKyung, Shawne Miksa e Samantha K. Hastings. 2010. “Uma estrutura de atribuição
automática de termos de assunto para categorização de texto: uma abordagem baseada na
concepção de indexação.” Revista da Sociedade Americana de Ciência da Informação e Tecnologia
61, no. 4: 688-99.
Deerwester, Scoot, Susan T. Dumais, Thomas K. Landauer, George W. Furnas e Louis Beck.
1988. “Melhorando a Recuperação de Informações com a Indexação Semântica Latente”.
Anais da 51ª Reunião Anual da American Society for Information Science 25: 36-40.
Dehghani Mostafa, Hosein Azarbonyad, Maarten Marx e Jaap Kamps. 2015. “Fontes de
Evidência para Indexação Automática de Textos Políticos”. In Advances in Information Retrieval:
https://www.isko.org/cyclo/automatic.htm 18/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
ECIR 2015 , eds. Hanbury A., Kazai G., A. Rauber, Fuhr N .: 568-573.
Dumais, Susan T. e Hao Chen. 2000. “Classificação hierárquica do conteúdo da web”. Anais
da 23ª Conferência Internacional Anual da ACM SIGIR sobre Pesquisa e Desenvolvimento em
Recuperação de Informação, 24 a 28 de julho de 2000, Atenas, Grécia : 256-263.
El-Haj, Mahmoud, Lorna Balcãs, Suzanne Barbalet, Lucy Bell e John Shepherdson. 2003. “Um
experimento em indexação automática usando o Thesaurus HASSET.” Conferência de Ciência
da Computação e Engenharia Eletrônica (CEEC) : 13-18.
Esser, Daniel, Daniel Schuster, Klemens Muthmann, Michael Berger e Alexander Schill.
“Indexação automática de documentos digitalizados: uma abordagem baseada em layout”.
Proc. SPIE 8297, Document Recognition and Retrieval XIX, 82970H (23 de janeiro de 2012) .
Ghiassi, Manoochehr, Michael Olschimke, Brian Moon e Paul Arnaudo. 2012. “Classificação
Automatizada de Texto Usando um Modelo Dinâmico de Rede Neural Artificial.” Sistemas
Especialistas com Aplicações 39, no. 12: 10967-0976.
Gil-Leiva, Isidoro. 2017. “SISA - Sistema de Indexação Automática para Artigos Científicos:
Experiências com Regras de Heurística de Localização versus Regras TF-IDF.” Knowledge
Organization 44, no. 3: 139-162.
Godby, C. Jean e Ray R. Reighart. 2001. “The WordSmith Indexing System”. Jornal da
Administração da Biblioteca 34, no. 3-4: 375-85.
https://www.isko.org/cyclo/automatic.htm 19/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
Golub, Koraljka e Anders Ardö. 2005. “Importância dos Elementos Estruturais e Metadados
do HTML na Classificação Automática de Assunto”. Actas da 9ª Conferência Europeia sobre
Investigação e Tecnologia Avançada para Bibliotecas Digitais, Viena, Áustria, 18 a 23 de Setembro :
368-378.
Golub, Koraljka, Dagobert Soergel, George Buchanan, Douglas Tudhope, Marianne Lykke e
Debra Hiom. 2016. “Uma Estrutura para Avaliar a Indexação ou Classificação Automática no
Contexto da Recuperação”. Jornal da Associação de Ciência da Informação e Tecnologia 67, no.
1: 3-16.
Gövert, Norbert, Mounia Lalmas e Norbert Fuhr. 1999. “Uma Abordagem Orientada à
Descrição Probabilística para Categorizar Documentos da Web”. Proceedings da Oitava
Conferência Internacional sobre Informação e Gestão do Conhecimento : 475-482.
Harris, Zellig S. 1954. ”Estrutura Distribuidora.” Palavra 10, no. 23: 146-162.
Hofmann, Thomas. 2001. “Aprendizagem não supervisionada por análise semântica latente
probabilística”. Machine Learning 42, no. 1: 177-96.
Hu, Yi e Wenjie Li. 2011. “Document Sentiment Classification por Exploring Description
Model of Topical Terms.” Linguagem e Linguagem do Computador 25, no. 2: 386-403.
Huang, Lan, Milne, Davi, Frank, Eibe e Witten, Ian H. 2012. “Aprender uma Medida de
Similaridade de Documentos Baseada em Conceitos. (Relatório). ” Jornal da Sociedade
Americana para Ciência da Informação e Tecnologia 63, no. 8: 1593-608.
Humphrey, Susanne M .; Névéol, Aurélie; Browne, Allen; Gobeil, Julien; Ruch, Patrick;
Darmoni, Stéfan J. 2009. “Comparando um sistema estatístico versus baseado em regras para
https://www.isko.org/cyclo/automatic.htm 20/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
Hwang, San-Yih, Wan-Shiou Yang e Kang-Di Ting. 2010. “Construção automática de índice
para bibliotecas digitais multimídia.” Information Processing & Management 46, no. 3: 295-307.
Jenkins, Charlotte Mike Jackson, Peter Burden e Jon Wallis. 1998. “Classificação Automática
de Recursos da Web Usando Classificação Decimal de Java e Dewey”. Redes de Computadores
e Sistemas RDIS 30: 646-648.
Jones, KP e CLM Bell. 1992. “Programa de Inteligência Artificial para Indexação Automática
(AIPIA)”. In: Online Information 92 : 187-196. Medford, NJ, Learned Information.
Kelleher, John D., Brian Mac Namee e Aoife D'Arcy. 2015. Fundamentos de Aprendizado de
Máquina para Análise Preditiva de Dados: Algoritmos, Exemplos Trabalhados e Estudos de Caso .
MIT Press.
Keyser, Pierre de. 2012. Indexação: De Thesauri à Web Semântica . 1ª ed. Capítulos 2 e 3.
Chandos Publishing.
Khoo, Michael John, Jae-wook Ahn, Ceri Binding, Hilary Jane Jones, Xia Lin, Diana Massam e
Douglas Tudhope. 2015. “Aumentando os Metadados da Biblioteca Digital Dublin Core com
a Classificação Decimal de Dewey”. Journal of Documentation 71, no. 5: 976-98.
Koch, Traugott e Anders Ardö. 2000. “Classificação Automática”. DESEJO II D3.6a, Visão geral
dos resultados , disponível em:
https://web.archive.org/web/20050301133443/http://www.lub.lu.se:80/desire/DESIRE36a-
overview.html
Koch, Traugott, Ann-Sofie Zettergren e Michael Day. 1999. “Fornecer navegação usando
esquemas de classificação”. EU Project DESIRE II , disponível em:
https://web.archive.org/web/20050403233258/http://www.lub.lu.se/desire/handbook/class.html
Lancaster, Frederick W. 2003. Indexação e abstração em teoria e prática . 3 ed. Londres: Faceta.
https://www.isko.org/cyclo/automatic.htm 21/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
Lee, Lam, Hong Wan, Chin Rajkumar e Heng Isa. 2012. “Uma Estrutura de Classificação de
Máquina de Vetor de Suporte Aprimorado Usando a Função de Distância Euclidiana para
Categorização de Documentos de Texto.” Applied Intelligence 37, no. 1: 80-99.
Lee, Lam, Hong Wan, Chin Rajkumar e Heng Isa. 2012. “Uma Estrutura de Classificação de
Máquina de Vetor de Suporte Aprimorado Usando a Função de Distância Euclidiana para
Categorização de Documentos de Texto.” Applied Intelligence 37, no. 1: 80-99.
Liere, Ray e Prasad Tadepalli. 1998. “Ativa Aprendizagem com Comitês: Resultados
Preliminares na Comparação de Winnow e Perceptron na Categorização de Texto”. Anais da
1ª Conferência sobre Aprendizagem e Descoberta Automatizada : 591-596.
Lin, Yi-ling, Peter Brusilovsky e Daqing He. 2011. “Melhorando Mapas de Informações Auto-
organizáveis como Ferramentas de Navegação: Uma Abordagem Semântica.” Online
Information Review 35, no. 3: 401-24.
Lösch, Mathias, Ulli Waltinger, Wolfram Hortsmann e Alexander Mehler. 2011. “Construindo
um Corpus anotado em DDC a partir de metadados OAI”. Jornal de Informação Digital 12, no.
2. Disponível em: https://journals.tdl.org/jodi/index.php/jodi/article/view/1765
Luhn, Hans P. 1957. "Uma abordagem estatística para a codificação mecanizada e busca de
informações literárias." IBM Journal of Research and Development 1: 309-317.
https://www.isko.org/cyclo/automatic.htm 22/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
McCallum, Andrew, Ronald Rosenfeld, Tom Mitchell e Andrew Y. Ng. 1998. “Melhorando a
classificação de texto por encolhimento em uma hierarquia de classes”. ICML-98, 15ª
Conferência Internacional sobre Machine Learning : 359-367.
Meng, Jiana, Hongfei Lin e Yuhai Yu. “Um método de seleção de recurso de dois estágios para
categorização de texto.” Computadores e matemática com aplicativos 62, no. 7: 2793-800.
Miao, Duoqian, Qiguo Duan, Hongyun Zhang e Na Jiao. 2009. “Algoritmo Híbrido Baseado
em Conjunto para Classificação de Texto.” Sistemas Especialistas com Aplicações 36, no. 5:
9168-174.
Mikolov, Tomas, Kai Chen, Greg Corrado e Jeffrey Dean. 2013. “Estimativa Eficiente de
Representações de Palavras no Espaço Vectorial”. Disponível em:
http://arxiv.org/abs/1301.3781
Mork, James, Alan Aronson e Dina Demner-Fushman. 2017. “12 anos em diante - o NLM
Medical Text Indexer ainda é útil e relevante?”. Jornal de Semântica Biomédica 8, no. 8
Möller, Gerhard, Kai-Uwe Carstensen, Bernd Diekman e Han Wätjen. 1999. “Classificação
Automática da WWW Usando a Classificação Decimal Universal”. Anais do 23º Encontro
Internacional de Informação Online, Londres, 7-9 de dezembro : 231-238.
Mu, Jin, Karsten Stegmann, Elijah Mayfield, Carolyn Rose e Frank Fischer. 2012. “A Estrutura
da ACODEA: Desenvolvendo Segmentação e Esquemas de Classificação para Análise
Totalmente Automática de Discussões On-line”. International Journal of Computer-Supported
Collaborative Learning 7, no. 2 (2012): 285-305.
Maas, Dieter, Rita Nuebel, Catherine Pease e Paul Schmidt. 2002. “Indexação Bilíngue para
Recuperação de Informação com AUTINDEX”. Terceira Conferência Internacional sobre
Recursos de Idiomas e Avaliação, 29, 30 e 31 de maio, Las Palmas de Gran Canária (Espanha) :
1136-1149.
https://www.isko.org/cyclo/automatic.htm 23/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
Page, Larry, Sergey Brin, Rajeev Motwani e Terry Winograd. 1998. O ranking de citações do
Pagerank: trazendo ordem para a web . Relatório técnico, Projeto Stanford Digital Library
Technologies. Disponível em: http://citeseer.ist.psu.edu/page98pagerank.html
Perry, James W., Allen Kent, Madeline M. Berry. 1955. “Pesquisa de literatura de máquina X.
Linguagem de máquina; factores subjacentes à sua concepção e desenvolvimento ”.
Documentação Americana 6: 242.
Plaunt, Christian e Barbara A. Norgard. 1998. “Um método baseado em associação para
indexação automática com um vocabulário controlado”. Journal of the American Society for
Information Science 49, no. 10: 888-902.
Rasmussen Neal, D. (Ed.). 2012. Indexação e Recuperação de Informações Não Textuais . Berlim:
De Gruyter Saur.
Roitblat, Herbert L., Anne Kershaw e Patrick Oot. 2010. “Categorização de Documentos em
Descoberta Eletrônica Legal: Classificação de Computador vs. Revisão Manual”. Revista da
Sociedade Americana de Ciência da Informação e Tecnologia 61, no. 1: 70-80.
Ruiz, Miguel E. e Padmini Srinivasan. 1999. “Redes Neurais Hierárquicas para Categorização
de Texto”. Anais da 22ª Conferência Internacional ACM SIGIR sobre Pesquisa e Desenvolvimento
em Recuperação de Informação : 281-282.
Ruiz, Miguel E., Alan R. Aronson e Marjorie Hlava. 2008. “Adoção e avaliação de problemas
de sistemas de indexação automáticos e assistidos por computador”. Procedimentos da
Sociedade Americana de Ciência da Informação e Tecnologia 45, no. 1: 1-4
Saarikoski, Jyri, Jorma Laurikkala, Kalervo Järvelin e Martti Juhola (2011). “Mapas auto-
organizáveis na classificação de documentos: uma comparação com seis métodos de
aprendizado de máquina”. Notas de Aula em Ciência da Computação 6593: 260-269.
Salton, Gerard. 1991. “Developments in Automatic Text Retrieval”. Science 253: 974-979.
Silvester, June P. 1997. “Computer Supported Indexing: Uma História e Avaliação do Sistema
MAI da NASA”. In: Encylopedia of Library e Information Services 61, Suplemento 24: 76-90.
Canção, Wei, Jucheng Yang, Chenghua Li e Sooncheol Park. 2011. “Intelligent Information
Retrieval System Usando Automatic Thesaurus Construction”. International Journal of General
https://www.isko.org/cyclo/automatic.htm 24/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
Sparck Jones, Karen. 1972. “Uma Interpretação Estatística da Especificidade de Termo e sua
Aplicação na Recuperação”. Journal of Documentation : 11-21.
Stanfill, Mary H., Margaret Williams, Susan H. Fenton, Robert A. Jenders e William R Hersh.
2010. “Uma Revisão Sistemática da Literatura de Codificação Clínica Automatizada e
Sistemas de Classificação.” Revista da American Medical Informatics Association 17, no. 6: 646-51.
Stevens, Mary E. 1965. Indexação Automática: Um Relatório Sobre o Estado da Arte , Monografia
91. Washington, DC: National Bureau of Standards.
Biblioteca Nacional de Medicina dos EUA. 2016. NLM Medical Text Indexer (MTI) . Disponível
em https://ii.nlm.nih.gov/MTI/ .
Waltinger, Ulli, Alexander Mehler, Mathias Lösch e Wolfram Horstmann, 2011. “Classificação
Hierárquica de Metadados OAI Usando a Taxonomia DDC”. Tecnologias de Linguagem
Avançada para Bibliotecas Digitais . Notas de Aula em Ciência da Computação Volume 6699: 9-
40.
Wan, Chin Heng, Lam Hong Lee, Rajprasad Rajkumar, Dino Isa. 2012. “Uma Abordagem de
Classificação de Texto Híbrida com Baixa Dependência no Parâmetro Integrando o K-vizinho
mais próximo e a Máquina de Vetor de Suporte.” Sistemas especialistas com aplicações 39, no.
15: 11880-11888.
Wang, Jun. 2009. “Um Estudo Extensivo sobre Classificação Decimal Automatizada de
Dewey.” Revista da Sociedade Americana de Ciência da Informação e Tecnologia 60, no. 11: 2269-
286.
Weisser, Martin. Linguística Prática de Corpus: Uma Introdução à Análise da Linguagem Baseada
em Corpus . Wiley, 2015
Willis, Craig e Robert M. Losee. 2013. “Uma Caminhada Aleatória em uma Ontologia:
Usando a Estrutura do Thesaurus para Indexação Automática de Assunto.” Revista da
Sociedade Americana para Ciência da Informação e Tecnologia 64, no. 7: 1330-344.
https://www.isko.org/cyclo/automatic.htm 25/26
31/07/2019 Indexação de assunto automática de texto (IEKO)
Witten, Ian H. e Eibe Frank. 2000. Data mining: Ferramentas e técnicas práticas de aprendizado
de máquina com implementações JAVA . San Diego, CA: Academic Press.
Yang, Yiming. 1999. “Uma avaliação de abordagens estatísticas para categorização de texto”.
Journal of Information Retrieval 1, no. 1/2: 67-88.
[ início da entrada ]
Versão 1.2 (= 1.0 com algumas mudanças na precisão, recordação, racionalismo etc.); versão
1.0 publicado em 2017-10-16, esta versão 2019-03-07, última edição em 2019-04-16
Categoria do artigo:KO processes
Este artigo (versão 1.1) é publicado em Knowledge Organization , vol. 46 (2019), Issue 2, pp.
104-121.
Como citar (versão 1.1): Golub, Koraljka. 2019. “Indexação automática de assunto do texto”.
Organização do Conhecimento 46, no. 2: 104-121. Também disponível na Enciclopédia ISKO da
Organização do Conhecimento , eds. Birger Hjørland e Claudio Gnoli,
http://www.isko.org/cyclo/automatic
https://www.isko.org/cyclo/automatic.htm 26/26