Você está na página 1de 42

INDEXAÇÃO E RESUMOS:

TEORIA E PRÁTICA
Indexação: teoria e métodos - noturno

Camila Rodrigues de Araujo nº USP 9799359


Jessica Oliveira Santos nº USP 8500318
João Vasques nº USP 9799321
Prof. Dra. Giovana Deliberali Maimone
Sobre o livro:
Título: Indexação e resumos: teoria e prática

Autor: Frederick Wilfrid Lancaster

Primeira edição: 1991

Trata da indexação de assuntos e redação de resumos.

“A indexação de assuntos e a redação de resumos são atividades intimamente


relacionadas, pois ambas implicam a preparação de uma representação do
conteúdo temático dos documentos.” (LANCASTER, 2004, p. 6)
Capítulos abordados:

❖ Capítulo 2: Princípios da indexação

❖ Capítulo 3: A prática da indexação

❖ Capítulo 15: Indexação automática, redação automática de resumos e

processos afins
Capítulo 2: Princípios da indexação
RESUMO INDEXAÇÃO

Resumidor: síntese do documento de Indexador: descreve o conteúdo com


forma clara e com boa qualidade. um ou vários termos de indexação
(vocabulário controlado).

Objetivo: indicar do que trata o documento e funcionar como pontos


de acesso para recuperação.
Capítulo 2: Princípios da indexação
Extensão do registro:
● uma das propriedades mais importantes de
uma representação de conteúdo temático;
● no resumo quanto mais informações
apresentadas, mais se revela se satisfaz ou
não a necessidade informacional;
● a indexação exaustiva proporciona uma
indicação melhor do assunto.

representação = recuperabilidade do item (pontos


de acesso)
Capítulo 2: Princípios da indexação
Etapas da indexação de assuntos:

1. Análise conceitual
2. Tradução

1. Análise conceitual decide de que trata/assunto do documento. Para Lancaster (2004, p.


15) “[...] identifica assuntos estudados ou representados num documento.”

3 perguntas:

● De que trata?
● Por que foi incorporado a nosso acervo?
● Quais de seus aspectos serão de interesse para nossos usuários?
Capítulo 2: Princípios da indexação
● “indexação centrada no usuário” (FIDEL, 1994 apud LANCASTER, 2004, p.
10)
● Métodos colaborativos de indexação.
● É preciso que os indexadores
saibam muito mais do que os
princípios da indexação. Devem,
em especial, estar inteiramente a
par dos interesses da comunidade
atendida e das necessidades de
informação de seus membros.”
(LANCASTER, 2004, p. 12)
Capítulo 2: Princípios da indexação
2. Tradução “[...] envolve a conversão da análise conceitual de um documento
num determinado conjunto de termos de indexação.” (LANCASTER, 2004, p. 18)

● Indexação por extração (derivada): palavras ou expressões selecionados do


documento.

● Indexação por atribuição: termos de outra fonte que não o documento,


podendo ser o vocabulário controlado.
Capítulo 2: Princípios da indexação
Vocabulário controlado:

● Vocabulário controlados - lista de termos autorizados que serve para


controlar sinônimos, diferenciar homógrafos e agrupar termos afins.

● 3 tipos principais de vocabulários controlados: esquemas de classificação


bibliográfica, listas de cabeçalhos de assuntos e tesauros.
Capítulo 2: Princípios da indexação
Especificidade do vocabulário:

● Tradução para os 3 tipos de vocabulários;


● Alcance e especificidade do vocabulário;
● Propriedades de combinação de termos.

Segundo Lancaster (2004, p. 22-23):

[...] o tipo de vocabulário controlado (esquemas de classificação, listas de cabeçalhos de assuntos,


tesauro) não é o fator mais importante a influir na etapa de tradução da indexação. Muito mais
importantes são o alcance (abrangência) e a especificidade do vocabulário. [...] É importante
considerar, em especial, as propriedades de combinações de termos de indexação mais do que as
propriedades de termos isolados.
Capítulo 3: A prática da indexação
Quase em nenhuma oportunidade, o a) título;
indexador conseguirá ler um texto ou b) resumo, se houver;
documento completamente. Indica-se a c) sumário;
leitura de trechos que têm maior d) introdução, as frases e parágrafos
probabilidade de fornecer informações
de abertura de capítulos, e as
importantes sobre o texto em menor tempo.
conclusões;
Lancaster cita esses trechos, assim como
dá uma lista presente em uma norma e) ilustrações, gráficos, tabelas e
internacional sobre indexação de assuntos respectivas legendas;
(Methods for examining documents) de f) palavras ou grupos de palavras
1985: que apareçam sublinhados ou
grafados com tipos diferentes.
Capítulo 3: A prática da indexação

O autor frisa que esses pressupostos são Usando como referência um texto de Browne
considerados para documentos que são (2001), fala-se da particularidade em indexar
possíveis de se ler, a já citada Methods for sites na web, para ter-se uma base e a
examining documents fala sobre diferentes indexação ser possível, o profissional deve:
procedimentos para os outros tipos de anotar o tipo de informação, a quantidade de
documentos, como os audiovisuais. Como informação, a qualidade dos vínculos de
no caso dos documento impressos, navegação, o tamanho dos arquivos e, por
geralmente, o documento não é todo fim; solicitar ao responsável informações
analisado (neste caso, assistido ou importantes dos arquivos, inclusive a
escutado), sendo a indexação feita a partir quantidade de autores que contribuem com a
do título e/ou da sinopse. página.
Capítulo 3: A prática da indexação
Exaustividade e exatidão da indexação: Figura que mostra o problema de uma indexação
exaustiva, em que o indexador quer incluir todos os
assuntos abordados no texto.
Existem dois fatores que influem diretamente na O correto seria uma indexação equilibrada (seletiva +
exaustiva), que busque identificar os termos mais
eficiência de um sistema de recuperação da relevantes para o usuário.
informação, ligados diretamente a indexação, são
eles: a política de indexação e a exatidão da
indexação. A principal decisão política diz a
respeito à exaustividade da indexação, o que é
relacionado ao número de termos atribuídos em
média. Não é recomendado que exista um limite
para esses termos mas, que se estabeleça uma
faixa de termos padrão.
Capítulo 3: A prática da indexação
Princípio da especificidade: Incluir esses termos mais abrangentes
tornará a tarefa de diferenciar artigos mais
É o mais importante princípio da indexação de genéricos dos mais específicos mais difícil e
assuntos, remontando a Cutter. Este princípio demorada. Deve se entender que é possível
ter especificidade com a combinação de
defende que um tópico deve ser indexado sob o
termos, se nenhum termo sozinho possa
termo mais específico que o abranja
representar um tópico.
completamente e se torna muito comum
indexadores serem redundantes quando não o
seguem. Lancaster usa o exemplo de um artigo
sobre o cultivo de laranjas para exemplificar o
princípio, o mesmo seria indexado sob o termo
LARANJAS e não com um termo mais genérico
como FRUTAS ou FRUTAS CÍTRICAS.
Capítulo 3: A prática da indexação

Outras diretrizes: 1. Inclua todos os tópicos


reconhecidamente de interesse
Nenhuma outra regra rigorosa, além do princípio para os usuários do serviço de
da especificidade foi desenvolvida para atribuição informação, que sejam tratados
dos termos. O único outro princípio formulado é substantivamente no documento
denominado de “indexação compulsória”, que é
2. Indexe cada um desses tópicos
basicamente uma reafirmação do princípio da
tão especificamente quanto o
especificidade. Apesar de teorias e axiomas
permita o vocabulário do sistema e
surgirem de vários autores, Lancaster analisa
o justifiquem as necessidades ou
que eles não são diretamente ligados a
interesses dos usuários.
indexação. Segundo ele, é possível identificar
apenas duas regras básicas; uma referente a
análise conceitual e outra a etapa de tradução:
Capítulo 3: A prática da indexação
Índices pós-coordenados: Um sistema de recuperação da
informação que permite que uma busca
O conteúdo temático objeto de um combine os termos de qualquer maneira é
documento e os termos de indexação que lhe chamado de pós-coordenado. Um sistema
são atribuídos possuem caráter informatizado moderno, funciona em linha
multidimensional. Lancaster usa como e pode ser imaginado conceitualmente
exemplo um texto que trata da migração de como uma matriz.
mão-de-obra de Moçambique para as minas Sobre os índices pós-coordenados pode
da África do Sul. se afirmar:
Capítulo 3: A prática da indexação

Índices pós-coordenados:

1. Os termos podem ser combinados entre si de qualquer forma no momento


em que se faz a busca.
2. Preserva-se a multidimensionalidade das relações entre os termos.
3. Todo termo atribuído a um documento tem peso igual - nenhum é mais
importante que o outro.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
Problemas de recuperação da informação:

● mensagem em diferentes formatos;


● necessidades de informação como pedidos formulados a um serviço de informação;
● serviço de informação que armazena as informações numa base de dados.

“As representações de textos podem ser o


próprio texto completo, partes dele ou outra
forma de representação construída [...] As
representações de pedidos serão termos,
apresentados em relações lógicas, enunciados
textuais ou ‘itens’ [...].” (LANCASTER, 2004, p.
284)
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
“Os textos podem não ser representações perfeitas das mensagens [...] as representações
dos textos também podem ser imperfeitas. E por sinal, os pedidos raramente são
representações perfeitas das necessidades de informação [...]. ” (LANCASTER, 2004, p.
284)

Bates (1986 apud LANCASTER, 2004) a respeito do problema da recuperação da


informação foca na problemática da saída da atividade (necessidade de informação - pedido
- representação) em relação a entrada (mensagem - texto - representação).

Lancaster (2004) menciona a aplicação de computadores na indexação automática e


elaboração automática de resumos.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
Indexação por extração automática: Métodos para o critério de frequência:

Na indexação por extração, palavras ou ● seleção de palavras e expressões no


expressões que aparecem no texto são texto;
extraídas e utilizadas” (LANCASTER, 2004, p. ● seleção de radicais;
286) ● processamento da primeira e última
linha de cada parágrafo
Critérios de indexação por extração feita por (BAXENDALE, 1958);
humanos e computadores: ● frequência relativa combinada a
frequência absoluta.
● frequência;
● posição;
● contexto.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
Indexação por atribuição automática:

De acordo com Lancaster (2004, p. 289):

A extração automática apresenta nítida vantagem em relação à extração feita por seres
humanos: é totalmente coerente. No entanto, a maior parte da indexação feita por seres
humanos não constitui indexação por extração, mas indexação por atribuição, e a realização
desse trabalho por computador é, em geral, mais difícil.

Método para indexação por atribuição feita por computador:

● desenvolver um “perfil” de palavras e expressões para cada termo

Ex: termo “chuva ácida” chuva ácida, precipitação ácida, poluição atmosférico, etc.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
● Outras formas de classificação: ○ Método automático: de
classificação é baseado na
A indexação é uma forma de classificação na comparação (cotejar) da linguagem
qual há atribuição de “itens”, nela são criadas natural, resumos e/ou
classes de documentos ou classes de termos. representações documentais.
○ Eficácia das buscas: o método
O capítulo 15 trata principalmente da “indexação”
automático vem incorporando
e a “elaboração automática de resumos”.
processos automáticos.
○ Em sistemas “convencionais”: ○ Co-ocorrência: que é a relação
recuperação da informação é realizada entre termos explorada pelo
na forma de buscas auxiliadas por computador.
associações estabelecidas entre termos.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
Ex. de co-ocorrência: Quanto mais ○ O cálculo de associação:
frequentemente dois termos ocorrerem juntos
[...], mais provável será que tratem de É feito através da co-ocorrência relativa à
conteúdo temático similar [...] se o termo A frequência de ocorrência de cada termo.
nunca ocorre em B e o termo B nunca ocorre
A relacionalidade “R” de dois termos é definida
sem A [...] os dois termos são totalmente
pela equação
interdependentes e seriam completamente
intercambiáveis na busca. Além da associação
direta: (X e X tendem a ocorrer juntos).

○ Associações indiretas: termos podem


também ser derivados com base nos
dados de co-ocorrência. (LANCASTER,
2004, p. 294).
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
○ Relacionalidade: os dados obtidos com a ➢ Estrela:
relacionalidade podem ser usados de
duas formas:
✓ Desenvolve-se e armazena-se uma rede
de associações entre dois termo; ➢ Fileira:
✓ Identificam-se e armazenam-se classes
separadas de termos com base em
associações extraídas da rede. ➢ Conglomerado:
Tipos de classes de termos:

➢ Facção: ➢ Tais classes derivam de um processo


estatístico;
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
● Outras formas de ligação: ○ Co-citação: um tipo de ligação que alguns
○ Indexação semântica latente: itens forma uma classe por serem citados
abordagem similar ao “agrupamento de juntos. (quanto mais itens co-citarem, mais
itens relacionados” é a “Indexação fortemente estarão relacionados).
semântica latente”, que se baseia no ○ É importante ressaltar que as classes
formadas por co-citação sofrem mudanças
processo de classificação relacionado com
com o passar do tempo, pois novas
a análise fatorial.
inter-relações entre pesquisas e resultados
são estabelecidos.
○ Esse método poderia descobrir itens úteis que
○ Acoplamento bibliográfico: Kessler não seriam encontrados por meio
(1962-1965) fórmula que quanto mais convencionais. Porém o método normal
referências dois itens tiverem em comum, consegue localizar itens que a ligação por
citação não conseguiria, os dois métodos são
mais forte será seu acoplamento.
complementares e não concorrentes.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
● Redação automática de resumos: ➢ Contam-se as ocorrências de todas as
palavras restantes, que são ordenadas
Os computadores podem ser programados para
segundo sua frequência de ocorrência
selecionar termos de documentos seguindo
(podem ser usados radicais no lugar das
critérios de frequência, isso basicamente se
palavras).
denomina como a “redação automática de
➢ Todas as palavras que ocorram mais de x
resumo ou elaboração automática de extratos”.
vezes são definidas como palavras de “alta
frequência” ou significativas”.
O criador desse método é Luhn (1958), e para
➢ Localizam-se as frases que contenham
tanto adotou os seguintes procedimentos:
concentrações dessas palavras de alta
➢ Uma lista de palavras proibidas elimina do frequência, Consideram-se duas palavras
processamento posterior todas as relacionadas dentro de uma frase se não
palavras não-significativas. houver mais de quatro palavras
intermediárias.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins

➢ Calcula-se um “fator de significância” ✓ define-se o fator de significância da


para cada frase, da seguinte maneira: frase como o valor do aglomerado mais
✓ determina-se o número de alto ou como a soma dos valores de
“aglomerados” na frase (grupo de todos os aglomerados na frase.
palavras mais extenso, demarcado por
palavras significativas e estas não Exemplo:
estejam separadas por de 4 palavras
intermediárias);
✓ determina-se o número de palavras
significativas no aglomerado e se divide
o quadrado desse número pelo total de
palavras dentro do aglomerado;
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
○ De acordo com Luhn, as frases que ● Outros pesquisadores empregaram
tenham fatores de significância mais altos critérios alternativos para extratos
serão selecionadas na sequência em que automáticos:
ocorrem no texto, dando forma ao
“resumo”.
○ O resumo feito dessa forma pode parecer
● Ex. Edmundson (1959), identificou 4
confuso, pois tira frases de todas as
métodos possíveis:
partes do texto (começo, meio e fim).
✓ Método de chave
○ O importa é que as frases escolhidas
✓ Método da deixa
tenham o quadro exato do que o
✓ Método do título
documento está tratando.
✓ Método da Localização
○ Luhn (1959) e Oswald et al (1959),
utilizam a frequência de palavras ou
expressões para a seleção de frases.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
Já para Rush et al. (1971) qualquer método de ✓ Modificar frases extraídas;
extração deve ter critérios de rejeição e seleção ✓ “Remissão interfrasal” (frase testada para
de frases, levando em conta a relevância determinar seu significado, dependentes
contextual. das frases precedentes. se o significado
fosse dependente, as frases (max. 3)
● O seu método baseia-se no cotejo do
seriam incluídas no resumo, mesmo sem
texto com uma lista de Controle de
estar de acordo com os critérios de
palavras, que inclui uma lista de
aceitação;
expressões que levariam a seleção ou
✓ Capacidade de criar extratos com melhor
rejeição dos termos.
sequência lógica.
● Seu método oferecia vantagens em
relação a processos anteriores, pois tinha
a capacidade de:
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
Mathis et al. (1973) fez modificações no método Paice (1981) descreveu processos de elaboração
de Rush, referentes às características de automática de extratos baseados na identificação
modificação frasal e remissão interfrasal dos de frases com probabilidade de serem bons
processos anteriores, assim pretendia-se produzir indicadores daquilo de que trata um documento.
representações que sejam mais legíveis. (expressões como “o principal objetivo” ou
“descreve-se um método”).
Earl (1973) fez experimentos para determinar se
as frases poderiam ou não ser significativas e Fum et al. (1982) descreveram um método de
identificadas por meio de análise sintática. A elaboração automática de resumos no qual,
hipótese de Earl era que as frases que processos de análise sintática e ponderação
contivessem certas estruturas sintáticas seriam identificam as informações mais importantes
mais indicativas de conteúdo do que outras. transmitidas num texto e eliminam elementos
não-essenciais e reestruturam o restante em um
resumo condensado e expressivo. (Processo não
viável com documento extensos)
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
Hahn e Reimer (1984) desenvolveram um método, inspirado no conceito de “sistema
especialista”, para condensação de textos, em que foi adotado uma base de
conhecimento de quadros que aplicavam à análise sintática de textos(métodos que
pode ser utilizados para criar condensação em vários níveis).

Quanto mais formais e coerentes forem os textos dos documentos, mais bem
sucedidos provavelmente serão os processos de elaboração de extratos.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
● Operações “automáticas” de ○ Método simples de coincidência: Levar em
recuperação: conta quantas palavras do pedido ocorrem
em um resumo.
Processo que permitiria que um pedido ○ São possíveis muitos refinamentos desse
expresso em texto em linguagem natural fosse nível rudimentar de estabelecimento de
cotejado com o texto dos documentos (texto coincidência.
completo, texto parcial ou alguma forma de ○ A coincidência pode basear-se em radicais,
apresentação), considera-se isso como uma ao invés de palavras completas.
espécie de coincidência de padrões. ○ Mais precisa se tiver como base expressões
e não palavras simples.
○ Escore: Atribui-se aos textos de base de ○ Na posição intermediária entre palavras
dados um tipo de escore, que reflete o simples e expressões está o emprego da
proximidade de palavras (capacidade de
grau de coincidência de um texto com um
atribuir pesos maiores a palavras que
pedido, de modo que possam ser
apareçam perto uma da outra).
apresentados em forma de saída ordena
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
● diferentes critérios na atribuição de um Salton (1989): os métodos de Salton
escore ao texto, a fim de refletir o grau em determinam essencialmente a similaridade
que ele coincide com o texto de um entre dois textos e expressam essa proximidade
pedido. como um escore numérico, uma “medida de
● escore atribuído pode basear-se em mais similaridade”, que será usada para ordenar a
de um dos critérios. saída.
● Portanto um sistema “automático” deve
incorporar diversos critérios possíveis Pode-se atribuir outras utilizações para essa
para o estabelecimento de coincidência, e medida de similaridade dos textos (ex. medir
permitir ao usuário escolher um deles (ex. proximidade de textos de documentos,
sistema mais elaborado SMART de permitindo formar classes de textos similares).
Salton, elaborado por mais de 30 anos).
Esse escore pode estabelecer vínculos de
hipertexto em uma rede de informação.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
Savoy (1995) postula o estabelecimento de CITE: tem sido empregado como interface em
vínculos de hipertexto mediante aplicação de linguagem natural com bases de dados
métodos probabilísticos. Também sugere que MEDLINE e CATLINE da National Library of
os vínculos de hipertexto sejam usados para a Medicine.
obtenção automática de novos termos de
busca. Ele funciona em uma base de dados de
registros que possuem termos de indexação ou
Outros sistemas também foram criados para que envolva textos livres.
permitir ao usuário dar entrada a um pedido na
forma de enunciado textual (ex. CITE
desenvolvido por Doszkocs (1983)).
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
Abordagens atuais:

A internet provocou tremendo aumento do interesse pelas técnicas de recuperação em geral


e pelos métodos automáticas em particular.” (LANCASTER, 2004, p. 310)

● Projeto TIPSTER: atividades de processamento automático de texto

Conferências:

● TRECS (Text Retrieval Conferences) - recuperação de texto;


● MUCS (Message Understanding Conferences) - compreensão de mensagens;
● DUCS (Document Understanding Conferences) - compreensão de documentos;
● Conferências sobre processamento de linguagem natural aplicada;
● Conferências internacionais sobre análise e reconhecimento de documentos.
Capítulo 15: Indexação automática, redação automática de
resumos e processos afins
Mais de 30 anos as pesquisas sobre indexação com o auxílio de computador. O auxílio em
linha ocorre das seguintes formas: sugestão de termos aos indexadores; advertência para
erros; substituição de termos inaceitáveis por aceitáveis; interface com a base de dados.
(LANCASTER, 2004).

❖ Exemplos de sistemas de indexação com computador:

● DCMS (Data Creation and Maintenance System) - National Library of Medicine;


● CAIN - usado no AGREP (base de dados da Comunidades Européia sobre projetos
agrícolas), usa dois tesauros (AGRO-VOC e o CAB Thesauros);
● CASI (Center for AeroSpace Information) - NASA;
● SNOMED (Systematized Nomenclature of Human and Veterinary Medicine) - atribuição
automática de descritores clínicos dos textos de resumo de alta de pacientes;
● MedIndEx - sistema especializado da National Library of Medicine, baseado em quadros
[frame-bases];
● CAIT (Computer-Assisted Indexing Tutor) - sistema especializado da National Agricultural
Library.

❖ Sistemas descritos na literatura:

Jones e Bell (1992) - “[...] sistema projetado para extrair palavras ou expressões de textos, a
fim de formar entradas de índices [...] baseia-se em listas armazenadas: de palavras a serem
ignoradas, palavras/expressões/nomes de reconhecido interesse, e listas auxiliares para
desambiguação de homógrafos.” (LANCASTER, 2004, p. 313)

Driscoll et al (1991) - “O texto é processado em cotejo com uma lista de mais de 3000
expressões. A ocorrência de uma delas no texto aciona o uso de regras de inserção e
eliminação.” (LANCASTER, 2004, p. 313)

Plaunt e Norgard (1998) - uso do tesauro INSPEC com base na técnica de “colocação lexical”.
NLM (National Library of Medicine) desenvolve processos para atribuir automaticamente a
artigos de periódicos os cabeçalhos do Medical Subject Heading (MeSH):

● método de ligação com os termos do MeSH com expressões presentes nos títulos dos
artigos e nos resumos, utilizando o Unified Medical Language System;
● método de cotejo das palavras, do título e do resumo de um artigo ‘novo’ com as
palavras que ocorrem no título e no resumo de artigos já indexados, assim os termos
atribuídos coincidentes tornam-se candidatos para atribuição ao novo artigo.

Pérez-Carballo (2001) - “A indexação semântica latente (ISL) é um dos mais elaborados


esforços atuais visando a uma indexação automática de alta qualidade. Fundamenta-se em
agrupamentos de termos baseados em co-ocorrência e identificação de documentos
relativos a tais agrupamentos. Ao se apoiar em dados de co-ocorrência a ISL, também
consegue lidar com o problema da variedade de termos que expressam ideias
semelhantes.” (LANCASTER, 2004, p. 315-316)
❖ Redação de resumos assistida por computador:

Mudança do termo “redação automática de resumos” para “sumarização de textos”

De acordo com Lancaster (2004, p. 320):

“A sumarização automática ainda é uma questão de seleção de frases e o objetivo das pesquisas
nesta área consiste em otimizar essa seleção e organizar as frases selecionadas para melhorar a
clareza e utilidade do extrato.”

❖ Métodos descritos na literatura:

Hahn e Mani (2000) - modelo de ponderação linear, com localização no texto, número de
ocorrências na base de dados como um todo e expressões-deixa (cue phrases)

Salton et al (1997) - medição das semelhanças entre pares de parágrafos no mesmo documento

Nomoto e Matsumoto (2001) - ‘diversidade’ - identificação de tópicos abrangidos no texto e


seleção da frase mais representativa de cada tópico
Lehmam (1999) - seleção de frases que contenham a maior concentração de palavras ou
expressões

Mani (2001) avalia resumo automáticos em métodos intrínsecos e extrínsecos:

Método intrínseco: Método extrínseco:


Obrigado!
Referências:
LANCASTER, F. W. Indexação e resumos: teoria e prática. 2. ed. rev. atual.
Brasília, DF: Briquet de Lemos/Livros, 2004.

Você também pode gostar