Você está na página 1de 2

Pereira, M.B & Souza, C.F.R (2001).

Implementação, Avaliação e Validação de


Algoritmos de Extração de Palavras−Chave de Textos Científicos em Português. São
Paulo: Universidade de São Paulo.

O artigo Implementação, Avaliação e Validação de Algoritmos de Extração de


Palavras−Chave de Textos Científicos em Português tem como autores Marcel Brito
Pereira e Carolina F. Reis de Souza, do Núcleo Interinstitucional de Lingüística
Computacional (NILC), do Instituto de Ciências Matemáticas e de Computação (ICMC)
na Universidade de São Paulo.
O trabalho apresentado teve como objetivo investigar o desempenho de dois
algoritmos de extração de palavras−chave de textos em português, usando técnicas
extrativas simples, como recursos adicionais de processamento de língua natural (PLN)
e uma metodologia compatível com os trabalhos desenvolvidos para outras línguas. A
razão deste trabalho foi um projeto de iniciação científica destinado a implementar,
avaliar e validar esta metodologia de extração de palavras-chaves de textos científicos
em português. De acordo com o artigo, a aplicação que motivou directamente esse
estudo – embora não a única – é a geração de sumários (resumos) extrativos de textos
em português.
Este artigo contém um prefácio, que é um resumo informativo, onde se refere a
importância das palavras-chaves na indexação de documentos, os resultados obtidos
durante o projeto, a relevância e a originalidade desse trabalho pela escassez de
trabalhos nesta área em português. As palavras−chave podem ser úteis em diversas
aplicações computacionais, em especial aquelas que necessitam indexar documentos
para buscas posteriores. A literatura apresenta diversas técnicas de extração de
palavras−chave de textos, na sua maioria aplicada à língua inglesa. Nenhum trabalho
que leve em conta a língua portuguesa foi encontrado na literatura. No caso do
português, o que se tem usado são técnicas bastante superficiais, como as baseadas
unicamente na freqüência de palavras e não no seu contexto.
Os autores delimitaram dois tipos de métodos de extração já estabelecidos: o
EPC-P (Extrator de Palavras−Chave por freqüência de Padrões) e o EPC-R (Extrator de
Palavras−Chave por freqüência de Radicais). O EPC−P não trabalha sobre o texto
original, parte de um texto etiquetado, onde todas as palavras ‘Nome’ podem ser um
Nome Próprio ou um Substantivo Comum. Não as diferencia e faz uma análise da
freqüência de determinados padrões morfo-sintácticos no texto para decidir quais as
palavras que podem ser utilizadas para representar o tema central do texto. O EPC-R
utiliza somente a freqüência de radicais no texto, não se prendendo a padrões, portanto

1
Pereira, M.B & Souza, C.F.R (2001). Implementação, Avaliação e Validação de
Algoritmos de Extração de Palavras−Chave de Textos Científicos em Português. São
Paulo: Universidade de São Paulo.
há uma análise morfo-sintáctica (combinações de categorias gramaticais) das palavras, o
EPC-R faz uma análise da freqüência de radicais (simples, duplas ou trios) no texto, em
detrimento daà utilização de padrões.
O artigo em análise é esclarecedor e aborda um tema original pois, como os
próprios autores referiram, existe uma grande necessidade em se investir e criar
aplicações dedicadas à língua portuguesa. Há pouco material disponível sobre a
sumarização automática tendo por base a utilização da língua portuguesa e estas
experiências constituem passos importantes para um sistema de simplificação
automática de textos. No entanto, a forma como está escrito, retira algum impacto ao
estudo desenvolvido dado que em algumas passagens se encontraram incorrecções
gramaticais e alguma falta de coerência entre frases.
Assim, este trabalho constitui um grande contributo académico que pode auxiliar
tanto os escritores, como docentes, estudantes e outros utentes não especializados.
Poderá vir a ser uma importante ferramenta, fundamental na produção de trabalhos
académicos e artigos científicos.

Você também pode gostar