Você está na página 1de 7

INDEXAÇÃO AUTOMÁTICA NO COPERNIC SUMMARIZER

Autores:
Bruna de Oliveira Cares 11/0110633
Irene Ribeiro Baptista 11/0121937
Lana Noise de Souza Costa 11/0126823
Raphael Vinícius da Costa 11/0137680
Ricardo de Almeida Oliveira 11/0040155

Resumo:
O texto faz um estudo de caso de indexação automática, comparando indexações manuais à indexação
realizada pelo software “Copernic Summarizer”, um dispositivo capaz de indexar e resumir textos de
quaisquer tamanhos em quatro línguas. O objetivo deste estudo é verificar a eficácia da indexação
automática, avaliando sua qualidade e pertinência. …… (continua)

Palavras-chave: Indexação automática. Copernic Summarizer.


Introdução

Para Robredo (2003), indexação automática são os procedimentos e operações


para identificar e selecionar os termos que representam o conteúdo dos documentos
dispensando a intervenção do indexador. Isso é feito porque a Recuperação da
Informação no contexto tecnológico atual exige mais rapidez e precisão. E enquanto a
indexação manual possui problemas como subjetivismo, morosidade e preço; a
indexação automática tenta contorná-los, mas acaba apresentando outros. Na análise,
reconhecimento e construção de índices (baseados na frequência, posição e contexto
dos termos) que a indexação automática realiza (LANCASTER, 2004), podem ser
utilizadas diferentes modelos e metodologias. Cada qual com seus pontos positivos e
negativos. Dentre essas possibilidades, será feito o estudo de caso do software
Copernic Summarizer.

Estudo de caso

Lancaster (2004) ressalta que há dois tipos de processos de indexação


automática: por extração automática e por atribuição automática. Este é mais complexo
devido a necessidade de um controle terminológico que exige a criação de listas para a
comparação, fazendo uso de uma linguagem controlada. Enquanto o primeiro é feito
por meio da extração de palavras e expressões do próprio texto, fazendo uso da
linguagem natural. E apesar dos algoritmos do software Copernic Summarize não
serem open source, nota-se que seu funcionamento básico é por extração automática
feita a partir da frequência absoluta das palavras .
O Copernic Summarize é um software com inteligência artificial que permite criar
resumos de páginas web e de documentos e fazer a extração de conceitos e
palavras-chave. Ao usar o software é possível escolher o tamanho do resumo, seja por
porcentagem ou por número de palavras. E segundo Corrêa (2003), a ferramenta
incorpora componentes dos modelos estatísticos e processos de conhecimento
intensivo. O modelo estatístico inclui estimativas do teorema de Bayes e dados
estatísticos sobre o uso da palavra em diversos documentos. O processo de
conhecimentos intensivos leva em conta o modo como os humanos sumarizam o texto
(CORRÊA, 2003).
O texto escolhido trata da origem da história do Museu Nacional del Prado,
texto esse acessível em espanhol e em inglês e disponível em:
<http://www.museodelprado.es/coleccion/historia/> e em:
<http://www.museodelprado.es/en/the-collection/origins/>.
O texto foi escrito originalmente em espanhol e traduzido para o inglês. Abaixo é
possível ver que a tradução mantem-se fiel ao original:
The building that is now the home of the El edificio que hoy sirve de sede al
Museo Nacional del Prado was designed Museo Nacional del Prado fue diseñado
on the orders of Charles III in 1785 by the por el arquitecto Juan de Villanueva en
architect Juan de Villanueva in order to 1785, como Gabinete de Ciencias
house the Cabinet of Natural History. Naturales, por orden de Carlos III. No
Nonetheless, the building’s final function obstante, el destino final de esta
was not decided until the monarch’s construcción no estaría claro hasta que
grandson, Ferdinand VII. su nieto Fernando VII.

Apesar dos textos serem idênticos em conteúdo, nota-se uma discrepância


gritante entre as indexações e resumos feitos a partir de sites da web. Pode-se
perceber isso claramente na quantidade de palavras de cada resumo: 648 palavras
para o resumo espanhol e 566 palavras para o resumo inglês. Isso se deve,
aparentemente, ao fato de a versão espanhola do site possuir mais informações, como
por exemplo os horários de visitação do museu.

Resumo e indexação em espanhol a partir da web:

Resumo e indexação em inglês a partir da web:


Ao analisar, porém, a indexação feita a partir do arquivo contendo somente o
texto principal em si, é possível notar diferenças entre as indexações, ainda que não
tão grandes quanto entre as anteriores. O resumo espanhol é composto de 153
palavras, enquanto o resumo inglês possui 185.
Ao comparar os resumos, percebe-se o seguinte: as três primeiras frases dos
resumo são idênticas, tratam do prédio do museu. A partir daí seguem rumos
diferentes: a única outra frase do resumo espanhol relata a origem do acervo do museu
que começou a crescer de fato após o século XVI, enquanto as duas frases finais do
resumo inglês fala do primeiro catálogo do museu e do número de obras do acervo.

Resumo e indexação em espanhol a partir de um arquivo:


Resumo e indexação em inglês a partir de um arquivo:
Quanto aos termos usados na indexação, foram feitas as seguintes comparações:

Indexação Manual Indexação da web Indexação do arquivo

Museo Nacional del Prado Museo Museo


esculturas esculturas esculturas
Goya Goya Goya
pintura española pintura pinturas

obras obras
colección colección
Histórico Carlos Carlos
edifício do século XVIII fondos fondos
María Isabel de Braganza artes decorativas artes
Real Museo de Pinturas y
Esculturas visita escuela
Velázquez estampas donaciones
El Greco procedentes numerosos legados
Colección Real Litografía procedentes
Museo de la Trinidad edificio Arte Moderno
Museo de Arte Moderno enriqueciéndose Trinidad.

Foram usados treze termos na indexação manual e quinze em cada uma das
indexações automáticas. As indexações automáticas apresentam 9 termos idênticos ou
sinônimos. Elas possuem apenas 2 idênticos e 2 termos similares aos da indexação
manual.

Conclusão

O software se mostra versátil ao corrigir os problemas de morosidade. Conforme


o volume de indexações e resumos necessários ele também pode resolver o problema
do preço, mas mesmo com a inteligência artificial utilizada e os modelos probabilísticos
dos algorítmos, os resultados não foram tão melhores que os de uma indexação
manual.
Ao comparar os resultados obtidos da web, nota-se que o Copernic Summarize
não é capaz de distinguir a informação principal do que seja menus do site ou
propagandas. Essa é uma característica que deve ser observada. Não se trata
necessariamente de um erro do software, uma vez que o usuário pode querer indexar e
resumir o conteúdo do site como um todo (até as propagandas). Por conta disso, a
grande diferença entre os resultado do site e do arquivo, no mesmo idioma. Este último
tem um resultado melhor para o estudo de caso proposto, uma vez que a intenção era
indexar e resumir apenas o texto principal do site, i.e., desprezando-se os menus e
informações comerciais.
Ao comparar a diferença dos resumos em inglês e em espanhol da mesma fonte
(site - site, arquivo - arquivo), foi constatado que as partes finais dos resumos sofriam
divergências. Uma possível explicação para isso pode ser a diferença entre o uso
(dados estatísticos de uso) e os respectivos pesos das palavras em cada idioma. Como
essas características de peso e uso variam de idioma para idioma é natural ocorrer
resultados diferentes.
Quanto aos conceitos (palavras-chave) extraídas, vê-se que o software não trata
adequadamente os termos compostos. Enquanto “Museo Nacional del Prado”, um
termo composto extenso, seria um bom descritor, o software quebra o termo e
considera apenas a palavra “Museo”. O mesmo ocorre com os termos “Museo de la
Trinidad” e “Museo de Arte Moderno”.
Posto isso, considera-se que os problemas da indexação manual são em grande
parte resolvidos pela indexação automática, mas ela trás novos problemas que
somente a intervenção humana teria a sensibilidade para resolver. Conciliar as
indexações, numa indexação semi-automática, aparenta ser o melhor caminho. Mas
ainda cabem novos testes e estudos a serem feitos com o Copernic Summarize, como
comparação com outros softwares summarizers.

Referências

BRESSAN, Flávio. O método do estudo de caso. Administração On Line. São Paulo,


v. 1, n. 1, jan./mar. 2000. Disponível em:
<http://www.fecap.br/adm_online/art11/flavio.htm>. Acesso em: 05 dez. 2013.

CORRÊA, Adriana Cristina Giusti. Recuperação de documentos baseados em


informação semântica no ambiente AMMO. São Carlos : UFRCar, 2005. Dissertação
(mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade
Federal de São Carlos, São Carlos, 2003. Disponível em:
<http://www.bdtd.ufscar.br/htdocs/tedeSimplificado//tde_busca/arquivo.php?codArquivo
=485>. Acesso em: 8 dez. 2013.

ROBREDO, Jaime. Da ciência da informação revisitada aos sistemas humanos de


informação. Brasília : Thesaurus, 2003.

Você também pode gostar