Escolar Documentos
Profissional Documentos
Cultura Documentos
1. Introduo
Nos ltimos tempos, a necessidade por ferramentas de pesquisa, filtragem e
manipulao de informaes relevantes, disponibilizadas em meio eletrnico, tornou-se
essencial. Esta necessidade est presente em diversos contextos, desde ambientes
empresariais, para a manipulao de dados em Data Warehouse, at instituies de
pesquisa atravs da troca de produo cientfica. Neste cenrio, a Web aparece como o
principal veculo para troca e busca de informaes. Ao contrrio dos bancos de dados
relacionais, informaes neste meio apresentam uma estrutura fraca (os dados semiestruturados) ou at inexistente (dados no estruturados). O desafio atual construir
ferramentas que possibilitem a consulta e manipulao dos dados desta natureza.
Muito tem sido desenvolvido para a manipulao de dados semi-estruturados,
principalmente arquivos HTML (Mecca 1998), (Laender et al. 2002), (Laender, RibeiroNeto e Da Silva 2002), (Silveira e Heuser 2001). A ferramenta Debye (Laender et al.
2002), (Laender, Ribeiro-Neto e Da Silva 2002), por exemplo, funciona de forma
interativa, recebendo como entrada uma srie de exemplos criados por usurios a partir
de uma pgina de amostra. Dados estes exemplos, o sistema gera padres (atravs do
uso de wrappers) que permitem a extrao de objetos de pginas similares. Apesar da
Este trabalho foi parcialmente suportado pelo projeto Pronex FAPERGS nmero 0408933.
2. Template XML
Como os documentos PDF no possuem uma estrutura semntica, necessrio o
uso de um documento XML, que funciona como um template, tornando possvel que o
extrator EMP identifique os metadados que devem ser extrados em um documento. Isso
torna possvel que o processo de extrao proposto seja utilizado para qualquer
documento PDF, independente de seu layout de apresentao. Ressalta-se que o extrator
foi construdo para possibilitar um mecanismo semi-automtico de auto-arquivamento
em uma biblioteca digital de trabalhos de concluso apresentado em Manica, Cervi e
Dorneles (2007), ou seja, os elementos oferecidos para a especificao dos metadados
so disponibilizados a partir da necessidade observada na extrao dos metadados no
contexto de trabalhos de concluso de curso. Porm, isso no impede que o extrator seja
utilizado para outros documentos PDF, apenas pode restringir algumas extraes, que ao
serem observadas, sero implementadas no extrator. Contudo, todos os metadados de
4. Exemplificando a Extrao
Para entender melhor o funcionamento do extrator, apresentado um exemplo a
partir do template XML observado na figura 3.
<structure>
<coverSheet page="3">
<metadata id="instituicao">
<position type="general">1</position>
</metadata>
<metadata id="titulo">
<position type="general">4</position>
<suffix type="newLine">ALUN</suffix>
</metadata>
<metadata id="avaliador1">
<prefix type="start">AVALIADOR: PROF.| AVALIADOR:
</prefix>
<position type="prefix">1</position>
</metadata>
<metadata id="avaliador2">
<prefix type="start">AVALIADOR: PROF.| AVALIADOR:
</prefix>
<position type="prefix">2</position>
</metadata>
</coverSheet>
<otherPages startPage="4" endPage="10">
<metadata id="resumo">
<prefix type="allLine">RESUMO</prefix>
<suffix type="newLine">PALAVRAS-CHAVE:|PALAVRASCHAVE</suffix>
</metadata>
<metadata id="palavras_chave">
<prefix type="start">PALAVRAS-CHAVE:|PALAVRASCHAVE</prefix>
<separator>,</separator>
<suffix type="sameLine">.</suffix>
</metadata>
</otherPages>
</structure>
Figura 3 Template XML de exemplo.
1
2
Disponvel em http://www.pdfbox.org
Disponvel em http://www.fontbox.org
PROF.
PROF.
5. Experimentos e Resultados
Para validar o processo, primeiramente, o extrator foi incorporado no
mecanismo de auto-arquivamento da BDTC3 (Biblioteca Digital de Trabalhos de
Concluso). Foram realizados 64 testes, sendo que cada um deles consiste na submisso
de um trabalho de concluso, no formato PDF, para o auto-arquivamento da BDTC.
Aps este processo de submisso, o extrator executa seu trabalho, verificando se os
metadados que foram extrados condizem com o esperado.
Os 13 primeiros testes foram realizados com o template XML apresentado na
figura 4.
<structure>
<coverSheet page="3">
<metadata id="instituicao">
<position type="general">1</position>
</metadata>
<metadata id="unidade">
<position type="general">2</position>
</metadata>
<metadata id="curso">
<position type="general">3</position>
</metadata>
<metadata id="titulo">
<position type="general">4</position>
<suffix type="newLine">ALUN</suffix>
</metadata>
<metadata id="aluno">
<prefix type="start">ALUNO:|ALUNA:</prefix>
</metadata>
<metadata id="orientador">
<prefix type="start">Orientador: Prof.| ORIENTADOR
PROF| ORIENTADOR:|ORIENTADORA: Prof.| ORIENTADORA PROF|
ORIENTADORA:</prefix>
</metadata>
<metadata id="avaliador1">
<prefix type="start">AVALIADOR: PROF.| AVALIADOR:
PROF| AVALIADOR:|AVALIADORA: PROF.| AVALIADORA: PROF|
AVALIADORA:</prefix>
<position type="prefix">1</position>
</metadata>
<metadata id="avaliador2">
<prefix type="start">AVALIADOR: PROF.| AVALIADOR:
PROF| AVALIADOR:|AVALIADORA: PROF.| AVALIADORA: PROF|
AVALIADORA:</prefix>
<position type="prefix">2</position>
</metadata>
<metadata id="areas">
<prefix type="start">REAS:|REA:</prefix>
<separator>,</separator>
<suffix type="sameLine">.</suffix>
</metadata>
</coverSheet>
<otherPages startPage="4" endPage="10">
<metadata id="resumo">
<prefix type="allLine">RESUMO</prefix>
<suffix type="newLine">PALAVRAS-CHAVE:|PALAVRAS
CHAVE:|PALAVRAS-CHAVE|PALAVRAS CHAVE</suffix>
</metadata>
<metadata id="palavras_chave">
<prefix type="start">PALAVRAS-CHAVE:|PALAVRAS
CHAVE|PALAVRAS-CHAVE|PALAVRAS CHAVE</prefix>
<separator>,</separator>
<suffix type="sameLine">.</suffix>
</metadata>
</otherPages>
</structure>
Figura 4 Template XML usado em testes.
6. Consideraes Finais
Este artigo apresentou um processo de extrao de metadados a partir de
documentos PDF. O processo automtico, sendo que a nica interveno do usurio
a construo do template XML.
O extrator de metadados desenvolvido implementado atravs de um processo
facilmente executvel, que faz uso de um template XML para a especificao dos
metadados a serem extrados. A principal contribuio est no fato do processo ser
aplicvel a qualquer documento PDF, e por no exigir a associao de estruturas mais
complexas, como ontologias, para a execuo da extrao.
Os testes realizados com o extrator apresentaram resultados satisfatrios, uma
vez que dos 64 documentos submetidos, 47 foram extrados com sucesso, ou seja,
aproximadamente 73,43%. Dos 17 documentos no extrados ou extrados
incorretamente, 15 (88,23%) tiveram esta situao por erros de digitao do usurio que,
por exemplo, esqueceu de colocar o ponto final (.) ao final das palavras-chave, ou
Referncias
Crescenzi, Y.; Mecca, G. Grammars have exceptions. Information Systems v. 23, n. 8,
p.539-565., 1998.
Embley, D. W.; Tao, C.; Liddle, S. W. Automating the extraction of data from HTML
tables with unknown structure. Data Knowledge Engineering. 54(1): 3-28 (2005).
Laender, A. H. F., et al. The Debye Environment for Web Data Management. IEEE
Internet Computing. Volume 6, Issue 4 (July 2002). Pages: 60 69.
Laender, A. H. F.; Ribeiro-Neto, B.; Da Silva., A. S. DEByE - Data Extraction By
Example, Data and Knowledge Engineering v. 40, n. 2, p. 121-154, 2002.
Manica, E.; Cervi, C.R.; Dorneles, C.F. Um Mecanismo Semi-automtico de AutoArquivamento de Documentos em uma Biblioteca Digital. III Workshop on Digital
Libraries (WDL 2007). Gramado, RS, 2007.
Mecca, G.; et al. The Araneus Web-Base Management System. In Proceedings of the
ACM SIGMOD International Conference on Management of Data, p. 544-546, 1998.
Silveira, I. C.; Heuser, C. A. Extrao de Dados Semi-estruturados Atravs de
Exemplos e Ferramentas Visuais. In: CLEI, 2001, Mrida. p. 48-48.
Wessman, A.; Liddle, S. W.; Embley, D. W. A Generalized Framework for an
Ontology-Based Data-Extraction System. ISTA 2005: 239-253.