Escolar Documentos
Profissional Documentos
Cultura Documentos
RESUMO
ABSTRACT
1
Trabalho de conclusão de curso, na modalidade de artigo, apresentado no segundo semestre letivo
especial de 2020 para obtenção do título de Bacharel em Arquivologia, com orientação do professor
Henrique Monteiro Cristovão, e-mail: henrique.cristovao@ufes.br.
2
Graduando em Arquivologia pela Universidade Federal do Espírito Santo (UFES), e-mail:
israelsg2015@gmail.com.
2
undergraduate course in Archivology at UFES is being digitized and organized by a working group
(WG) formed by professors and students of the course. It is hoped that this collection has
standardized metadata and a good level of interoperability for dissemination and access to content.
The objectives of this research are to build a set of organized metadata capable of fully
representing the CCW data and to select interoperable metadata schemas available on the web
and with great potential to represent them. The research has a qualitative approach with an
exploratory method, adopting the case study methodology applied to the context of the CCW
collection. As a result, metadata were created to represent the CCWs in the collection and nine
metadata schemas were selected to serve as a basis for transforming the original metadata into
their similar terms, that is, with the same function and semantics, and mainly interoperable. Despite
the small context of the case study, it is believed that the same methodology used can be applied
in other collections or different and larger contexts..
1 INTRODUÇÃO
Segundo Jardim (1999), o acesso jurídico à informação não se consolida sem o acesso intelectual
à informação, pois o acesso jurídico apenas garante o acesso físico à informação, mas não ao
acesso intelectual. Mesmo com o importante passo dado pela LAI em direção a transparência
pública, estudos, como de Pedroso, Tanaka e Cappelli (2013), apontam para a sua não efetividade
com publicações de documentos em determinados formatos que impedem a interoperabilidade
dos seus dados. Gerar dados interoperáveis requer organizar conhecimento que, segundo
Hjørland (2008), engloba descrever, representar, arquivar e organizar documentos e
representações de documentos, bem como assuntos e conceitos tanto por humanos quanto por
3
públicas e privadas, de forma direta e indireta, gerando falta de segurança e confiabilidade nas
informações e também dificultando a sua recuperação. A fim de contribuir na melhoria da
infraestrutura de suporte à reutilização de dados acadêmicos, Wilkinson et al. (2016) compilaram
um conjunto de princípios com o objetivo de servir de diretriz para aqueles que querem o
aprimoramento da capacidade das máquinas nas buscas e utilização de dados, além de servir de
apoio na reutilização por pessoas. Esses princípios são denominados de FAIR, um acrônimo para
findable, accessible, interoperable, reutilizable, tem como foco orientações diretas para que os
dados tenham as capacidades de serem localizáveis, acessíveis, interoperáveis e reutilizáveis,
que estão sintetizados no Quadro 6 do ANEXO I.
Dessa forma, o problema dessa pesquisa aparece pela necessidade de representar o acervo de
TCCs, que está sendo digitalizado e organizado pelo GT, com metadados padronizados e com
5
2 INTEROPERABILIDADE NA ARQUIVÍSTICA
3
Knowledge Organization System.
6
Zeng (2019) define quatro camadas de interoperabilidade que servem de base e padrões, tal
como mostrado na Figura 1. Para Zeng, cada camada tem suas especificidades: (i) Camadas de
Sistema, a interoperabilidade soluciona problemas de incompatibilidade entre hardware e
sistemas operacionais, para o intercâmbio técnico de dados através de redes, computadores,
aplicativos e serviços da web; (ii) Camada Sintática, a ênfase é nas diferenças da codificação,
decodificação e representação dos dados; os padrões mais importantes de linguagem de dados
que permitem a troca de dados por meio de formatos comuns de dados são as recomendações
oficiais do W3C (World Wide Web Consortium) desenvolvidas para a Web Semântica; (iii) Camada
estrutural, é onde são consideradas as variações da arquitetura de informações em estruturas de
dados, modelos de dados, e esquemas; nos esforços para permitir o intercâmbio de dados por
meio de estruturas predefinidas, modelos conceituais foram estabelecidos pelas comunidades
LAM (library, archive and museum, ou biblioteca, arquivo e museu); os modelos conceituais são
independentes de qualquer sintaxe de codificação específica e sistemas de aplicativos; (iv)
Camada Semântica, é dedicada à interoperabilidade do dicionário de sinônimos com outros tipos
de KOS; os princípios e a prática do mapeamento são seu foco principal, e o seu escopo inclui a
interoperabilidade do dicionário de sinônimos com esquemas de classificação, taxonomias,
esquemas de cabeçalho de assunto, ontologias, terminologias, listas de autoridades de nomes e
anéis de sinônimos.
3 VOCABULÁRIO CONTROLADO
Segundo Kobashi (2008), vocabulário controlado é uma linguagem artificial que constitui termos
organizados em uma estrutura relacional com o objetivo de facilitar a entrada e saída de dados no
sistema de informação. Para Zeng (2005) a necessidade de um vocabulário controlado surge de
duas características: (i) os termos podem ser usados para representar um único conceito e, (ii)
uma palavra com a mesma grafia pode ter mais de um significado e conceito. Partindo da
segunda característica percebe-se que é necessário ter o controle e padronização desses
metadados. Ainda segundo Zeng, o controle de vocabulário pode ser alcançado com três
métodos: o primeiro define o significado dos termos, o segundo usa a relação de equivalência
para associar termos sinônimos e quase sinônimos e, o último distingue entre palavras
homógrafas (possuem a mesma grafia). O principal objetivo dos vocabulários controlados é
fornecer um meio de organizar informações.
De acordo com Zeng (2005) existem alguns tipos de vocabulários controlados que são comuns: (i)
Listas simples de termos ou “listas de seleção”, que é um conjunto limitado de termos organizados
como uma lista alfabética simples ou de alguma outra forma logicamente evidente, como por
exemplo uma lista simples em ordem alfabética, semelhante à um pauta de chamada escolar ou
por alguma ordem lógica como à ordem dos planetas no sistema solar; (ii) Anéis de sinônimos,
são um conjunto de termos considerados equivalentes com a finalidade de recuperação, valendo
ressaltar que a finalidade do Anel de sinônimo é diferente dos outros tipos de vocabulários
controlados, pois estes não podem ser usados no processo de indexação, eles são usados
somente durante a recuperação pois segundo Zeng o uso de anéis de sinônimos garante que um
conceito pode ser descrito por vários termos sinônimos ou quase sinônimos e é recuperado se
qualquer um dos termos for usado em uma pesquisa. (iii) Taxonomias consistem em termos
preferenciais, que estão conectados em uma ou mais de uma hierarquia, (iv) Tesauros é um
vocabulário controlado organizado em uma ordem conhecida e estruturada de forma que as várias
relações entre os termos sejam exibidas claramente e identificadas por indicadores de
relacionamento padronizados.
Vocabulários controlados devem atender os sistemas de informação nos quais foram elaborados e
também atender à linguagem dos seus usuários, mantendo sempre atualizados esses sistemas
informacionais, para que assim as consultas e pesquisas possam ser realizadas, de acordo com a
necessidade dos seus usuários Kobashi (2008). Destaca-se também os princípios dos
vocabulários controlados que, segundo Zeng (2005), têm como objetivo controlar o vocabulário e
garantir que cada conceito distinto se refira à uma única forma. Esses relacionamentos
linguísticos devem ser controlados e regularizados para que as informações fornecidas ao usuário
8
sejam reunidas em um só lugar, mesmo que circule por vários pontos e acessos, e também para
eliminar ambiguidades no sistema (SMIT; KOBASHI, 2003).
Smit e Kobashi também ressaltam que os conjuntos de documentos devem possuir características
que os individualizam dos demais dando condição de recuperação com precisão, onde a
identificação das características desses documentos seja: (I) eficiente, ocupando o menor tempo
possível, tanto do arquivista quanto do usuário do sistema; (II) eficaz, permitindo que o objetivo do
arquivo seja atingido, isto é, a correta recuperação dos documentos e informações. Dessa forma,
identificam-se os documentos e os seus conjuntos e as categorias informacionais que serão
utilizadas na busca da informação, podendo se utilizar, por exemplo, as normas ISAD(G) e
ISAAR(CPF) que dispõem dessas categorias informacionais ou documentos isolados e
observando os princípios arquivísticos.
O manual apresentado por Smit e Kobashi (2003) apresenta vantagens advindas da adoção do
controle de vocabulários no seu preenchimento e destacando que que ele possibilita uma melhor
organização e recuperação de documentos. Para as autoras, o controle de vocabulário é um meio
para produzir confiança no sistema de organização e busca de informações arquivísticas.
4 METADADOS
O termo metadados, ou dados sobre dados, foi adotado e agregado por diversas comunidades e
sua definição foi ampliada para abranger quase tudo que irá descrever outras coisas. Gill (2016)
define que metadados são uma descrição estruturada dos atributos essenciais de um objeto.
Gilliland (2016) observou que os profissionais de informação e patrimônio cultural, como
registradores de museus, catalogadores de bibliotecas e processadores de arquivos aplicam o
termo metadados às informações de valor agregado, criadas para organizar, descrever, rastrear e
aprimorar as informações dos itens físicos e coleções relacionadas aos objetos. Assim, os
metadados são regidos por padrões e práticas desenvolvidas e recomendadas, visando garantir à
qualidade, consistência e interoperabilidade.
Gilliland (2016) destaca que o termo metadado é amplamente usado e também é entendido de
diversas maneiras por comunidades profissionais diferentes que projetam, criam, descrevem,
preservam e usam sistemas e recursos de informação. Ainda segundo o autor, metadado se
refere a um conjunto de padrões disciplinares ou da indústria, bem como documentação interna e
externa adicional e outros dados necessários para a identificação, representação,
interoperabilidade, gestão técnica, desempenho e uso de dados contidos em um sistema de
informação. Segundo Penteado (2020), os metadados são essenciais para potencializar o
reaproveitamento de dados abertos, uma vez que a ideia é que esses dados sejam utilizados para
9
o público geral, em seus mais diversos cenários possíveis e não somente em casos específicos.
Existem recomendações de metadados para diversos contextos, por exemplo, o Decreto nº
10.278, de 18 de Março de 2020 (BRASIL, 2020), estabeleceu padrões técnicos mínimos de
metadados na digitalização de documentos como mostrados nos Quadros 7 e 8 do ANEXO II.
Conforme resgata Gill (2016), o canadense Cory Doctorow listou sete grandes obstáculos na
criação de metadados por humanos: (i) Pessoas mentem, os metadados não são confiáveis por
terem diversos criadores de conteúdos desonestos que publicam metadados enganosos, visando
conseguir mais tráfego para estes sites; (ii) Pessoas são preguiçosas, pois a grande quantidade
dos editores de conteúdos não se encontram motivados para realizar toda a catalogação com o
cuidado necessário que a ocupação exige; (iii) Há grande quantidade de estúpidos, ou seja, não
são inteligentes o suficiente para controlar com eficácia o conteúdo que produzem; (iv) Metadados
na web não são confiáveis, pois existem muitos criadores de conteúdos que publicam
inadvertidamente os conteúdos; (v) Alguns esquemas de metadados não são neutros, isto é, eles
são esquemas de classificação subjetivos; (vi) As métricas influenciam os resultados dificultando a
interoperabilidade entre os sistemas; (vii) Há mais de uma maneira de descrever algo, isto é, a
descrição de um recurso é subjetiva.
Entre os argumentos de Doctorow, há elementos frágeis, conforme assinala Gill, por exemplo nos
conteúdos criados por bibliotecas, museus e arquivos, os especialistas que trabalham no campo
da informação, como arquivistas, bibliotecários entre outros, são profissionais treinados e
diligentes e, de modo geral, não são desonestos e preguiçosos, eles descrevem recursos de
maneiras padronizadas desenvolvidas ao longo de décadas de esforços colaborativos. Por outro
lado, Gill reconhece que o primeiro argumento é forte, pois é muito fácil para editores desonestos
incluir metadados descritivos deliberadamente enganosos nas páginas de Web com o intuito de
aumentar a possibilidade dessas páginas terem maior visibilidade nos nos mecanismos de busca
da Web e, como consequência, aumentando drasticamente a quantidade de tráfego de um site,
resultando em lucros maiores no caso de sites comerciais.
10
Metadados são normalmente classificados para facilitar a sua criação e organização. Gilliland
(2016) sugere uma classificação contendo cinco categorias: (i) Metadados Administrativos, para o
gerenciamento e administração de coleções e recursos de informação; (ii) Metadados Descritivos,
para a identificação, autenticação e descrição de coleções e recursos de informação; (iii)
Metadados de Preservação, para a gestão da preservação de coleções e recursos de informação;
(iv) Metadados Técnicos, para o funcionamento do sistema ou comportamento de metadados; e
(v) Metadados de Uso, para registrar o nível e tipo de uso de coleções e recursos de informação.
Exemplos de cada uma dessas categorias estão listados no Quadro 9 do ANEXO III. Gilliland
ainda sugere outra categorização de metadados em atributos e características, pois a autora
considera que o entendimento das perspectivas de concepção de metadados podem ser
confusas.
De acordo com Baca (2016), os metadados e o domínio dos recursos online estão em constante e
rápido crescimento e evolução. De fato, Gill (2016) relembra que no início da Web as pessoas,
especialmente ligadas à comunidade emergente de bibliotecas digitais, já viam os metadados
como, solução em longo prazo, para os problemas de descobertas na Web. E com o tempo os
catálogos de bibliotecas provaram sua eficácia no fornecimento do acesso de grandes coleções
bibliográficas. Seguindo a linha do tempo, Gilliland (2016) afirma que a automação dos metadados
será inevitável e irá se expandir mais ainda com a evolução e o aumento da implementação do
Resource Description Framework (RDF), que se refere aos dados abertos da WEB semântica. A
ideia é oferecer um suporte à interoperabilidade, que é a capacidade dos sistemas de se
comunicarem de forma significativa (GILL, 2016).
Como resultado dessa evolução e organização, vários padrões de metadados foram aparecendo e
evoluindo desde simples marcações até esquemas de metadados também chamados
simplesmente de vocabulários, que nada mais são do que conjuntos de metadados para uma
determinada finalidade. Atualmente existe uma quantidade muito grande de esquemas de
metadados disponíveis na Web como pode ser verificado no site Linked Open Vocabularies (UPM,
2021) que reúne uma grande coletânea de vocabulários para serem usados em Linked Data na
Web Semântica. Alguns esquemas de metadados ficaram mais populares do que outros,
possivelmente influenciados por terem foco de aplicação mais aberto como é o caso do Dublin
Core Metadata Element Set que, segundo Gill (2016), é um dos vocabulários mais utilizados no
mundo, possui originalmente quinze elementos de descrição aplicados a uma extensa variedade
de recursos interdisciplinares e entre sistemas, sendo o esquema preferido para mapeamento e
coleta de metadados.
11
Os documentos nato-digitais, muito frequentes hoje em dia, estão possibilitando com mais
facilidade que sejam interoperáveis auxiliando no acesso à informação e na difusão, pois eles
carregam sentido por intermédio de esquemas de metadados (LUZ, 2018). O autor ainda afirma
que para alavancar a interoperabilidade e a Web semântica é necessária a padronização de
tecnologias de linguagens e de metadados descritivos de forma que todos os usuários da Web
obedeçam a determinadas regras padrão. Luz também argumenta que a descrição arquivística é
um dos pilares da Arquivologia, disponibilizando ao usuário a informação sobre o documento sem
a necessidade do manuseio e evitando a corruptibilidade do mesmo. Assim, preserva-se o objeto
físico e essa descrição produz um instrumento de pesquisa que são produtos de informação e
podem ser utilizados para localizar objetos informacionais e descrever seu conteúdo.
Luz (2018) apresenta os esquemas de metadados Encoded Archival Description (EAD) e Encoded
Archival Context (EAC) que foram concebidos para o contexto arquivístico, e faz um paralelo com
as normas de descrição arquivística ISAD(G) e a NOBRADE. A NOBRADE além de ter os itens
da ISAD-G, que é uma norma internacional, complementou com a área 8.1, ponto de Acesso, com
mais dois elementos de descrição. Luz assinala que além de aplicar o modelo internacional já
adotado "[...] amplia-se o potencial da interoperabilidade de dados pois o oitavo elemento da
NOBRADE abre a possibilidade de uso de vocabulários e ontologias leves".
decorrentes da descrição de arquivos. Outro fator que se destaca é que devido ao formato ser
aberto a outros custodiadores de arquivos que podem fornecer informações de suas coleções e
acervos. De fato o EAD não é um sistema utilizado para a gestão, mais focado na
interoperabilidade da informação.
O autor ainda destaca que a ISAD-G estruturada em EAD eleva a nitidez da informação, pois ela
pode ser um padrão de definições de elementos da Web alcançando o objetivo de fornecer uma
descrição minuciosa do conteúdo e intelectual das coleções de arquivos. Outra estrutura utilizada
na ISAD-G é o EAC que representa o contexto de criação dos arquivos tanto para a Web quanto
para os sistemas informatizados também compostos por ontologia para representar o contexto
dos seus elementos. O acrônimo EAC-CPF adiciona a parte Corporate Bodies, Persons and
Families e é utilizado no contexto arquivístico para entidades coletivas como empresas, pessoas e
famílias, com objetivo de fornecer informações do contexto e em quais circunstâncias foi realizada
a criação das coleções e documentos, tendo como sua finalidade padronizar a codificação de
descrições sobre indivíduos que permitam o compartilhamento, descoberta e entrega de
informações em plataformas digitais.
6 PROCEDIMENTOS METODOLÓGICOS
A pesquisa, de abordagem qualitativa, seguiu o método exploratório que, segundo Gil (2002) e
Braga (2007), visa proporcionar maior familiaridade, reunir dados, informações e padrões sobre o
problema proposto investigando as relações existentes entre conceitos e processos do contexto.
Além disso, foi adotada a metodologia de estudo de caso, uma vez que ela foi útil enquanto “[...]
investigação empírica que investiga um fenômeno contemporâneo dentro de seu contexto da vida
real, especialmente quando os limites entre o fenômeno e o contexto não estão claramente
definidos” (YIN, 2001). Dessa forma, o contexto mencionado por Gil, Braga e Yin, na presente
pesquisa, foi o acervo de TCCs do curso de graduação em Arquivologia da UFES considerando
seus potenciais usuários. O fenômeno contemporâneo investigado foi a escolha de esquemas de
metadados interoperáveis capazes de representar o acervo dos TCCs.
Como parte da construção dos conhecimentos necessários à fundamentação teórica foi realizada
pesquisa documental e bibliográfica, e pesquisa por trabalhos correlatos, na literatura científica
por meio de portais de busca, tal como o Portal de Periódicos CAPES (2020), publicações em
Congressos relevantes da área, normas técnicas NISO-ISO, ABNT-NBR, específicas de
descrição arquivística NOBRADE e ISAD(G), legislação pertinente e outros materiais discutidos no
âmbito do grupo de pesquisa ao qual esse trabalho é inserido. Além disso, a realização de
reuniões e debates, principalmente na fase da construção dos metadados para a representação
dos TCCs, entre os membros participantes do projeto foi fundamental para o entendimento do
13
7 RESULTADOS E DISCUSSÃO
Foi implementada pelo GT uma planilha de cadastro dos metadados com interface adequada para
utilização pelo próprio aluno após a aprovação do seu trabalho e no processo de encaminhamento
à secretaria e coordenação do curso. A Figura 2, do APÊNDICE B, apresenta a tela inicial dessa
planilha. Ela foi usada de forma piloto por alguns alunos e já conta com cerca de 30 TCCs
cadastrados.
14
Ainda no Quadro 5 do APÊNDICE A, existe uma coluna para o tipo dos valores que podem ser
usados para preenchimento dos metadados. Eles são baseados na forma como a maioria dos
SGBDs (Sistemas Gerenciadores de Banco de Dados) representam os dados. A maioria deles é
do tipo String (uma sequência de caracteres quaisquer), alguns são mais restritos como o Numeric
(números) e Boolean (aceita apenas dois valores lógicos, como "sim" e "não"), e o tipo Date que
representa datas e horários aceitos pela norma internacional ISO 8601:2004 Data elements and
interchange formats - Information interchange - Representation of dates and times7. Essa norma
estabelece as regras para a representação de datas e horários usadas de forma interoperável em
várias partes do mundo.
O próximo passo foi a pesquisa por esquemas de metadados que pudessem oferecer um bom
nível de interoperabilidade. A partir de bibliografia especializada com escopo na Arquivologia ou
Ciência da Informação (CI), e com foco em interoperabilidade nível estrutural, segundo
classificação de Zeng (2019). Foram selecionados aqueles mais promissores, segundo julgamento
do autor dessa pesquisa e discussões no âmbito do GT. Esse levantamento encontra-se no
Quadro 1 onde, para cada esquema de metadados, é informado o seu nome e sigla, tal como
conhecido na literatura, o prefixo (uma abreviatura, e também conhecido por namespace), a
4
Informações disponíveis em:
http://lattes.cnpq.br/documents/11871/24930/TabeladeAreasdoConhecimento.pdf
5
TBCI disponível em: http://www.uel.br/revistas/informacao/tbci/vocab/
6
Optical Character Recognition.
7
ISO 8601:2004 disponível em: https://www.iso.org/standard/40874.html
15
página web principal onde ele é publicado para consulta humana, o foco de sua aplicação e, para
alguns deles, observações complementares.
● Prefixo: foaf
● Página principal: http://www.foaf-project.org
● Foco: descrição de dados gerais de pessoas.
Schema.org
● Prefixo: schema
● Página principal: http://schema.org
● Foco: representação para variedade de aplicações tais como páginas da Web e
mensagens de e-mail.
● Obs.: mais de 10 milhões de sites usam esse esquema, entre eles, Google e Microsoft.
Prefixo Gilliland Gill Luz Penteado Zeng SAA LOC ALA Freq.
(2016) (2016) (2018) (2020) (2020) (2021) (2021) (2021)
dcterms X X X X X X 6
ead X X X X X X X 7
eac-cpf X X 2
mods X X X X 4
mads X X 2
premis X X 2
foaf X X X 3
dcat X 1
schema X X 2
18
bibframe X X X X X 5
marc X X 3
vra X X X X 4
lido X X 2
madras X X 2
edtf X 1
ddi X 1
3º) Encoded Archival Context, Corporate bodies, Persons, and Families (EAC-CPF)
● Prefixo: eac-cpf
● Página principal:: http://culturalis.org/eac-cpf
● Justificativa para escolha: Possui forte relação com a arquivística.
● Termos disponíveis para consulta humana:
https://eac.staatsbibliothek-berlin.de/schema/taglibrary/cpfTagLibrary2019_EN.html
● Namespace para a URI do esquema:
@prefix eac-cpf: <http://culturalis.org/eac-cpf#>
9º) Schema.org
● Prefixo: schema
● Página principal:: http://schema.org
● Justificativa para escolha: aplicabilidade genérica com popularidade de uso e adotado
por grandes corporações, o que lhe dá bom nível de interoperabilidade.
● Termos disponíveis para consulta humana: https://schema.org/docs/full.html
● Namespace para a URI do esquema:
@prefix schema: <http://schema.org/>
Entre as escolhas do Quadro 3, destaca-se o esquema DC em primeiro lugar pelo fato de ser
muito usado mundialmente e com alto nível de interoperabilidade, apesar de não ter sido
concebido para contextos da Arquivologia como é o caso do EAD e o EAC-CPF que aparecem em
segundo e terceiro lugares respectivamente, sendo que o EAD é citado em todas as obras ligadas
a Arquivologia. O esquema MADS, apesar de poucas citações, tem grande pertinência para
representação dados de autoria para o acervo de TCCs.
Alguns esquemas do Quadro 3 não foram escolhidos, como o VRA Core que, apesar de boa
frequência de citações no Quadro 2, estava fora do contexto do acervo de TCCs. Os esquemas
MARC 21, LIDO, MADRAS e DDI que, apesar de terem ligação com a CI, foram referenciados
poucas vezes nas obras selecionadas.
21
Alguns exemplos de conversão de metadados, originalmente criados para o acervo de TCCs, para
a sua versão interoperável com o uso de um dos esquemas de metadados escolhido, entre
aqueles do Quadro 3, são apresentados no Quadro 4. Esse quadro apresenta, nessa ordem, a
identificação do metadado original, disponível no Quadro 5 do APÊNDICE A, o termos do
metadado interoperável, o nome do esquema de metadados, disponível no Quadro 3, e a URI
(Uniform Resource Identifier) que o identifica de forma inequívoca.
● Tamanho:
○ Metadado interoperável: disk size
○ Esquema de metadado: Dublin Core
○ URI: http://purl.org/dc/terms/abstract
● Nome do Autor:
○ Metadado interoperável: name
○ Esquema de metadado: Dublin Core
○ URI: http://purl.org/dc/terms/abstract
● Data da defesa:
○ Metadado interoperável: date
○ Esquema de metadado: Dublin Core
○ URI: http://purl.org/dc/terms/abstract
● Número de páginas:
○ Metadado interoperável: pages
○ Esquema de metadado: Dublin Core
○ URI: http://purl.org/dc/terms/abstract
Mesmo após a seleção dos nove esquemas de metadados, apresentados no Quadro 4, é possível
que nem todos sejam efetivamente usados para fornecer termos interoperáveis aos metadados
22
Entre as melhores práticas de publicação de dados na Web, recomendadas por Lóscio et at.
(2017), pode-se destacar três que são amplamente atendidos nos resultados dessa pesquisa: (i)
Fornecer metadados tanto para o homem quanto para as máquinas; (ii) Use formatos de dados
padronizados legíveis por máquina; (iii) Reutilizar vocabulários, de preferência padronizados.
Penteado (2020) também destaca que os metadados são essenciais para potencializar o
reaproveitamento dos dados. A lista dos esquemas do Quadro 3 atende a essas recomendações.
Os quatro princípios FAIR, Wilkinson et al. (2016), listados no ANEXO I, são amplamente cobertos
pela presente pesquisa: (i) Localizável, pois estão sendo criados metadados interoperáveis que
possibilitam a sua localização; (ii) Acessível, pois os valores dos metadados ficarão disponíveis
para acesso; (iii) Interoperável, pois haverá a possibilidade dos metadados serem compartilhados
e lidos por máquinas uma vez que são usados termos interoperáveis advindos de esquemas
conhecidos, e (iv) Reutilizável, pois o acesso fácil e com bom nível de interoperabilidade leva à
facilidade de sua reutilização. Além disso, a presente pesquisa colabora no atendimento da LAI
(BRASIL, 2011), na abertura dos dados, mesmo considerando o contexto de estudo de caso
pequeno e restrito, contudo, os procedimentos empregados serão semelhantes quando aplicados
a um domínio diferente e maior.
Ainda que o Quadro 3 seja uma lista de esquemas de metadados com grande potencial para a
conversão para o formato interoperável, ainda é importante enfatizar que, conforme Baca (2016),
os metadados e domínios estão em constante crescimento e evolução. Dessa forma, é
necessário fazer a sua manutenção para que fiquem adequados às mudanças do contexto e que
mantenham um bom nível de interoperabilidade.
23
8 CONSIDERAÇÕES FINAIS
Observando as peculiaridades do acervo digital dos TCCs, bem como o decreto de lei nº 10.278
de 18 de Março de 2020, que estabelece os requisitos para a digitalização de documentos
públicos, foram criados metadados para a sua representação bem como vocabulários controlados
com o intuito de obter mais qualidade e precisão na busca, acesso e recuperação da informação e
até mesmo na preservação. Foram também construídos alguns vocabulários controlados visando
evitar ambiguidades e buscando facilitar a recuperação da informação. Para cadastro dos valores
dos metadados, foi preparada uma planilha de entrada com endereço disponível na web e com
uma interface adequada para uso do próprio aluno, após a aprovação de seu TCC. Dessa forma,
cumpriu-se um dos objetivos da pesquisa.
Em seguida, para cumprir o outro objetivo do trabalho, buscou-se por esquemas de metadados
com bom nível de interoperabilidade. Desses esquemas foram selecionados nove para, de fato,
contribuírem na conversão dos termos dos metadados originais do acervo de TCCs para termos
semelhantes, isto é, com a mesma função e semântica, e, principalmente, interoperáveis. Para a
escolha desses esquemas, foram considerados os critérios de pertinência ao contexto da
pesquisa, da frequência de citações em bibliografia e portais especializados, daqueles que foram
concebidos para apoiar funções de representação na Arquivologia, e o quanto é conhecido e
usado em bases interoperáveis.
A criação dos metadados e a seleção dos esquemas de metadados interoperáveis foram frutos da
pesquisa realizada sobre o estudo de caso em um contexto pequeno, o acervo de TCCs. Porém, a
24
mesma metodologia empregada nesse caso poderá ser aplicada em outros acervos ou contextos
diferentes, ainda que bem maiores. Sugere-se como continuidade desse trabalho, no âmbito do
GT, a conversão de todos os metadados do acervo de TCCs para os seus equivalentes em
formato interoperável, o mapeamento em forma de dados ligados na Web Semântica e a sua
publicação em um servidor aberto que ofereça o serviço de consulta.
REFERÊNCIAS
ALA. Metadata Standards and Resources. 2021 1996. ALA, American Library Association. [web
page]. Disponível em:
https://www.alastore.ala.org/nealschuman/companionwebsite/metadata-digital-collections/MDC_R
esources.html. Acesso em: 10 abr. 2021.
BACA, M. Introduction to metadata. 3. ed. Los Angeles, CA: Getty Publications, 2016. Disponível
em: http://www.getty.edu/publications/intrometadata.
CAPES/MEC. Acesso remoto via CAFe: portal de periódicos CAPES/MEC. 2020. CAPES-MEC.
[web page]. Disponível em: https://www.periodicos.capes.gov.br/. (cafe - comunidade acadêmica
federada).
GILL, T. Metadata and the web. In: BACA, M. (org.). Introduction to metadata. 3. ed. Los
Angeles, CA: Getty Publications, 2016. Disponível em:
http://www.getty.edu/publications/intrometadata.
25
GILLILAND, A. J. Setting the Stage. In: BACA, M. (org.). Introduction to metadata. 3. ed. Los
Angeles, CA: Getty Publications, 2016. Disponível em:
http://www.getty.edu/publications/intrometadata.
KOBASHI, Nair Yumiko; SMIT, J. W. Como elaborar vocabulário controlado para aplicação em
arquivos como fazer volume 10. São Paulo: [s. n.], 2003. Disponível em:
https://www.arqsp.org.br/arquivos/oficinas_colecao_como_fazer/cf10.pdf.
LOC. Standards. 2021. Librarians and Archivists, Library of Congress, LOC. [web page].
Disponível em: https://www.loc.gov/librarians/standards. Acesso em: 10 abr. 2021.
LÓSCIO, B. F.; BURLE, C.; CALEGARI, N. Data on the web best practices. 31 jan. 2017. W3C.
Disponível em: https://www.w3.org/TR/dwbp/.
LOUREIRO, B. P.; CAMPAGNUCCI, F.; SVAB, H.; OLIVEIRA, L.; LANGENEGGER, N.; BAPTISTA,
V. Publicadores de dados: da gestão estratégica à abertura. São Paulo: Open Knowledge
Brasil, 2021. Disponível em: https://www.ok.org.br/publicacoes/. Acesso em: 20 abr. 2021.
NISO. ISO 25964 – the international standard for thesauri and interoperability with other
vocabularies | NISO website. [S. l.: s. n.], 2011. Disponível em:
https://www.niso.org/schemas/iso25964. Acesso em: 31 out. 2019.
PEDROSO, L.; TANAKA, A.; CAPPELLI, C. A Lei de acesso à informação brasileira e os desafios
tecnológicos dos dados abertos governamentais. In: SIMPÓSIO BRASILEIRO DE SISTEMAS DE
INFORMAÇÃO, 9., 2013. Simpósio Brasileiro de Sistemas de Informação [...]. João Pessoa:
UFPB, 2013. v. 9, . Disponível em: https://sol.sbc.org.br/index.php/sbsi/article/view/5718. Acesso
em: 25 fev. 2016.
26
PRADO FILHO, H. R. do. A Qualidade dos metadados dos documentos de arquivo. Revista
Digital AdNormas, 29 out. 2019. Disponível em:
https://revistaadnormas.com.br/2019/10/29/a-qualidade-dos-metadados-dos-documentos-de-arqui
vo/. Acesso em: 31 out. 2019.
SAA. Standards Portal. 2021 1997. SAA, Society of American Archivists. [web page].
Disponível em: https://www2.archivists.org/standards. Acesso em: 10 abr. 2021.
UPM. Linked Open Vocabularies (LOV). 2021. Ontology Engineering Group - UPM. [web page,
search engine]. Disponível em: https://lov.linkeddata.es/dataset/lov. Acesso em: 30 mar. 2021.
WILKINSON, M. D.; DUMONTIER, M.; AALBERSBERG, Ij. J.; APPLETON, G.; AXTON, M.;
BAAK, A.; BLOMBERG, N.; BOITEN, J.-W.; DA SILVA SANTOS, L. B.; BOURNE, P. E.;
BOUWMAN, J.; BROOKES, A. J.; CLARK, T.; CROSAS, M.; DILLO, I.; DUMON, O.; EDMUNDS,
S.; EVELO, C. T.; FINKERS, R.; … MONS, B. The FAIR guiding principles for scientific data
management and stewardship. Scientific Data, v. 3, n. 1, p. 160018, 15 mar. 2016. DOI
10.1038/sdata.2016.18. Disponível em: https://www.nature.com/articles/sdata201618. Acesso em:
15 jul. 2020.
YIN, R. K. Estudo de caso: planejamento e métodos. 2. ed. Porto Alegre: Bookman, 2001.
APÊNDICE A
O Quadro 5 apresenta o conjunto de metadados criados, de forma cooperativa pelo GT, para
representar os dados dos TCCs.
8
ISO 8601:2004 disponível em: https://www.iso.org/standard/40874.html
9
Informações disponíveis em:
http://lattes.cnpq.br/documents/11871/24930/TabeladeAreasdoConhecimento.pdf
10
TBCI disponível em: http://www.uel.br/revistas/informacao/tbci/vocab/
28
Vocabu-
Tipo do
Grupo Identificação Descrição Categoria lário
dado
controlado
Identificação única do TCC,
Identificação única gerada automaticamente pelo ADM String -
sistema.
Resumo do TCC.
Resumo DESC String -
Abstract do TCC.
Abstract DESC String -
Grande área de
Grande área 1 conhecimento do TCC.
Área de conhecimento do
VC
Área 1 TCC .
Área 1 Área
DESC String
Conteúdo (CNPq) Cnpq
Subárea de conhecimento do
Subárea 1 TCC.
Especialidade de conteúdo do
Especialidade 1 TCC.
Grande área 2
VC
Área 2 Área
Área 2 Informações da primeira área
DESC String Cnpq
(CNPq) secundária do TCC.
Subárea 2
Especialidade 2
Grande área 3
Área 3 Informações da segunda área VC
DESC String
(CNPq) secundária do TCC. Área
Área 3 Cnpq
29
Subárea 3
Especialidade 3
Formato de monografia ou VC
Formato DESC String
Forma artigo científico. Formato
32
Se é nato-digital, se
VC
digitalizado por processo de
Modalidade digital TEC String Modalidade
OCR ou se digitalizado como
Digital
imagem.
Tamanho em KB do arquivo
Tamanho KB TEC Numeric -
PDF do TCC.
Descrição de todos os
Descrição dos anexos documentos anexos (no caso TEC String -
de PDF/A-2 ou A-3).
APÊNDICE B
A Figura 2 apresenta a tela inicial de um cadastro de metadados de um TCC iniciado por meio da
planilha de cadastro.
ANEXO I
O Quadro 6 apresenta de forma resumida os principais elementos dos princípios FAIR, segundo
Wilkinson et al. (2016).
Localizável
Metadados são atribuídos a um identificador globalmente único e persistente.
Reutilizável
Metadados são ricamente descritos com uma pluralidade de atributos precisos
e relevantes.
Metadados são liberados com uma licença de uso de dados clara e acessível.
ANEXO II
Metadados Definição
Data e local da digitalização Registro cronológico (data e hora) e tópico (local) da digitalização do
documento.
Identificador do documento digital Identificador único atribuído ao documento no ato de sua captura para
o sistema informatizado (sistema de negócios).
Hash (chekcsum) da imagem Algoritmo que mapeia uma sequência de bits (de um arquivo em
formato digital), com a finalidade de realizar a sua verificação de
integridade.
37
Quadro 8 - Metadados mínimos exigidos para documentos digitalizados por pessoas jurídicas de
direito público interno.
Metadados Definição
Data de produção (do documento Registro cronológico (data e hora) e tópico (local) da produção do
original) documento.
ANEXO III
Descritivo Metadados usados para identificar, ● Metadados gerados pelo criador original e
autenticar e descrever coleções e sistema
recursos de informações confiáveis ● Pacote de informações de envio
relacionados ● Registros de catalogação
● Encontrar ajudas
● Controle de versão
● Índices especializados
● Informação curatorial
● Relações vinculadas entre recursos
● Descrições, anotações e emendas por
criadores e outros usuários