Escolar Documentos
Profissional Documentos
Cultura Documentos
EXÉRCITO BRASILEIRO
DEPARTAMENTO DE CIÊNCIA E TECNOLOGIA
INSTITUTO MILITAR DE ENGENHARIA
SEÇAO DE ENGENHARIA DE COMPUTAÇÃO
Rio de Janeiro
2018
Conteúdo
1 Introdução 5
1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Objetivos e contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Estrutura da dissertação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Fundamentos 8
2.1 Web Semântica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Formato RDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Portal Brasileiro de Dados Abertos . . . . . . . . . . . . . . . . . . . . . . 10
2.4 LOD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4 Interligação de Datasets 17
4.1 Dataset JabotG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2 Dataset GeoClimaAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.3 Interligação dos datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.4 Explorando Datasets Interligados . . . . . . . . . . . . . . . . . . . . . . . 19
5 Resultados e discussões 19
6 Conclusão 22
2
Lista de siglas
API Application Programming Interface
CSV Comma-separated values
CKAN Comprehensive Knowledge Archive Network
DTD Document Type Definition
HTML HyperText Markup Language
IBGE Instituto Brasileiro de Geografia e Estatística
INDE Infraestrutura Nacional de Dados Espaciais
INDA Infraestrutura Nacional de Dados Abertos
JBRJ Jardim Botânico do Rio de Janeiro
KML Keyhole Markup Language
MRAR Mining Multi-Relation Association Rules
OGP Parceria Para o Governo Aberto
OWL Web Ontology Language
RDF Resource Description Framework
SGML Standard Generalized Markup Language
SPARQL SPARQL Protocol and RDF Query Language
URI Uniform Resource Identifers
XML eXtensible Markup Language
W3C World Wide Web Consortium
3
Resumo
A World Wide Web tem passado por transformações no que tange a publicação de
documentos. O grande volume de dados disponíveis na internet tem permitido novas
aplicações envolvendo máquinas e humanos. Para tanto, há a necessidade de se organizar
e recuperar informações de forma inteligente e automatizada. Deve-se elaborar e implantar
modelos que permitam a reutilização dos dados.
Desta forma, a W3C (World Wide Web Consortium) prega a utilização de estrutura
RDF juntamente com o uso de metadados para descrever recursos de forma significativa e
não ambígua. Ainda, propõe ser de suma importância, a implantação de ontologias no in-
tuito de cruzar informações de bases diferentes e manter os dados ligados semanticamente,
contribuindo com o aumento da rede de conhecimento na tomada de decisões.
Através da Convenção sobre a Diversidade Biológica, a área da botânica no Brasil tem
se esforçado em compartilhar as informações coletadas sobre dados ecológicos na forma
de dados abertos. Contudo, não há uma padronização de vocabulários e modelos. Isto
acarreta uma dificuldade na integração com as outras fontes. Dados publicados pelo Insti-
tuto Brasileiro de Geografia e Estatística, por exemplo, estão em divergência de formatos
e nomenclaturas de metadados com aqueles publicados pelo Jardim Botânico do Rio de
Janeiro, mesmo tratando do mesmo recurso. Portanto, pretende-se, neste trabalho, estru-
turar referências ecológicas relevantes publicadas através do Portal Brasileiro de Dados
Abertos e conseguir interligar essas informações com as fornecidas pelo JBRJ de forma a
contribuir para a Lei do Acesso a Informação.
4
1 Introdução
O Brasil é o país com a maior biodiversidade ecológica do planeta (SIBBR, 2017). Neste
contexto, a Convenção sobre a Diversidade Biológica, da qual o Brasil é país signatário,
recomenda a integração e disponibilização das informações acerca da biodiversidade de
maneira a apoiar a produção científica, assim como a tomada de decisões no que tange
à conservação ambiental e ao uso sustentável dos recursos naturais. Múltiplos portais da
Web fornecem dados onlines em relação a espécies tais como o Flora do Brasil1 e o Jabot2 .
Este é mantido pelo IPJBRJ (Instituto de Pesquisas Jardim Botânico do Rio de Janeiro)
e possui digitalizadas as coleções do próprio Instituto e de outras fontes.
Por outro lado, o governo federal disponibiliza dados e informações públicas através do
Portal Brasileiro de Dados Abertos seguindo a premissa do acesso a informação previsto
na Constituição Federal e na Declaração Universal dos Direitos Humanos. Este portal
tem por objetivo disponibilizar o acesso aos dados publicados por todos os órgãos do
governo federal, dentre eles, pelo Instituto Brasileiro de Geografia e Estatística, cujos
dados possuem informações ecológicas em formatos CSV (Comma-separated values) e
KML (Keyhole Markup Language).
No início dos anos 90, criou-se a World Wide Web no intuito de permitir a troca de
informações entre computadores em uma interface intuitiva. Contudo, com o acúmulo de
dados disponíveis nas páginas da Web e sua gama de aplicações viu-se a necessidade de
transformar o seu conceito para o que se chama de Web Semântica - o crescimento do
conteúdo disponível na rede promoveu a necessidade de que programas também pudessem
interagir com as páginas da web (SOUZA et al. 2004).
A fim de promover essa interoperabilidade, os pesquisadores se esforçam em publicar
recursos - textos e dados - na Web Semântica seguindo padrões, tais como o uso do
formato RDF (Resource Description Framework ) e XML(eXtensible Markup Language),
assim como identificá-los por URIs (Uniform Resource Identifers). Neste contexto, a
Linked Open Data se destaca em viabilizar boas práticas de publicação de datasets -
conjunto de dados publicados por uma organização (SEGUNDO, 2015) - com a utilização
de padrões de metadados e vocabulários uniformes para declarações no RDF (BIZER,
2009). Utiliza-se de ontologias na medida em que é importante para a interligação de
dados que as informações possam tratar de um contexto e vocabulários comuns, sem
1 http://floradobrasil.jbrj.gov.br
2 http://jabot.jbrj.gov.br/
5
ambiguidade. Ontologias definem um domínio e especificam uma conceitualização sobre
ele (GRUBER, 1995), isto é, são responsáveis pela estruturação das informações.
1.1 Motivação
6
Dados Abertos e uma revisão bibliográfica acerca da Web Semântica. Os próximos passos
consistem na escolha dos vocabulários a serem utilizados nas triplificações dos dados e na
pesquisa de ferramentas para produção de arquivos RDF.
Na revisão bibliográfica são discutidos termos acerca da Web Semântica, assim como
melhores práticas para publicação de dados. É abordado o funcionamento do formato
RDF e uso de ontologias para organização das informações. Por outro lado, explica-se
o papel do Brasil no contexto de disponibilizar dados públicos através da metodologia
de Dados Abertos e sua ineficácia quanto à ligação semântica das ideias. Propõe-se,
portanto, nos Resultados e Discussões, a análise de uma coleção de dados obtidos do
Portal Brasileiro de Dados Abertos a fim de os adequar aos princípios propostos por
Berners Lee (BERNERS-LEE, 2001).
7
2 Fundamentos
8
resulta em uma rapidez na publicação de dados além de contribuir com a recuperação da
informação. Todavia, encontrar o esquema lógico ideal para descrever os dados é uma
incoveniência visto que há uma imensidão de ontologias já publicadas e sendo implemen-
tadas nos datasets.
A versatilidade da linguagem XML implica na utilização de nomenclaturas diferentes
sobre um mesmo significado. Para evitar isso, padrões de metadados são combinados na
comunidade científica. Dentre as iniciativas desta área, destaca-se a Dublin Core. Pos-
sui padrão aceito internacionalmente e em sua forma simples possui quinze elementos de
metadados: title, creator, subject, description, publisher, contributor, date, type, format,
identifier, source, language, relation, coverage e rights. Title se refere ao título do recurso;
creator, ao indivíduo incumbido do conteúdo; subject, ao assunto tratado pelo documento;
description é a descrição das ideias expostas; publisher trata do responsável pela publi-
cação do conteúdo; contributor, daqueles que auxiliaram na confecção do documento; em
date se encontra a data de publicação do recurso; type indica uma classe à qual per-
tence o conteudo; format explicita a organização do documento; identifier designa um
identificador numérico para o conteúdo; source contém a fonte do conteúdo; language, a
linguagem utilizada; relation trata da forma como o conteúdo se relaciona com outros
recursos; coverage, da localização física do conteúdo; rights é uma conexão para uma nota
de copyright.
No âmbito da Web Semântica, a W3C recomenda o uso do formato RDF para publicação
dos dados. Nele, utiliza uma infra-estrutura XML com um padrão de triplas para descrever
as informações na forma sujeito-predicado-objeto. Por sujeito, se compreende o recurso
- qualquer objeto da Internet que possa ser descrito -, sendo o predicado, a propriedade
a que pertence e que possui valor especificado no objeto. Os recursos são explicitados
através de URIs (Uniform Resource Identifier ), conjunto de caracteres responsáveis por
endereçar, de forma única, recursos da web. A interligação destes recursos acaba por
formar uma rede de grafos direcionada, a qual pode ser explicitada através de vcards.
A sintaxe padronizada do RDF permite que aplicações possam interagir de maneira
mais inteligente e automatizada, tendo em vista que os dados são manipulados através
dos descritores usando referências já compartilhadas. Além disso, este formato permite a
utilização de diversos padrões de metadados - namespaces - se tornando uma alternativa
9
Figura 2: Declaração RDF
O Brasil tem se esforçado nos últimos anos em garantir a Lei do Acesso a Informação
(12.527/2011) sancionada em novembro de 2011 visto que em setembro de 2011, oito
nações se reuniram para formar a Parceria para o Governo Aberto4 (OGP). No intuito
de democratizar o acesso aos dados públicos governamentais, a Secretaria de Logística
e Tecnologia da Informação, pertencente ao Ministério do Planejamento, Orçamento e
Gestão, desenvolveu o Portal Brasileiro de Dados Abertos, uma estrutura baseada no
arquivo web, através da INDA (Infraestrutura Nacional de Dados Abertos) - um conjunto
4 https://www.opengovpartnership.org/
10
de padrões, tecnologias, procedimentos para compartilhamento das informações públicas
dentro do modelo de dados abertos (CARTILHA, 2017).
O portal almeja ser um núcleo para acesso aos dados fornecidos por todos os órgãos
do governo e é referência no que tange a publicação sistematizada dos dados. Atualmente
conta com 3395 datasets (sendo 461 postados pelo IBGE) incluindo 19675 recursos, po-
rém, a grande maioria dessas informações não estão no formato adequado para a Web
Semântica, desprezando as ligações semânticas que poderiam ter. Em suma, são formatos
HTML e CSV.
A Infraestrutura Nacional de Dados Espaciais (INDE) é responsável por muitos ca-
tálogos de dados geoespaciais publicados no portal. Inclui um visualizador (como mostra
a figura abaixo) que auxilia na consulta dos dados geográficos e os torna facilmente lo-
calizáveis. As unidades responsáveis por publicar os dados também estão encubidas pela
manutenção do portal, a fim de garantir o controle de acesso, integridade e autenticidade
das informações.
2.4 LOD
11
a todos. A vantagem dessa associação está em constituir um grafo, ferramenta matemática
poderosa na resolução de problemas. Os princípios dessa iniciativa consistem em utilizar
URI na nomeação de recursos, sendo ainda na forma HTTP a fim de permitir posterior
consulta com retorno em um arquivo RDF válido.
Destaca-se, por outro lado, a importância da inserção de links a outras URIs dentro
das proposições no arquivo RDF, contribuindo para a navegação nesta rede de informa-
ções. Navegadores da Web semântica e ferramentas de pesquisa realizam consultas, cujos
retornos são utilizados por diversas aplicações, através das ligações externas feitas nesses
datasets.
Atualmente, diversas iniciativas já publicam seus conjuntos de dados como o Geo-
names8 , Bibliografia DBLP9 e Wikipedia10 . Tais informações estão acessíveis via Da-
taHub11 e podem ser processadas por aplicações CKAN (Comprehensive Knowledge Ar-
chive Network). Cita-se o DBpedia como o dataset mais conhecido nesta área, tendo
em vista os esforços em extrair informação da Wikipedia e tornar disponível na Web,
permitindo interligação com outros conjuntos de dados (DBPEDIA, 2017). Cidades pre-
sentes neste conjunto de dados estão descritas através de ligações owl:sameAs para suas
referências naquele do Geonames.
As bases de conhecimento disponíveis são as responsáveis por dar suporte a integração
de informações. A Wikipedia tem um importante papel neste aspecto na medida em que
é mantida por milhares de contribuintes e aborda os mais variados domínios. A DBpedia
já extraiu dados sobre cerca de 1,445,000 pessoas, 735,000 lugares, 241,000 organizações,
251,000 espécies, dentre outros. Totaliza ao todo 4,58 milhões de recursos sendo 4,22
milhões baseados em ontologias consistentes (DBPEDIA, 2017). Além disso, a informação
disponível está sendo traduzida para outros cento e vinte cinco idiomas.
No contexto de Web Semântica e publicação de arquivos em RDF, a comunidade
DBPedia disponibiliza o conteúdo através de SPARQL endpoint. Portanto, sua variedade
de domínios e disponibilização de dados em RDF a torna viável de estudo para possível
interligação com os dados publicados pelo Jardim Botânico do Rio de Janeiro.
8 http://www.geonames.org/
9 http://dblp.uni-trier.de/db/
10 https://www.wikipedia.org/
11 http://datahub.io/
12
Figura 4: Conjuntos de dados publicados pelo projeto
À vista dos diversos formatos utilizados pelo Portal dos Dados Abertos, há a necessidade
de suportes lógicos para conversão em RDF. Destacam-se o Jena 12 , uma aplicação em
Java capaz de criar e ler grafos RDF, e o GraphDB 13 , sistema gerenciador de banco de
dados em grafos especializado em armazenar informações estruturadas no formato RDF.
Além dessas ferramentas, é relevante discutir sobre instrumentos de análise e mineração
de dados em grafo como o MRAR+.
3.1 Jena
13
org.apache.jena.rdf.model . Inicialmente cria-se uma interface Model vazia. Posterior-
mente, criam-se os recursos com suas respectivas propriedades. As propriedades são for-
necidas através de classes constantes providas pelo Jena para os namespaces apropriados.
Por fim, para que o programa escreva a saída em um modelo RDF XML utiliza-se o
model.write. Um exemplo de código está exemplificado em seguida.
R e s o u r c e f a m i l i a = model . c r e a t e R e s o u r c e ( personURI ) ;
f a m i l i a . addProperty (VCARD. FN, fullName ) ;
3.2 GraphDB
14
Figura 5: Banco de Dados GraphDB
3.3 MRAR+
15
Figura 6: Fluxo de trabalho do algoritmo MRAR. Fonte: Ramezani et al. (2014).
16
4 Interligação de Datasets
Na proposta de interligar os dados na Web de Dados, foram escolhidos como alvo dois
datasets. Será apresentado o JabotG desenvolvido por De Oliveira (2018), do Jardim
Botânico do Rio de Janeiro, e o GeoClimaAL desenvolvido pelo Estado do Alagoas e
publicado no Portal Brasileiro de Dados Abertos.
Figura 7: Modelo em grafo do dataset JabotG. Os nós são representados em círculos ovais e as arestas
em setas direcionadas, ambos apresentam um rótulo descritivo. Fonte: De Oliveira (2018).
14 http://jabot.jbrj.gov.br/
15 http://rs.tdwg.org/dwc/terms/
17
4.2 Dataset GeoClimaAL
ba3be49adc67/download/caracteristicasmuncipais.csv>
18
</ rdf:RDF>
5 Resultados e discussões
19
fornecidos pelo Jardim Botânico do Rio de Janeiro, cuja composição consiste de metadados
acerca de Espécies, Famílias, Gêneros, Coletores e Localidades. Na parte de Coletores,
foi viável buscar datasets com informações sobre pesquisadores.
Dentre os dados selecionados, foram levados em análise o dataset das Características
Municipais do Estado do Alagoas, dos pesquisadores da Universidade Federal do Rio
Grande do Norte17 e da Univerisdade Federal de Ouro Preto18 . Publicados em 19 de
Outubro de 2017 estão em formato CSV.
O dataset do IBGE acerca dos Biomas do Brasil19 também se mostra vantajoso na
medida em que mostra os biomas brasileiros e os tipos de vegetação que os integram.
No mesmo sentido, está o Clima do Brasil20 . Está descrito sobre três climas zonais e
suas subunidades regionais, assim como, as regiões térmicas e padrões de umidade e secas
mensais. Ambos estão redigidos em formato CSV.
Após análise minuciosa das informações presentes e a maneira como estão apresenta-
das, escolheu-se como objeto de estudo o dataset relacionado às características municipais
de Alagoas. Tendo em vista a futura interligação desses dados, analisou-se o acervo de
documentos em CSV do Jabot e verificou vínculo das tuplas através do metadado municí-
pio. Das ferramentas estudadas para conversão, utilizou-se do Banco de Dados GraphDB
devido à interface intuitiva e poderoso suporte lógico no tratamento de dados a partir
do formato CSV. De maneira eficiente, o software foi capaz de gerar o RDF através de
consultas SPARQL. O exemplo de recurso elaborado é apresentado no código abaixo.
c569acd76809/download/pesquisadores.csv
18 http://dados.ufop.br/dataset/efbc56f3-e188-4c40-8f4f-933f8f9dcf79/resource/1e6f5e98-c426-4c42-98e2-
9cf02c7f24e6/download/pesquisadores_v1_31082017.csv
19 http://www.geoservicos.ibge.gov.br/geoserver/wms?service=WFS&version=1.0.0&request=GetFeature&typeName=CREN:biomas_5000&
20 http://www.geoservicos.ibge.gov.br/geoserver/wms?service=WFS&version=1.0.0&request=GetFeature&typeName=CREN:ClimadoBrasi
20
dados no portal, estudo para ferramentas RDF assim como já foi realizada a triplificação
dos dados. A próxima etapa consiste em Interligar os datasets.
21
6 Conclusão
22
Referências
[1] SOUZA, Renato R.; ALVARENGA, Lidia. A Web Semântica e suas contribuições para
a ciência da informação. Ci. Inf., Brasília, v. 33, n. 1, p. 132-141, jan./abril 2004.
[4] SEGUNDO, José Eduardo Santarem. Web semantica, dados ligados e dados abertos:
uma visão dos desafios do brasil frente às iniciativas internacionais. Tendências da
Pesquisa Brasileira em Ciência da Informação, v. 8, n. 2, 2015.
[5] VAZ, José Carlos; RIBEIRO, Manuella Maia; MATHEUS, Ricardo. Dados governa-
mentais abertos e seus impactos sobre os conceitos e práticas de transparência no Brasil.
Cadernos ppg-au/ufba, v. 9, n. 1, 2010.
[6] OLIVEIRA, Felipe Alves de; CORTES, Yasmmin; ROCHA, Diogo S. B.; SIQUEIRA,
Marinez Ferreira de; SILVA, Luís Alexandre Estevão da; COSTA, Raquel L.; GOLDS-
CHMIDT, Ronaldo Ribeiro; CAVALCANTI, Maria Cláudia. JabotG: Extending the
Herbarium Dataset Frontiers. 2017.
[8] BASKAUF, Steven J. et al. Lessons learned from adapting the Darwin Core vocabulary
standard for use in RDF. Semantic Web, v. 7, n. 6, p. 617-627, 2016.
[9] CARTILHA. Cartilha técnica para Publicação de Dados Abertos no Brasil v1.0. Dispo-
nível em <http://dados.gov.br/pagina/cartilha-publicacao-dados-abertos>. Acessado
em 02 de Novembro de 2017.
[11] Gruber, Thomas R.; 1995. Towards Principles for the Design of Ontologies Used for
Knowledge Sharing. International Journal of Human and Computer Studies, 43(5/6):
907-928.
23
[12] AUER, S. Introduction to LOD2. In: AUER, S.; BRYL, V. ; TRAMP, S. (Org.).
Linked Open Data – Creating Knowledge Out of Interlinked Data. [S.l.]: Springer
International Publishing, 2014. p. 1–17.
[13] BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora. The Semantic Web: a
new form of Web content that is meaningful to computers will unleash a revolution of
new possibilities. Scientific American. 2001.
[15] Bizer, C., Heath, T., Berners-Lee, T.: Linked data - the story so far. Int. J. on
Semantic Web and Information Systems 5(3), 1-22 (2009).
[17] AGRAWAL, R.; IMIELINSKI, T. ; SWAMI, A. Mining association rules between sets
of items in large databases. SIGMOD Rec., v. 22, n. 2, p. 207–216, 1993. Disponível
em: <http://doi.acm.org/10.1145/170036.170072>. Acesso em: 25/08/2016.
24