Você está na página 1de 24

MINISTÉRIO DA DEFESA

EXÉRCITO BRASILEIRO
DEPARTAMENTO DE CIÊNCIA E TECNOLOGIA
INSTITUTO MILITAR DE ENGENHARIA
SEÇAO DE ENGENHARIA DE COMPUTAÇÃO

RELATÓRIO DE ACOMPANHAMENTO DO TRABALHO DE


INICIAÇÃO CIENTÍFICA

AMON RHANIERY BRITO MACHADO

INTERLIGANDO DATASETS NA WEB DE DADOS:


UM ESTUDO DE CASO

ORIENTADOR: MARIA CLÁUDIA REIS CAVALCANTI

Rio de Janeiro
2018
Conteúdo

1 Introdução 5
1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Objetivos e contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Estrutura da dissertação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Fundamentos 8
2.1 Web Semântica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Formato RDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Portal Brasileiro de Dados Abertos . . . . . . . . . . . . . . . . . . . . . . 10
2.4 LOD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3 Manipulação e Gerência de Dados em RDF 13


3.1 Jena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 GraphDB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.3 MRAR+ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4 Interligação de Datasets 17
4.1 Dataset JabotG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2 Dataset GeoClimaAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.3 Interligação dos datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.4 Explorando Datasets Interligados . . . . . . . . . . . . . . . . . . . . . . . 19

5 Resultados e discussões 19

6 Conclusão 22

2
Lista de siglas
API Application Programming Interface
CSV Comma-separated values
CKAN Comprehensive Knowledge Archive Network
DTD Document Type Definition
HTML HyperText Markup Language
IBGE Instituto Brasileiro de Geografia e Estatística
INDE Infraestrutura Nacional de Dados Espaciais
INDA Infraestrutura Nacional de Dados Abertos
JBRJ Jardim Botânico do Rio de Janeiro
KML Keyhole Markup Language
MRAR Mining Multi-Relation Association Rules
OGP Parceria Para o Governo Aberto
OWL Web Ontology Language
RDF Resource Description Framework
SGML Standard Generalized Markup Language
SPARQL SPARQL Protocol and RDF Query Language
URI Uniform Resource Identifers
XML eXtensible Markup Language
W3C World Wide Web Consortium

3
Resumo

A World Wide Web tem passado por transformações no que tange a publicação de
documentos. O grande volume de dados disponíveis na internet tem permitido novas
aplicações envolvendo máquinas e humanos. Para tanto, há a necessidade de se organizar
e recuperar informações de forma inteligente e automatizada. Deve-se elaborar e implantar
modelos que permitam a reutilização dos dados.
Desta forma, a W3C (World Wide Web Consortium) prega a utilização de estrutura
RDF juntamente com o uso de metadados para descrever recursos de forma significativa e
não ambígua. Ainda, propõe ser de suma importância, a implantação de ontologias no in-
tuito de cruzar informações de bases diferentes e manter os dados ligados semanticamente,
contribuindo com o aumento da rede de conhecimento na tomada de decisões.
Através da Convenção sobre a Diversidade Biológica, a área da botânica no Brasil tem
se esforçado em compartilhar as informações coletadas sobre dados ecológicos na forma
de dados abertos. Contudo, não há uma padronização de vocabulários e modelos. Isto
acarreta uma dificuldade na integração com as outras fontes. Dados publicados pelo Insti-
tuto Brasileiro de Geografia e Estatística, por exemplo, estão em divergência de formatos
e nomenclaturas de metadados com aqueles publicados pelo Jardim Botânico do Rio de
Janeiro, mesmo tratando do mesmo recurso. Portanto, pretende-se, neste trabalho, estru-
turar referências ecológicas relevantes publicadas através do Portal Brasileiro de Dados
Abertos e conseguir interligar essas informações com as fornecidas pelo JBRJ de forma a
contribuir para a Lei do Acesso a Informação.

4
1 Introdução

O Brasil é o país com a maior biodiversidade ecológica do planeta (SIBBR, 2017). Neste
contexto, a Convenção sobre a Diversidade Biológica, da qual o Brasil é país signatário,
recomenda a integração e disponibilização das informações acerca da biodiversidade de
maneira a apoiar a produção científica, assim como a tomada de decisões no que tange
à conservação ambiental e ao uso sustentável dos recursos naturais. Múltiplos portais da
Web fornecem dados onlines em relação a espécies tais como o Flora do Brasil1 e o Jabot2 .
Este é mantido pelo IPJBRJ (Instituto de Pesquisas Jardim Botânico do Rio de Janeiro)
e possui digitalizadas as coleções do próprio Instituto e de outras fontes.
Por outro lado, o governo federal disponibiliza dados e informações públicas através do
Portal Brasileiro de Dados Abertos seguindo a premissa do acesso a informação previsto
na Constituição Federal e na Declaração Universal dos Direitos Humanos. Este portal
tem por objetivo disponibilizar o acesso aos dados publicados por todos os órgãos do
governo federal, dentre eles, pelo Instituto Brasileiro de Geografia e Estatística, cujos
dados possuem informações ecológicas em formatos CSV (Comma-separated values) e
KML (Keyhole Markup Language).
No início dos anos 90, criou-se a World Wide Web no intuito de permitir a troca de
informações entre computadores em uma interface intuitiva. Contudo, com o acúmulo de
dados disponíveis nas páginas da Web e sua gama de aplicações viu-se a necessidade de
transformar o seu conceito para o que se chama de Web Semântica - o crescimento do
conteúdo disponível na rede promoveu a necessidade de que programas também pudessem
interagir com as páginas da web (SOUZA et al. 2004).
A fim de promover essa interoperabilidade, os pesquisadores se esforçam em publicar
recursos - textos e dados - na Web Semântica seguindo padrões, tais como o uso do
formato RDF (Resource Description Framework ) e XML(eXtensible Markup Language),
assim como identificá-los por URIs (Uniform Resource Identifers). Neste contexto, a
Linked Open Data se destaca em viabilizar boas práticas de publicação de datasets -
conjunto de dados publicados por uma organização (SEGUNDO, 2015) - com a utilização
de padrões de metadados e vocabulários uniformes para declarações no RDF (BIZER,
2009). Utiliza-se de ontologias na medida em que é importante para a interligação de
dados que as informações possam tratar de um contexto e vocabulários comuns, sem
1 http://floradobrasil.jbrj.gov.br
2 http://jabot.jbrj.gov.br/

5
ambiguidade. Ontologias definem um domínio e especificam uma conceitualização sobre
ele (GRUBER, 1995), isto é, são responsáveis pela estruturação das informações.

1.1 Motivação

A Web Semântica permite a criação de um catálogo de dados em que o responsável


pela publicação dita as regras para a sua interoperação (DE FREITAS, 2003). Uma das
boas práticas de publicação consiste em interligar os dados com outras fontes já existentes,
visando promover tanto a ampliação quanto a navegação pela rede. Interligação dos dados
é um dos estágios do ciclo de vida dos dados conectados (AUER, 2014). Para que essa
conexão se faça de maneira eficiente, é necessário que ambos os dados estejam tratando
do mesmo assunto. Desta forma, uma das metas da Web Semântica consiste em trazer
a compreensão exata das palavras e a relação entre elas (LEE, 2001). Contudo, há um
grande volume de dados abertos que não estão organizados segundo recursos de ontologias
da linguagem RDF.
Neste contexto, por exemplo, há um obstáculo ao tentar interligar os dados do portal
do governo federal e os publicados pelo Jabot, uma vez que neles encontram-se dados
ecológicos nos mais variados formatos e a utilização de vocabulários não padronizados,
porém, que tratam do mesmo assunto. Todavia, através de mecanismos de triplificação
de entidades é possível converter estes dados para formato RDF a fim de apurar ligações
entre os datasets do Jabot e aqueles publicados pelo IBGE.

1.2 Objetivos e contribuições

O principal objetivo é analisar a interligação de datasets para publicação na Web de


Dados. As contribuições esperadas consistem em: inicialmente, coletar dados relevantes
publicados pelo IBGE no Portal Brasileiro dos Dados Abertos3 no que tange a clima,
bioma, localidades e espécies; na posse destes dados, montar um dataset relevante em
formato RDF utilizando de ontologias padrões, como Darwin Core 4 e Dublin Core 5 , a fim
de os interligar a outros - também em RDF - oriundos do Jabot. A fim de satisfazer as
metas propostas e acompanhar o andamento do trabalho, está apresentado abaixo o cro-
nograma das atividades planejadas. O progresso do estudo segue conforme o determinado.
Até o presente momento foi realizado um levantamento dos dados do Portal Brasileiro de
3 http://dados.gov.br
4 http://rs.tdwg.org/dwc/terms/
5 http://dublincore.org/documents/dces/

6
Dados Abertos e uma revisão bibliográfica acerca da Web Semântica. Os próximos passos
consistem na escolha dos vocabulários a serem utilizados nas triplificações dos dados e na
pesquisa de ferramentas para produção de arquivos RDF.

Figura 1: Cronograma de pesquisa

1.3 Estrutura da dissertação

Na revisão bibliográfica são discutidos termos acerca da Web Semântica, assim como
melhores práticas para publicação de dados. É abordado o funcionamento do formato
RDF e uso de ontologias para organização das informações. Por outro lado, explica-se
o papel do Brasil no contexto de disponibilizar dados públicos através da metodologia
de Dados Abertos e sua ineficácia quanto à ligação semântica das ideias. Propõe-se,
portanto, nos Resultados e Discussões, a análise de uma coleção de dados obtidos do
Portal Brasileiro de Dados Abertos a fim de os adequar aos princípios propostos por
Berners Lee (BERNERS-LEE, 2001).

7
2 Fundamentos

É apresentado o conceito de Web Semântica assim como as melhores práticas no intuito


de publicar os dados, discorrendo sobre o uso do formato RDF, assim como a escolha
de modelos lógicos tendo em vista o auxilio na interpretação da informação, para que
máquinas e humanos possam analisar as informações.

2.1 Web Semântica

A linguagem utilizada para confecção de páginas Web é o HTML (HyperText Markup


Language), baseada em tags a fim de apresentar documentos em dispositivos de computa-
dor. É derivada do padrão SGML (Standard Generalized Markup Language) cuja principal
propriedade consiste em descrever outras linguagens. Esta descrição ocorre por meio do
DTD (Document Type Definition), um documento responsável por reunir o vocabulário
utilizado na escrita da linguagem. Este arquivo para o HTML é definido por convenções
que ocorrem pelo W3C - organização com fins de uniformização da World Wide Web.
A medida que cresce o compartilhamento de documentos na Web, se verifica a ne-
cessidade de se organizar e recuperar informações. Isto é, surge a conveniência de uma
extensão da Web - a Web Semântica - capaz de descrever semanticamente os dados e os
compartilhar permitindo que tanto pessoas quanto máquinas possam se comunicar. Tendo
em vista estes princípios, a W3C publicou uma recomendação de linguagem, o XML. Dife-
rente do HTML, o DTD desta linguagem pode ser definido pelo usuário no qual ele define
o padrão que será utilizado, permitindo maior flexibilidade na construção da semântica
dos dados e compartilhamento mais relevante entre os sistemas de informação. Por outro
lado, deve-se evitar a ambiguidade dos vocabulários utilizados através da escolha de me-
tadados. Entende-se por metadados, aqueles responsáveis por especificar a característica
das informações, isto é, dados sobre os dados. Desta forma, são estabelecidos ontologias
em conformidade com pesquisadores e desenvolvedores de aplicações.
A fim de permitir o compartilhamento da informação, se vê necessária a definição de
um documento no qual estejam definidas de maneira formal as relações entre termos e
conceitos (SOUZA et al., 2004). Este documento recebe o nome de ontologia. Nele são
descritos os relacionamentos entre as entidades dentro de um domínio específico. Assim
como os documentos da Web Semântica, estes também possuem padrões de linguagem
baseados em XML, tais como a OWL (Web Ontology Language). O emprego de ontologias

8
resulta em uma rapidez na publicação de dados além de contribuir com a recuperação da
informação. Todavia, encontrar o esquema lógico ideal para descrever os dados é uma
incoveniência visto que há uma imensidão de ontologias já publicadas e sendo implemen-
tadas nos datasets.
A versatilidade da linguagem XML implica na utilização de nomenclaturas diferentes
sobre um mesmo significado. Para evitar isso, padrões de metadados são combinados na
comunidade científica. Dentre as iniciativas desta área, destaca-se a Dublin Core. Pos-
sui padrão aceito internacionalmente e em sua forma simples possui quinze elementos de
metadados: title, creator, subject, description, publisher, contributor, date, type, format,
identifier, source, language, relation, coverage e rights. Title se refere ao título do recurso;
creator, ao indivíduo incumbido do conteúdo; subject, ao assunto tratado pelo documento;
description é a descrição das ideias expostas; publisher trata do responsável pela publi-
cação do conteúdo; contributor, daqueles que auxiliaram na confecção do documento; em
date se encontra a data de publicação do recurso; type indica uma classe à qual per-
tence o conteudo; format explicita a organização do documento; identifier designa um
identificador numérico para o conteúdo; source contém a fonte do conteúdo; language, a
linguagem utilizada; relation trata da forma como o conteúdo se relaciona com outros
recursos; coverage, da localização física do conteúdo; rights é uma conexão para uma nota
de copyright.

2.2 Formato RDF

No âmbito da Web Semântica, a W3C recomenda o uso do formato RDF para publicação
dos dados. Nele, utiliza uma infra-estrutura XML com um padrão de triplas para descrever
as informações na forma sujeito-predicado-objeto. Por sujeito, se compreende o recurso
- qualquer objeto da Internet que possa ser descrito -, sendo o predicado, a propriedade
a que pertence e que possui valor especificado no objeto. Os recursos são explicitados
através de URIs (Uniform Resource Identifier ), conjunto de caracteres responsáveis por
endereçar, de forma única, recursos da web. A interligação destes recursos acaba por
formar uma rede de grafos direcionada, a qual pode ser explicitada através de vcards.
A sintaxe padronizada do RDF permite que aplicações possam interagir de maneira
mais inteligente e automatizada, tendo em vista que os dados são manipulados através
dos descritores usando referências já compartilhadas. Além disso, este formato permite a
utilização de diversos padrões de metadados - namespaces - se tornando uma alternativa

9
Figura 2: Declaração RDF

viável caso se queira publicar vocabulários controlados. Apesar disso, estabelecer um


modelo lógico sobre ontologias é significativo quanto a manter uma contextualização entre
os termos de um domínio. No código abaixo está representado a descrição de um recurso
através do padrão RDF.

Código 1: Excerto de código RDF

<?xml version=" 1 . 0 " e n c o d i n g="UTF−8" ?>


<rdf:RDF
x m l n s : r d f s=" h t t p : //www. w3 . o r g /2000/01/ r d f −schema#"
x m l n s : r d f=" h t t p : //www. w3 . o r g /1999/02/22 − r d f −syntax−ns#"
x m l n s : x s d=" h t t p : //www. w3 . o r g /2001/XMLSchema#">

<r d f : D e s c r i p t i o n r d f : a b o u t=" h t t p : //www. ime . eb . br / ime . html ">


< r d f s : l a b e l r d f : d a t a t y p e=" h t t p : //www. w3 . o r g /2001/XMLSchema#l o n g "> I n s t i t u t o
M i l i t a r de Engenharia</ r d f s : l a b e l>
</ r d f : D e s c r i p t i o n>
</ rdf:RDF>

2.3 Portal Brasileiro de Dados Abertos

O Brasil tem se esforçado nos últimos anos em garantir a Lei do Acesso a Informação
(12.527/2011) sancionada em novembro de 2011 visto que em setembro de 2011, oito
nações se reuniram para formar a Parceria para o Governo Aberto4 (OGP). No intuito
de democratizar o acesso aos dados públicos governamentais, a Secretaria de Logística
e Tecnologia da Informação, pertencente ao Ministério do Planejamento, Orçamento e
Gestão, desenvolveu o Portal Brasileiro de Dados Abertos, uma estrutura baseada no
arquivo web, através da INDA (Infraestrutura Nacional de Dados Abertos) - um conjunto
4 https://www.opengovpartnership.org/

10
de padrões, tecnologias, procedimentos para compartilhamento das informações públicas
dentro do modelo de dados abertos (CARTILHA, 2017).
O portal almeja ser um núcleo para acesso aos dados fornecidos por todos os órgãos
do governo e é referência no que tange a publicação sistematizada dos dados. Atualmente
conta com 3395 datasets (sendo 461 postados pelo IBGE) incluindo 19675 recursos, po-
rém, a grande maioria dessas informações não estão no formato adequado para a Web
Semântica, desprezando as ligações semânticas que poderiam ter. Em suma, são formatos
HTML e CSV.
A Infraestrutura Nacional de Dados Espaciais (INDE) é responsável por muitos ca-
tálogos de dados geoespaciais publicados no portal. Inclui um visualizador (como mostra
a figura abaixo) que auxilia na consulta dos dados geográficos e os torna facilmente lo-
calizáveis. As unidades responsáveis por publicar os dados também estão encubidas pela
manutenção do portal, a fim de garantir o controle de acesso, integridade e autenticidade
das informações.

Figura 3: Camada de visualização provido pela INDE

2.4 LOD

Iniciativas ao redor do mundo se esforçam no processo de recuperação da informação.


Destacando-se a LOD (Linked Open Data 6 ), cujo cerne está em promover práticas7 para
publicação e interligação de dados de forma a produzir uma rede global de dados acessível
6 https://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
7 https://www.w3.org/DesignIssues/LinkedData.html

11
a todos. A vantagem dessa associação está em constituir um grafo, ferramenta matemática
poderosa na resolução de problemas. Os princípios dessa iniciativa consistem em utilizar
URI na nomeação de recursos, sendo ainda na forma HTTP a fim de permitir posterior
consulta com retorno em um arquivo RDF válido.
Destaca-se, por outro lado, a importância da inserção de links a outras URIs dentro
das proposições no arquivo RDF, contribuindo para a navegação nesta rede de informa-
ções. Navegadores da Web semântica e ferramentas de pesquisa realizam consultas, cujos
retornos são utilizados por diversas aplicações, através das ligações externas feitas nesses
datasets.
Atualmente, diversas iniciativas já publicam seus conjuntos de dados como o Geo-
names8 , Bibliografia DBLP9 e Wikipedia10 . Tais informações estão acessíveis via Da-
taHub11 e podem ser processadas por aplicações CKAN (Comprehensive Knowledge Ar-
chive Network). Cita-se o DBpedia como o dataset mais conhecido nesta área, tendo
em vista os esforços em extrair informação da Wikipedia e tornar disponível na Web,
permitindo interligação com outros conjuntos de dados (DBPEDIA, 2017). Cidades pre-
sentes neste conjunto de dados estão descritas através de ligações owl:sameAs para suas
referências naquele do Geonames.
As bases de conhecimento disponíveis são as responsáveis por dar suporte a integração
de informações. A Wikipedia tem um importante papel neste aspecto na medida em que
é mantida por milhares de contribuintes e aborda os mais variados domínios. A DBpedia
já extraiu dados sobre cerca de 1,445,000 pessoas, 735,000 lugares, 241,000 organizações,
251,000 espécies, dentre outros. Totaliza ao todo 4,58 milhões de recursos sendo 4,22
milhões baseados em ontologias consistentes (DBPEDIA, 2017). Além disso, a informação
disponível está sendo traduzida para outros cento e vinte cinco idiomas.
No contexto de Web Semântica e publicação de arquivos em RDF, a comunidade
DBPedia disponibiliza o conteúdo através de SPARQL endpoint. Portanto, sua variedade
de domínios e disponibilização de dados em RDF a torna viável de estudo para possível
interligação com os dados publicados pelo Jardim Botânico do Rio de Janeiro.
8 http://www.geonames.org/
9 http://dblp.uni-trier.de/db/
10 https://www.wikipedia.org/
11 http://datahub.io/

12
Figura 4: Conjuntos de dados publicados pelo projeto

3 Manipulação e Gerência de Dados em RDF

À vista dos diversos formatos utilizados pelo Portal dos Dados Abertos, há a necessidade
de suportes lógicos para conversão em RDF. Destacam-se o Jena 12 , uma aplicação em
Java capaz de criar e ler grafos RDF, e o GraphDB 13 , sistema gerenciador de banco de
dados em grafos especializado em armazenar informações estruturadas no formato RDF.
Além dessas ferramentas, é relevante discutir sobre instrumentos de análise e mineração
de dados em grafo como o MRAR+.

3.1 Jena

Tendo em vista a necessidade de padronização dos datasets, é necessário converter os


formatos existentes para o RDF. Para tanto, é necessário o uso de softwares que auxiliem
neste processo. Dentre as APIs existentes, destaca-se a Jena. Desenvolvida em Java, é
capaz de criar e manipular grafos RDF contando com classes e interfaces designadas aos
grafos, recursos, propriedades e literais.
O código responsável para criar as sentenças RDF é composto pelo pacote
12 https://jena.apache.org/
13 https://ontotext.com/products/graphdb/

13
org.apache.jena.rdf.model . Inicialmente cria-se uma interface Model vazia. Posterior-
mente, criam-se os recursos com suas respectivas propriedades. As propriedades são for-
necidas através de classes constantes providas pelo Jena para os namespaces apropriados.
Por fim, para que o programa escreva a saída em um modelo RDF XML utiliza-se o
model.write. Um exemplo de código está exemplificado em seguida.

Código 2: Excerto de código em java


s t a t i c S t r i n g personURI = " h t t p : / / ime . eb . br / b o t a n i c g a r d e n#Family " ;
s t a t i c S t r i n g fullName = " Family " ;

Model model = ModelFactory . c r e a t e D e f a u l t M o d e l ( ) ;

R e s o u r c e f a m i l i a = model . c r e a t e R e s o u r c e ( personURI ) ;
f a m i l i a . addProperty (VCARD. FN, fullName ) ;

model . w r i t e ( System . out ) ;

3.2 GraphDB

O uso de Sistemas Gerenciadores de Banco de Dados em Grafos tem se difundido jun-


tamente com o conceito da Web de Dados, na medida em que é capaz de coordenar a
interconectividade dos dados, facilitando o desenvolvimento de modelos complexos. Den-
tre os disponíveis no mercado se evidencia o GraphDB, tendo em vista a facilidade de
instalação e ferramentas poderosas as quais se baseiam nos padrões exigidos pela W3C.
O GraphDB conta com versão gratuita para uso, além de suporte a formatos comuns
tais como CSV, Excel e JSON. É capaz de extrair informações desses formatos e limpar os
dados disponibilizando-os em um endpoint virtual. Por outro lado, há a possibilidade de
publicar, compartilhar as informações e fundamenta-las em vocabulários padronizados.

14
Figura 5: Banco de Dados GraphDB

3.3 MRAR+

No intuito de assistir os processos em tomadas de decisões, é necessário extrair o co-


nhecimento não usualmente observado, a partir dos dados. Desta forma, faz-se uso da
mineração de dados no KDD (Knowledge-Discovery in Database). Dentre suas atividades,
destaca-se a Mineração de Regras de Associação, capaz de identificar padrões frequentes
em um conjunto de dados (DE OLIVEIRA, 2018).
Dado o corrente uso de grafos para explicitar a interligação dos dados, cabe ilustrar
o Mining Multi-Relation Association Rules, MRAR. Este algoritmo apresentado por Ra-
mezani et al. (2014) gera regras de associação a partir de um grafo direcionado com nós e
arestas. Consiste em obter caminhos que aparecem frequentemente a partir de três algo-
ritmos menores exibidos na figura abaixo. O primeiro é responsável por compartilhar os
atributos de entrada dos algoritmos seguintes, como informações das entidades, relações
e nós. O segundo gera uma lista de itens frequentes dentro dos parâmetros passados. Por
fim, o último algoritmo faz uma verificação dos itens presentes na lista anterior os combi-
nando. Esta combinação é, então, utilizada para gerar uma lista com regras de associação
de multirrelação.
Por outro lado, com o objetivo de gerar novas regras de multirrelação através dos
recursos externos, De Oliveira (2018) explicita o MRAR+. Através desta evolução do

15
Figura 6: Fluxo de trabalho do algoritmo MRAR. Fonte: Ramezani et al. (2014).

MRAR é possível expandir o dataset e acessar informações de outros conjuntos disponíveis


na Web de Dados.

16
4 Interligação de Datasets

Na proposta de interligar os dados na Web de Dados, foram escolhidos como alvo dois
datasets. Será apresentado o JabotG desenvolvido por De Oliveira (2018), do Jardim
Botânico do Rio de Janeiro, e o GeoClimaAL desenvolvido pelo Estado do Alagoas e
publicado no Portal Brasileiro de Dados Abertos.

4.1 Dataset JabotG

O dataset do JBRJ possui informações acerca de coleções científicas denominado Ja-


bot14 . De Oliveira (2018) tratou os dados no intuito de representa-lo em um grafo, origi-
nando o JabotG.
Na figura abaixo percebe-se a utilização dos namespaces dwc15 e jbg. Dwc faz referên-
cia aos termos da ontologia Darwin Core. Já o jbg é um namespace próprio desenvolvido
na ausência de referências melhores para descrever as características dos recursos.

Figura 7: Modelo em grafo do dataset JabotG. Os nós são representados em círculos ovais e as arestas
em setas direcionadas, ambos apresentam um rótulo descritivo. Fonte: De Oliveira (2018).

14 http://jabot.jbrj.gov.br/
15 http://rs.tdwg.org/dwc/terms/

17
4.2 Dataset GeoClimaAL

O dataset das Características Municipais do Estado do Alagoas16 , cuja composição


consiste de informações acerca do ano de instalação, Altitude, Coordenadas Geográficas,
Clima e Temperatura. Foi publicado no Portal em 05 de Janeiro de 2018 através da
Secretaria de Estado do Planejamento, Gestão e Patrimônio e encontra-se no formato
CSV. Através do GraphDB foi possível gerar sua versão RDF.

Código 3: Exemplo de recurso presente no código em RDF

<?xml version=" 1 . 0 " e n c o d i n g="UTF−8" ?>


<rdf:RDF
x m l n s : i b g e=" h t t p s : // c i d a d e s . i b g e . gov . br / "
x ml ns:g n=" h t t p : //www. geonames . o r g / o n t o l o g y#"
x m l n s : r d f s=" h t t p : //www. w3 . o r g /2000/01/ r d f −schema#"
x m l n s : d c=" h t t p : // p u r l . o r g / dc / e l e m e n t s / 1 . 1 / "
x m l n s : g e o=" h t t p : //www. w3 . o r g /2003/01/ geo / wgs84_pos#"
x m l n s : d s=" h t t p : // dados . gov . br / d a t a s e t / c a r a c t e r i s t i c a s −m u n i c i p a i s / "
x m l n s : r d f=" h t t p : //www. w3 . o r g /1999/02/22 − r d f −syntax−ns#"
x m l n s : o w l=" h t t p : //www. w3 . o r g /2002/07/ owl#"
x m l n s : x s d=" h t t p : //www. w3 . o r g /2001/XMLSchema#"
x m l n s : f n=" h t t p : //www. w3 . o r g /2005/ xpath−f u n c t i o n s#">

<r d f : D e s c r i p t i o n r d f : a b o u t=" h t t p s : // c i d a d e s . i b g e . gov . br /2700102 ">


<r d f : t y p e r d f : r e s o u r c e=" h t t p : //www. geonames . o r g / o n t o l o g y#P" />
<r df s: mem ber r d f : r e s o u r c e=" h t t p : // dados . gov . br / d a t a s e t / c a r a c t e r i s t i c a s −
m u n i c i p a i s / " />
< r d f s : l a b e l r d f : d a t a t y p e=" h t t p : //www. w3 . o r g /2001/XMLSchema#l o n g ">2700102</
r d f s : l a b e l>
<gn:P>Agua Branca</ gn:P>
<d c : d a t e r d f : d a t a t y p e=" h t t p : //www. w3 . o r g /2001/XMLSchema#l o n g ">1875</
d c : d a t e>
< g e o : a l t r d f : d a t a t y p e=" h t t p : //www. w3 . o r g /2001/XMLSchema#l o n g ">570</ g e o : a l t
>
< g e o : l a t>8 . 7 3 9 3 2 6 6 9 6 6 3</ g e o : l a t>
<g e o : l o n g> −37.9367429386</ g e o : l o n g>
<d s : c l i m a>T r o p i c a l chuvoso com v e r ã o s e c o e i n v e r n o chuvoso</ d s : c l i m a>
<ds:tempMax>32</ ds:tempMax>
<ds:tempMin>16</ ds:tempMin>
</ r d f : D e s c r i p t i o n>
16 <http://dados.al.gov.br/dataset/e2745b54-7ecf-44f7-86ea-b1d627face9c/resource/f0bdb252-39b2-45cb-a7e5-

ba3be49adc67/download/caracteristicasmuncipais.csv>

18
</ rdf:RDF>

Figura 8: Declaração RDF

4.3 Interligação dos datasets

A fim de extrair informações acerca do dataset GeoClimaAL, pretende-se, como ati-


vidade futura, fazer uso das ferramentas de mineração de dados apresentadas. A ideia
é introduzir como recurso externo ao dataset JabotG, utilizando a propriedade sameAs
para as instancias dos municípios.

4.4 Explorando Datasets Interligados

Através do MRAR+, será capaz de descobrir regras de associação entre os recursos


externos de um dataset, é possível obter as relações entre os recursos do JabotG e Geo-
ClimaAL.

5 Resultados e discussões

Navegando através do Portal Brasileiro de Dados Abertos, buscou-se analisar os dados


publicados pelo Instituto Brasileiro de Geografia e Estatística, visto que tratam de Biomas,
Unidades de Conservação, Relevo, Clima, Umidade, etc. Estes assuntos são escolhidos
na medida em que o foco deste trabalho consiste em interligar esses dados com aqueles

19
fornecidos pelo Jardim Botânico do Rio de Janeiro, cuja composição consiste de metadados
acerca de Espécies, Famílias, Gêneros, Coletores e Localidades. Na parte de Coletores,
foi viável buscar datasets com informações sobre pesquisadores.
Dentre os dados selecionados, foram levados em análise o dataset das Características
Municipais do Estado do Alagoas, dos pesquisadores da Universidade Federal do Rio
Grande do Norte17 e da Univerisdade Federal de Ouro Preto18 . Publicados em 19 de
Outubro de 2017 estão em formato CSV.
O dataset do IBGE acerca dos Biomas do Brasil19 também se mostra vantajoso na
medida em que mostra os biomas brasileiros e os tipos de vegetação que os integram.
No mesmo sentido, está o Clima do Brasil20 . Está descrito sobre três climas zonais e
suas subunidades regionais, assim como, as regiões térmicas e padrões de umidade e secas
mensais. Ambos estão redigidos em formato CSV.
Após análise minuciosa das informações presentes e a maneira como estão apresenta-
das, escolheu-se como objeto de estudo o dataset relacionado às características municipais
de Alagoas. Tendo em vista a futura interligação desses dados, analisou-se o acervo de
documentos em CSV do Jabot e verificou vínculo das tuplas através do metadado municí-
pio. Das ferramentas estudadas para conversão, utilizou-se do Banco de Dados GraphDB
devido à interface intuitiva e poderoso suporte lógico no tratamento de dados a partir
do formato CSV. De maneira eficiente, o software foi capaz de gerar o RDF através de
consultas SPARQL. O exemplo de recurso elaborado é apresentado no código abaixo.

Figura 9: Cronograma atualizado

Como trabalho realizado até o presente momento, conta-se com um levantamento de


17 http://dados.ufrn.br/dataset/d92811a3-5555-4b37-beea-525bb2827cae/resource/6bcc227e-2dcc-48ea-9141-

c569acd76809/download/pesquisadores.csv
18 http://dados.ufop.br/dataset/efbc56f3-e188-4c40-8f4f-933f8f9dcf79/resource/1e6f5e98-c426-4c42-98e2-

9cf02c7f24e6/download/pesquisadores_v1_31082017.csv
19 http://www.geoservicos.ibge.gov.br/geoserver/wms?service=WFS&version=1.0.0&request=GetFeature&typeName=CREN:biomas_5000&
20 http://www.geoservicos.ibge.gov.br/geoserver/wms?service=WFS&version=1.0.0&request=GetFeature&typeName=CREN:ClimadoBrasi

20
dados no portal, estudo para ferramentas RDF assim como já foi realizada a triplificação
dos dados. A próxima etapa consiste em Interligar os datasets.

21
6 Conclusão

A evolução da tecnologia em conjunto com o aumento na quantidade de informações


disponíveis de forma online provoca a criação de um novo método de organizar e recuperar
os dados. Para isso, é criado e implantado padrões que permitem reutilizar os dados de
forma a humanos e máquinas se comunicarem em uma maneira inteligente e não ambígua.
Busca-se também viabilizar o conteúdo dos datasets através de descritores cujas relações
estão definidas em ontologias já aceitas pela comunidade científica.
A interligação semântica entre os dados ocorre de maneira eficaz quando estes estão
de acordo com as melhores práticas defendidas pela LOD. Contudo, a grande parte dos
dados disponíveis no Portal Brasileiro de Dados Abertos estão em formatos diferentes
do RDF e descritos através de vocabulários variados causando ambiguidade. Portanto,
objetivou-se neste trabalho reestruturar as informações de determinados datasets. Devido
a grande quantidade de dados publicados, restringiu-se na escolha de recursos na área
ecológica, tendo em vista os recentes trabalhos do Jardim Botânico do Rio de Janeiro de
publicar triplas sobre suas plantas, nos moldes da Web Semântica.

22
Referências

[1] SOUZA, Renato R.; ALVARENGA, Lidia. A Web Semântica e suas contribuições para
a ciência da informação. Ci. Inf., Brasília, v. 33, n. 1, p. 132-141, jan./abril 2004.

[2] DE FREITAS, Frederico Luiz Gonçalves. Ontologias e a web semântica. Jornada de


Mini-Cursos em Inteligencia Artificial, SBC, v. 8, 2003.

[3] CARLAN, Eliana. Ontologia e web semântica. 2006.

[4] SEGUNDO, José Eduardo Santarem. Web semantica, dados ligados e dados abertos:
uma visão dos desafios do brasil frente às iniciativas internacionais. Tendências da
Pesquisa Brasileira em Ciência da Informação, v. 8, n. 2, 2015.

[5] VAZ, José Carlos; RIBEIRO, Manuella Maia; MATHEUS, Ricardo. Dados governa-
mentais abertos e seus impactos sobre os conceitos e práticas de transparência no Brasil.
Cadernos ppg-au/ufba, v. 9, n. 1, 2010.

[6] OLIVEIRA, Felipe Alves de; CORTES, Yasmmin; ROCHA, Diogo S. B.; SIQUEIRA,
Marinez Ferreira de; SILVA, Luís Alexandre Estevão da; COSTA, Raquel L.; GOLDS-
CHMIDT, Ronaldo Ribeiro; CAVALCANTI, Maria Cláudia. JabotG: Extending the
Herbarium Dataset Frontiers. 2017.

[7] SILVA, Luís Alexandre Estevão da et al. Jabot-Botanical Collections Management


System: the experience of a decade of development and advances. Rodriguésia, v. 68,
n. 2, p. 391-410, 2017.

[8] BASKAUF, Steven J. et al. Lessons learned from adapting the Darwin Core vocabulary
standard for use in RDF. Semantic Web, v. 7, n. 6, p. 617-627, 2016.

[9] CARTILHA. Cartilha técnica para Publicação de Dados Abertos no Brasil v1.0. Dispo-
nível em <http://dados.gov.br/pagina/cartilha-publicacao-dados-abertos>. Acessado
em 02 de Novembro de 2017.

[10] SIBBR. Sistema de Informação sobre a Biodiversidade Brasileira. Disponível em


<http://www.sibbr.gov.br/>. Acessado em 02 de Novembro de 2017.

[11] Gruber, Thomas R.; 1995. Towards Principles for the Design of Ontologies Used for
Knowledge Sharing. International Journal of Human and Computer Studies, 43(5/6):
907-928.

23
[12] AUER, S. Introduction to LOD2. In: AUER, S.; BRYL, V. ; TRAMP, S. (Org.).
Linked Open Data – Creating Knowledge Out of Interlinked Data. [S.l.]: Springer
International Publishing, 2014. p. 1–17.

[13] BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora. The Semantic Web: a
new form of Web content that is meaningful to computers will unleash a revolution of
new possibilities. Scientific American. 2001.

[14] DBPEDIA. DBpedia. Disponível em <http://wiki.dbpedia.org/>. Acessado em 16


de Novembro de 2017.

[15] Bizer, C., Heath, T., Berners-Lee, T.: Linked data - the story so far. Int. J. on
Semantic Web and Information Systems 5(3), 1-22 (2009).

[16] DE OLIVEIRA, Felipe Alves. Mineração de Regras de Associação de Multirrelação


em datasets na web de dados. Rio de Janeiro: Instituto Militar de Engenharia, 2018.

[17] AGRAWAL, R.; IMIELINSKI, T. ; SWAMI, A. Mining association rules between sets
of items in large databases. SIGMOD Rec., v. 22, n. 2, p. 207–216, 1993. Disponível
em: <http://doi.acm.org/10.1145/170036.170072>. Acesso em: 25/08/2016.

[18] RAMEZANI, R.; SARAEE, M. ; NEMATBAKHSH, M. A. MRAR : Mining Multi-


Relation Association Rules. Journal of Computing and Security, v. 1, n. 2, p.133–158,
2014.

24

Você também pode gostar