Você está na página 1de 61

Instituto de Informática INF-UFG

Tópicos Especiais em Engenharia de Software 1-2017

Linked Open Data


Dados Abertos Conectados

Camila Maione
Ramayane Bonacin
Douglas Bernardes
Dados: produção e crescimento

● Estudo realizado em 2003 na Universidade de Berkeley:


○ 12 x 1018 bytes de dados antes da popularização dos computadores
○ Mais de 5 x 1018 bytes de dados somente em 2002
■ 90% armazenados em mídias magnéticas
Dados: produção e crescimento

Figura 1. Estimativa de
crescimento dos dados digitais
até 2020.
Fonte: (Isotani et. al, 2015)
Dados: produção e crescimento
● O que contribuiu para o crescimento desenfreado da produção de dados?
○ Avanços nos mecanismos de armazenamento
○ Surgimento de novos dispositivos geradores de dados
○ Conscientização quanto ao valor dos dados
○ Etc.
Dados Abertos Conectados

● Dados Abertos
● Dados Conectados
Dados Abertos

● Dados disponíveis para todos, para livre uso e reuso.

● Em 2009-2010, o presidente Barack Obama assinou um memorando


sobre Transparência e Governo Aberto.
○ Transparência e disponibilização dos dados governamentais
norte-americanos.
Dados Abertos

● Iniciativa do “Governo Aberto”: cooperação entre instituições públicas


para divulgação de seus dados administrativos.
○ 8 países fundadores: Brasil incluso
○ Intuito democrático e colaborativo.

● Dados de Governo Aberto (OGD): livre acesso, uso e reuso da informação.


○ Dados disponibilizados de maneira irrestrita em formato legível a humanos e
máquinas.
Dados Abertos
● Princípios dos dados governamentais abertos:
○ Completude
○ Originalidade
○ Rápida disponibilização
○ Acessibilidade
○ Legível para máquinas
○ Acesso indiscriminado
○ Dados não proprietários
○ Não estão sujeitos a licenças
Dados Abertos
● Fontes sobre OGD:
○ World Map of Open
Government Data
Initiatives
Dados Abertos
● Fontes sobre OGD:
○ Data Portals
Dados Conectados
● Dados estão espalhados pelo mundo, física e virtualmente. Como
encontrá-los?
● Em 1989: Sir Timothy John Berners-Lee apresentou a WWW
○ HyperText Markup Language (HTML)
○ HyperText Transfer Protocol (HTTP)
○ Universal Resource Identifier (URI)
● Em 1994: Berners-Lee fala sobre a necessidade de semântica na Web.
● Em 2006: Berners-Lee fala sobre dados conectados como subseção de
Web Semântica (“Design Issues”).
Dados Conectados

● Boas práticas para publicar e


conectar conjuntos de dados
estruturados na Web.
○ Parte da Web Semântica
○ “Web of Data” vs “Web of
Documents”
○ Padrões URIs, HTTP, RDF e
SPARQL para identificação,
acesso, representação e consulta
aos dados

Figura 2. Dados Conectados na Web


Semântica. Fonte: (Isotani et. al, 2015)
Dados Conectados

● De 2016 até aqui:


○ IBM anunciou o DB2, servidor de dados conectados
○ Facebook expôs seus dados conectados via Graph API
○ BBC passou a usar dados conectados para gerar páginas de três produtos
○ Outros governos passaram a disponibilizar seus dados em formato RDF
Dados Abertos e Conectados

Dados abertos

Dados abertos
conectados

Dados conectados
Dados Abertos e Conectados
● Sistema “5 estrelas” para classificação do grau de abertura dos dados:

Disponível na Web com licença livre

Estruturados (XLS ao invés de uma imagem de


planilha)

Estruturados em forma não proprietária (CSV ao


invés de XLS)

Padrões W3C (Identificação via URI, formato RDF…)

Conectados com outros dados


Dados Abertos Conectados
● Benefícios da publicação de dados:

Para quem consome Para quem publica

★ Ver, imprimir e guardar os ★ Simples de publicar


dados ★ Não precisa explicar
★ Modificar os dados a repetidamente que as
vontade pessoas podem fazer uso
★ Acessar dados de dos dados
qualquer sistema
★ Compartilhar o dado com
qualquer indivíduo
Dados Abertos Conectados
● Benefícios da publicação de dados:

Para quem consome Para quem publica

★ Os mesmos de 1 estrela ★ Simples de publicar


★ Usar softwares
proprietários para
processar os dados
★ Exportar os dados em
qualquer formato
Dados Abertos Conectados
● Benefícios da publicação de dados:

Para quem consome Para quem publica

★ Os mesmos de 2 estrelas ★ Mais simples ainda de


★ Usar qualquer software e publicar
linguagem para processar
os dados
Dados Abertos Conectados
● Benefícios da publicação de dados:

Para quem consome Para quem publica

★ Os mesmos de 3 estrelas ★ Controle dos itens de


★ Fazer marcações dados e melhore no
★ Reutilizar parte dos dados acesso
★ Reutilizar ferramentas e ★ Outros publicadores
bibliotecas de dados podem conectar dados
existentes aos seus
★ Combinar dados com
outros dados
Dados Abertos Conectados
● Benefícios da publicação de dados:

Para quem consome Para quem publica

★ Os mesmos de 4 estrelas ★ Dados mais fáceis de


★ Descoberta de dados serem descobertos
vinculados aos que se ★ Dados mais valiosos
está consumindo ★ Benefícios do vínculo
para organização e para
os consumidores
Dados Abertos Conectados
● O paradigma LOD já é utilizado por várias organizações e instituições.

● Principais vantagens sobre a gerência de dados tradicional:


○ Não há mais necessidade de especialistas
○ Custo e tempo reduzido para integração dos dados
○ Dados não estão mais isolados com suas aplicações

● Reutilização agrega valor aos dados.


Dados Abertos e Conectados - Estrutura

Figura 3. Web of
documents.
Fonte: (Isotani et. al, 2015)
Dados Abertos e Conectados - Estrutura

Figura 4. Web of data.


Fonte: (Isotani et. al, 2015)
Dados Abertos Conectados - Estrutura
● Formato RDFa: adiciona uma série de atributos às tags HTML
○ HTML para apresentar os dados
○ RDF para informar sobre os dados
○ Exemplo: http://5stardata.info/en/examples/gtd-4/

● Documentos HTML são exibidos com informações dos dados separadas.

● Enriquecimento dos resultados de máquinas de busca.


<table border="1px">
<tbody><tr>
<th>Day</th>
<th>Lowest Temperature (ºC)</th>
</tr>
<tr rel="meteo:forecast" resource="#forecast20101113" class="highlight">
<td>
<div about="#forecast20101113" class="highlight">
<span property="meto:predicted" content="2010-11-13T00:00:00Z"
<datatype="xsd:dateTime" style="border: 1px dotted red;">Saturday, 13 November 2010</span>
</div>
</td>
<td rel="meteo:temperature" class="highlight">
<div about="#temp20101113" class="highlight">
<span property="meto:celsius" datatype="xsd:decimal" style="border: 1px dotted red;">
2</span>
</div>
</td>
</tr>
...
Dados Abertos Conectados
● The Linked Open Data (LOD) Project: portal “home” para disponibilização
de dados abertos conectados.
○ Iniciado pelo W3C
○ http://linkeddata.org

● Diagrama do LOD em nuvens: dados publicados no formato LOD por


contribuidores no Data Hub.
○ http://lod-cloud.net
Publicando LODs
● Cultura de publicização de dados governamentais já existe (Ministério do
Planejamento, Orçamento e Gestão, 2017);

● Problema: não seguem os princípios de dados abertos;

● LOD: Compartilhamento dos dados, associados a metadados e modelos,


possibilitando reuso e redistribuição dos mesmos.
Publicando LODs
● Etapas:
○ Análise e preparação dos dados
○ Modelagem (escolha/criação de vocabulários, definição de URIs)
○ Escolha da licença
○ Conversão para RDF
○ Conexão com outros dados (antes de publicá-los)
○ Publicação e promoção do conjunto de dados
Publicando LODs
Análise e preparação dos dados

● Analisar os dados e selecionar quais são relevantes/úteis para


publicação;

● Limpar e formatar os dados, retirando toda informação desnecessária;

● Isto facilita a modelagem dos dados, independente da fonte .


Publicando LODs
Modelagem

● Existem vários vocabulários RDF que propiciam reuso;

● Escolher os vocabulários mais adequados ao domínio dos dados;

● Definir/criar URIs para cada um dos objetos ;

● Garantir sustentabilidade dos dados .


Publicando LODs
Modelagem (exemplos de vocabulários)
Publicando LODs
Modelagem (exemplos de vocabulários)
Publicando LODs
Modelagem (exemplos de vocabulários)
Publicando LODs
Escolha da licença

● Avaliar e especificar a licença sob a qual os dados serão disponibilizados;

● Evitar a reutilização num vazio legal;

● Se possível, utilizar uma licença já existente (facilita a interoperabilidade);

● Exemplos:
○ CC0 (Creative Commons);
○ ODC-BY e PDDL (Open Knowledge Foundation);
○ UK-OGL (UK Government).
Publicando LODs
Conversão para RDF

● Recomendação da W3C;

● Utilizar RDFa, adicionando atributos às tags HTML;

● Incluir a licença escolhida nos arquivos RDF;

● Assim, os dados e metadados ficam preparados para conexão/


ligação.
Publicando LODs
Conexão com outros dados (antes de publicá-los)

● Avaliar e escolher os conjuntos de dados mais relevantes para


conexão;

● Links podem apontar para :


○ Outros conjuntos de dados sob seu domínio ;
○ Conjuntos de dados de terceiros.

● Inserir, nas relações RDFa, indicações às conexões.


Publicando LODs
Publicação e promoção do conjunto de dados

● Publicar os dados na web e promovê-los;

● Sugestão: adicionar seus dados à nuvem LOD, fornecendo e


atualizando os metadados publicados ao catálogo central (CKAN);

● Fornecer descrições legíveis também para humanos, visando


reuso.
Publicando LODs

Figura 5. Ciclo de vida de LOGD na visão de Bernadette Hyland .


Fonte: (Adaptado de Bauer et. al, 2012)
Publicando LODs
● Boas práticas de publicação são esperadas para que a Web dos Dados
cresça:
○ Utilizar URIs para identificar recursos;
○ Utilizar URIs HTTP para que as pessoas possam procurar por estes
recursos;
○ Quando tal URI for consultada, prover informação útil/significativa;
○ Incluir, na definição de um dado, links para outras URIs, de forma
que ao consultá-lo mais conteúdo/informação sejam descobertos.
Consumindo LODs
● Conjuntos de dados são pontos de acesso para domínios específicos e
outros dados ligados a ele;

● Permite a obtenção de informações de alto nível, e de suas possíveis


correlações, a partir de fontes distribuídas;

● Provê menor replicação de dados;

● Permite a geração de novas informações através de dados conectados.


Consumindo LODs
● Considerações ao se consumir LODs:
○ Especificar casos de uso concretos;
○ Avaliar fontes e conjuntos de dados relevantes;
○ Checar as licenças;
○ Criar padrões de consumo;
○ Gerenciar alinhamento, caching e atualizações;
○ Criar/oferecer aplicações, serviços e GUIs eficientes;
○ Estabelecer parcerias sustentáveis.
Consumindo LODs
Especificar casos de uso concretos

● Definir/especificar casos de uso concretos que se deseja resolver;

● Que dados já estão disponíveis, e o que se deve obter de terceiros.


Consumindo LODs
Avaliar fontes e conjuntos de dados relevantes

● Avaliar fontes de LOD relevantes ao domínio do caso de uso


especificado;

● Qual a qualidade dos dados oferecidos? Quando foram atualizados?

● Utilizar máquinas de busca, como:


○ Sindice;
○ The Data Hub.
Consumindo LODs
Checar as licenças

● Avaliar as licenças providas pelo fornecedor do dado (inclusive se


permitem mash up com dados de terceiros);

● Evitar licenças sem limites claros;

● Contatar o fornecedor, caso necessário.


Consumindo LODs
Criar padrões de consumo

● Nem todos os dados fornecidos serão relevantes ao caso de uso


especificado;

● Padrões de consumo permitem especificar apenas os dados relevantes


em determinada fonte.
Consumindo LODs
Gerenciar alinhamento, caching e atualizações

● Estabelecer critérios de alinhamento de diferentes vocabulários;

● Criar mecanismos de cache para evitar que dados específicos fiquem


indisponíveis;

● Implementar, ainda, mecanismos para garantir o acesso a dados


sempre atualizados.
Consumindo LODs
Criar/oferecer aplicações, serviços e GUIs eficientes

● É importante prover GUIs e serviços ao usuário final para acesso aos


dados resultantes do mashup com os dados recém-obtidos.

Estabelecer parcerias sustentáveis

● Contatar os fornecedores e oferecer seus próprios dados para sua


utilização;
● Fomentar a colaboração e reuso dos dados.
Exemplos de sucesso de LODs
Exemplos de sucesso de LODs

Figura 6. Arquitetura do DBPedia.


Fonte: (Isotani et. al, 2015)
Exemplos de sucesso de LODs

○ Na Web desde 1994;

○ Atualmente faz reuso de vocabulários e catálogos de dados;

○ Tem o seu conteúdo armazenado utilizando uma TipleStore (ex.: OWLIM) e tendo uma

API para cada conteúdo com Dados Conectados.


Exemplos de sucesso de LODs

Figura 7. Exemplo de Dados Conectados da BBC.


Fonte: (Isotani et. al, 2015)
Exemplos de sucesso de LODs

Figura 8. Arquitetura de dados abertos da BBC.


Fonte: (Isotani et. al, 2015)
Exemplos de sucesso de LODs

○ Utiliza ontologias não somente para publicação de conteúdo, mas também para
decidir que gadget é disponibilizado;
○ Arquitetura baseada em dados conectados que faz uso de uma API Restful: Brainiak.
Exemplos de sucesso de LODs

Figura 9. Exemplo de uso de semântica no Globo Esporte.


Fonte: (Isotani et. al, 2015)
Exemplos de sucesso de LODs

Figura 10. Arquitetura da Globo para


interoperabilidade semântica dos portais.
Fonte: (Isotani et. al, 2015)
Exemplos de sucesso de LODs

○ Quase 19 mil catálogos de dados disponíveis;

○ Uma das formas que o portal disponibiliza é por meio da classificação das 5 estrelas.

Figura 11. Classificação dos catálogos do


portal com o esquema 5 estrelas. Fonte:
(Isotani et. al, 2015)
Exemplos de sucesso de LODs
Exemplos de sucesso de LODs

○ Consumo de LOD para fornecer perfis compreensíveis de países com energia limpa;

○ Informações sobre 243 municípios/regiões que tratam deste domínio;

○ Benefício do uso de dados conectados: divisão de responsabilidades.


Exemplos de sucesso de LODs
Exemplos de sucesso de LODs

○ A Springer Nature é uma editora líder mundial na área científica, tecnológica e


profissional de medicina (STM);
○ LOD implementado para tornar os dados sobre os procedimentos de conferência
publicados na Springer disponíveis na nuvem LOD;
○ Dados disponíveis sob a licença CC0;
○ Informações de quase 20 mil eventos/anais;
○ Grafo: http://lod.springer.com/live/
Referências
[1] Bauer F.; Kaltenböck M. “Linked Open Data: The Essentials”. Vienna:
Mono/monochrom, 2012.
[2] Bizer C.; Heath T.; Berners-Lee T. “Linked Data - The Story So Far”. International
Journal on Semantic Web and Information Systems, v. 5, p. 1-22, 2009.
[3] Isotani S.; Bittencourt I. I. “Dados abertos conectados”. São Paulo: Novatec Editora,
2015.
[4] Tummarello, G.; Delbru, R.; Oren, E. Sindice.com: “Weaving the Open Linked Data”.
The Semantic Web. Springer, Berlin, Heidelberg, 2007.
[5] Ministério do Planejamento, Orçamento e Gestão. Cartilha Técnica para Publicação de
Dados Abertos no Brasil v1.0. Disponível em:
<http://dados.gov.br/paginas/cartilha-publicacao-dados-abertos/>. Acesso em: 07 de
mai. 2017.

Você também pode gostar