Você está na página 1de 28

DISCIPLINA.......

: Tecnologia da Informação e Desenvolvimento


CURSO............: DAE
PROFESSOR......: Eduardo Diniz

Aluno: Newton Vagner Diniz, número 53328

TRABALHO FINAL DA DISCIPLINA

“A PROMESSA NÃO REALIZADA DOS DADOS ABERTOS: UMA


REVISÃO DA LITERATURA”

10 de junho de 2016

1
1. Introdução

Governos permanentemente coletam dados de cidadãos, empresas,


organizações públicas e não governamentais, veículos, clima, economia, saúde etc.
Ao disponibilizar esses dados em formato aberto, tem-se a expectativa de que grandes
coisas acontecerão, nunca antes acontecidas. O W3C (2011) elencou os benefícios dos
dados abertos assim:
- mais transparência e controle democrático
- aumento da participação popular
- mais poder aos cidadãos
- geração de novos negócios e novos serviços privados
- fomento à inovação
- melhoria na qualidade, efetividade e eficiência dos serviços públicos
- medicão de impacto das políticas públicas
- produção de conhecimento a partir da combinação de dados
Helbig et al (2012) aponta que dados abertos aprimoram a governança da
informação ao expandir a informação de tal maneira que atraem novos atores,
interesses e influências para o processo de tomada de decisão governamental.
Heimstadt et al (2014) utiliza a definição de dados abertos elaborada pela
Open Knowledge Foundation: “Um dado ou conteúdo é aberto quando estes podem
ser livremente usados, modificados e compartilhados por qualquer um, sujeito apenas
às restrições de creditar a sua autoria e compartilhar pela mesma licença.”
Segundo Tran e Scholtes (2015) esses princípios que suportam o movimento
recente de dados abertos já existe há mais de um século. No entanto o conceito de
dados abertos ainda permanece vago.

“Para alguns, o conceito de dados abertos significam a disponibilização de


dados abertos para download. Outros interpretam dados abertos como
disponibilização de dados para alavancar a economia. Ainda, outros
consideram dados abertos um programa de publicação de dados sobre
governos. Esta definição vaga tem fragmentado a comunidade de dados
abertos.

2
Ainda seria possível acrescentar que para muitos dados abertos significam
transparência na gestão pública e vice-versa. Peled (2013) separa claramente os dois
conceitos. Para o autor transparência é quando o governo garante a indivíduos e
organizações acesso à informações governamentais. Dados abertos é a exigência de
que governos liberem na Web dados confiáveis, de alta qualidade, completos e
atualizados de uma forma que possa ser baixado para um dispositivo pessoal, em
formato não-proprietário e livre de licenças.
Esse movimento de dados abertos tem sido uma promessa de transformações
para países emergentes e em desenvolvimento. Organizações como Web Foundation 1,
The Open Data Institute2 e International Development Research Center – IDRC 3
desenvolvem projetos amplamente apoiados no uso e fomento aos dados abertos em
países da África, Ásia e América Latina.
Apesar de defensores de dados abertos afirmarem que o custo de
disponibilizar dados é desprezível e os benefícios são infinitos, existe uma série de
limitações que bloqueiam a liberação do potencial sem fim dos dados abertos. Peled
(2013) argumenta que o programa de dados abertos sofre porque o projeto conceitual
foi ruim em seu início, a execução cheio de falhas e as consequências adversas.
O objetivo desse artigo é buscar na literatura sobre dados abertos o
entendimento de como funciona a disponibilização de dados em formato aberto, seu
ciclo, ecossistema e atores e investigar as razões pelas quais vários autores não
compartilham do ufanismo que alavancou o movimento de dados abertos a partir do
posicionamento firme do presidente dos Estados Unidos, Barack Obama, sobre
Governo Aberto e sobre política de dados abertos, em 2009.
É também proposta desse artigo apontar, se identificados, que impactos esses
problemas trazem para países em desenvolvimento.
Essa parte introdutória é uma apresentação do tema central e dos tópicos desse
artigo. Na parte 2 é apresentado o ciclo de vida dos dados abertos, da sua produção até

1
Web Foundation é uma organizaçã o internacional com sede em Londres, criado por Sir Tim Bernerts-Lee em 2009 que
se propõ e a promover a Web como um bem pú blico e um direito das pessoas e que estas possam usar a Web livremente.
Site: http://webfoundation.org/
2
The Open Data Institute é uma organizaçã o sem fins lucrativos, criada pelo Governo do Reino Unido, Sir Tim Berners-
Lee e Prof. Nigel Shadbolt, para promover o uso dos dados abertos e trazer seus benefícios para a sociedade e empresas.
Site: http://theodi.org/about-us
3
International Research Development Centre é uma organizaçã o sem fins lucrativos do Governo canadense, com sede em
Ottawa, para o provimento de fundos para pesquisa em países em desenvolvimento com objetivo de promover o
crescimento, reduzir a pobreza e promover mudanças significativas. Site: https://www.idrc.ca/en/about-idrc

3
o seu consumo, buscando entender como cada parte interage com a outra e o resultado
de cada uma delas. Na parte 3 expõe-se como cada etapa adiciona valor às demais e o
que faz o dado em formato aberto tornar-se um ativo precioso. Na parte 4 apresenta-se
os atores e seus papeis no ecossistema de dados abertos criado e a importância de
cada um deles. Na parte 5, traz-se para discussão os problemas com a prática de
abertura de dados encontrados na literatura. No mesmo tópico foram apresentadas as
soluções. Alguns autores abordaram os problemas pela teoria de sistemas, outros pela
teoria da cadeia de valor e um se aproximou da teoria estruturalista.
Esse artigo não se propõe a discutir ou comparar o uso dessas teorias na
abordagem do tema, mas limita-se a registrar os problemas e soluções na prática de
abertura de dados que os autores encontraram usando as teorias.

2. Ciclo de vida dos dados abertos

Compreender como os dados surgem como uma pedra na sua forma mais bruta
e se transformam em algo precioso para quem os consome torna-se relevante para
identificar a geração de valor nessa trajetória dos dados e como é adicionado ainda
mais valor a dados disponibilizados em formato aberto.
Há diversos autores que buscaram compreender e sistematizar o ciclo de vida
dos dados abertos, desde o momento em que eles “surgem” até o momento em que
eles são consumidos pelos usuários.
Para Helbig et al (2012), as diferentes propostas para ciclo de vida de dados
abertos podem ser resumida em criação dos dados pelo governo, abertura, isto é, a
transformação dos dados para que a sua reutilização seja fácil e finalmente a
publicação ou disponibilização dos dados.
Hyland et al (2011) propõe um ciclo de vida para dados abertos com foco na
conexão entre dados. As etapas do ciclo são Identificação, Modelagem, Nomeação,
Descrição, Conversão, Publicação e Manutenção. Conforme ilustrado na figura 1
abaixo, o ciclo de vida é sequencial e realimentado pela atividade de manutenção. Por
ter um foco específico em dados conectados, o início do ciclo já parte do pressuposto
da existência de um banco de dados cuja estrutura precisa ser identificada claramente,
para então ser possível modelar os dados e suas conexões. A seguir, a autora propõe

4
que os dados devam ser perfeitamente identificados utilizando vocabulários para
descrevê-los. Para poder publicá-los em formato aberto com propriedades semânticas,
é necessário cumprir a etapa de conversão que vai transformar os dados de tal maneira
que eles poderão ser conectados a outros automaticamente.

Figura 1 – Ciclo de vida dos dados abertos conectados proposto por Hyland et al (2011)

Hausenblas et al (2012), também com foco na conexão entre dados, propõem


um esquema complexo para o ciclo de vida dos dados abertos, porém de fácil
compreensão. A figura 2 abaixo mostra um diagrama que combinam atividades
(services), dados (data) e agentes (agents). Da mesma forma que Hyland, os autores
iniciam o ciclo a partir de banco de dados existente, transformando o formato dos
dados em outro formato o mais aberto possível (HAUSENBLAS, 2012) para serem
reutilizados em outros contexto ou para conectá-los por meio de conectores (links).
Nesse ciclo, existem os provedores dos dados e os seus consumidores. Entre eles,
existem os intermediários que são os atores que vão promover a abertura dos dados, a
sua conexão com outros dados e a criação de uma plataforma adequada para que eles
sejam reutilizados.

5
Figura 2 – Ciclo de vida dos dados abertos conectados proposto por Hausenblas et al (2012)

Van den Broek et all (2011) produziram uma visualização do ciclo de vida dos
dados abertos bastante didática mostrada na figura 3. As etapas do ciclo de vida são
identificação, preparação, publicação, reutilização e avaliação. Na etapa de
identificação define-se a estratégia e os dados a serem publicados. Na etapa de
preparação, define-se os requisitos de qualidade e padronização bem como a
preparação dos dados para serem publicados em formado aberto. A seguir, a fase de
publicação dos dados deve garantir que os dados sejam encontrados facilmente. No
entanto, o fato dos dados estarem publicados em formato aberto na Web não é
garantia suficiente de que eles serão utilizados. Assim, na etapa de publicação é
importante a atividade de promoção e incentivo ao reuso para que na próxima etapa
seja possível criar comunidades de uso. Finalmente, fechando o ciclo, os autores
propõem a etapa de avaliação na qual se considera todo o processo de abertura de
dados e seu respectivo reuso para alimentar a redefinição da estratégia e seleção de
novos conjuntos de dados para abertura.

6
Figura 3 – Ciclo de vida dos dados abertos proposto por Van den Broed et al (2011)

Por sua vez, a proposta de ciclo de vida feita pelos pesquisadores da


Universidade de São Paulo, Nicolau Reinhard e Edson Germano, conforme ilustração
dos autores na Figura 4, é composta das atividades produzir e coletar, publicar,
acessar e usar (REINHARD e GERMANO, 2016).

Figura 4 – Ciclo de vida dos dados abertos proposto por Reinhard e Germano (2016)

7
Considerando-se as proposições acima, dentre as mais complexas às mais
singelas, poderia-se sintetizar os diferentes esquemas de ciclo de vida dos dados
abertos em um esquema linear de compreensão mais fácil. Coleta, tratamento,
publicação, consumo primário, consumo secundário.

.............. desenhar o diagrama de ciclo .....................

A coleta

Os dados surgem no momento em que eles são coletados por um agente que
tem para os dados um propósito específico de uso. Esses momentos de coleta podem
ser um formulário na Web que é preenchido para a realização de uma compra, ou um
agente público do IBGE, por exemplo, que bate a porta para coletar dados para o
Censo, ou outro agente que coleta dados para autorizar a entrada em um prédio, ou
para ser atendido em um posto de saúde, ou até mesmo uma máquina que faz a leitura
de um cartão magnético e registra a entra e saída de pessoas, ou ainda um dispositivo
móvel que orienta a navegação do motorista de veículo de um ponto a outro.
Considerando os exemplos acima, é possível perceber que qualquer pessoa ou
artefato potencialmente participa do processo de coleta de dados 24 horas por dia.
Principalmente se estiverem presentes dispositivos permanentemente conectados a
Internet, como por exemplo, telefones celulares, câmeras e sensores. Os sistemas
operacionais dos aparelhos celulares coletam dados de localização do aparelho,
câmeras de rua coletam imagens que são transformadas em dados e sensores coletam
dados que significam presença, calor, humidade.
Vale lembrar, nos exemplos acima, os dados são coletados para um propósito
específico. Isto é, para o consumo interno do autor da coleta. A reunião dessa
quantidade gigantesca de dados gera uma infinidade de banco de dados também para
propósitos específicos.
A figura acima mostra claramente o processo de coleta de dados que, quando
reunidos, geram um banco de dados que podem ser consumidos por uma aplicação
para atender uma necessidade específica.

8
............ tirei o case do Governo de São Paulopara substitutir por exemplos de
aplicações em developing countries ..................

Como efeito colateral do processo de coleta de dados, os diferentes bancos de


dados reúnem uma grande quantidade de dados de utilidade limitada ou até mesmo
desnecessários, não utilizados para os propósitos específicos das aplicações. São
dados sem significado fora do contexto em que foi coletado ou dados não verificados,
sem procedência clara (PELED, 2013)
No entanto, dados desnecessários ou de utilidade limitada em um contexto
podem adicionar valor a outras aplicações, principalmente em um contexto no qual
dados de uma fonte possam ser misturados, referenciados, comparados com outros de
outra fonte. A liberdade de explorar a riqueza escondida nos dados como se
experimenta roupas para encontrar a melhor combinação entre elas traz um desafio e
um prazer intelectual tanto quanto o prazer estético de encontrar combinações de
cores inesperadas. É o momento em que se percebe que o resultado da combinação de
diferentes dados é muito maior que a mera soma dos valores dos dados isolados.
Helbig et all (2012) reviu a literatura sobre dados abertos e identificou que os
autores mais comumente entendem o ciclo de dados abertos como um círculo virtuoso
o qual, não havendo impedimentos, gera um crescimento ou decadência exponencial.
Assim o descreve:

“No caso de dados abertos governamentais, defensores assumem que


simplesmente fornecendo livremente mais e mais conjuntos de dados e em
diferentes formatos vai levar a mais e mais re-uso. Neste modelo mental, o
uso de dados conduz à criação de valor, que por sua vez motivará governos
tornar mais dados abertos e acessíveis.” (tradução livre do autor).

Essa possibilidade, quase um desafio, de encontrar novas informações, novos


sentidos e novas aplicações para os dados é o motor que movimenta a demanda por
torná-los disponíveis para consumo, preferencialmente em um suporte de fácil acesso,
como a Web (rede mundial de computadores), em um formato que possam ser
manuseados facilmente por computadores.

9
A disponibilização dos dados é representada por duas etapas no ciclo de vida.
A primeira é o tratamento dos dados antes de torná-los disponíveis. Em outras
palavras, é a etapa de tornar os dados “apresentáveis à sociedade”, preparando para o
baile de debutantes. A etapa seguinte é a publicação dos dados propriamente dita,
tornando-os disponíveis de tal maneira não discriminatória, que sejam
compreensíveis, acessíveis, reutilizáveis e redistribuíveis (W3C, 2011).

O tratamento dos dados

A decisão de disponibilizar dados na Web para serem reutilizados é uma


decisão de se expor, seja como “curador” de dados (MILLER, 2014; DCC, - ) ou
como organização. Os dados estarão sobre o crivo dos usuários quanto a qualidade,
procedência, precisão, atualidade, acessibilidade, formato.
O tratamento de dados antes de publicá-los é necessário para que seja feita
limpeza de “sujeiras” existentes nos registros, tais como caracteres inválidos e a
padronização de formato e conteúdo para que os dados sejam comparáveis, como nos
exemplos, “São Paulo” e “S. Paulo”; “20/05” e “20 de maio”.
A curadoria dos dados é um processo que envolve a criação, manutenção e
gerenciamento para adicionar valor aos dados. Para O’HARA (2012) o tratamento dos
dados pode ser feito de forma colaborativa porque, ao publicar dados em formato
aberto, eles ficarão sobre o crivo extensivo dos usuários que irão melhorá-los
(“crowdsourced data improvement”), mesmo que o conjunto de dados não seja da
melhor qualidade.
Se a decisão foi publicar os dados em formato aberto para que eles possam ser
reutilizados por máquina, o crivo dos usuários será ainda maior pois outras
características serão demandadas: os dados deverão ser completos, primários, atuais,
acessíveis, compreensíveis por máquina, não discriminatórios, não proprietários e
livres de licença (ver mais detalhes na próxima página).
Somente com o tratamento prévio dos dados antes de torná-los disponíveis
para acesso é que se poderá adicionar ao processo de publicação de dados
características como confiança, qualidade, transparência. O tratamento dos dados é
como aquele momento anterior em que um corredor se aquece e concentra para uma
corrida, em que um artista se prepara nos camarins para subir ao palco.

10
O consumidor de dados governamentais abertos precisa de uma relação de
confiança com o provedor de dados, precisa confiar que os dados que lhe interessa
tem a qualidade necessária em termos de procedência, atualidade, precisão e a
disponibilidade seja contínua e persistência.
No entanto, há defensores da melhoria colaborativa dos dados abertos. É
clássico na literatura de dados abertos o caso de transportes no Reino Unido
(HEIMSTADT et all, 2014; O’HARA, 2012). O Departamento de Transportes do
Reino Unido publicou os dados e mapa de todos os pontos de acesso ao transporte
público. Porém, boa parte dos dados de localização estavam incorretos,
particularmente os dados de pontos de ônibus. Em um movimento colaborativo,
pouco a pouco, os dados foram corrigidos pela população usuária dos dados.

A publicação

Após os devidos cuidados prévios nos camarins, a publicação de dados na


Web é a etapa mais importante para o publicador. É quando os dados sobem ao palco
para revelar toda a sua potencialidade e se permitem interagir com a audiência.
Na interação aberta entre usuários e dados é possível descobrir novos sentidos
e valores para os dados, diferentes dos propósitos originais para os quais foram
coletados.
Como dito acima, a publicação de dados em formato aberto traz consigo
algumas exigências importantes, conhecidas como 8 princípios dos dados abertos
(OPENGOVDATA, 2007):

a. Completos
Dados não podem estar sujeitos à qualquer tipo restrição por razões de
privacidade, segurança ou privilégio devem estar disponíveis.

b. Primários
Dados abertos devem ser apresentados tal como estavam na fonte, na sua
origem, com o maior grau de granularidade, sem agregação ou transformação.

c. Atuais

11
Dados abertos devem ser publicados rapidamente, o mais próximo possível da
data em que foram gerados.

d. Accessíveis
Dados abertos devem estar disponíveis para acesso por todo e qualquer tipo de
usuários, incluindo pessoas com deficiência.

e. Processáveis com máquinas


Dados abertos devem estar publicados em formatos passíveis de serem
processados por máquinas.

f. Não discriminatórios
Dados abertos devem estar disponíveis para acesso sem necessidade de
cadastro pelos usuários.

g. Não proprietário
Dados abertos devem ser publicados em formatos que não estão sob controle
ou propriedade de qualquer instituição pública ou privada.

h. Livre de Licenças
Dados abertos não podem estar sujeitos à copyright, patentes, marcas
registradas ou segredos industriais. No entanto, são aceitáveis restrições razoáveis
relativas à privacidade, segurança e privilégios.
Esses princípios, aplicados à publicação de dados na Web, levam os dados
abertos a sua plenitude, como um artista no palco que faz uso de toda a sua habilidade
e da interação com a plateia para realizar o seu máximo potencial.
Uma vez feita a publicação dos dados de maneira adequada, eles estão prontos
para serem consumidos pelos usuários. A próxima etapa.

O consumo

12
A etapa de consumo é aquela que mexe com a autoestima dos dados abertos.
Todos os dados quando publicados em formato aberto estão expostos com o objetivo
de serem consumidos, de terem utilidade e aplicação para os potenciais consumidores.
Múltiplos interessados da sociedade possuem diferentes olhares sobre os
dados disponibilizados de acordo com seus interesses. Dados governamentais
relativos ao transporte público são úteis de diferentes maneiras. Para o usuário do
transporte público eles servem para localizar a linha de ônibus mais adequada para se
deslocar de um ponto ao outro na cidade. Por sua vez, para a autoridade pública do
serviço de transporte tem utilidade para controle e fiscalização das empresas
concessionárias de ônibus. Para o cidadão comum, servem para fundamentar
reclamação da escassez de linha de ônibus em um determinado bairro comparando
com outros bairros. Para a empresa concessionária, os dados servem para otimizar a
relação passageiros por veículo em circulação.
Para que diferentes usuários possam desfrutar da riqueza do valor que os
dados possuem é necessário que os dados se transformem em informação precisa, em
tempo e útil para atender as diferentes necessidades dos consumidores, sejam eles
cidadãos, empresas, pesquisadores ou governos.
A transformação dos dados requer intermediários que sejam capazes de
produzir aplicações que façam uma interface (ou intermediação) entre os dados que
estão publicados em um website e a tela de serviço que está disponível no dispositivo
móvel ou computador do usuário, de tal modo que o usuário possa facilmente obter o
resultado desejado sem necessidade de conhecer a parte técnica que faz a aplicação
funcionar.
Mas, como existem muitos dados disponíveis na Web que, embora publicado
em um tipo de formato aberto, ainda não estão estruturados para que sejam
comparados ou misturados com outros dados de outras fontes, muitas vezes é
necessário que os dados passem por uma transformação adicional. É o caso, por
exemplo, do uso das tecnologias de Web semântica que enriquecem os dados ao
acrescentar-lhes valores semânticos (W3C, 2014). A essa etapa do consumo
denomina-se Consumo Intermediário ou Provedor Intermediário (HELBIG, 2012),
uma vez que os dados publicados na Web serão enriquecidos por uma aplicação que
os prepara para conectar-se com outros dados e então serem entregues para o
Consumo Final.

13
3. Adição de valor em cada etapa

Cada etapa do ciclo de vida dos dados abertos deve agregar valor a etapa
seguinte de tal forma que o resultado final seja maior que a soma dos valores gerados
em cada etapa. É o conceito de cadeia de valor definido por Michael Porter
(PORTER, 1985), na qual se representa graficamente como são organizados e
agrupados os processos de trabalho para que se gere valor aos consumidores.
No início de 2011, Rufus Pollock, fundador da Open Knowledge Foundation,
organização que se destacou mundialmente por defender e promover o livre
compartilhamento do conhecimento (“conhecimento aberto”) e foi pioneira na
produção de textos sobre dados abertos, já designava como “via de mão única” o
modelo de processamento dos dados (Figura Xa) que se resumia na publicação dos
dados pelo governo e, se algum intermediário surgisse eventualmente para processar
os dados e gerar um aplicativo, consumo pelo usuário final. POLLOCK (2011).
Ele afirmava:

“O que precisamos ter é um ecossistema. Em um ecossistema existem ciclos de dados: os


infomediários – consumidores intermediários de dados tais como desenvolvedores de aplicativos e
organizadores de dados – também deveriam ser editores que compartilham de volta os seus dados
integrados, embalados e limpos para o ecossistema de uma forma reutilizável - esses conjuntos de
dados limpos e integradas sendo, é claro, muitas vezes mais valioso do que a fonte original.”

Para Pollock, o ecossistema não deveria funcionar linearmente em uma


direção, mas interativamente, permanentemente realimentado, onde os intermediários
desempenham um papel relevante na viabilização da relação entre o produtor de
dados e os consumidores finais. No ecossistema desenhado pelo autor (Figura 5b)
estão contempladas as atividade de obtenção dos dados, tratamento (limpar,
transformar, misturar e embalar), analisar, publicar em diferentes formatos e
realimentar o sistema. Estas atividades se interagem e são mutuamente
interdependentes.

14
A compreensão da cadeia de valor dos dados abertos fornecerá elementos
importantes para a discussão final nesse artigo da relação entre publicação de dados
na Web e respectivo consumo.

Figura 5a Figura 5b
Figura 5a – Desenho do modelo linear de processamento dos dados abertos;
Figura 5b – Desenho de um ecossistema de dados abertos (POLLOCK, 2011)

Para Heimstadt et all (2014) os “ecossistemas de dados abertos devem ser


cíclicos, sustentáveis e orientados à demanda em torno de atores que são mutuamente
interdependentes” na geração de valor. Os autores usam como referência o conceito
de ecossistema de negócios como uma estrutura que consiste de população de
organizações interconectadas, definido por Peltoniemi e Vuori.
Schalkwik et all (2015) em seu estudo sobre o papel dos intermediaries na
abertura de dados nos países em desenvolvimento expõe uma visão simplificada do
ciclo de vida de dados abertos. Produção (“o lado do provedor de dados”), consumo
(“o lado do usuário de dados”) e intermediação, atividade esta desenvolvida para fazer
com que os dados façam sentido no contexto dos usuários (“user needs”).
A empresa de consultoria Deloitte também estudou a cadeia de valor dos
dados abertos e elaborou um diagrama que representa um ecossistema parecido com
os anteriores, como na Figura 6 abaixo (DELOITTE, 2012). Também foi identificada

15
a existência da ação de intermediação entre a produção dos dados e o respectivo
consumo.
A literatura sobre o ciclo de vida de dados abertos converge no entendimento
de que sem a intermediação, o ecossistema de dados abertos ainda não consegue
prover uma conexão entre os produtores dos dados e seus consumidores.

F
Figura 6 – The emerging open data marketplace – Deloitte LLP (2012)

A cadeia de valor dos dados abertos proposta pelos pesquisadores da


Universidade de São Paulo, Nicolau Reinhard e Edson Germano, conforme ilustração
dos autores na Figura 7, apresenta as atividades que adicionam valor em cada etapa
(NICOLAU e GERMANO, 2016).

Figura 7: Cadeia de possibilidades de atividades em dados abertos governamentais

16
Na etapa da coleta, a estruturação dos dados e o armazenamento em banco de
dados para uso no propósito para o qual foram coletados são atividades que
organizam os dados e facilitam os esforços necessários para as próximas etapas.
Dados organizados em uma planilha são mais fáceis de serem manuseados do que em
formato texto.
Nas etapas de tratamento e publicação, os dados são verificados, limpos,
corrigidos, integrados com outros, preparados em formatos abertos para serem
consumidos e enriquecidos na etapa seguinte. Essas etapas acrescentam qualidade,
consistência, acessibilidade e transparência aos dados.
Na etapa de consumo, os dados podem ser enriquecidos mais ainda. Quando se
estabelece ligações dos dados a outros dados e se cria metadados, adiciona-se
persistência e semântica ao conjunto de dados resultante. Nessa etapa, a construção de
aplicações, plataformas, repositórios e portais permitem a distribuição e o acesso às
informações. Na figura de Reinhard e Germano (2016), essa etapa foi denominada
como “Acessar”.
O consumo final dos dados é feito por meio aplicações que proveem serviços
para atender necessidades dos usuários relativas às suas atividades sociais, políticas,
econômicas ou privadas.
Segundo Reinhard e Germano (2016),

“A análise dessa cadeia permite ao órgão produtor/publicador identificar eventuais lacunas na


cadeia de intermediação, podendo fomentar ou assumir para si atividades específicas, além das
atividades de produção e disponibilização dos dados.”

4. Atores e seus papeis no ecossistema de dados abertos

Para Heimstadt et all (2014) a cadeia de valor minima de dados abertos é


composta pelos atores fornecedores, intermediários e consumidores. Já para a Deloitte
(2012) os atores intermediá rios sã o agregadores, desenvolvedores, enriquecedores de
dados e facilitadores.
Em um ciclo de vida dos dados abertos, como apresentado anteriormente, é
possível agregar todos os atores da cadeia de valor em três grandes conjuntos:

17
produtores, transformadores, consumidores. Isto é, um conjunto de todos aqueles que
coletam e produzem dados; outro conjunto de atores que se dedicam a transformar,
enriquecer os dados originais para então publicá-los na Web; e finalmente outro
conjunto que engloba os diferentes tipos de usuários que irão consumir os dados
segundo seus próprios interesses.
Na etapa de coleta, na qual os dados são gerados para atender um propósito
específico, diversos atores podem cumprir esse papel. São eles, instituições
governamentais, organizações sem fins lucrativos, empresas privadas, universidades
etc. No contexto desse artigo, mantendo o foco em TICs para o desenvolvimento, as
instituições governamentais são de longe aquelas que tem a importância maior nesse
ecossistema, não só pela quantidade de dados que coletam continuamente, mas pela
utilidade potencial que os dados guardam quando utilizados em outros contextos não
governamentais.
O Ministério do Planejamento tem informações sobre todos os funcionário
públicos do Administração Pública Federal, tanto dados pessoais como profissionais.
A Casa Civil da Presidência da República coleta informações sobre gastos dos
servidores públicos com cartões de crédito corporativo governamental. O Ministério
da Saúde processa dados sobre ocorrências de doenças em todo o país, que por sua
vez, são coletados pelos Estados e Municípios.
A ex-Controladoria Geral da União (CGU) reunia todas as informações sobre
gastos do orçamento da União que por sua vez eram coletadas e registradas por todos
os Ministérios.
Igualmente importante, porém infinitamente menor em volume, as
organizações sem fins lucrativos também cumprem um papel de coleta. A Rede Nossa
São Paulo, organização dedicada a monitorar políticas públicas, coleta anualmente
dados para alimentar o seu projeto “Cidades Sustentáveis” que monitora as políticas
públicas municipais sobre sustentabilidade ambiental. As informações são oferecidas
pelos próprios municípios.
Essa mesma organização também coleta dados do Município de São Paulo
para alimentar o seu banco de dados de acompanhamento do Plano de Metas
estabelecido pelo governo municipal.
Na etapa de tratamento dos dados que serão publicados na Web, diferentes
atores participam de processos que transformam os dados para que eles possam ser

18
consumidos. Geralmente com perfil voltado para as tecnologias da informação e
comunicação, técnicos das empresas, das organizações da sociedade civil e mesmo
das instituições governamentais vão cuidar de fazer a limpeza dos dados, padronizá-
los, reorganizá-los para serem publicados. São processos de agrupamento, mashing
up, análise e apresentação de dados (Hughes, 2011) realizados por intermediários.
Schalkwyk et all (2015) definem os intermediaries como um ator que está
posicionado em um ponto da cadeia de valor que é capaz de absorver o conjunto de
dados e que é capaz de facilitar o uso dos dados posicionando-se entre dois atores da
cadeia (produtor e consumidor). Dessa forma, os intermediaries de dados abertos
desempenham um papel crucial ao conectar dados a usuários.
Outros autores tentaram fazer uma abordagem estruturalista ao ciclo de vida
dos dados abertos. Schalkwyk et all (2015) argumenta que o modelo biológico de
ecossistemas não é capaz de apreender toda a dinâmica que existe no ecossistema
social, principalmente as desigualdades de poder e de fluxo de capital. Enquanto os
ecossistemas tenderiam a um equilíbrio, é evidente que em países em
desenvolvimento, devido ao desequílibrio econômico, social e cultural, os atores não
são iguais. Para os autores, a abordagem que referencia os conceitos de campo,
habitus e capital desenvolvidos por Pierre Bourdier, explica porque muitaz vezes os
intermediaries não só desempenham um papel fundamental no ecossistema de dados
abertos, mas também reproduzem as estruturas de desigualdades no acesso aos dados.
Na etapa de publicação, os desenvolvedores de aplicações Web jogam o papel
mais importante porque, com diferentes expertises técnicas, eles são responsáveis por
design e desenvolvimento do código das aplicações, da visualização dos dados, isto é
da maneira que os dados são apresentados na Web.
Outros atores também contribuem bastante para essa etapa de publicação ao
garantir o funcionamento das atividades de suporte como infra-estrutura tecnológica,
legislação, disseminação e promoção do reuso. Segundo Nicolau e Germano (2016),

“Além desses atores produtores, há ainda patrocinadores, agências de


fomento, gestores dos processos, formadores de opinião, como educadores,
consultores, divulgadores, pesquisadores e outros que contribuem para a
sustentação dos processos.”

19
Na etapa de consumo, o usuário final ou intermediário fará uso dos dados para
o propósito que lhe interessa. Novamente, são eles, instituições governamentais,
organizações sem fins lucrativos, empresas privadas, universidades etc. No contexto
desse artigo, mantendo o foco em TICs para o desenvolvimento, as instituições
governamentais, diferentemente da etapa de coleta, não jogam o papel mais
importante. Idealmente, a ideia de publicar dados em formato aberto estimula a sua
reutilização por outros diferentes daqueles que os produziram. Assim, o cidadão e a
sociedade civil organizada poderiam ser os principais consumidores dos dados para
extrair deles maior valor para atender as suas necessidades.
Mas, vale lembrar, que uma outra instituição governamental, diferente daquela
que produziu os dados, poderia muito bem ser uma consumidora desses dados. E para
Reinhard e Germano (2016) seria interessante que essa cadeia de valor produzisse
intermediários como empresas e organizações empreendedoras que assumissem esses
serviços intermediários como negócios sustentáveis.

5. Discussão

Como já mencionado anteriormente, a literatura aponta que no início do


movimento, o ciclo de vida de dados abertos seria um círculo virtuoso que nos levaria
de uma forma inexorável ao paraíso dos milhares de aplicativos que mudariam as
nossas vidas tanto na garantia dos direitos do cidadão, como no controle social do
Estado e diminuição da desigualdade por alavancar novos negócios baseados em
dados e tecnologia capazes de dinamizar a economia.
No entanto a promessa não se cumpriu e há uma grande incerteza rondando o
movimento dos dados abertos. A quantidade de dados abertos relevantes ainda é
pequena; o volume de download dos dados disponíveis e a produção de aplicações
baseadas nesses dados também não chamam atenção; a mortalidade dessas aplicações
ainda é grande; a quantidade de novos negócios baseados em dados abertos em países
em desenvolvimento não é expressiva e o impacto do movimento OD4D (Open Data
for Development) ainda não é sentido amplamente.

20
O Governo do Estado de São Paulo construiu o portal Governo Aberto 4 para
disponibilizar dados para qualquer interessado. Estão publicados 424 conjunto de
dados, dos quais, 237 não possui nenhuma restrição de acesso e apenas 44 estão
disponíveis para download. Existem 128 arquivos em HTML que encaminha para os
sites dos órgãos governamentais, que por sua vez direciona usuário para arquivos em
formato PDF. Portanto, formato não aberto de acordo com os princípios mencionados
anteriormente.
A equipe do portal Governo Aberto informou em comunicação pessoal que o
sítio recebeu 121 mil visitas desde 2010 quando foi lançado. Os conjuntos de dados
foram acessados mais de 24 mil vezes, o que significa que apenas 20% dos visitantes
de fato acessaram dados. Não há estatística para a quantidade de downloads. Mas é
sabido que existem 13 aplicativos registrados no portal que fazem uso dos dados
abertos disponibilizados.
Nos Estados Unidos, apenas 1% dos visitantes do sítios data.gov fizeram
donwload de algum conjunto de dados. No Reino Unido, 20% dos visitantes também
não fizeram download (PELED, 2013).
Para Peled (2013) o movimento de dados abertos sofre do problema que ele
denomina Bad design (projeto mal feito, em tradução livre). As definições dos
conceitos foram muito vagas, os objetivos de maximizar a transparência eram
totalmente irrealistas e o foco uso de tecnologia como indicativo de transparência.
Além disso o autor percebeu que governos não priorizaram que dados abrir e também
não estabeleceram mecanismos para que os cidadãos pudessem verificar a qualidade
dos dados.
Outro problema apontado pelo autor é o fato dos órgãos governamentais
disponibilizarem conjuntos de dados que não fazem nenhum sentido ou que são
apenas dados reembalados a partir de outras publicações anteriores, não
acrescentando nada novo.
Em muitos países em desenvolvimento, dados relevantes não existem em
formato digital e acessível. Em outros, dados nenhum não existem simplesmente
(ODI, 2015).
Se considerarmos a abordagem citada anteriormente que aponta a reprodução
das estruturas desiguais na sociedade, o movimento de dados abertos até o momento
4
Disponível em http://www.governoaberto.sp.gov.br. Acesso em 06/06/2016.

21
tem empoderado quem já tem poder. Grandes organizações não governamentais,
empresas privadas e o próprio governo possuem recursos para contratar
intermediários que tratam os dados para serem reutilizados. Recursos esses que não
disponíveis para maior parte da população, especialmente nos países desenvolvidos.
Outro fator que tem impedido dos dados abertos liberarem o seu potencial é a
resistência oferecida por muitos órgãos e agências governamentais. Peled (2013)
ressalta que muitoas agências europeias, americanas e britânicas negociam seus
conjuntos de dados dados co outros agências e outras vendem dados para público.
Assim, na verdade, fingem que estão abrindo dados, mas na verdade estão abraçando
para si os dados que são de fato relevantes.
A força que um único ator, o governo, possui no ecossistema gera um
dependência dos demais atores que pende somente para um lado. Para Heimstadt et all
(2014), os produtores de dados disponibilizam dados quando orientados para tal. Mas,
qualquer interrupção na disponibilização dos dados por parte do governo não afeta o
seu dia-a-dia. Porém, os desenvolvedores privados que possuem negócios com base
em dados abertos governamentais e usuários de aplicações igualmente baseadas em
dados abertos sofrerão solução de continuidade. Conclui o autor que o ecossistema de
dados abertos ainda não mostra uma interdependência robusta entre seus atores.
Outro problema a considerar que desestimula a adoção de dados abertos é o
baixo impacto social conhecido das iniciativas. Peled (2013) elenca iniciativas de
sucesso de público e de mídia como FollowTheMoney, MAPLight.org e GovTrack
que se propunham a melhorar a responsabilização pelos atos públicos por meio da
transparência e mais informação, mas não conseguiram promover mudanças na
regulamentação das atividades das autoridades públicas.
No Brasil, iniciativas semelhantes com ParaOndeFoioMeuDinheiro, Retratos
da Violência e MapRF falharam pela ausência de interdependência entre os atores que
reduziram o impacto que os aplicativas poderiam gerar.
Helbig et all (2012) afirma que o número de conjunto de dados disponível
supera em muito o número de história de sucesso do seu uso. Em parte porque os
governo estão mais preocupados em aumentar a sua lista de conjunto de dados abertos
nos “Catálogos de Dados Abertos”.
Por outro lado, governos não estão atentos às demandas dos usuários porque
sabem que o esforço de alocar recursos, tempo na escolha de quais dados devem

22
colocados em format aberto não é uma tarefa fácil. É uma tarefa que demanda
capacitação, gerenciamento de dados, promoção da interação entre cidadãos e dados
para que estes ganhem significados relevantes para as necessidades dos usuários.
Para superar as diversas limitações ao sucesso do movimento de dados abertos
expostas no tópico anterior, a literatura apresenta diversas propostas. O Open Data
Institute, com sede em Londres, Inglaterra, mapeou cerca de 100 conjunto de dados e
organizou-os em 6 grandes setores da economia para ajudar a definir quais conjuntos
de dados devem ser abertos (ODI, 2015).
Tran e Scholtes (2015) propõem que criadores de catálogos de dados devem
estabelecer um mercado formal de informação que promoveriam a troca, garantindo o
controle do processo e a autenticação dos atores. Seria uma oportunidade de negócios
para as organizações intermediárias de Inovação Pública Aberta, como proposto por
Heimstadt et al (2014).
Nicolau e Germano (2016) também consideram os intermediários para o
ecossistemas de dados e propõem que o produtor de dados se aproximem daqueles
para conhecer como eles utilizam os dados e criar um canal de diálogo para
aprimoramento mútuo.
Peled (2013) sugere investimentos em atividades que reduzam as diferenças
em habilidades de tratar os dados, como por exemplo, treinar ativistas a converter
dados brutos em dados que produzem informações úteis. Assim reduziria a
desigualdade entre os “sem dados” e os “com dados”.

6. Conclusão

Esse artigo apresentou uma revisão da literatura recente sobre o ciclo de vida
dos dados abertos como um processo estruturado para disponibilizar dados em
formato aberto para ser utilizado por máquinas que poderão processá-los, misturá-los,
indexá-los e gerarem novas informações para propósitos específicos.
Foi apresentado o ciclo de vida dos dados abertos, uma síntese de várias
abordagens sobre o ciclo na literatura. Ele inicia na coleta de dados, os quais passam
por tratamento (limpeza, transformação, mistura e indexação), seguem para
publicação na Web e então está pronto para o consumo. Os atores desse ciclo também

23
podem ser resumidos em produtores dos dados, transformadores e consumidores,
ainda que esses papéis possam ser exercidos igualmente por governos, especialistas
em tecnologias e cidadãos.
Esse é o ecossistema de dados abertos, onde todos colaboram, no papel que
exercem a cada momento, para adicionar valor a cada etapa.
A literatura também mostra que esse ecossistema não é perfeito pois apresenta
pouco sucesso visível, percebido pela quantidade de dados relevantes disponíveis,
pelo volume de downloads de dados, pela quantidade de aplicações existentes, pela
alta taxa de mortalidade das aplicações que existem e pelo baixo impacto percebido
na sociedade.
Razões apontadas na literatura para esse “insucesso” são muitas que
promovem como resultado geral um processo que reproduz no acesso e uso de dados
uma estrutura de desigualdade social: concepção original do movimento de dadas
abertas foi falha, com muito foco na tecnologia e pouco no resultado; baixa qualidade
e relevância dos dados disponíveis; cultura organizacional resistente à abertura de
dados; ator governo com peso excessivo no ecossistema; ausência de exemplos
matadores (“killer applications”) de impacto significativo na sociedade e
descolamento entre oferta e demanda.
As soluções propostas são mais escassas em comparação à facilidade de
identificar os problemas. Destacam-se a importância de estabelecer prioridades na
escolha e implementação da abertura de dados; facilitar a criação de um mercado de
dados que dê segurança às trocas de dados; promoção do diálogo entre produtor de
dados e intermediários para facilitar o fluxo e melhorar a qualidade dos dados que
fluem entre os atores; e capacitar atores para exercerem o papel de intermediários.
Pouco se falou sobre a oferta e demanda por dados abertos e o necessário
alinhamento entre elas. Como se trata de uma relação de produção e consumo de
dados a qual está sujeita a variáveis semelhantes à produção e consumo de bens
intangíveis, seria importante desenvolver estudos mais aprofundados sobre qual a
importância que a demanda por dados deveria ter no ciclo de vida de dados abertos.
Uma proposição a se considerar em futuras pesquisas é o condicionamento da
abertura de dados à existência de demanda comprovada, alterando significativamente
o ciclo de dados abertos, inserindo novos atores e novos posicionamentos e
promovendo novos impactos.

24
“Data holding bodies only publish their data sustainably if they experience
demand, which in turn will result in benefits for the agency”
(HEIMSTADT, 2014).

25
Referências Bibliográficas

BROEK, Tijs van den and Veenstra, Anne Fleur van and Folmer,


Erwin (2014). Walking the extra byte: a lifecycle model for Linked Open Data. In:
Pilot Linked Open Data Nederland, Deel 2 – De Verdieping. Linked Open Data, 98 -
114.

Deloitte Analytics (2012). Open Growth: Stimulating Demand for Open Data in the
UK. Deloitte LLP. Disponível em http://www2.deloitte.com/uk/en/pages/deloitte-
analytics/articles/stimulating-demand-for-open-data-in-the-uk.html.

Digital Curation Center. What is Digital curation?. DCC website. Disponível em


http://www.dcc.ac.uk/digital-curation/what-digital-curation. Acesso em 21/05/2016.

HEIMSTADT, M.; SAUNDERSON, F.; HEATH, T. (2014). Conceptualizing Open


Data Ecosystems: A timeline analysis of Open Data development in the UK.
Disponível em http://edocs.fu-
berlin.de/docs/servlets/MCRFileNodeServlet/FUDOCS_derivate_000000003562/disc
paper2014_12-2.pdf. Acesso em 14/05/2016.

HELBIG, N.; CRESSWELL, A.; BURKE, G.; LUNE-REYES, L. (2012). The


Dynamics of Opening Government Data. Center for Technology in Government.
Disponível em
https://www.ctg.albany.edu/publications/reports/opendata/opendata.pdf. Acesso
em 21/05/2016.

HAUSENBLAS, Michael (2012). 5-Star Open Data. Janeiro. Disponível em


http://5stardata.info/en/. Acesso em 31/05/2016.

HAUSENBLAS, Michael; DING Li; PERISTERAS, Vassilios (2012). Linked Open


Government Data, in IEEE Intelligent Systems, maio-junho. Disponível em
http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6237454. Acesso em
31/05/2016.

26
HUGHES, Janet (2011). An Open Data Value Chain. Disponível em
http://www.slideshare.net/janet-hughes/open-data-value-chain?next_slideshow=1.
Acesso em 31/05/2016.

HYLAND, Bernadette. http://www.w3.org/2011/gld/wiki/GLD_Life_cycle.


Disponível em Acesso em 31/05/2016.

O’HARA, K. (2012). Data Quality, Government Data and the Open Data
Infosphere. Paper apresentado em AISB/IACAP World Congress 2012: Information
Quality Symposium.
http://eprints.soton.ac.uk/340045/1/ohara_data_quality_AISB12.pdf

OPENGOVDATA (2007). Eight principles of open government data. Disponível em


<https://public.resource.org/8_principles.html. Acesso em 31/05/2016.

OPENKNOWLEDGE, Open Data Handbook. Disponível em


http://opendatahandbook.org/guide/en/what-is-open-data/. Acesso em 31/05/2016.

PELED, A. Redesign Open Data 2.0. (2013). Conference for Democracy and Open
Government. Disponível em http://www.donau-
uni.ac.at/imperia/md/content/department/gpa/zeg/bilder/cedem/cedem13_2nd_ed_fina
l_version.pdf. Acesso em 21/05/2016.

POLLOCK, R. (2011). Building the (Open) Data Ecosystem. Open Knowledge


Foundation Blog. Retrieved from http://blog.okfn.org/2011/03/31/building-the-open-
data-ecosystem/

PORTER, Michael E. (1985). Competitive Advantage: Creating and Sustaining


Superior Performance. New York.: Simon and Schuster.

REINHARD, N. e GERMANO, E. (2016). Guia de Incentivo ao Reuso de Dados


Abertos. NIC.br-CEWEB.br. Disponível em http://www.ceweb.br/publicacao/guia-
de-incentivo-ao-reuso-de-dados-abertos/. Acesso em 07/05/2016.

27
SCHALKWYK, F.; CANARES, M.; CHATTAPADHYAY, S.; ANDRASON, A.
(2015). Open Data Intermediaries in Developing Countries. Open Data Research
Symposium. Disponível em
http://www.opendataresearch.org/dl/symposium2015/odrs2015-paper8.pdf. Acesso
em 0106/2016.

TRAN, E. e SCHOLTES, G. (2015). Open Data Literature Review. Open


Government Info. Disponível em https://www.law.berkeley.edu/wp-
content/uploads/2015/04/Final_OpenDataLitReview_2015-04-14_1.1.pdf. Acesso em
06/06/2016.

VAN DEN BROEK, T.; VEENSTRA, A.; FOLMER, E. (2014). Walkng the extra
byte: a lifecycle model for linked open data. In: Pilot Linked Open Data Nederland,
Deel 2 – De Verdieping. Linked Open Data, 98 - 114. Disponível em
http://doc.utwente.nl/93821/1/Folmer-walking-6.boek2.pdf. Acesso em 21/05/2016

W3C. (2011). Best Practices for Publishing Linked Data. World Wide Web
Consortium. W3C Escritório Brasil. Disponível em http://www.w3.org/TR/ld-bp/.
Acesso em 31/05/2016.

28

Você também pode gostar