Escolar Documentos
Profissional Documentos
Cultura Documentos
A Promessa Não Realizada Dos Dados Abertos: Uma Revisão Da Literatura
A Promessa Não Realizada Dos Dados Abertos: Uma Revisão Da Literatura
10 de junho de 2016
1
1. Introdução
2
Ainda seria possível acrescentar que para muitos dados abertos significam
transparência na gestão pública e vice-versa. Peled (2013) separa claramente os dois
conceitos. Para o autor transparência é quando o governo garante a indivíduos e
organizações acesso à informações governamentais. Dados abertos é a exigência de
que governos liberem na Web dados confiáveis, de alta qualidade, completos e
atualizados de uma forma que possa ser baixado para um dispositivo pessoal, em
formato não-proprietário e livre de licenças.
Esse movimento de dados abertos tem sido uma promessa de transformações
para países emergentes e em desenvolvimento. Organizações como Web Foundation 1,
The Open Data Institute2 e International Development Research Center – IDRC 3
desenvolvem projetos amplamente apoiados no uso e fomento aos dados abertos em
países da África, Ásia e América Latina.
Apesar de defensores de dados abertos afirmarem que o custo de
disponibilizar dados é desprezível e os benefícios são infinitos, existe uma série de
limitações que bloqueiam a liberação do potencial sem fim dos dados abertos. Peled
(2013) argumenta que o programa de dados abertos sofre porque o projeto conceitual
foi ruim em seu início, a execução cheio de falhas e as consequências adversas.
O objetivo desse artigo é buscar na literatura sobre dados abertos o
entendimento de como funciona a disponibilização de dados em formato aberto, seu
ciclo, ecossistema e atores e investigar as razões pelas quais vários autores não
compartilham do ufanismo que alavancou o movimento de dados abertos a partir do
posicionamento firme do presidente dos Estados Unidos, Barack Obama, sobre
Governo Aberto e sobre política de dados abertos, em 2009.
É também proposta desse artigo apontar, se identificados, que impactos esses
problemas trazem para países em desenvolvimento.
Essa parte introdutória é uma apresentação do tema central e dos tópicos desse
artigo. Na parte 2 é apresentado o ciclo de vida dos dados abertos, da sua produção até
1
Web Foundation é uma organizaçã o internacional com sede em Londres, criado por Sir Tim Bernerts-Lee em 2009 que
se propõ e a promover a Web como um bem pú blico e um direito das pessoas e que estas possam usar a Web livremente.
Site: http://webfoundation.org/
2
The Open Data Institute é uma organizaçã o sem fins lucrativos, criada pelo Governo do Reino Unido, Sir Tim Berners-
Lee e Prof. Nigel Shadbolt, para promover o uso dos dados abertos e trazer seus benefícios para a sociedade e empresas.
Site: http://theodi.org/about-us
3
International Research Development Centre é uma organizaçã o sem fins lucrativos do Governo canadense, com sede em
Ottawa, para o provimento de fundos para pesquisa em países em desenvolvimento com objetivo de promover o
crescimento, reduzir a pobreza e promover mudanças significativas. Site: https://www.idrc.ca/en/about-idrc
3
o seu consumo, buscando entender como cada parte interage com a outra e o resultado
de cada uma delas. Na parte 3 expõe-se como cada etapa adiciona valor às demais e o
que faz o dado em formato aberto tornar-se um ativo precioso. Na parte 4 apresenta-se
os atores e seus papeis no ecossistema de dados abertos criado e a importância de
cada um deles. Na parte 5, traz-se para discussão os problemas com a prática de
abertura de dados encontrados na literatura. No mesmo tópico foram apresentadas as
soluções. Alguns autores abordaram os problemas pela teoria de sistemas, outros pela
teoria da cadeia de valor e um se aproximou da teoria estruturalista.
Esse artigo não se propõe a discutir ou comparar o uso dessas teorias na
abordagem do tema, mas limita-se a registrar os problemas e soluções na prática de
abertura de dados que os autores encontraram usando as teorias.
Compreender como os dados surgem como uma pedra na sua forma mais bruta
e se transformam em algo precioso para quem os consome torna-se relevante para
identificar a geração de valor nessa trajetória dos dados e como é adicionado ainda
mais valor a dados disponibilizados em formato aberto.
Há diversos autores que buscaram compreender e sistematizar o ciclo de vida
dos dados abertos, desde o momento em que eles “surgem” até o momento em que
eles são consumidos pelos usuários.
Para Helbig et al (2012), as diferentes propostas para ciclo de vida de dados
abertos podem ser resumida em criação dos dados pelo governo, abertura, isto é, a
transformação dos dados para que a sua reutilização seja fácil e finalmente a
publicação ou disponibilização dos dados.
Hyland et al (2011) propõe um ciclo de vida para dados abertos com foco na
conexão entre dados. As etapas do ciclo são Identificação, Modelagem, Nomeação,
Descrição, Conversão, Publicação e Manutenção. Conforme ilustrado na figura 1
abaixo, o ciclo de vida é sequencial e realimentado pela atividade de manutenção. Por
ter um foco específico em dados conectados, o início do ciclo já parte do pressuposto
da existência de um banco de dados cuja estrutura precisa ser identificada claramente,
para então ser possível modelar os dados e suas conexões. A seguir, a autora propõe
4
que os dados devam ser perfeitamente identificados utilizando vocabulários para
descrevê-los. Para poder publicá-los em formato aberto com propriedades semânticas,
é necessário cumprir a etapa de conversão que vai transformar os dados de tal maneira
que eles poderão ser conectados a outros automaticamente.
Figura 1 – Ciclo de vida dos dados abertos conectados proposto por Hyland et al (2011)
5
Figura 2 – Ciclo de vida dos dados abertos conectados proposto por Hausenblas et al (2012)
Van den Broek et all (2011) produziram uma visualização do ciclo de vida dos
dados abertos bastante didática mostrada na figura 3. As etapas do ciclo de vida são
identificação, preparação, publicação, reutilização e avaliação. Na etapa de
identificação define-se a estratégia e os dados a serem publicados. Na etapa de
preparação, define-se os requisitos de qualidade e padronização bem como a
preparação dos dados para serem publicados em formado aberto. A seguir, a fase de
publicação dos dados deve garantir que os dados sejam encontrados facilmente. No
entanto, o fato dos dados estarem publicados em formato aberto na Web não é
garantia suficiente de que eles serão utilizados. Assim, na etapa de publicação é
importante a atividade de promoção e incentivo ao reuso para que na próxima etapa
seja possível criar comunidades de uso. Finalmente, fechando o ciclo, os autores
propõem a etapa de avaliação na qual se considera todo o processo de abertura de
dados e seu respectivo reuso para alimentar a redefinição da estratégia e seleção de
novos conjuntos de dados para abertura.
6
Figura 3 – Ciclo de vida dos dados abertos proposto por Van den Broed et al (2011)
Figura 4 – Ciclo de vida dos dados abertos proposto por Reinhard e Germano (2016)
7
Considerando-se as proposições acima, dentre as mais complexas às mais
singelas, poderia-se sintetizar os diferentes esquemas de ciclo de vida dos dados
abertos em um esquema linear de compreensão mais fácil. Coleta, tratamento,
publicação, consumo primário, consumo secundário.
A coleta
Os dados surgem no momento em que eles são coletados por um agente que
tem para os dados um propósito específico de uso. Esses momentos de coleta podem
ser um formulário na Web que é preenchido para a realização de uma compra, ou um
agente público do IBGE, por exemplo, que bate a porta para coletar dados para o
Censo, ou outro agente que coleta dados para autorizar a entrada em um prédio, ou
para ser atendido em um posto de saúde, ou até mesmo uma máquina que faz a leitura
de um cartão magnético e registra a entra e saída de pessoas, ou ainda um dispositivo
móvel que orienta a navegação do motorista de veículo de um ponto a outro.
Considerando os exemplos acima, é possível perceber que qualquer pessoa ou
artefato potencialmente participa do processo de coleta de dados 24 horas por dia.
Principalmente se estiverem presentes dispositivos permanentemente conectados a
Internet, como por exemplo, telefones celulares, câmeras e sensores. Os sistemas
operacionais dos aparelhos celulares coletam dados de localização do aparelho,
câmeras de rua coletam imagens que são transformadas em dados e sensores coletam
dados que significam presença, calor, humidade.
Vale lembrar, nos exemplos acima, os dados são coletados para um propósito
específico. Isto é, para o consumo interno do autor da coleta. A reunião dessa
quantidade gigantesca de dados gera uma infinidade de banco de dados também para
propósitos específicos.
A figura acima mostra claramente o processo de coleta de dados que, quando
reunidos, geram um banco de dados que podem ser consumidos por uma aplicação
para atender uma necessidade específica.
8
............ tirei o case do Governo de São Paulopara substitutir por exemplos de
aplicações em developing countries ..................
9
A disponibilização dos dados é representada por duas etapas no ciclo de vida.
A primeira é o tratamento dos dados antes de torná-los disponíveis. Em outras
palavras, é a etapa de tornar os dados “apresentáveis à sociedade”, preparando para o
baile de debutantes. A etapa seguinte é a publicação dos dados propriamente dita,
tornando-os disponíveis de tal maneira não discriminatória, que sejam
compreensíveis, acessíveis, reutilizáveis e redistribuíveis (W3C, 2011).
10
O consumidor de dados governamentais abertos precisa de uma relação de
confiança com o provedor de dados, precisa confiar que os dados que lhe interessa
tem a qualidade necessária em termos de procedência, atualidade, precisão e a
disponibilidade seja contínua e persistência.
No entanto, há defensores da melhoria colaborativa dos dados abertos. É
clássico na literatura de dados abertos o caso de transportes no Reino Unido
(HEIMSTADT et all, 2014; O’HARA, 2012). O Departamento de Transportes do
Reino Unido publicou os dados e mapa de todos os pontos de acesso ao transporte
público. Porém, boa parte dos dados de localização estavam incorretos,
particularmente os dados de pontos de ônibus. Em um movimento colaborativo,
pouco a pouco, os dados foram corrigidos pela população usuária dos dados.
A publicação
a. Completos
Dados não podem estar sujeitos à qualquer tipo restrição por razões de
privacidade, segurança ou privilégio devem estar disponíveis.
b. Primários
Dados abertos devem ser apresentados tal como estavam na fonte, na sua
origem, com o maior grau de granularidade, sem agregação ou transformação.
c. Atuais
11
Dados abertos devem ser publicados rapidamente, o mais próximo possível da
data em que foram gerados.
d. Accessíveis
Dados abertos devem estar disponíveis para acesso por todo e qualquer tipo de
usuários, incluindo pessoas com deficiência.
f. Não discriminatórios
Dados abertos devem estar disponíveis para acesso sem necessidade de
cadastro pelos usuários.
g. Não proprietário
Dados abertos devem ser publicados em formatos que não estão sob controle
ou propriedade de qualquer instituição pública ou privada.
h. Livre de Licenças
Dados abertos não podem estar sujeitos à copyright, patentes, marcas
registradas ou segredos industriais. No entanto, são aceitáveis restrições razoáveis
relativas à privacidade, segurança e privilégios.
Esses princípios, aplicados à publicação de dados na Web, levam os dados
abertos a sua plenitude, como um artista no palco que faz uso de toda a sua habilidade
e da interação com a plateia para realizar o seu máximo potencial.
Uma vez feita a publicação dos dados de maneira adequada, eles estão prontos
para serem consumidos pelos usuários. A próxima etapa.
O consumo
12
A etapa de consumo é aquela que mexe com a autoestima dos dados abertos.
Todos os dados quando publicados em formato aberto estão expostos com o objetivo
de serem consumidos, de terem utilidade e aplicação para os potenciais consumidores.
Múltiplos interessados da sociedade possuem diferentes olhares sobre os
dados disponibilizados de acordo com seus interesses. Dados governamentais
relativos ao transporte público são úteis de diferentes maneiras. Para o usuário do
transporte público eles servem para localizar a linha de ônibus mais adequada para se
deslocar de um ponto ao outro na cidade. Por sua vez, para a autoridade pública do
serviço de transporte tem utilidade para controle e fiscalização das empresas
concessionárias de ônibus. Para o cidadão comum, servem para fundamentar
reclamação da escassez de linha de ônibus em um determinado bairro comparando
com outros bairros. Para a empresa concessionária, os dados servem para otimizar a
relação passageiros por veículo em circulação.
Para que diferentes usuários possam desfrutar da riqueza do valor que os
dados possuem é necessário que os dados se transformem em informação precisa, em
tempo e útil para atender as diferentes necessidades dos consumidores, sejam eles
cidadãos, empresas, pesquisadores ou governos.
A transformação dos dados requer intermediários que sejam capazes de
produzir aplicações que façam uma interface (ou intermediação) entre os dados que
estão publicados em um website e a tela de serviço que está disponível no dispositivo
móvel ou computador do usuário, de tal modo que o usuário possa facilmente obter o
resultado desejado sem necessidade de conhecer a parte técnica que faz a aplicação
funcionar.
Mas, como existem muitos dados disponíveis na Web que, embora publicado
em um tipo de formato aberto, ainda não estão estruturados para que sejam
comparados ou misturados com outros dados de outras fontes, muitas vezes é
necessário que os dados passem por uma transformação adicional. É o caso, por
exemplo, do uso das tecnologias de Web semântica que enriquecem os dados ao
acrescentar-lhes valores semânticos (W3C, 2014). A essa etapa do consumo
denomina-se Consumo Intermediário ou Provedor Intermediário (HELBIG, 2012),
uma vez que os dados publicados na Web serão enriquecidos por uma aplicação que
os prepara para conectar-se com outros dados e então serem entregues para o
Consumo Final.
13
3. Adição de valor em cada etapa
Cada etapa do ciclo de vida dos dados abertos deve agregar valor a etapa
seguinte de tal forma que o resultado final seja maior que a soma dos valores gerados
em cada etapa. É o conceito de cadeia de valor definido por Michael Porter
(PORTER, 1985), na qual se representa graficamente como são organizados e
agrupados os processos de trabalho para que se gere valor aos consumidores.
No início de 2011, Rufus Pollock, fundador da Open Knowledge Foundation,
organização que se destacou mundialmente por defender e promover o livre
compartilhamento do conhecimento (“conhecimento aberto”) e foi pioneira na
produção de textos sobre dados abertos, já designava como “via de mão única” o
modelo de processamento dos dados (Figura Xa) que se resumia na publicação dos
dados pelo governo e, se algum intermediário surgisse eventualmente para processar
os dados e gerar um aplicativo, consumo pelo usuário final. POLLOCK (2011).
Ele afirmava:
14
A compreensão da cadeia de valor dos dados abertos fornecerá elementos
importantes para a discussão final nesse artigo da relação entre publicação de dados
na Web e respectivo consumo.
Figura 5a Figura 5b
Figura 5a – Desenho do modelo linear de processamento dos dados abertos;
Figura 5b – Desenho de um ecossistema de dados abertos (POLLOCK, 2011)
15
a existência da ação de intermediação entre a produção dos dados e o respectivo
consumo.
A literatura sobre o ciclo de vida de dados abertos converge no entendimento
de que sem a intermediação, o ecossistema de dados abertos ainda não consegue
prover uma conexão entre os produtores dos dados e seus consumidores.
F
Figura 6 – The emerging open data marketplace – Deloitte LLP (2012)
16
Na etapa da coleta, a estruturação dos dados e o armazenamento em banco de
dados para uso no propósito para o qual foram coletados são atividades que
organizam os dados e facilitam os esforços necessários para as próximas etapas.
Dados organizados em uma planilha são mais fáceis de serem manuseados do que em
formato texto.
Nas etapas de tratamento e publicação, os dados são verificados, limpos,
corrigidos, integrados com outros, preparados em formatos abertos para serem
consumidos e enriquecidos na etapa seguinte. Essas etapas acrescentam qualidade,
consistência, acessibilidade e transparência aos dados.
Na etapa de consumo, os dados podem ser enriquecidos mais ainda. Quando se
estabelece ligações dos dados a outros dados e se cria metadados, adiciona-se
persistência e semântica ao conjunto de dados resultante. Nessa etapa, a construção de
aplicações, plataformas, repositórios e portais permitem a distribuição e o acesso às
informações. Na figura de Reinhard e Germano (2016), essa etapa foi denominada
como “Acessar”.
O consumo final dos dados é feito por meio aplicações que proveem serviços
para atender necessidades dos usuários relativas às suas atividades sociais, políticas,
econômicas ou privadas.
Segundo Reinhard e Germano (2016),
17
produtores, transformadores, consumidores. Isto é, um conjunto de todos aqueles que
coletam e produzem dados; outro conjunto de atores que se dedicam a transformar,
enriquecer os dados originais para então publicá-los na Web; e finalmente outro
conjunto que engloba os diferentes tipos de usuários que irão consumir os dados
segundo seus próprios interesses.
Na etapa de coleta, na qual os dados são gerados para atender um propósito
específico, diversos atores podem cumprir esse papel. São eles, instituições
governamentais, organizações sem fins lucrativos, empresas privadas, universidades
etc. No contexto desse artigo, mantendo o foco em TICs para o desenvolvimento, as
instituições governamentais são de longe aquelas que tem a importância maior nesse
ecossistema, não só pela quantidade de dados que coletam continuamente, mas pela
utilidade potencial que os dados guardam quando utilizados em outros contextos não
governamentais.
O Ministério do Planejamento tem informações sobre todos os funcionário
públicos do Administração Pública Federal, tanto dados pessoais como profissionais.
A Casa Civil da Presidência da República coleta informações sobre gastos dos
servidores públicos com cartões de crédito corporativo governamental. O Ministério
da Saúde processa dados sobre ocorrências de doenças em todo o país, que por sua
vez, são coletados pelos Estados e Municípios.
A ex-Controladoria Geral da União (CGU) reunia todas as informações sobre
gastos do orçamento da União que por sua vez eram coletadas e registradas por todos
os Ministérios.
Igualmente importante, porém infinitamente menor em volume, as
organizações sem fins lucrativos também cumprem um papel de coleta. A Rede Nossa
São Paulo, organização dedicada a monitorar políticas públicas, coleta anualmente
dados para alimentar o seu projeto “Cidades Sustentáveis” que monitora as políticas
públicas municipais sobre sustentabilidade ambiental. As informações são oferecidas
pelos próprios municípios.
Essa mesma organização também coleta dados do Município de São Paulo
para alimentar o seu banco de dados de acompanhamento do Plano de Metas
estabelecido pelo governo municipal.
Na etapa de tratamento dos dados que serão publicados na Web, diferentes
atores participam de processos que transformam os dados para que eles possam ser
18
consumidos. Geralmente com perfil voltado para as tecnologias da informação e
comunicação, técnicos das empresas, das organizações da sociedade civil e mesmo
das instituições governamentais vão cuidar de fazer a limpeza dos dados, padronizá-
los, reorganizá-los para serem publicados. São processos de agrupamento, mashing
up, análise e apresentação de dados (Hughes, 2011) realizados por intermediários.
Schalkwyk et all (2015) definem os intermediaries como um ator que está
posicionado em um ponto da cadeia de valor que é capaz de absorver o conjunto de
dados e que é capaz de facilitar o uso dos dados posicionando-se entre dois atores da
cadeia (produtor e consumidor). Dessa forma, os intermediaries de dados abertos
desempenham um papel crucial ao conectar dados a usuários.
Outros autores tentaram fazer uma abordagem estruturalista ao ciclo de vida
dos dados abertos. Schalkwyk et all (2015) argumenta que o modelo biológico de
ecossistemas não é capaz de apreender toda a dinâmica que existe no ecossistema
social, principalmente as desigualdades de poder e de fluxo de capital. Enquanto os
ecossistemas tenderiam a um equilíbrio, é evidente que em países em
desenvolvimento, devido ao desequílibrio econômico, social e cultural, os atores não
são iguais. Para os autores, a abordagem que referencia os conceitos de campo,
habitus e capital desenvolvidos por Pierre Bourdier, explica porque muitaz vezes os
intermediaries não só desempenham um papel fundamental no ecossistema de dados
abertos, mas também reproduzem as estruturas de desigualdades no acesso aos dados.
Na etapa de publicação, os desenvolvedores de aplicações Web jogam o papel
mais importante porque, com diferentes expertises técnicas, eles são responsáveis por
design e desenvolvimento do código das aplicações, da visualização dos dados, isto é
da maneira que os dados são apresentados na Web.
Outros atores também contribuem bastante para essa etapa de publicação ao
garantir o funcionamento das atividades de suporte como infra-estrutura tecnológica,
legislação, disseminação e promoção do reuso. Segundo Nicolau e Germano (2016),
19
Na etapa de consumo, o usuário final ou intermediário fará uso dos dados para
o propósito que lhe interessa. Novamente, são eles, instituições governamentais,
organizações sem fins lucrativos, empresas privadas, universidades etc. No contexto
desse artigo, mantendo o foco em TICs para o desenvolvimento, as instituições
governamentais, diferentemente da etapa de coleta, não jogam o papel mais
importante. Idealmente, a ideia de publicar dados em formato aberto estimula a sua
reutilização por outros diferentes daqueles que os produziram. Assim, o cidadão e a
sociedade civil organizada poderiam ser os principais consumidores dos dados para
extrair deles maior valor para atender as suas necessidades.
Mas, vale lembrar, que uma outra instituição governamental, diferente daquela
que produziu os dados, poderia muito bem ser uma consumidora desses dados. E para
Reinhard e Germano (2016) seria interessante que essa cadeia de valor produzisse
intermediários como empresas e organizações empreendedoras que assumissem esses
serviços intermediários como negócios sustentáveis.
5. Discussão
20
O Governo do Estado de São Paulo construiu o portal Governo Aberto 4 para
disponibilizar dados para qualquer interessado. Estão publicados 424 conjunto de
dados, dos quais, 237 não possui nenhuma restrição de acesso e apenas 44 estão
disponíveis para download. Existem 128 arquivos em HTML que encaminha para os
sites dos órgãos governamentais, que por sua vez direciona usuário para arquivos em
formato PDF. Portanto, formato não aberto de acordo com os princípios mencionados
anteriormente.
A equipe do portal Governo Aberto informou em comunicação pessoal que o
sítio recebeu 121 mil visitas desde 2010 quando foi lançado. Os conjuntos de dados
foram acessados mais de 24 mil vezes, o que significa que apenas 20% dos visitantes
de fato acessaram dados. Não há estatística para a quantidade de downloads. Mas é
sabido que existem 13 aplicativos registrados no portal que fazem uso dos dados
abertos disponibilizados.
Nos Estados Unidos, apenas 1% dos visitantes do sítios data.gov fizeram
donwload de algum conjunto de dados. No Reino Unido, 20% dos visitantes também
não fizeram download (PELED, 2013).
Para Peled (2013) o movimento de dados abertos sofre do problema que ele
denomina Bad design (projeto mal feito, em tradução livre). As definições dos
conceitos foram muito vagas, os objetivos de maximizar a transparência eram
totalmente irrealistas e o foco uso de tecnologia como indicativo de transparência.
Além disso o autor percebeu que governos não priorizaram que dados abrir e também
não estabeleceram mecanismos para que os cidadãos pudessem verificar a qualidade
dos dados.
Outro problema apontado pelo autor é o fato dos órgãos governamentais
disponibilizarem conjuntos de dados que não fazem nenhum sentido ou que são
apenas dados reembalados a partir de outras publicações anteriores, não
acrescentando nada novo.
Em muitos países em desenvolvimento, dados relevantes não existem em
formato digital e acessível. Em outros, dados nenhum não existem simplesmente
(ODI, 2015).
Se considerarmos a abordagem citada anteriormente que aponta a reprodução
das estruturas desiguais na sociedade, o movimento de dados abertos até o momento
4
Disponível em http://www.governoaberto.sp.gov.br. Acesso em 06/06/2016.
21
tem empoderado quem já tem poder. Grandes organizações não governamentais,
empresas privadas e o próprio governo possuem recursos para contratar
intermediários que tratam os dados para serem reutilizados. Recursos esses que não
disponíveis para maior parte da população, especialmente nos países desenvolvidos.
Outro fator que tem impedido dos dados abertos liberarem o seu potencial é a
resistência oferecida por muitos órgãos e agências governamentais. Peled (2013)
ressalta que muitoas agências europeias, americanas e britânicas negociam seus
conjuntos de dados dados co outros agências e outras vendem dados para público.
Assim, na verdade, fingem que estão abrindo dados, mas na verdade estão abraçando
para si os dados que são de fato relevantes.
A força que um único ator, o governo, possui no ecossistema gera um
dependência dos demais atores que pende somente para um lado. Para Heimstadt et all
(2014), os produtores de dados disponibilizam dados quando orientados para tal. Mas,
qualquer interrupção na disponibilização dos dados por parte do governo não afeta o
seu dia-a-dia. Porém, os desenvolvedores privados que possuem negócios com base
em dados abertos governamentais e usuários de aplicações igualmente baseadas em
dados abertos sofrerão solução de continuidade. Conclui o autor que o ecossistema de
dados abertos ainda não mostra uma interdependência robusta entre seus atores.
Outro problema a considerar que desestimula a adoção de dados abertos é o
baixo impacto social conhecido das iniciativas. Peled (2013) elenca iniciativas de
sucesso de público e de mídia como FollowTheMoney, MAPLight.org e GovTrack
que se propunham a melhorar a responsabilização pelos atos públicos por meio da
transparência e mais informação, mas não conseguiram promover mudanças na
regulamentação das atividades das autoridades públicas.
No Brasil, iniciativas semelhantes com ParaOndeFoioMeuDinheiro, Retratos
da Violência e MapRF falharam pela ausência de interdependência entre os atores que
reduziram o impacto que os aplicativas poderiam gerar.
Helbig et all (2012) afirma que o número de conjunto de dados disponível
supera em muito o número de história de sucesso do seu uso. Em parte porque os
governo estão mais preocupados em aumentar a sua lista de conjunto de dados abertos
nos “Catálogos de Dados Abertos”.
Por outro lado, governos não estão atentos às demandas dos usuários porque
sabem que o esforço de alocar recursos, tempo na escolha de quais dados devem
22
colocados em format aberto não é uma tarefa fácil. É uma tarefa que demanda
capacitação, gerenciamento de dados, promoção da interação entre cidadãos e dados
para que estes ganhem significados relevantes para as necessidades dos usuários.
Para superar as diversas limitações ao sucesso do movimento de dados abertos
expostas no tópico anterior, a literatura apresenta diversas propostas. O Open Data
Institute, com sede em Londres, Inglaterra, mapeou cerca de 100 conjunto de dados e
organizou-os em 6 grandes setores da economia para ajudar a definir quais conjuntos
de dados devem ser abertos (ODI, 2015).
Tran e Scholtes (2015) propõem que criadores de catálogos de dados devem
estabelecer um mercado formal de informação que promoveriam a troca, garantindo o
controle do processo e a autenticação dos atores. Seria uma oportunidade de negócios
para as organizações intermediárias de Inovação Pública Aberta, como proposto por
Heimstadt et al (2014).
Nicolau e Germano (2016) também consideram os intermediários para o
ecossistemas de dados e propõem que o produtor de dados se aproximem daqueles
para conhecer como eles utilizam os dados e criar um canal de diálogo para
aprimoramento mútuo.
Peled (2013) sugere investimentos em atividades que reduzam as diferenças
em habilidades de tratar os dados, como por exemplo, treinar ativistas a converter
dados brutos em dados que produzem informações úteis. Assim reduziria a
desigualdade entre os “sem dados” e os “com dados”.
6. Conclusão
Esse artigo apresentou uma revisão da literatura recente sobre o ciclo de vida
dos dados abertos como um processo estruturado para disponibilizar dados em
formato aberto para ser utilizado por máquinas que poderão processá-los, misturá-los,
indexá-los e gerarem novas informações para propósitos específicos.
Foi apresentado o ciclo de vida dos dados abertos, uma síntese de várias
abordagens sobre o ciclo na literatura. Ele inicia na coleta de dados, os quais passam
por tratamento (limpeza, transformação, mistura e indexação), seguem para
publicação na Web e então está pronto para o consumo. Os atores desse ciclo também
23
podem ser resumidos em produtores dos dados, transformadores e consumidores,
ainda que esses papéis possam ser exercidos igualmente por governos, especialistas
em tecnologias e cidadãos.
Esse é o ecossistema de dados abertos, onde todos colaboram, no papel que
exercem a cada momento, para adicionar valor a cada etapa.
A literatura também mostra que esse ecossistema não é perfeito pois apresenta
pouco sucesso visível, percebido pela quantidade de dados relevantes disponíveis,
pelo volume de downloads de dados, pela quantidade de aplicações existentes, pela
alta taxa de mortalidade das aplicações que existem e pelo baixo impacto percebido
na sociedade.
Razões apontadas na literatura para esse “insucesso” são muitas que
promovem como resultado geral um processo que reproduz no acesso e uso de dados
uma estrutura de desigualdade social: concepção original do movimento de dadas
abertas foi falha, com muito foco na tecnologia e pouco no resultado; baixa qualidade
e relevância dos dados disponíveis; cultura organizacional resistente à abertura de
dados; ator governo com peso excessivo no ecossistema; ausência de exemplos
matadores (“killer applications”) de impacto significativo na sociedade e
descolamento entre oferta e demanda.
As soluções propostas são mais escassas em comparação à facilidade de
identificar os problemas. Destacam-se a importância de estabelecer prioridades na
escolha e implementação da abertura de dados; facilitar a criação de um mercado de
dados que dê segurança às trocas de dados; promoção do diálogo entre produtor de
dados e intermediários para facilitar o fluxo e melhorar a qualidade dos dados que
fluem entre os atores; e capacitar atores para exercerem o papel de intermediários.
Pouco se falou sobre a oferta e demanda por dados abertos e o necessário
alinhamento entre elas. Como se trata de uma relação de produção e consumo de
dados a qual está sujeita a variáveis semelhantes à produção e consumo de bens
intangíveis, seria importante desenvolver estudos mais aprofundados sobre qual a
importância que a demanda por dados deveria ter no ciclo de vida de dados abertos.
Uma proposição a se considerar em futuras pesquisas é o condicionamento da
abertura de dados à existência de demanda comprovada, alterando significativamente
o ciclo de dados abertos, inserindo novos atores e novos posicionamentos e
promovendo novos impactos.
24
“Data holding bodies only publish their data sustainably if they experience
demand, which in turn will result in benefits for the agency”
(HEIMSTADT, 2014).
25
Referências Bibliográficas
Deloitte Analytics (2012). Open Growth: Stimulating Demand for Open Data in the
UK. Deloitte LLP. Disponível em http://www2.deloitte.com/uk/en/pages/deloitte-
analytics/articles/stimulating-demand-for-open-data-in-the-uk.html.
26
HUGHES, Janet (2011). An Open Data Value Chain. Disponível em
http://www.slideshare.net/janet-hughes/open-data-value-chain?next_slideshow=1.
Acesso em 31/05/2016.
O’HARA, K. (2012). Data Quality, Government Data and the Open Data
Infosphere. Paper apresentado em AISB/IACAP World Congress 2012: Information
Quality Symposium.
http://eprints.soton.ac.uk/340045/1/ohara_data_quality_AISB12.pdf
PELED, A. Redesign Open Data 2.0. (2013). Conference for Democracy and Open
Government. Disponível em http://www.donau-
uni.ac.at/imperia/md/content/department/gpa/zeg/bilder/cedem/cedem13_2nd_ed_fina
l_version.pdf. Acesso em 21/05/2016.
27
SCHALKWYK, F.; CANARES, M.; CHATTAPADHYAY, S.; ANDRASON, A.
(2015). Open Data Intermediaries in Developing Countries. Open Data Research
Symposium. Disponível em
http://www.opendataresearch.org/dl/symposium2015/odrs2015-paper8.pdf. Acesso
em 0106/2016.
VAN DEN BROEK, T.; VEENSTRA, A.; FOLMER, E. (2014). Walkng the extra
byte: a lifecycle model for linked open data. In: Pilot Linked Open Data Nederland,
Deel 2 – De Verdieping. Linked Open Data, 98 - 114. Disponível em
http://doc.utwente.nl/93821/1/Folmer-walking-6.boek2.pdf. Acesso em 21/05/2016
W3C. (2011). Best Practices for Publishing Linked Data. World Wide Web
Consortium. W3C Escritório Brasil. Disponível em http://www.w3.org/TR/ld-bp/.
Acesso em 31/05/2016.
28