Você está na página 1de 12

dados abertos

cartilha para
desenvolvedores
Esta publicao um encarte integrante do Manual dos dados abertos:
desenvolvedores, resultante do acordo de cooperao tcnico-cientfica
entre o Laboratrio Brasileiro de Cultura Digital e o Ncleo de Informa-
o e Coordenao do Ponto BR (NIC.br).
dados abertos
Para ser considerado aberto, todo dado pblico deve
ser completo, primrio (sem tratamento), atual, compre-
ensvel por mquina, no discriminatrio, acessvel,
no proprietrio e com licenas que garantam esses
princpios e no cerceiem a liberdade de uso. Para
quem desenvolve, a pea-chave compreensvel por
mquina, princpio que possibilita o cruzamento e o
reuso dos dados.

dados abertos: cartilha para desenvolvedores


scraping
Muitos dos dados disponveis publicamente no esto
realmente abertos. s vezes, esto disponveis em ta-
belas HTML, arquivos em texto plano, em PDF ou em
ambientes que pedem um captcha ou outra tcnica que
impea mltiplas requisies. Scrapers so softwares
que vasculham o site e traduzem os dados para for-
matos estruturados, como JSON ou XML, permitindo
visualizaes em formatos processveis por mquinas/
programas e/ou que permitam agregar informaes
complementares. As linguagens mais populares para
a implementao de scrapers so Python, Ruby e PHP,
linguagens multiplataforma de alto nvel.
3
cinco formatos que todo
desenvolvedor deve conhecer

HTML (HiperText Markup Language)

a linguagem de marcao de hipertexto base para


publicao na web. Na verso 5, uma srie de novos
elementos e atributos foram adicionados, inclusive al-
guns que melhor definem um modelo de pgina, facili-
tando a identificao de sua composio.
dados abertos: cartilha para desenvolvedores

XML (Extensible Markup Language)

, como a HTML, uma linguagem de marcao, mas


extensvel para descrever os dados que representa.
amplamente utilizada no intercmbio de dados por
meio da web.

CSV (Comma-Separated Values)

Arquivos no padro CSV so arquivos em formato texto,


representando contedo tabular separado por vrgulas
e organizados sequencialmente por linhas. Por serem
muito simples e de fcil reproduo, so amplamente
4 difundidos na web e nos sites que disponibilizam dados.
RDF (Resource Description Framework)

um dos principais formatos para a infraestrutura de


web semntica e para a interoperabilidade de dados
em aplicaes vinculadas na web. Sua grande vanta-
gem a representao dos dados em estrutura triplifi-
cada, com descrio semntica dos campos que po-
dem estar vinculados (linkados) a vocabulrios.

dados abertos: cartilha para desenvolvedores


JSON (JavaScript Object Notation)

um formato nativo para uso com JavaScript, mas exis-


tem bibliotecas simples para uso em quase todas as
linguagens de programao.

5
cinco ferramentas
para abrir dados

Dapp Factory
(http://open.dapper.net)

O Open Dapper faz scraping de quase qualquer pgi-


na web com apenas alguns cliques, e permite exportar
os dados em XML e RSS, entre outros.

Scraperwiki
dados abertos: cartilha para desenvolvedores

(http://scraperwiki.com)

uma plataforma on-line, gratuita e livre para escrever


e rodar scrapers colaborativamente. Suporta atualmen-
te Python, PHP e Ruby, com diversas bibliotecas para
captura e tratamento dos dados e uma boa quantidade
de exemplos para se basear.

Google Refine
(http://code.google.com/p/google-refine)

um software livre para limpar e vincular diferentes


bases de dados, criar RDF triplos RDF e expor web-
services.
6
YQL (Yahoo! Query Language,
http://developer.yahoo.com/yql)

uma plataforma do Yahoo! que auxilia e facilita o


mashup de dados. Com ele, consegue-se ler e parsear
tabelas HTML, XML, CSV e vrios outros formatos com
alguma facilidade e em linguagem prxima do SQL.

dados abertos: cartilha para desenvolvedores


Yahoo! Pipes
(http://pipes.yahoo.com)

O Pipes permite obter pginas inteiras ou feeds RSS e


aplicar uma srie de regras para produzir seu prprio
RSS ou XML. bem til para extrair tabelas html.

7
trs ferramentas de
visualizao de dados

Google Fusion
(http://tables.googlelabs.com)

uma plataforma de visualizao de dados do Google


com suporte a arquivos grandes (CSV < 100 Mb). Entre
suas funes esto o georreferenciamento automtico
a partir de texto, a criao de heatmaps e a exibio
de linhas do tempo. Deve-se ter cuidado com o formato
dos campos; datas, por exemplo, precisam estar em
dados abertos: cartilha para desenvolvedores

MM/DD/AA.

Many Eyes
(http://www-958.ibm.com/)

O ManyEyes foi criado pela brasileira Fernanda Vie-


gas na poca em que ela trabalhava na IBM. feito
em Java e permite vrias visualizaes interessantes,
com destaque para aquelas baseadas em texto, como
tagclouds e wordtrees. No entanto, s permite peque-
nos datasets e um software completamente fechado.

8
Tableau
(http://www.tableausoftware.com/)

uma sute de softwares para tratamento e visualiza-


o de dados. A verso gratuita funciona como SaaS,
e permite que vrias visualizaes e dashboards inte-
rativos sejam publicados na rede. O aplicativo roda
apenas em Windows.

dados abertos: cartilha para desenvolvedores

9
exemplos de listas com dados abertos,
para voc comear fazendo

TCM-CE
http://api.tcm.ce.gov.br

Dados: execuo oramentria e fornecedores dos mu-


nicpios do Cear.
Formatos: API com XML e JSON.

CGU
dados abertos: cartilha para desenvolvedores

http://www.portaltransparencia.gov.br

Dados: execuo oramentria do Governo Federal,


repasses, contratos, convnios, etc.
Formato: CSV.

TSE
http://spce2010.tse.jus.br/spceweb.consulta.
prestacaoconta2010

Dados: resultado de eleies, votos por candidato e


regio, doaes de campanha.
10 Formatos: a maioria CSV ou no estruturado.
MEC
http://esfera.mobi/datasets/mec_
escolaspublicaseja2005.tar.gz

Dados: lista de escolas com Ensino de jovens e adultos,


contendo endereos.
Formato: CSV.

dados abertos: cartilha para desenvolvedores

11

Você também pode gostar