Você está na página 1de 17

Revista hospedada em: http://revistas.facecla.com.br/index.

php/reinfo
Forma de avaliao: double blind review
Esta revista (e sempre foi) eletrnica para ajudar a proteger o meio ambiente, mas,
caso deseje imprimir esse artigo, saiba que ele foi editorado com uma fonte mais
ecolgica, a Eco Sans, que gasta menos tinta.
AUMENTANDO A TRANSPARNCIA DO GOVERNO POR
MEIO DA TRANSFORMAO DE DADOS
GOVERNAMENTAIS ABERTOS EM DADOS LIGADOS
INCREASING GOVERNMENT TRANSPARENCY BY TRANSFORMING
OPEN GOVERNMENT DATA INTO LINKED DATA
(paper submited in April 2011)
Lucas de Ramos Arajo
Departamento de Cincia da Computao Universidade Federal de Juiz de Fora (UFJF)
lucas.araujo@ice.ufjf.br

Jairo Francisco de Souza


Departamento de Cincia da Computao Universidade Federal de Juiz de Fora (UFJF)
jairo.souza@ufjf.edu.br

ABSTRACT
Since its inception, the Web has undergone constant evolution in order to improve itself
as a mean of global communication and information sharing. Open Government Data are
increasingly being published on the Web, contributing to the transparency and the
reusability of public data. At the same time, the use of Linked Data has been increasing in
recent years, enabling the development of better and smarter applications. In this
context, this paper proposes the publication of Open Government Data using the Linked
Data practices, by creating a data set of Brazilian politicians with information collected
from different sources.
Key-words: e-government; linked data; semantic web.

RESUMO
Desde o seu surgimento, a Web vem sofrendo constantes evolues a fim de se aprimorar
cada vez mais como meio de comunicao global e compartilhamento de informaes.
Dados Governamentais Abertos esto sendo cada vez mais publicados na Web,
contribuindo para a transparncia e a sua reutilizao. Ao mesmo tempo, a prtica de
disponibilizar dados em formato RDF com significados explicitamente definidos e com
ligaes para outros dados externos, conhecida como dados ligados, vem crescendo
muito nos ltimos anos, permitindo o desenvolvimento de aplicaes melhores e mais
inteligentes. Neste contexto, este trabalho tem como proposta apresentar o projeto
"Ligado nos Polticos", que utilizou prticas de dados ligados para criar um conjunto de
dados abertos de polticos brasileiros com informaes coletadas de diferentes fontes.
Palavras-chave: governo eletrnico; dados ligados; web semntica.

Revista Eletrnica de Sistemas de Informao, v. 10, n. 1, artigo 7 1


doi:10.5329/RESI.2011.1001007
1 INTRODUO

As Tecnologias da Informao e de Comunicao (TICs) promoveram


uma revoluo nos meios de informao, construindo uma nova relao
entre governo e cidados. Esta nova relao deu origem ao chamado
Governo Eletrnico, que possibilita uma administrao pblica mais aces-
svel, eficiente, democrtica e transparente. Dentro deste contexto, o
conceito de Dados Governamentais Abertos surge para ampliar esta
relao, promovendo a disponibilizao das informaes governamentais
em formatos abertos e acessveis a fim de possibilitar a reutilizao e a
interligao com informaes de outras fontes, gerando novos significados
(W3C Escritrio Brasil, 2010).
Atualmente, muitos dados governamentais esto disponveis na Web,
mas estas informaes, na maioria das vezes, so oferecidas sem a utiliza-
o de padres, em formatos proprietrios ou apenas para a visualizao,
dificultando a reutilizao. Para bem aproveitar o potencial representado
pelo acervo de informaes do governo, essas informaes precisam ser
disponibilizadas em formato padronizado, aberto e acessvel (AGUNE et
al., 2009).
Existem diversas maneiras de publicar Dados Governamentais Aber-
tos, mas segundo Berners-Lee (2009) os objetivos esperados ao publicar
dados governamentais so mais bem alcanados usando-se dados ligados.
Dentro do contexto da Web Semntica, o termo dados ligados (linked
data) utilizado para descrever um conjunto de prticas para publicar,
compartilhar e conectar dados estruturados na Web de forma a aumentar
o seu valor e utilidade (BIZER et al., 2009).
H um movimento cada vez maior de governos, organizaes e pes-
soas publicando Dados Governamentais Abertos. Ao mesmo tempo, a
utilizao de dados ligados vem crescendo muito nos ltimos anos, sendo
fortemente apoiada pelo W3C (World Wide Web Consortium) e por Tim-
Berners Lee, considerado o inventor da Web (W3C, 2011).
Porm, vrios desafios ainda devem ser superados para que a Web
seja utilizada como um grande banco de dados global. Segundo o relatrio
United Nations E-Government Survey 2010 (UNITED NATIONS, 2010), que
apresenta a situao mundial no setor de Governo Eletrnico, o Brasil
ocupa a posio de nmero 61, acumulando uma perda de 16 posies
desde 2008. Diversos fatores so responsveis pelo declnio brasileiro, tais
como a insuficincia de servios online e a deficiente infraestrutura de
telecomunicaes. O relatrio destaca ainda iniciativas brasileiras de da-
dos abertos que devem ser seguidas.
Dentro do contexto apresentado, pode-se perceber a importncia da
publicao de Dados Governamentais Abertos e a relevncia das prticas
de dados ligados na Web atual. Este artigo tem como objetivo apresentar
o trabalho realizado para publicao de dados ligados de polticos
brasileiros na Web, atravs da criao de um data set com informaes
coletadas de diferentes fontes, contribuindo assim com a nova Web de
2 Revista Eletrnica de Sistemas de Informao, v. 10, n. 1, artigo 7
doi:10.5329/RESI.2011.1001007
dados. O projeto implementado tem como objetivo fornecer dados teis,
abertos, padronizados, reutilizveis e ligados a dados de outras fontes.
O restante deste trabalho est estruturado da seguinte maneira: a
seo 2 discute sobre dados governamentais abertos e a seo 3 discute
sobre a prtica de dados ligados. Em seguida, a seo 4 apresenta uma
descrio do trabalho realizado para criao do sistema Ligado nos
Polticos, hoje o primeiro dataset de polticos brasileiros que disponibiliza
suas informaes usando dados ligados. Por fim, a seo 5 traz nossas
concluses juntamente com propostas de trabalhos futuros.

2 DADOS GOVERNAMENTAIS ABERTOS

Segundo o GI para e-Gov (2009), criar um Governo Eletrnico exige


abertura, transparncia, colaborao e conhecimento. Um governo trans-
parente mais do que a interao e a participao aberta; os dados do
governo precisam ser partilhados, descobertos, acessveis e manipulveis
por aqueles que os desejam para bem aproveitar as vantagens da Web e o
acervo de informaes das organizaes.
A disponibilizao de Dados Governamentais Abertos permite que os
usurios possam facilmente encontrar, acessar, entender e utilizar os
dados pblicos segundo foco e interesses prprios, trazendo diversos
benefcios como a reutilizao, incluso, transparncia, responsabilidade,
melhoria nas buscas, integrao, participao, colaborao, crescimento
econmico, inovao e eficincia (DINIZ, 2009).
O Open Government Working Group (OPENGOVDATA.ORG, 2007),
elaborou os 8 Princpios dos dados governamentais abertos. Eles devem
ser: (1) completos, totalmente disponveis e sem limitaes; (2) primrios,
coletados na fonte com o maior nvel possvel de granularidade, sem
agregao ou modificao; (3) atuais, publicados to rapidamente quanto
necessrio para preservar o seu valor; (4) acessveis, disponibilizados para
o maior nmero possvel de usurios e finalidades; (5) processveis por
mquinas, razoavelmente estruturados para permitir processamento auto-
matizado; (6) no-discriminatrios, disponveis para todos sem necessi-
dade de cadastro; (7) no-proprietrios, disponibilizados em um formato
sobre o qual nenhuma entidade tem controle exclusivo; (8) licenas livres,
no sujeitos a nenhuma regulao de direitos autorais, patentes,
propriedade intelectual ou segredo industrial.
As principais tecnologias e formatos utilizados para a publicao de
dados governamentais abertos so: (1) arquivos CSV (Comma Separated-
Values), que armazenam dados tabulares; (2) informaes Atom e RSS
(Really Simple Syndication), que agregam contedo baseado em XML,
usadas para compartilhar novidades ou textos completos atravs dos
denominados feeds; (3) interfaces REST, que associam um recurso a um
URI usando HTTP, permitindo que um site possa ser enriquecido com
aplicativos que expandam o valor de um recurso disponvel; (4) tecnolo-
gias da web semntica, que oferecem um arcabouo comum onde os

Revista Eletrnica de Sistemas de Informao, v. 10, n. 1, artigo 7 3


doi:10.5329/RESI.2011.1001007
dados podem ser compartilhados e reutilizados alm dos limites de aplica-
tivos, empreendimentos e comunidades (GI PARA E-GOV, 2009).
H um movimento global de governos e autoridades locais disponi-
bilizando seus dados na web. Projetos de dados governamentais abertos
surgiram em vrios pases do mundo, como Estados Unidos, Reino Unido,
Austrlia, Nova Zelndia, Noruega, Holanda, Sucia, Espanha, Estnia,
ustria, Grcia, Canad e Dinamarca, existindo tambm um nmero
crescente de iniciativas locais de estados e cidades (SHERIDAN e
TENNISON, 2010). Alguns governos criaram catlogos ou portais para
tornar a localizao e a utilizao desses dados mais fcil para o pblico
(BENNETT e HARVEY, 2009), como o portal data.gov e data.gov.uk. Alm
disso, pessoas e organizaes vm publicando dados governamentais por
conta prpria em vrios formatos (BERNERS-LEE, 2009).
O Brasil tem uma boa oferta de dados em todas as esferas e poderes
oferecidos pblica e gratuitamente, mas existem poucas iniciativas do
governo que se propem a dar acesso base integral estruturada e em
linguagem aberta. O exemplo mais recente de iniciativa brasileira neste
sentido o projeto Governo Aberto SP, em fase de implantao (GOVERNO
ABERTO, 2010). Enquanto o governo no libera mais dados em formato
aberto, esto surgindo no Brasil iniciativas no sentido de extrair os dados
de sites e portais governamentais, reorganiz-los, torn-los abertos e/ou
conferir novo valor a eles atravs de diferentes aplicaes, como o Con-
gresso Aberto, o Parlamento Aberto, o Legisdados, entre outros (THACKER,
2011).
Dado o crescente interesse civil aps exemplos bem sucedidos em
outros pases, espera-se que novas iniciativas sejam realizadas em esferas
polticas brasileiras.

3 DADOS LIGADOS

Dados ligados referem-se a dados publicados na Web de modo que


sejam legveis por mquina, seus significados sejam explicitamente defini-
dos, estejam ligados a outros conjuntos de dados e, por sua vez, possam
ser ligados a partir de conjuntos de dados externos (BIZER et al., 2009).
A idia bsica de dados ligados foi elaborada por Berners-Lee (2006),
que definiu os quatro princpios que caracterizam os dados ligados e que
devem ser aplicados para fazer a Web crescer semanticamente: (1) usar
URIs para nomes de coisas (isto , qualquer recurso); (2) usar URIs HTTP
para que as pessoas possam procurar esses nomes; (3) fornecer
informaes teis quando algum acessar um URI, utilizando padres
como RDF (Resource Description Framework) e SPARQL (SPARQL Protocol
and RDF Query Language); (4) incluir links para outros URIs para que as
pessoas possam encontrar mais coisas (outros recursos). URIs, RDF e
HTTP so as principais tecnologias utilizadas para disponibilizar dados
ligados (BIZER et al., 2008). Alm dessas, outras tecnologias da Web
Semntica so utilizadas para fornecer diferentes tipos de suporte, como a

4 Revista Eletrnica de Sistemas de Informao, v. 10, n. 1, artigo 7


doi:10.5329/RESI.2011.1001007
linguagem SPARQL para a consulta de dados RDF, as linguagens RDFS
(Resource Description Framework Schema) e OWL (Web Ontology
Language) para a definio de vocabulrios e a linguagem RDFa (RDFin
attributes) para a publicao de dados com significado (HEATH & BIZER,
2011).
Os URIs identificam todos os itens de interesse na Web, chamados de
recursos. Existem dois tipos de recursos: informacionais e no-infor-
macionais. Todos os recursos que encontramos na Web tradicional, tais
como documentos, imagens e outros arquivos de mdia, so recursos
informacionais. Todos os objetos do mundo real que existem fora da
Web so recursos no-informacionais, tais como pessoas, lugares, prote-
nas, conceitos cientficos, entre outros (BIZER et al., 2007).
RDF um framework para representar informaes na Web. A descri-
o de um recurso representada como uma srie de triplas com sujeito,
predicado e objeto. O sujeito o URI que identifica o recurso descrito. O
objeto pode ser um valor literal, como uma string, nmero ou data, ou
ainda o URI de um outro recurso que est relacionado ao sujeito. O
predicado um URI de algum vocabulrio que indica o tipo de relao que
existe entre o sujeito e o objeto (KLYNE e CARROLL, 2004).
Atravs do protocolo HTTP podemos acessar um URI na Web a fim de
obter as informaes sobre o recurso referenciado. Quando um URI que
identifica um recurso informacional desreferenciado, o servidor do URI
gera uma representao do recurso e a envia para o cliente utilizando o
cdigo de resposta HTTP 200 OK. Recursos no-informacionais no podem
ser desreferenciados diretamente. Uma das abordagens mais utilizadas
o redirecionamento HTTP 303, usado juntamente com a Negociao de
Contedo. Clientes HTTP enviam cabealhos juntamente com cada solicita-
o para indicar que tipo de representao preferem. Servidores podem
inspecionar os cabealhos e selecionar uma resposta adequada, em HTML
ou RDF (BIZER et al., 2007).
O exemplo mais visvel da adoo e aplicao dos princpios de dados
ligados o projeto Linking Open Data, um esforo aberto e colaborativo
apoiado pelo grupo W3C SWEO (Semantic Web Education and Outreach
Group). O objetivo do projeto identificar data sets existentes que esto
disponveis sob licenas abertas, convert-los para RDF de acordo com os
princpios de dados ligados, public-los na Web e interlig-los uns com os
outros, formando uma nuvem de dados ligados (LOD Cloud) (BIZER et al.,
2008), conforme exemplo apresentado na Figura 1.

Revista Eletrnica de Sistemas de Informao, v. 10, n. 1, artigo 7 5


doi:10.5329/RESI.2011.1001007
Figura 1. Diagrama da LOD Cloud
Fonte: Cyganiak e Jentzsch (2010)

Com um volume significativo de dados ligados sendo publicados na


Web, inmeras pesquisas e esforos esto sendo realizados para construir
aplicaes que explorem esta Web de dados: aplicaes especficas
atravs do mashup de dados de diferentes data sets, como o Reyvu e o
DBPedia Mobile; motores de busca como o Falcons e indexadores como o
Swoogle que navegam a Web de dados; e navegadores de dados ligados
que permitem navegar entre fontes de dados seguindo links RDF, como o
The Tabulator e o Disco Hyperdata Browser (BIZER et al., 2009).
Ao publicar os dados ligados, URIs simples, pequenos, persistentes e
estveis devem ser escolhidos para os recursos a fim de que outros
possam us-los de forma segura. Alm disso, deve ser considerada a infra-
estrutura tcnica para torn-los desreferenciveis. Geralmente so gera-
dos trs URIs relacionados a um nico recurso no-informacional: um para
o recurso; um para o recurso informacional adequado para navegadores
HTML; e um para o recurso informacional adequado para navegadores RDF
(BIZER et al., 2007).
Para que aplicaes clientes processem os dados mais facilmente,
considerada uma boa prtica reutilizar termos de vocabulrios bem
conhecidos e amplamente utilizados sempre que possvel. Novos termos
s devem ser definidos se os termos necessrios no puderem ser
encontrados em vocabulrios existentes. Nesse caso, deve ser publicado
um arquivo usando as linguagens RDFS ou OWL (BERNERS-LEE, 2009). A
fim de permitir que os clientes possam avaliar a qualidade dos dados

6 Revista Eletrnica de Sistemas de Informao, v. 10, n. 1, artigo 7


doi:10.5329/RESI.2011.1001007
publicados e determinar se eles querem confiar neles, os dados devem ser
acompanhados de vrios tipos de metadados, como um URI que identifica
o autor, a data de criao e o mtodo de criao (BIZER et al., 2008).
Os links RDF so a base dos dados ligados. Eles permitem que as
aplicaes cliente naveguem entre as fontes de dados e descubram dados
adicionais. Para fazer parte da Web de Dados, fontes de dados devem
definir links RDF para relacionar as entidades em outras fontes de dados
(BIZER et al., 2009). Links RDF podem ser definidos manualmente, mas
prtica comum o uso de abordagens automatizadas ou semi-automatizada
para gerar links RDF.
A fim de facilitar a descoberta dos dados, mecanismos adicionais
podem ser utilizados, como adicionar o data set na Wiki ESW (W3C, 2010)
para que outros desenvolvedores possam encontr-lo mais facilmente,
criar uma extenso sitemap para indicar onde o RDF est localizado e que
meios alternativos so fornecidos para acess-lo e definir links de pginas
existentes para dados RDF. Alm disso, preciso testar se os dados esto
publicados corretamente (HEATH et al., 2008).
Na prxima seo, apresentaremos o trabalho realizado para publicar
dados de polticos brasileiros utilizando a abordagem de dados ligados.

4 CRIAO DE UM DATA SET SOBRE POLTICOS BRASILEIROS

Para criao de uma base com dados de polticos brasileiros, foi


necessrio coletar informaes de diversas fontes, agrup-las e transfor-
m-las em formato de dados ligados. A Figura 2 apresenta a arquitetura
geral do projeto, mostrando os diferentes mdulos e as ligaes entre
eles.

Figura 2. Arquitetura geral do projeto


Fonte: elaborada pelos autores.

Revista Eletrnica de Sistemas de Informao, v. 10, n. 1, artigo 7 7


doi:10.5329/RESI.2011.1001007
Foi utilizado o nome Ligado nos Polticos para representar o data
set e o domnio http://ligadonospoliticos.com.br para a publicao dos da-
dos.
Como fontes de dados, foram utilizados o site do Tribunal Superior
Eleitoral (TSE), o site do Senado Federal, o Portal da Cmara dos Deputa-
dos, o site da ONG (Organizao No Governamental) Polticos Brasileiros,
o site Ficha Limpa e o projeto Excelncias do site Transparncia Brasil.
Foram coletados dados pessoais, dados da eleio, divulgao de bens,
dados parlamentares, lideranas, misses, mandatos, afastamentos, pro-
nunciamentos, comisses, proposies e ocorrncias.
Com exceo de alguns dados em formato CSV, a maioria dos sites
disponibilizam as informaes somente em formato HTML. Por isso, foi
necessria a criao e utilizao de Web Crawlers para extrair os dados de
uma forma metdica e automatizada. A tcnica para extrair dados online
que no esto em formato aberto denominada screen scraping ou
raspagem de dados. Para cada fonte de dados, foi desenvolvido um script
para coletar as informaes relevantes e armazen-las em uma base de
dados relacional.
As fontes que utilizamos no disponibilizam identificadores nicos
para cada poltico. Para identificar os dados que tratavam da mesma
entidade foi necessrio utilizar os diferentes dados dos polticos, como
nome, partido e data de nascimento nas clusulas WHERE antes que uma
nova entrada fosse inserida na base de dados, de forma a garantir a
consistncia e evitar a duplicao. A tarefa de melhor detectar se duas
descries de uma entidade referem-se mesma entidade do mundo real
um problema de investigao conhecido como deteco de registro
duplicado (ELMAGARMID et al., 2007). Em alguns casos, foi identificada a
falta de padro na apresentao das informaes nas diferentes fontes de
dados. Por exemplo, o partido PC do B (Partido Comunista do Brasil) em
alguns sites apresentado como PCdoB; os Estados algumas vezes so
representados atravs de siglas e outras atravs do nome. Portanto, esses
dados tiveram que ser identificados e transformados para o formato de
representao padro escolhido por meio de clusulas UPDATE.
Aps obtermos todos os dados estruturados, a informao foi
representada utilizando os princpios e prticas de dados ligados usando o
modelo RDF. Foram escolhidos URIs HTTP simples e pequenas dentro do
domnio para representar os recursos no-informacionais. Para garantir
que cada URI fosse nico, foi utilizada a chave-primria de cada poltico.
Um exemplo de URI utilizado no projeto http://ligadonospoliticos.com.br/
resource/1, seguido de /html ou /rdf, dependendo da representao dese-
jada.
Em seguida, foi realizada a escolha dos vocabulrios que seriam
utilizados para representar as propriedades dos recursos. Conceitos des-
critos em vocabulrios conhecidos como FOAF1, BIO2, PERSON3, VCARD4,

1 http://xmlns.com/foaf/0.1/

8 Revista Eletrnica de Sistemas de Informao, v. 10, n. 1, artigo 7


doi:10.5329/RESI.2011.1001007
DBPROP5, POL6, BEING7, TIMELINE8, DCTERMS9, MONEY10, GEOSPECIES11,
EVENT12, SKOS13 e BIBLIO14 foram reutilizados sempre que possvel. Os
vocabulrios FOAF, BIO, PERSON, GEOSPECIES, BEING e VCARD fornecem
termos para descrio de dados pessoais e relacionamentos entre pes-
soas. O vocabulrio POL fornece alguns termos para descrio de polticos.
Os vocabulrios EVENT e TIMELINE fornecem termos para descrio de
eventos e relaes temporais, respectivamente. Os vocabulrios DCTERMS
e SKOS fornecem termos para descrio de autorias e ligaes entre
documentos na web. O vocabulrios MONEY fornece termo para descrio
de moedas e transaes financeiras. Por fim, o vocabulrio DBPROP
fornece termos descritos na base de dados da DBPedia, uma base dados
de informaes da Wikipedia em formato RDF. Para encontrar os termos
foi utilizado o servio Talis Schemacache e realizadas pesquisas a dados
RDF de outros data sets. No foram encontrados todos os termos
necessrios em outros vocabulrios. Nesses casos, novos termos foram
definidos no vocabulrio representado por polbr sob o namespace
http://ligadonospoliticos.com.br/politicobr/. A Figura 3 mostra o diagrama
dos vocabulrios e as respectivas propriedades utilizadas.
As informaes so retiradas da base de dados e inseridas dinami-
camente no modelo de acordo com o recurso solicitado. O sujeito ou
recurso representado pelo URI do poltico, os predicados ou propriedades
pelos URIs dos termos preexistentes ou criados e os objetos ou valores so
descritos pelos valores literais retirados da base de dados ou por URIs que
representam links RDF de outros recursos. Foram adicionados tambm
metadados usando termos do vocabulrio DC (Dublin Core). O Dublin Core
um esquema de metadados para descrio de autoria de objetos
digitais, tais como vdeos, sons, imagens, textos e sites da web.
Em seguida, foram definidos os links RDF para relacionar os recursos
do projeto com outras fontes de dados. Para isso, foram utilizadas
propriedades como owl: sameAs, foaf:homepage, foaf:page, foaf:
primaryTopic, rdfs:seeAlso, rdf:type e skos:subject. Alm disso, algumas
informaes, como dados geogrficos e de ocupao, foram apresentadas
como recursos para outras fontes de dados. Dessa forma, links RDF foram
gerados com os seguintes data sets: DBPedia, uma verso da Wikipedia
com dados ligados; GeoNames, que possui informaes sobre lugares e
caractersticas geogrficas; Freebase, uma base de dados com informa-

2 http://purl.org/vocab/bio/0.1/
3 http://models.okkam.org/ENS-core-vocabulary
4 http://www.w3.org/2006/vcard/ns
5 http://dbpedia.org/property/
6 http://www.rdfabout.com/rdf/schema/politico/
7 http://purl.org/ontomedia/ext/common/being
8 http://motools.sourceforge.net/timeline/timeline.html
9 http://purl.org/dc/terms/
10 http://www.purl.org/net/rdf-money/
11 http://rdf.geospecies.org/ont/geospecies
12 http://purl.org/NET/c4dm/event.owl
13 http://www.w3.org/2004/02/skos/core
14 http://purl.org/ontology/bibo/

Revista Eletrnica de Sistemas de Informao, v. 10, n. 1, artigo 7 9


doi:10.5329/RESI.2011.1001007
es sobre diversas entidades do mundo; The World Factbook, publicaes
da CIA (Central Intelligence Agency) sobre os pases do mundo; UMBEL
(Upper Mapping and Binding Exchange Layer), que relaciona o contedo e
os dados de diferentes entidades; e YAGO, uma ontologia com informa-
es disponibilizadas como dados ligados.

Figura 3. Diagrama de vocabulrios e propriedades do projeto


Fonte: dados do trabalho.

A fim de facilitar a descoberta dos dados por mquinas e humanos, o


data set foi adicionado na Wiki ESW e foi realizado um sitemap para
indicar onde o RDF est localizado. Para testar se os dados podem ser
acessados corretamente e se eles podem seguir links RDF, foi utilizado o
The Tabulator Extension, uma extenso para o navegador Firefox que
prov uma interface para dados ligados baseada no navegador The
Tabulator. Tambm foi utilizado o servio de validao RDF do W3C para
certificar que so fornecidos documentos RDF/XML vlidos.
Em seguida, foi criada uma representao HTML para a visualizao
e consulta dos dados para usurios leigos. A pgina inicial fornece uma
descrio geral do site, o nmero de polticos cadastrados, links para
outras pginas do site e, principalmente, mecanismos de busca para o
usurio encontrar os polticos desejados de acordo com diferentes crit-
rios, como nome, situao, cargo, estado, partido e sexo. O usurio pode
utilizar mais de um critrio para realizar a busca. Diferentes grficos tam-

10 Revista Eletrnica de Sistemas de Informao, v. 10, n. 1, artigo 7


doi:10.5329/RESI.2011.1001007
bm foram gerados para conferir novos conhecimentos sobre os dados
coletados.
H um link para cada recurso no-informacional com o seu respec-
tivo URI. Ao selecionar o poltico, exibida a representao adequada de
acordo com a requisio do cliente. Os dados do poltico selecionado so
extrados da base de dados e exibidos dinamicamente nesta pgina. Para
melhorar a navegabilidade do site, possvel selecionar certos dados
apresentados para buscar polticos que possuem as mesmas caracters-
ticas. apresentado tambm ao fim da pgina um link para a visualizao
dos dados no formato RDF/XML.
Com o data set de dados de polticos brasileiros online, possvel
extrair os dados publicados via RDF, realizar consultas em cima desses
dados, ligar esses dados com dados de outros data sets e desenvolver
diferentes aplicaes Web.
Analisando o projeto de acordo com os aspectos apresentados
anteriormente sobre dados governamentais abertos, podemos dizer que
os dados publicados atendem de maneira geral os princpios bsicos que
determinam essa prtica: so completos, pois todos os dados coletados
esto disponveis sem limitaes de privacidade, segurana ou privilgios
de acesso; so primrios, pois possuem o maior nvel possvel de granula-
ridade sem modificaes; so atuais, pois so dados recentes de polticos
brasileiros, embora esse princpio deva ser avaliado tambm em longo
prazo; so acessveis e disponibilizados para qualquer usurio da Web; so
processveis por mquinas, estruturados usando o modelo RDF; so no
discriminatrios, pois no h necessidade de cadastro para acessar os
dados; so no proprietrios, no havendo uma entidade que detm o
controle exclusivo dos dados; e possuem licenas livres.
No que diz respeito aos dados ligados, o projeto tambm atende aos
princpios bsicos, usando URIs HTTP para nomear os recursos, permitindo
que as pessoas possam acess-los, fornecendo informaes teis utilizan-
do o padro RDF e incluindo links para outros URIs para que os usurios
possam encontrar mais recursos.

5 CONCLUSES

Este trabalho apresentou o desenvolvimento do projeto "Ligado nos


Polticos", que concentra informaes de polticos brasileiros e disponibi-
liza as informaes em formato de dados ligados, facilitando a reutilizao
dos dados por outros desenvolvedores. Este o primeiro data set com
informaes de polticos brasileiros em formato de dados ligados e, at o
momento, o nico data set brasileiro cadastrado na nuvem de dados do
projeto Linking Open Data da W3C.
Dados governamentais publicados na Web, por si s, j possuem um
grande valor para a populao, pois contribuem para uma maior transpa-
rncia de informaes. Mas a disponibilizao dessas informaes em

Revista Eletrnica de Sistemas de Informao, v. 10, n. 1, artigo 7 11


doi:10.5329/RESI.2011.1001007
formatos abertos e acessveis permite que sejam reutilizadas e combina-
das com informaes de outras fontes para produzir novos significados
sobre o desempenho do governo.
Aliar a publicao de dados governamentais abertos s prticas de
dados ligados ainda mais importante, pois proporciona um mecanismo
de acesso nico e padronizado, permitindo que os dados sejam legveis
por mquinas, facilitando a descoberta e o consumo dos dados, permitindo
que eles sejam ligados a outros conjuntos de dados, aumentando o valor e
a utilidade dos dados e abrindo possibilidades de aplicaes Web mais
inteligentes.
A publicao de dados governamentais abertos e dados ligados vem
crescendo nos ltimos anos. Ainda assim, muito ainda deve ser feito para
evoluir a Web de documentos para uma Web de dados e garantir que
esses dados sejam abertos e acessveis para todos, principalmente no que
diz respeito a dados governamentais brasileiros.
Atualmente, a publicao de dados governamentais abertos maior
em pases como os Estados Unidos e o Reino Unido. Dessa forma,
preciso estender esta prtica para os demais pases e garantir que mais
dados abertos sejam publicados pelos governos. Ao mesmo tempo, mais
pessoas e organizaes devem publicar dados governamentais por conta
prpria, contribuindo para o aumento da transparncia mesmo nos casos
em que os prprios polticos demonstrem relutncia.
importante ressaltar que as publicaes devem ir alm da esfera
de dados de polticos, abrangendo as diferentes reas da administrao
pblica como sade, educao, transporte, economia, entre outras. Dessa
forma ser possvel criar mais aplicaes, mashups e visualizaes para
oferecer informaes teis aos cidados.
O Brasil oferece diversos dados governamentais publicamente, mas
preciso aumentar as iniciativas de dados abertos. Baseando-se nos
exemplos bem sucedidos de outros pases, devem ser elaborados catlo-
gos ou portais para servir como um ponto nico de acesso a dados
pblicos. So necessrias tambm mais iniciativas no sentido de extrair os
dados j disponveis e torn-los abertos e reutilizveis, alm da realizao
de novas aplicaes com base nesses dados. Assim, a transparncia do
governo brasileiro seria aumentada, trazendo impactos scio-econmicos
positivos e melhorando os ndices do pas em pesquisas que dizem respei-
to qualidade do Governo Eletrnico.
No que diz respeito aos dados ligados, existe um limitado nmero de
data sets publicados se comparados quantidade de documentos (X)HTML
existentes na Web atual. preciso garantir que mais governos, organiza-
es e pessoas publiquem dados ligados, de forma a aumentar o nmero
de data sets interligados. preciso tambm melhorar o apoio a infraestru-
tura tcnica para a publicao de dados ligados. Publicaes que tratem
do tema de forma mais especfica devem ser elaboradas de forma a
auxiliar desenvolvedores neste processo. Torna-se necessrio tambm

12 Revista Eletrnica de Sistemas de Informao, v. 10, n. 1, artigo 7


doi:10.5329/RESI.2011.1001007
aumentar o nmero de servios que auxiliem na gerao de links RDF,
especialmente para o caso onde no existem identificadores comuns entre
os data sets.
Quanto ao projeto "Ligado nos Polticos", algumas limitaes so
encontradas, principalmente quanto abrangncia das informaes. No
data set so disponibilizados somente dados de polticos da esfera federal.
Alm disso, a quantidade de dados relacionados a alguns polticos muito
pequena se comparada a de outros polticos cadastrados. Essas limita-
es, contudo, so tambm limitao das fontes de dados utilizadas que
no permitem acesso aos dados brutos e disponibilizam somente parte
das informaes. Como trabalho futuro, pretendemos disponibilizar dados
sobre polticos das esferas municipal e estadual. Alm disso, utilizar o
mesmo processo apresentado nesse artigo para criao de data sets de
dados ligados com outras informaes governamentais, como gastos
pblicos, editais, projetos de lei etc.
Da mesma forma como o Governo Eletrnico revolucionou a relao
entre os cidados e o governo, Dados Governamentais Abertos tm o
potencial de aprimorar e estreitar ainda mais essa relao. E assim como a
Web provocou uma revoluo na publicao e no consumo de documen-
tos, dados ligados tm o potencial para revolucionar a forma como os
dados so acessados e utilizados. Se os desafios ainda existentes forem
adequadamente tratados, essas prticas permitiro uma revoluo na
forma como a Web utilizada atualmente para a comunicao entre
governos e cidados, ampliando a transparncia dos atos pblicos a nveis
at recentemente inimaginveis.

REFERNCIAS

AGUNE, R. M.; GREGORIO FILHO, A. S. ; BOLLIGER, S. P. Governo aberto


SP: disponibilizao de bases de dados e informaes em formato aberto.
In: Congresso Consad de Gesto Pblica, 3., Anais... 2009. Disponvel em:
http://www.escoladegoverno.pr.gov.br/arquivos/File/Material_%20CONSAD/
paineis_III_congresso_consad/painel_13/governo_aberto_sp_disponibilizaca
o_de_bases_de_dados_e_informacoes_em_formato_aberto.pdf. Acesso em:
dezembro de 2010.
BENNETT, D.; HARVEY, A. Publishing open government data. W3C Working
Draft. Setembro, 2009. Disponvel em: http://www.w3.org/TR/gov-data/.
Acesso em: dezembro de 2010.
BERNERS-LEE, T. Linked data. Design Issues. Julho, 2006. Disponvel em:
http://www.w3.org/De signIssues/LinkedData.html. Acesso em: dezembro
de 2010.
BERNERS-LEE, T. Putting government data online. Design Issues. Junho,
2009. Disponvel em: http://www.w3.org/DesignIssues/GovData.html.
Acesso em: dezembro de 2010.

Revista Eletrnica de Sistemas de Informao, v. 10, n. 1, artigo 7 13


doi:10.5329/RESI.2011.1001007
BIZER, C.; CYGANIAK, R.; HEATH, T. How to publish linked data on the web.
Julho, 2007. Disponvel em: http://www4.wiwiss.fu-berlin.de/bizer/pub/Linked
DataTutorial. Acesso em: dezembro de 2010.
BIZER, C.; HEATH, T.; IDEHEN, K.; BERNERS-LEE, T. Linked data on the
web. In: LDOW 2008 - International World Wide Web Conference. 17.,
Beijing, Proceedings... Abril, 2008. Disponvel em: http://events.linked
data.org/ldow2008/papers/00-bizer-heath-ldow2008-intro.pdf. Acesso em:
dezembro de 2010.
BIZER, C.; HEATH, T.; BERNERS-LEE, T. Linked data - the story so far.
Preprint to the special issue on linked data. International Journal on
Semantic Web and Information Systems (IJSWIS), 2009. Disponvel em:
http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf.
Acesso em: dezembro de 2010.
CYGANIAK, R.; JENTZSCH, A. The linking open data cloud diagram.
Setembro, 2010. Disponvel em: http://richard.cyganiak.de/2007/10/lod/.
Acesso em: dezembro de 2010.
DINIZ, V. Como conseguir dados governamentais abertos. In: Congresso
Consad de Gesto Pblica. 3., Anais... 2009. Disponvel em: http://www.
consad.org.br/sites/1500/1504/000 01870.pdf. Acesso em: dezembro de
2010.
ELMAGARMID, A. K.; IPEIROTIS, P. G.; VERYKIOS, V. S. Duplicate record
detection: a survey. Janeiro, 2007. Disponvel em: http://www.cs.purdue.
edu/homes/ake/pub/survey2.pdf. Acesso em: janeiro de 2011.
GI PARA E-GOV - GRUPO DE INTERESSE EM GOVERNO ELETRNICO DO
W3C. Melhorando o acesso ao governo com o melhor uso da web. Comit
Gestor da Internet no Brasil. 1. ed. So Paulo, 2009. Disponvel em:
http://www.w3c.br/divulgacao/pdf/gov-web.pdf. Acesso em: dezembro de
2010.
GOVERNO ABERTO, Decreto nmero 55.559 de 12 de maro de 2010 para
instituio do Portal Governo Aberto de So Paulo, 2010. Disponvel em
http://www.governoaberto.sp.gov.br/view/decreto.php. Acesso em: setem-
bro de 2011.
HEATH, T.; HAUSENBLAS, M.; BIZER, C.; CYGANIAK, R.; HARTIG, O. How to
publish linked data on the web: half-day tutorial. In: ISWC2008. Karlsruhe,
Alemanha. Proceedings... Outubro, 2008. Disponvel em: http://events.
linkeddata.org/iswc2008tutorial/how-to-publish-linked-data-iswc2008-
slides.pdf. Acesso em: dezembro de 2010.
HEATH, T., BIZER, C., Linked data: evolving the web into a global data
space, synthesis lectures on the semantic web. Theory and Technology, v.
1, n. 1, p. 1-136. Morgan & Claypool, 2011.
KLYNE, G.; CARROLL, J. J. Resource Description Framework (RDF): concepts
and abstract syntax. W3C Recommendation2004. Disponvel em

14 Revista Eletrnica de Sistemas de Informao, v. 10, n. 1, artigo 7


doi:10.5329/RESI.2011.1001007
http://www.w3.org/TR/2004/REC-rdf-concepts-20040210/. Acesso em: se-
tembro de 2011.
OPENGOVDATA.ORG. Open government data principles. California.
Dezembro, 2007. Disponvel em: http://resource.org/8_principles.html.
Acesso em: dezembro de 2010.
SHERIDAN, J.; TENNISON, J. Linking UK government data. LDOW. Raleigh,
Carolina do Norte. Abril, 2010. Disponvel em: http://events.linkeddata.org/
ldow2010/papers/ldow2 010_paper14.pdf. Acesso em: dezembro de 2010.
THACKER, Comunidade Transparncia Hacker, 2011. Disponvel em
http://thacker.com.br/node/. Acesso em: setembro de 2011.
UNITED NATIONS. United Nations e-government survey 2010. Nova Iorque:
UN Publishing Section, 2010. Disponvel em: http://unpan1.un.org/intradoc/
groups/public/documents/un/unpan038851.pdf. Acesso em: dezembro de
2010.
W3C. People: Tim-Berners-Lee biography, 2011. Disponvel em http://www.
w3.org/People/Berners-Lee/. Acesso em: setembro de 2011.
W3C ESCRITRIO BRASIL. O governo de inovao na Copa 2014: uso de
redes sociais e dados abertos. In: Seminrio de Inovao em Governo
Eletrnico. 2., Porto Alegre, Rio Grande do Sul. Anais... Setembro, 2010.
Disponvel em: http://www.procergs.rs.gov.br/uploads/1285856001W3C_
Seminario_Inovacao_eGov_POA_17092010.pdf. Acesso em: dezembro de
2010.
W3C SWEO Community Project. Linking open data on the semantic web
data sets. Dezembro, 2010. Disponvel em: http://esw.w3.org/TaskForces/
CommunityProjects/LinkingOpenData/DataSets. Acesso em: janeiro de 2011.

Revista Eletrnica de Sistemas de Informao, v. 10, n. 1, artigo 7 15


doi:10.5329/RESI.2011.1001007

Você também pode gostar