Você está na página 1de 19

relato de pesquisa

UMA PROPOSTA DE ECOSSISTEMA


DE BIG DATA PARA A ANÁLISE DE
DADOS ABERTOS GOVERNAMENTAIS
CONECTADOS

Marcio de Carvalho Victorino*


Marcelo Shiessl**
Edgard Costa Oliveira*** * Doutor em Ciência da Informação pela
Edson Ishikawa**** Universidade de Brasília, Brasil. Profes-
sor Substituto do Departamento de Ci-
Maristela Terto de Holanda***** ência da Computação da Universidade
Marçal de Lima Hokama****** de Brasília, Brasil. 
E-mail: mcvictorino@uol.com.br.

RESUMO O presente estudo trata da apresentação de uma proposta ** Doutor em Ciência da Informação
pela Universidade de Brasília, Brasil.
de Ecossistema de Big Data para dar suporte à análise de Analista de Risco Financeiro e Corpora-
dados abertos governamentais conectados. O ambiente de tivo da Caixa Econômica Federal, Brasil.
Big Data caracteriza-se por um conjunto de dados de grande Membro do Grupo de Pesquisa EROIC.
E-mail: marcelo.schiessl@gmail.com.
volume, grande variedade de formatos e com a necessidade de
serem processados a uma velocidade adequada. No referido *** Doutor em Ciência da Informação
pela Universidade de Brasília, Brasil.
Ecossistema, o processamento de dados massivos se dá por meio Professor Adjunto da Universidade de
do uso de novas abordagens das áreas de Ciência da Informação e Brasília, Brasil.
E-mail: ecosta@unb.br.
Ciência da Computação, que envolvem tecnologias e processos
para a coleta, representação, armazenamento e disseminação **** Doutor em Engenharia de Sistemas
da informação. Utiliza-se um modelo de Arquitetura da e Computação pela Universidade Federal
do Rio de Janeiro, Brasil. Professor Adjun-
Informação composto por princípios de usabilidade, metadados, to do Departamento de Ciência da Com-
tesauros, taxonomias e ontologias para organizar e representar putação da Universidade de Brasília, Brasil.
E-mail: ishikawa@cic.unb.br.
esse enorme volume de dados e a respectiva semântica. Com
a implantação do Ecossistema, pretende-se proporcionar ao ***** Doutora em Engenharia Elétrica
pela Universidade Federal do Rio
usuário final consultar um grande volume de dados públicos das Grande do Norte, Brasil. Professora
mais diversas áreas do governo; ao profissional da informação, Adjunta do Departamento de Ciência
identificar fontes de dados relevantes, a fim de preparar um da Computação da Universidade de
Brasília, Brasil.
ambiente apropriado à tomada de decisão, com base na análise E-mail: mholanda@cic.unb.br.
e mineração de dados; e, ao gestor público, realizar as análises
****** Mestrando do Curso de Pós-
em busca de insights que possam ajudar no estabelecimento e Graduação em Computação Aplicada do
monitoramento de políticas públicas eficazes. Departamento de Ciência da Computação
da Universidade de Brasília, Brasil.
Administrador de Dados Corporativos do
Palavras-chave: Big Data. Ecossistema. Dados abertos. Dados conectados. Exército Brasileiro, Brasil.
Arquitetura da informação. E-mail: lima@cds.eb.mil.br.

1 INTRODUÇÃO Controle – órgão responsável pelo controle


interno do Governo Federal, em conjunto com

H
á alguns anos, o governo brasileiro vem o Ministério do Planejamento, Orçamento
demonstrando a intenção de tornar a e Gestão – MPOG, estabeleceram a Portaria
sua administração o mais transparente Interministerial CGU/MPOG n. 140, de 16 de
possível por meio da publicação de informações março de 2006, que determina que os órgãos e
de interesse da sociedade na web. Em 2006, a entidades da Administração Pública Federal são
Controladoria-Geral da União – CGU – agora, responsáveis por manter nos seus respectivos
Ministério da Transparência, Fiscalização e sítios eletrônicos as informações detalhadas sobre

Inf. & Soc.:Est., João Pessoa, v.27, n.1, p. 213-230, jan./abr. 2017 213
Marcio de Carvalho Victorino, et al

determinados aspectos, como, por exemplo, problema, um grupo formado por pesquisadores
execução orçamentária, licitações, contratações, das áreas de Ciência da Informação e Ciência
entre outros. Estas devem ser mantidas em da Computação vislumbrou a possibilidade
páginas específicas, denominadas Páginas de de iniciar um projeto de pesquisa que pudesse
Transparência Pública (CGU, 2006). estruturar um Ecossistema de Big Data
Segundo a CGU, as Páginas de para dar suporte à análise de dados abertos
Transparência têm como missão promover a governamentais conectados.
visibilidade dos gastos públicos e incentivar Diante do exposto, o presente estudo tem
o controle social para que as práticas da por objetivo a apresentação da especificação, em
Administração Pública sejam pautadas pela um alto nível de abstração, de um Ecossistema
legalidade e ética (CGU, 2006). de Big Data para dar suporte à produção e
Em 2011, o Brasil passou a integrar a Open consumo de dados abertos governamentais de
Government Partnership (OGP), uma instituição qualidade no âmbito do governo brasileiro. Este
com o objetivo de fornecer uma plataforma deverá possibilitar o armazenamento dos dados
internacional para tornar os governos mais oriundos de diversas origens para serem tratados
abertos. A OGP (2011) destaca diversos benefícios e, posteriormente, servirem de subsídio para
das iniciativas de abertura de dados, tais a avaliação e o monitoramento de programas
como: a melhoria dos serviços públicos e mais sociais, com o objetivo de apoiar o desenho e a
compreensão das atividades governamentais; gestão de políticas públicas.
a gestão mais efetiva dos recursos públicos; o
aumento da responsabilização e da prestação
de contas; o aumento da integridade pública; 2 DADOS ABERTOS GOVERNA-
a criação de comunidades mais seguras; e, uma MENTAIS CONECTADOS
maior participação do cidadão na gestão pública.
Neste sentido, além das Páginas de
Transparência Pública que apresentam dados Segundo a definição da Open Knowledge
referentes às despesas realizadas por cada órgão International, antes conhecida como Open
e entidade da Administração Pública Federal, Knowledge Foundation, os “dados são abertos
o Governo Federal também disponibiliza quando qualquer pessoa pode livremente usá-los,
informações sobre a aplicação de recursos reutilizá-los e redistribuí-los, estando sujeito a,
públicos, a partir da consolidação de milhões no máximo, a exigência de creditar a sua autoria
de dados oriundos de diversos órgãos federais e compartilhar pela mesma licença” (TCU, 2015,
relativos a Programas e Ações de Governo em um p. 5).
único sítio denominando Portal da Transparência Sobre tal questão, a World Wide Web
(CGU, 2012). Esses ambientes disponibilizam um Consortium (W3C), um consórcio internacional
massivo volume de dados públicos estruturados, com a missão de conduzir a web ao seu
semiestruturados e não estruturados de interesse potencial máximo por meio da criação de
coletivo ou geral. Assim, torna-se um grande padrões e diretrizes que garantam sua evolução
desafio a criação de aplicações capazes de permanente – endossa a definição proposta por
gerar insights em uma velocidade apropriada Eaves (2009, p. 1):
a partir do enorme volume de dados nos mais
Dados Abertos Governamentais são
variados formatos. Para lidar com a questão da a publicação e a disseminação das
velocidade, do volume e da variedade, tem-se informações do setor público na web,
um novo conceito de ambiente de tratamento da compartilhadas em formato bruto
informação: o Big Data. aberto, compreensíveis logicamente,
O processamento desse recurso de modo a permitir sua reutilização em
aplicações digitais desenvolvidas pela
informacional tem demandado o estudo de sociedade.
novas abordagens nas áreas de Ciência da
Informação e Ciência da Computação, que Eaves (2009), especialista em políticas
envolvem tecnologias e processos para de coleta, públicas e ativista dos dados abertos, propôs
representação, armazenamento e disseminação três leis que foram adotadas pelo W3C, quais
da informação. Ciente da complexidade deste sejam:

214 Inf. & Soc.:Est., João Pessoa, v.27, n.1, p. 213-230, jan./abr. 2017
Uma proposta de ecossistema de Big data para a análise de dados abertos governamentais conectados

• Se o dado não pode ser encontrado e sensatas relacionadas à privacidade,


indexado na web, ele não existe; segurança e privilégios de acesso devem
• Se não estiver aberto e em formato ser permitidas.
compreensível por máquina, ele não pode
ser reaproveitado; e Em 2015, o Tribunal de Contas da União –
• Se algum dispositivo legal não permitir TCU – órgão responsável pelo controle externo
sua reaplicação, ele não é útil. do Governo Federal – publicou um documento
no qual elenca cinco motivos para a abertura de
Em 08 de dezembro de 2007, 30 americanos dados na Administração Pública brasileira (TCU,
defensores de dados abertos, representados por 2015), quais sejam:
pesquisadores de organizações da sociedade • Porque a sociedade exige mais
civil e ativistas, se reuniram para desenvolver transparência na gestão pública;
um conjunto de princípios para os dados • Porque a própria sociedade pode
abertos governamentais. O encontro, realizado contribuir com serviços inovadores ao
em Sebastopol, Califórnia, Estados Unidos da cidadão;
América – EUA, foi projetado para desenvolver • Porque ajuda a aprimorar a qualidade dos
um entendimento mais robusto a respeito do dados governamentais;
porquê dos dados abertos governamentais • Para viabilizar novos negócios; e
serem essenciais para a democracia. Aquele • Porque é obrigatório por Lei (Lei n.
grupo propôs um conjunto de oito princípios 12.527/2011).
fundamentais para os dados abertos
governamentais, a saber (TCU, 2015): Em 2006, Tim Berners-Lee publicou o
• Completos: todos os dados públicos estão documento “Design Issues” com uma subseção de
disponíveis. Entende-se por dado público web semântica exclusiva para a interoperabilidade
o dado que não está sujeito a limitações entre dados. Aquele autor ressalta a importância
válidas de privacidade, segurança ou da integração semântica desses dados, dando
controle de acesso. origem à área de dados conectados. O termo
• Primários: os dados são apresentados tais “dados conectados” (linked data) se refere a um
como os coletados na fonte, com o maior conjunto de boas práticas para a publicação e
nível de granularidade e sem agregação ou conexão de dados estruturados na web, fazendo
modificação. uso de padrões internacionais recomendados
• Atuais: os dados são disponibilizados pelo W3C (ISOTANI; BITTENCOURT, 2015).
tão rapidamente quanto necessária à Com base na relevância da
preservação do seu valor. interoperabilidade dos dados abertos
• Acessíveis: os dados são disponibilizados governamentais e privados, Tim Berners-Lee
para o maior alcance possível de usuários (2006) propôs o “Sistema de 5 Estrelas” – um
e para o maior conjunto possível de sistema que classifica, por meio de estrelas, o
finalidades. grau de abertura dos dados; ou seja, quanto mais
• Compreensíveis por máquinas: os dados aberto, maior o número de estrelas para os dados
são razoavelmente estruturados de modo a e mais facilidade para ser enriquecido.
possibilitar processamento automatizado. As cinco estrelas para os dados abertos
• Não discriminatórios: os dados são são:
disponíveis para todos, sem exigência de • “1 Estrela”: disponível na internet (em
requerimento ou cadastro. qualquer formato; por exemplo, .PDF),
• Não proprietários: os dados são desde que com licença aberta, para que
disponíveis em formato sobre o qual seja considerado dado aberto;
nenhuma entidade detenha controle • “2 Estrelas”: disponível na internet de
exclusivo; e modo estruturado (por exemplo, em uma
• Livres de licenças: os dados não estão planilha MS-Excel);
sujeitos a nenhuma restrição de direito • “3 Estrelas”: disponível na internet de
autoral, patente, propriedade intelectual modo estruturado e em formato não
ou segredo industrial. As restrições proprietário (em uma planilha OpenOffice.

Inf. & Soc.:Est., João Pessoa, v.27, n.1, p. 213-230, jan./abr. 2017 215
Marcio de Carvalho Victorino, et al

org ou Comma Separated Values – CSV em que provê um modo de mapear as informações
vez de MS-Excel); necessárias à própria organização, que se referem
• “4 Estrelas”: seguindo todas as regras aos processos do negócio e à documentação de
anteriores, mas dentro dos padrões seus inter-relacionamentos.
estabelecidos pelo W3C (Resource Macedo (2005) afirma que a AI é uma
Description Framework - RDF e SPARQL metodologia de ‘desenho’ que se aplica a
Protocol and RDF Query Language - qualquer ‘ambiente informacional’, sendo este
SPARQL): uso de Uniform Resource Locator compreendido como um espaço localizado em
– URL para a identificação de coisas e um ‘contexto’, constituído por conteúdos em
propriedades, de modo que todos possam fluxo, que serve a uma comunidade de ‘usuários’.
direcionar para suas publicações; e Sua finalidade é, portanto, viabilizar o fluxo
• “5 Estrelas”: todas as regras anteriores e efetivo de informações por meio do desenho de
mais a conexão de seus dados a outros ‘ambientes informacionais’.
dados, fornecendo um contexto. Na bibliografia atual é possível encontrar
várias propostas de AI, dentre elas, pode-se citar
Segundo Isotani e Bittencourt (2015), Rosenfeld e Morville (2002); Morrogh(2002);
é aconselhável que os dados sejam abertos Batley (2007); e Wodtke e Govella (2011). A
considerando no mínimo três estrelas. Porém, proposta de Rosenfeld e Morville (2002) tornou-
o ecossistema aqui proposto tem por objetivo se um dos marcos mais importantes para a área
atingir as cinco estrelas para os dados abertos de AI. Os autores propõem um modelo no qual a
governamentais conectados por meio de uma AI é representada como a interseção de contexto,
Arquitetura da Informação – AI, a fim de conteúdo e usuários. No espaço informacional
organizar e representar esse volume de dados de uma organização é necessário conhecer os
massivo e a respectiva semântica. objetivos do negócio da organização (contexto),
estar consciente da natureza e do volume
de informações existentes e de sua taxa de
3 ARQUITETURA DA INFORMAÇÃO crescimento (conteúdo), bem como, entender as
necessidades e os processos de busca do público-
O termo “Arquitetura da Informação” alvo (usuários).
– AI foi utilizado pela primeira vez em 1975, Rosenfeld e Morville (2002) apresentam
pelo arquiteto Wurman (2005), com base na uma visão direcionada quase que exclusivamente
importância da organização da informação para para o desenvolvimento se sites, no entanto, os
a sua compreensão tanto para os produtores recursos de AI utilizados se aplicam a quaisquer
quanto para os consumidores. O referido coleções de informações, dentre eles, esquemas
profissional afirma que os verdadeiros arquitetos de organização, rotulação e navegação de um
da informação dão clareza ao que é complexo, sistema de informação.
tornando a informação compreensível a outros Para esse trabalho é utilizada uma
seres humanos. adaptação da AI proposta por Victorino
De fato, não se tem uma definição precisa (2011). Essa proposta é embasada nos mesmos
sobre o que é ou o que constitui uma AI, e entre princípios de Rosenfeld e Morville (2002),
os vários pesquisadores que escrevem sobre no entanto, apresenta uma extensão para ser
o assunto, é possível observar uma grande utilizado em qualquer ambiente informacional.
quantidade e diversidade de definições. Em sua composição estão presentes recursos de
Para Davenport (1998), a AI é um usabilidade, metadados, tesauros, taxonomias e
conceito confuso, que pode abranger muitos ontologias.
significados alternativos. No entanto, na
perspectiva ecológica, significa um guia para a) Usabilidade
estruturar e localizar a informação dentro de uma
organização. De acordo com Bohmerwald (2005), os
Brancheau e Wetherbe (1986) afirmam que critérios de usabilidade fornecem parâmetros
a AI consiste em um plano para modelagem dos para medir a eficiência da interface e revela como
requisitos informacionais de uma organização, se dá a interação usuário-sistema. Segundo Bevan

216 Inf. & Soc.:Est., João Pessoa, v.27, n.1, p. 213-230, jan./abr. 2017
Uma proposta de ecossistema de Big data para a análise de dados abertos governamentais conectados

(1995), por “usabilidade” se entende a qualidade Segundo Conway e Sligar (2002), não
da interação dos usuários com uma determinada há uma definição consensual para o termo
interface – qualidade associada aos seguintes “taxonomia”. Neste sentido, aquelas autoras
princípios: facilidade de aprendizado; facilidade distinguem três tipos de taxonomia, a saber:
de lembrar como realizar uma tarefa após algum descritiva, navegacional e de vocabulário de
tempo; rapidez no desenvolvimento de tarefas; gerenciamento de dados, e propõem o uso
baixa taxa de erros; e, satisfação subjetiva do do termo para referenciar qualquer coleção
usuário. classificada de elementos.

b) Metadados e) Ontologia

O metadado pode ser definido como Historicamente, o termo “ontologia” tem


o dado ou a informação sobre o dado. origem no grego ontos (ser) e logos (tratado).
Normalmente, é utilizado para armazenar O termo original é a palavra aristotélica
informações úteis à recuperação ou acesso à “categoria” – utilizada para classificar alguma
informação, devendo ser capaz de descrever coisa. Aristóteles apresenta categorias que
ou servir de sumário para o conteúdo de servem de base para classificar qualquer
determinada informação. O termo surgiu em entidade, e introduz ainda o termo “differentia”
1995, por ocasião de um simpósio realizado em para propriedades que distinguem diferentes
Dublin, Ohio, EUA, que deu origem à Dublin espécies do mesmo gênero. A conhecida técnica
Core Metadata Iniciative – DCMI (2012). de herança é o processo de mesclar differentias,
definindo categorias por gênero (BAX;
c) Tesauro ALMEIDA, 2003).
Guarino (1998) ressalta o uso
O termo “tesauro” tem origem no predominante de ontologias na Inteligência
dicionário analógico de Peter Mark Roger, Artificial – IA, definindo-as como um artefato
intitulado Thesaurus of English Words and Phrases, de engenharia constituído de um vocabulário
publicado, pela primeira vez em Londres, em específico, utilizado para descrever uma
1852 (GOMES, 1990). Sobre a questão, Gomes determinada realidade e um conjunto de
(1990, p. 16) aponta que o tesauro nada mais é suposições explícitas, relacionadas ao significado
do que “uma linguagem documentária dinâmica intencional das palavras do vocabulário.
que contém termos relacionados semântica e Muitas definições foram apresentadas nas
logicamente, cobrindo de modo compreensivo últimas décadas, mas, a mais citada, no contexto
um domínio do conhecimento”. das áreas de Ciência da Informação e Ciência da
Em suma, o tesauro é uma lista estruturada Computação, tem por base a proposta de Gruber
de termos, associada e empregada por analistas (1993) que se desdobra nas seguintes definições:
de informação e indexadores para descrever • Definição 1 — Gruber (1993) propôs que
um documento com a desejada especificidade, a ontologia é uma especificação de uma
em nível de entrada, além de permitir aos conceituação;
pesquisadores a recuperação da informação que • Definição 2 — Borst (1997) complementou
procuram (CAVALCANTI, 1978). afirmando que a ontologia é uma
especificação de uma conceituação
d) Taxonomia compartilhada; e
• Definição 3 — Studer, Benjamins e
Carl Linnaeus é conhecido como o “Pai da Fensel (1998) combinaram as definições
Taxonomia”, pois seu sistema para nomeação, supramencionadas ao estabelecer
ordenação e classificação de organismos é até que a ontologia é uma especificação
hoje de grande valia. Sobre a questão, Campos e explícita e formal de uma conceituação
Gomes (2008, p. 1) afirmam: “Taxonomia é, por compartilhada.
definição, classificação sistemática e está sendo
conceituada no âmbito da Ciência da informação Uschold e Grüninger (1996) afirmam que
como ferramenta de organização intelectual”. a ontologia é o termo utilizado para se referir ao

Inf. & Soc.:Est., João Pessoa, v.27, n.1, p. 213-230, jan./abr. 2017 217
Marcio de Carvalho Victorino, et al

entendimento compartilhado de um determinado para permitir ao usuário encontrar o termo


domínio de interesse, que pode ser utilizado que represente um determinado significado
como uma estrutura unificada para solucionar para aquilo que procura. As taxonomias
vários tipos de problemas, entre os quais, navegacionais são utilizadas para permitir que
aqueles relacionados ao compartilhamento do os usuários leigos naveguem pelo conteúdo do
conhecimento e de interoperabilidade. repositório, sendo criadas levando em conta
o comportamento do usuário. As ontologias
permitem o aprimoramento da indexação das
4 ORGANIZAÇÃO DA INFORMAÇÃO fontes de dados, por meio da representação
semântica, e das buscas realizadas pelos usuários
por meio da delimitação do contexto. E, por fim,
os metadados descrevem o suporte e o conteúdo,
No presente estudo, tem-se que o objetivo servindo de índices para a recuperação da
de uma AI é a organização e armazenagem dos informação.
dados estruturados, semiestruturados e não Neste ambiente, outro desafio importante
estruturados em repositórios informacionais a ser encarado consiste em criar aplicações
(bancos de dados, sistemas de arquivos etc.) capazes de gerar insights, compreensão de
providos de consistência, compartilhamento, situações ou problemas complexos e a percepção
documentação, privacidade e recuperação eficaz dos elementos que levam a sua resolução, em
de seus conteúdos. Neste sentido, a Figura 1, a uma velocidade apropriada a partir de um
seguir, apresenta a AI proposta por Victorino enorme volume de dados, disponibilizados
(2011), devidamente adaptada para a pesquisa em uma grande variedade de formatos. Para
em questão. lidar com tais desafios – velocidade, volume e
variedade – tem-se novos conceitos de ambiente
Figura 1 – Modelo conceitual de Arquitetura de tratamento da informação, a saber: o Big Data
da Informação. e o Big Data Analytics.

5 BIG DATA

Estima-se que do início da civilização até


2003, a humanidade tenha criado cinco exabytes
(10 bytes elevados a 18ª potência) de dados.
Atualmente cria-se esse mesmo volume de dados
a cada dois dias (SCHMIDT, 2010). Um estudo
da International Data Corporation – IDC (GANTZ;
REINSEL, 2011) indica que de 2012 até 2020, o
volume de dado armazenado na internet deverá
dobrar a cada dois anos.
Algumas explicações para tal fenômeno
são: a drástica redução de preços para o arma-
zenamento das informações; a explosão de apli-
cações disponíveis na internet (e-commerce); a po-
pularização de sensores conectados – internet das
Fonte: Adaptado de Victorino (2011).
coisas, pesquisas científicas – ao projeto genoma;
e, as redes sociais (Facebook, Twitter etc.).
Tal cenário demanda soluções efetivas
De acordo com a AI apresentada na em termos de custos e formas inovadoras de
Figura 1, para o acesso a uma determinada tratamento da informação para uma melhor
fonte de dados, o usuário interage com percepção e tomada de decisão. Uma das
interfaces implementadas conforme os critérios propostas emergentes para lidar com esse
de usabilidade. Os tesauros são utilizados ambiente complexo é o Big Data.

218 Inf. & Soc.:Est., João Pessoa, v.27, n.1, p. 213-230, jan./abr. 2017
Uma proposta de ecossistema de Big data para a análise de dados abertos governamentais conectados

Há várias definições, entendimentos e de mapeamento. Pode haver múltiplas


discussões para o termo “Big Data”, e uma das tarefas de redução para paralelizar o
mais aceitas é a definição de ‘3Vs’, apresentada processamento. Estas são executadas
por Laney (2001). O “Big Data” é caracterizado nos nós trabalhadores sob o controle do
por um conjunto de dados de grande ‘volume’, rastreador de trabalho.
adquiridos em alta ‘velocidade’ e com
informações de alta ‘variedade’ de formatos. Indrawan-Santiago (2012) apresenta a
Davenport (2014) ressalta que outros ‘Vs’ seguinte classificação dos gerenciadores de banco
também já foram acrescentados à definição inicial de dados NoSQL, a partir do modelo de dados
de Big Data, quais sejam: ‘veracidade’ e ‘valor’. utilizado:
Davenport (2014) afirma que o Big Data é • chave-valor: os dados são armazenados
inegavelmente grande. Por outro lado, possui sob a forma de pares chave/valor, de
uma designação um tanto quanto inapropriada, modo estruturado ou não estruturado.
pois se trata de um termo genérico para dados Cada uma das chaves é única, e os clientes
que não cabem em repositórios habituais. Segun- atribuem ou solicitam os valores para cada
do aquele autor, o Big Data se refere a dados mas- chave.
sivamente volumosos para caberem em simples • colunar: os bancos NoSQL colunares, ou
servidores, extremamente desestruturados para orientados à coluna, conhecidos também
se ajustarem a bancos de dados com base em li- como família de colunas, armazenam e
nhas e colunas de tabelas relacionais, e continua- processam os dados por coluna ao invés
mente fluídos para caberem em estruturas estáti- de linhas, como ocorre no banco de dados
cas de armazenagem. relacional.
Várias pesquisas têm sido desenvolvidas • orientado a documentos: um banco
com o objetivo de conceber novas tecnologias NoSQL orientado a documentos faz uso
para armazenar e processar tais dados, para do conceito de par chave/valor para o
disponibilizá-los para consultas e análises de armazenamento de dados. Todavia, é
suporte à decisão. Entre as tecnologias mais imposta alguma estrutura em como o valor
promissoras, encontram-se o middleware Hadoop é armazenado. Em comparação com os
e os sistemas gerenciadores de banco de dados bancos de dados chave-valor, isso provê
NoSQL. mais informação sobre a estrutura, além de
O Hadoop destaca-se por ter suportar estruturas mais complexas.
implementado o conceito apresentado pela • orientado a grafos: nesta categoria de
empresa Google, denominado MapReduce banco NoSQL, os dados são representados
(DEAN; SANJAY, 2008). É uma abordagem como uma rede de nós conectados por
que busca dividir os problemas complexos do arestas, o que permite a determinação e
Big Data em pequenas unidades de trabalho e qualificação da conectividade entre as
processá-las em paralelo. entidades.
Em uma rede de computadores onde
o dado encontra-se distribuído pelos nós de Indrawan-Santiago (2012) também realiza
computadores que compõem essa rede, o uma reflexão sobre os diversos tipos de banco
MapReduce pode ser dividido em dois estágios, a de dados NoSQL apresentando as principais
saber (DEAN; SANJAY, 2008): vantagens e desvantagens destes quando
• Passo de mapeamento: o nó mestre comparados aos relacionais. As principais
divide os dados em vários subconjuntos vantagens apontadas por aquela autora
menores; um nó trabalhador processa são: a flexibilidade de suas estruturas, a alta
um subconjunto de dados menor sob o escalabilidade horizontal, o suporte a dados não
controle de um rastreador de trabalho estruturados e o processamento distribuído.
e armazena o resultado no sistema de Tais características tornam os bancos de dados
arquivos local, onde um redutor será capaz NoSQL excelentes dispositivos de persistência
de acessá-lo. para o ambiente de Big Data.
• Passo de redução: analisa e reúne os O framework Hadoop e os bancos de dados
dados de entrada a partir das etapas NoSQL são recursos vitais em um ambiente

Inf. & Soc.:Est., João Pessoa, v.27, n.1, p. 213-230, jan./abr. 2017 219
Marcio de Carvalho Victorino, et al

de Big Data. Neste sentido, a Figura 2, a seguir, propõem três tipos de análise, a saber: descritiva,
apresenta a arquitetura convencional de Big Data preditiva e prescritiva, levando-se em conta os
de Davenport (2014), com algumas adaptações. métodos utilizados. E ainda, tem-se outros dois
tipos de análise – qualitativa e quantitativa –
levando-se em conta os processos utilizados.
Figura 2 – Arquitetura convencional de um A análise descritiva envolve as ações de
ambiente de Big Data. coleta, organização, tabulação e apresentação
de dados para a exposição das características
do que está sendo estudado, sendo denominada
“elaboração de relatório” ou “resumo de dados”.
Consiste de um recurso que pode ser muito útil,
mas não explica os resultados ou as ocorrências,
nem indica o que pode acontecer no futuro.
Por outro lado, a análise preditiva vai além
da mera descrição das características dos dados e
das relações entre as variáveis, uma vez que faz
uso dos dados do passado para prever o futuro.
Em tal análise, primeiro são identificadas as
associações entre as variáveis e, em seguida, faz-
se a previsão da probabilidade da ocorrência de
um fenômeno, levando-se em conta as relações
identificadas.
Fonte: Adaptado de Davenport (2014). Já a análise prescritiva, por meio da
inclusão de métodos como projeto experimental
e otimização, se estende ainda mais. Tal como a
Na arquitetura apresentada na Figura 2, os receita de um médico, a análise prescritiva sugere
dados são persistidos em centenas ou milhares um curso de ação. Nesta, o projeto experimental
de bancos de dados NoSQL. O Hadoop age tenta responder às perguntas sobre porque
como um middleware que, após mapear os dados algo aconteceu, por meio de experimentos, e
distribuídos e aplicar as transformações ou regras a otimização tenta descobrir o nível ideal de
de negócio (MapReduce), consolida o resultado determinada variável em suas relações com
e apresenta a resposta ao usuário final. É preciso outra.
destacar que o Hadoop é um framework de Finalmente, a análise qualitativa tem por
computação distribuída implementado em Java, objetivo promover a compreensão das razões
voltado para clusters e processamento de grandes e motivações subjacentes a um fenômeno por
massas de dados. Em verdade, trata-se de um meio da observação de um pequeno número de
conjunto de tecnologias. casos representativos, enquanto que a análise
quantitativa almeja a investigação empírica
sistemática de um fenômeno por meio da
6 BIG DATA ANALYTICS observação de um grande número de casos e
posterior tratamento, fazendo uso de técnicas
O Big Data Analytics pode ser interpretado estatísticas, matemáticas ou computacionais.
como procedimentos complexos que são
executados em larga escala sobre grandes
repositórios de dados, cujo objetivo é a a) Arquitetura On Line Analytical Processing
extração de conhecimento útil mantido em tais em Big Data Analytics
repositórios (CUZZOCREA, 2013). Em outras
palavras, é a aplicação de técnicas analíticas Os Sistemas de Apoio à Decisão – SAD,
avançadas a grandes conjuntos de dados. antes do advento do Big Data, normalmente
Davenport e Kim (2013) classificam a eram organizados em uma arquitetura On
análise em ambientes de Big Data de acordo Line Analytical Processing – OLAP, que possui
com seus métodos e processos. Aqueles autores um repositório de dados multidimensional,

220 Inf. & Soc.:Est., João Pessoa, v.27, n.1, p. 213-230, jan./abr. 2017
Uma proposta de ecossistema de Big data para a análise de dados abertos governamentais conectados

denominado Data Warehouse – DW, capaz de de consulta SQL, muito utilizados em DWs
armazenar os dados oriundos de diversas fontes. convencionais, não são capazes de analisar a
Para compor um DW, os dados, oriundos de grande quantidade de dados de um Big Data.
sistemas de informação transacionais, passam Por outro lado, Indrawan-Santiago
por um processo de extração, transformação e (2012) ressalta que os bancos de dados NoSQL,
carga (em inglês, Extraction, Transformation, Load muito utilizados em ambientes de Big Data,
– ETL), para que possam ser analisados de modo foram concebidos para dar suporte a processos
integrado. operativos que manipulam um grande volume
Diante do exposto, a Figura 3, a seguir, de dados em diversos formatos em um tempo
apresenta os componentes de uma arquitetura aceitável, e não para fazer análises mais
OLAP sugeridos por Kimball e Ross (2013) para elaboradas, a fim de proporcionar suporte à
um ambiente de apoio à decisão: fontes de dados decisão. Outro aspecto importante que deve
transacionais; camada de ETL; DW; e, servidor de ser observado é que existem pouquíssimas
relatórios analíticos que dão suporte completo às ferramentas de consultas analíticas a repositórios
consultas ad hoc, onde o decisor pode navegar pe- de dados disponíveis para o Hadoop – principal
los dados organizados dimensionalmente em um framework utilizado em ambiente de Big Data.
DW, a fim de gerar planilhas ou gráficos, sem que O grande desafio consiste em disponibili-
seja necessária a criação de uma linha de código. zar uma arquitetura para que os dados estrutu-
rados e não estruturados de um ambiente de Big
Figura 3 – Arquitetura On Line Analytical Data possam ser utilizados em conjunto, a fim de
Processing convencional. dar suporte aos processos de tomada de decisão.
Neste sentido, Davenport (2014) apresenta uma
proposta para fundir as duas tecnologias – OLAP
e Big Data – em um ambiente integrado.
A Figura 4, a seguir, apresenta uma
extensão da arquitetura OLAP convencional,
segundo Davenport (2014), a fim de proporcionar
o seu uso em ambiente de Big Data.

Figura 4 – Arquitetura On Line Analytical


Processing estendida

Fonte: Adaptado de Kimball e Ross (2013).

Na arquitetura OLAP apresentada na


Figura 3, o DW é, portanto, um repositório de
dados corporativos, onde os dados obtidos
de sistemas-fonte são devidamente tratados
e, posteriormente, depositados em bancos de
dados informacionais, que oferecem um enfoque
histórico para permitir um suporte efetivo à
decisão.
No entanto, Kimball e Ross (2013) afirmam
que bancos de dados relacionais e a linguagem Fonte: Adaptado de Davenport (2014).

Inf. & Soc.:Est., João Pessoa, v.27, n.1, p. 213-230, jan./abr. 2017 221
Marcio de Carvalho Victorino, et al

Na arquitetura apresentada na Figura computacional, a fim de analisar e extrair


4, as fontes de dados operativas encontram-se automaticamente o conhecimento de grandes
nos mais variados formatos, representadas por volumes de dados. No caso do Big Data Analytics,
bancos de dados relacionais e NoSQL. Os dados o processo de mineração de dados pode ser
armazenados em bancos de dados relacionais realizado de acordo com o modelo de referência
passam por um processo ETL e são armazenados Cross Industry Standard Process for Data Mining –
no DW, tal como em uma arquitetura OLAP CRISP-MD (SHEARER, 2000), organizado nas
convencional. Já os dados armazenados em fases que se seguem:
bancos de dados NoSQL passam por um processo • O Entendimento do Negócio (Business
ETL executado pelo framework Hadoop e são Understanding): foca o entendimento
armazenados no mesmo DW. O Hadoop também dos objetivos e requisitos do projeto, da
pode funcionar como ferramenta de apresentação perspectiva do domínio, a relevância do
de dados para as consultas operativas. conhecimento prévio e os objetivos do
Nesta arquitetura, todos os dados analíti- usuário final;
cos são armazenados em um DW, proporcionan- • O Entendimento dos Dados (Data
do uma análise integrada a partir do cruzamento Understanding): realiza a coleta inicial
de informações de diversas áreas, gerando o re- de dados, descreve e explora os dados e
sultado por meio de relatórios OLAP. Vale ressal- verifica a qualidade dos dados;
tar que tal arquitetura é limitada, pois o ambiente • O Pré-Processamento dos Dados (Data
OLAP atual não é capaz de suportar o volume e Preparation): consiste na seleção de
variedade de dados de um ambiente de Big Data atributos, limpeza, construção, integração
(KIMBALL, ROSS; 2013). e formatação dos dados de entrada;
Uma solução mais completa seria a geração • A Modelagem (Modeling): seleciona
de relatórios analíticos diretamente a partir dos modelos e parâmetros, com o uso
repositórios de dados que compõem o Big Data, direcionado para a obtenção de insights.
por meio de ferramentas de consultas que fazem • A Avaliação (Evaluation): avalia, do ponto
parte do framework Hadoop, tendo em vista que de vista de análise dos dados, a qualidade
este último não possui limitações quanto a acesso dos modelos obtidos, além de verificar se
a fontes de dados heterogêneas e distribuídas. os objetivos do negócio foram atingidos
Entretanto, as ferramentas de análise disponível conforme os critérios de sucesso adotados.
para o Hadoop não possuem a maturidade das • A Implantação (Deployment): incorpora o
ferramentas OLAP. modelo selecionado ao processo de tomada
Diante do exposto, após o estudo de decisão da organização.
minucioso das várias opções arquiteturais
de Big Data Analytics, chegou-se à conclusão
que, inicialmente, o ecossistema aqui descrito 7 ECOSSISTEMA DE BIG DATA
é passível para a adoção da arquitetura
apresentada na Figura 4. No entanto, devido Existem diversas definições para o
ao fato desta ser limitada, pretende-se, em um Ecossistema de Big Data. Shin e Choi (2015),
segundo momento, migrar para uma arquitetura por exemplo, apresentam uma definição em
mais abrangente com a eliminação do repositório um contexto social mais amplo, como um
do DW e a geração de relatórios analíticos ecossistema ecológico, que compreende as
diretamente pelo Hadoop. Para tanto, faz-se relações que envolvem os seguintes aspectos:
importante que as ferramentas de consultas tecnologia, governo, indústria, mercados,
analíticas do Hadoop estejam em condições de usuários e sociedade. No referido ecossistema,
substituir as ferramentas de relatório OLAP são examinados os efeitos do Big Data em
convencionais. todos os setores envolvidos. Mantendo o
sentido biológico da interação entre os diversos
b) Mineração de Dados em Big Data Analytics componentes do cenário, mas em uma escala
menor, Demchenko, Laat e Membrey (2014)
A mineração de dados tem por objetivo definem um Ecossistema de Big Data como um
o emprego de técnicas de aprendizado complexo de facilidades técnicas e componentes

222 Inf. & Soc.:Est., João Pessoa, v.27, n.1, p. 213-230, jan./abr. 2017
Uma proposta de ecossistema de Big data para a análise de dados abertos governamentais conectados

construídos em volta de uma origem de dados implementadas a identificação completa,


específica e sua aplicação – o complexo de a referência cruzada e a ligação dos dados.
componentes inter-relacionados é voltado para A integridade dos dados, do controle de
o armazenamento, processamento, visualização acesso e da auditoria deve ser suportada
e entrega dos resultados a partir do Big Data. O durante todo o ciclo de vida dos dados.
ecossistema em questão ainda compreende, além • Infraestrutura de segurança do Big Data:
do próprio Big Data, as seguintes categorias de compreende o conjunto necessário de
componentes arquiteturais: componentes e políticas para prover
• Modelos e estruturas de dados: conforme controle no acesso aos dados e um
Demchenko, Laat e Membrey (2014), os ambiente de processamento seguro.
diversos estágios da transformação do
Big Data requerem diferentes estruturas
de dados, modelos e formatos, incluindo 8 METODOLOGIA
a possibilidade de processar tanto dados
estruturados como desestruturados. O presente trabalho descreve o resultado
É possível que as estruturas de dados da primeira etapa de uma pesquisa em
e modelos correspondentes sofram andamento. As etapas consideradas para a
modificações durante os diferentes estágios consecução desta pesquisa completa foram
de processamento de dados. Todavia, é agrupadas em duas partes distintas: a primeira
importante manter a ligação entre essas parte, descrita neste trabalho, consistiu em
estruturas. conceber um modelo em alto nível de abstração
• Arquitetura de Big Data: é constituída pelo de um Ecossistema de Big Data; e a segunda
conjunto de tecnologias e componentes parte, em fase de desenvolvimento, foca a
para o processamento e a análise do Big materialização desse modelo e a disponibilização
Data. Aqui Demchenko, Laat e Membrey de toda a infraestrutura necessária. As
(2014) ressaltam dois grupos de tecnologias metodologias utilizadas para cada etapa são
principais, que denominam de Big Data levantamento bibliográfico e sistemas flexíveis,
Analytics Infrastructure – BDAI, quais respectivamente.
sejam: a arquitetura geral que compreende
as tecnologias e os componentes para o a) Levantamento Bibliográfico
armazenamento, a computação, a rede,
os dispositivos e o suporte operacional O levantamento bibliográfico abrangeu
ao Big Data; e, a arquitetura de análise textos que abordam as temáticas de Big Data,
e processamento, que compreende as ecossistema, dados abertos, dados conectados,
ferramentas de análise e processamento arquitetura da informação, arquitetura OLAP,
de dados, além da apresentação e mineração de dados e indexação semântica, entre
visualização. outros, nas áreas da Ciência da Informação e
• Gerenciamento do ciclo de vida do Ciência da Computação.
Big Data (ou fluxo de transformação Adotou-se o portal de periódicos
dos dados): Demchenko, Gruengard e disponibilizado pela Fundação Coordenação de
Klous (2014) ressaltam a necessidade da Aperfeiçoamento de Pessoal de Nível Superior
utilização de métodos científicos para - Capes (CAPES, 2000) como principal fonte de
a obtenção dos benefícios das novas informação sobre o tema, pois concentra uma
oportunidades de coleta e mineração grande quantidade de outros portais desde o
de dados, a fim de lograr a informação ano de 2000. Além disso, outras buscas foram
desejada. O ciclo de vida requer o feitas diretamente, via navegador, em sites de
armazenamento e a preservação de dados instituições de ensino, repositórios públicos
em todos os estágios, com o intuito de — como CiteSeerX (http://citeseerx.ist.psu.
possibilitar o reuso/redirecionamento e edu/index) —, Google Acadêmico (https://
pesquisa/analytics nos dados processados scholar.google.com.br/) e outros recursos
e resultados publicados. Todavia, tal disponíveis na web como complemento às bases
fato somente é possível se estiverem mencionadas.

Inf. & Soc.:Est., João Pessoa, v.27, n.1, p. 213-230, jan./abr. 2017 223
Marcio de Carvalho Victorino, et al

A partir deste levantamento, foi possível a utilização da SSM em projetos de pesquisa na


descrever a especificação, em um alto nível de Ciência da Informação pode contribuir para a
abstração, de um Ecossistema de Big Data para discussão de questões típicas da área.
dar suporte à produção e consumo de dados
abertos governamentais de qualidade no âmbito
do governo brasileiro. 9 PROPOSTA DE ECOSSISTEMA
DE BIG DATA PARA A ANÁLISE
b) Metodologia de Sistemas Flexíveis DE DADOS ABERTOS
GOVERNAMENTAIS CONECTADOS
A Metodologia de Sistemas Flexíveis (SSM
– Soft System Methodology), desenvolvida na O primeiro passo para estruturar a proposta
década de 60 pela equipe de Peter Checkland, é de um Ecossistema de Big Data para dar suporte
baseada no pensamento sistêmico. Ela enxerga à análise de dados abertos governamentais conec-
o domínio do problema de forma holística, ao tados consistiu da abstração de uma arquitetura
invés de enxergar de maneira reducionista, de Big Data capaz de oferecer as funcionalidades
reconhecendo que as partes do sistema estão requeridas. Este teve início pela análise da arqui-
interconectadas, o que faz com que uma mudança tetura convencional de Big Data apresentada por
em uma parte do sistema afete outras partes. Davenport (2014). O objetivo era estendê-la, de
Não obstante, o pensamento sistêmico reconhece modo a contemplar os elementos de um Ecossis-
que um problema em um domínio é apenas um tema de Big Data elencados por Demchenko, Laat
subsistema de outros sistemas maiores. Dessa e Membrey (2014), bem como as regras para dados
forma as mudanças podem afetar outros sistemas abertos conectados com grau de abertura “5 Estre-
também (CHECKLAND, 1981). las” elencadas por Isotani e Bittencourt (2015). A
A Metodologia de Sistemas Flexíveis Figura 2 apresenta essa arquitetura convencional.
possui sete etapas distintas: Os principais aspectos observados para a
• Estágio 1: situação-problema não extensão da arquitetura apresentada na Figura 2
estruturada; foram a indexação e descrição semântica das fontes
• Estágio 2: situação-problema estruturada; de informação por meio da integração da AI pro-
• Estágio 3: definições fundamentais dos posta por Victorino (2011), além da estratégia de
sistemas relevantes; indexação semântica da informação proposta por
• Estágio 4: construção de modelos Schiessl (2015). A utilização de tais recursos tem por
conceituais; objetivo lidar com dados massivos distribuídos e
• Estágio 5: comparação dos modelos implementar os requisitos obrigatórios para que os
conceituais (4) com a realidade (2); dados disponibilizados no ecossistema sejam con-
• Estágio 6: identificação das mudanças siderados dados abertos conectados com grau de
desejáveis e possíveis; abertura “5 Estrelas”. Neste sentido, a Figura 5, a
• Estágio 7: ações para melhorar a situação- seguir, apresenta a arquitetura estendida.
problema. Na Figura 5 é possível observar que as
fontes de dados são disponibilizadas no forma-
A SSM pode ser aplicada em problemas to CSV, a fim de alcançar o grau de abertura “3
não-estruturados, na definição problemática de Estrelas”. Para o alcance do grau de abertura “4
objetivos, em sistemas sociais, bem como nas Estrelas”, as fontes de dados serão endereçadas
disciplinas de Biologia, Ecologia, Economia, por meio de URLs, sendo escolhidos os padrões e
Demografia, Gestão, Engenharia, dentre outras as tecnologias estabelecidos ou reconhecidos pela
(MAUAD et al., 2003). A metodologia utiliza uma W3C para a criação de metadados, tesauros, taxo-
abordagem holística para resolver problemas, os nomias e ontologias, com destaque para os que se
quais não podem ser resolvidos pela abordagem seguem: XML (eXtensible Markup Language), OWL
tradicional reducionista, com o fluxo da lógica (Web Ontology Language), RDF e SPARQL. Final-
baseada em indagações. mente, para alcançar o grau de abertura “5 Estre-
Costa (2003) constatou que o uso da SSM las”, os itens metadados, tesauros, taxonomias e
como Metodologia de pesquisa tem sido, via de ontologias auxiliarão na contextualizarão e inde-
regra, em pesquisa aplicada. A autora afirma que xação das informações do ecossistema.

224 Inf. & Soc.:Est., João Pessoa, v.27, n.1, p. 213-230, jan./abr. 2017
Uma proposta de ecossistema de Big data para a análise de dados abertos governamentais conectados

Figura 5 – Arquitetura de um ambiente de Big Data Analytics com dados abertos conectados para o
ecossistema proposto.

Fonte: Elaborado pelos autores

Fazendo uso, como referência, do dados, que são os sistemas de informação


Ecossistema de Big Data proposto por dos órgãos da Administração Pública
Demchenko, Laat e Membrey (2014), o brasileira – ligação que será mantida
ecossistema aqui proposto disponibilizará os por meio de metadados que poderão
seguintes componentes arquiteturais: descrever, entre outros aspectos, qual
• Modelos e estruturas de dados: apesar dos órgão gerou os dados, a data de geração, o
diversos estágios da transformação do Big conteúdo e o suporte da fonte original dos
Data requererem diferentes estruturas de dados.
dados, modelos e formatos, incluindo a • Arquitetura de Big Data: conforme
possibilidade de processar tanto dados apresentado na Figura 5, a arquitetura
estruturados como não estruturados, proposta prevê o uso de arquivos CSV
no presente caso, a informação será fornecidos pelos órgãos públicos, arquivos
armazenada no ecossistema no formato XML ou bancos de dados XML para a
CSV, devido às restrições das regras armazenagem dos metadados, arquivos
de abertura de dados. No entanto, é OWL para a armazenagem das ontologias,
importante manter a ligação entre os banco de dados relacionais modelados
arquivos CSV e as fontes de geração desses dimensionalmente para a armazenagem

Inf. & Soc.:Est., João Pessoa, v.27, n.1, p. 213-230, jan./abr. 2017 225
Marcio de Carvalho Victorino, et al

dos dados do DW que serão utilizados proporcionando resultados mais próximos às


para o apoio à decisão, e arquivos necessidades do usuário final.
proprietários para o armazenamento de Por outro lado, o referido ambiente
dados que serão minerados. O Hadoop proporcionará aos profissionais da informação
será utilizado para fornecer processamento a possibilidade de construir aplicações mais
distribuído e serviços de clusterização. Para sofisticadas que proporcionem análises
a análise ad hoc e geração de dashboards complexas por parte dos usuários finais, como,
para o apoio à decisão, serão utilizadas, por exemplo, uma análise OLAP por meio de
inicialmente, as ferramentas OLAP, como, consultas ad hoc ou dashboards e mineração de
por exemplo, as ferramentas componentes dados em busca de insights.
do software Pentaho. Para a mineração de Para a análise OLAP, o primeiro passo
dados, quando do emprego de técnicas de consiste em fazer a ETL das fontes operativas
aprendizado computacional para analisar para armazená-los em um DW. O profissional
e extrair automaticamente o conhecimento da informação poderá identificar tais fontes por
dos dados, serão utilizadas ferramentas meio de tesauros e taxonomias navegacionais
específicas (o Weka ou a ferramenta R, por encapsulados na camada de apresentação, além
exemplo). de ontologias e metadados, disponibilizados
• Gerenciamento do ciclo de vida do Big como índices e acessíveis por meio do Hadoop,
Data: é o componente mais complexo para a descrição e contextualização das
do ecossistema, haja vista requerer o informações e estruturas. Após a identificação
armazenamento e a preservação de dados das fontes de interesse, o próprio Hadoop
em todos os estágios, possibilitando o pode ser usado para a execução da ETL,
reuso/redirecionamento e a pesquisa/ transportando os dados dos arquivos CSV para
análise. o DW. No caso de fontes externas ao ambiente, é
possível fazer uso de ferramentas convencionais
Conforme o exposto na Figura 5, apesar da de ETL para a carga do DW. Após finalizada
publicação dos dados do ecossistema ser no for- a carga do DW, as ferramentas de análise
mato padrão CSV, tem-se a necessidade da ma- podem ser utilizadas para a apresentação dos
nutenção da referência às suas fontes originais. dados. Vale destacar que com a evolução das
Assim, para que o ecossistema funcione a conten- ferramentas de relatórios analíticos do framework
to, é preciso o estabelecimento de políticas de pu- Hadoop, o repositório do DW não se tornará
blicação de dados nos órgãos da Administração mais necessário, uma vez que o Hadoop gerará
Pública, prevendo formatos adequados e meta- diretamente os relatórios analíticos requeridos
dados mínimos. Após a validação da publicação pelos usuários finais.
dos dados abertos no ecossistema, respeitando os No que tange à mineração de dados, os
formatos e as descrições concernentes, as fontes e primeiros passos são o entendimento do negócio
os metadados serão indexados por meio de pala- e dos dados. O profissional da informação poderá
vras-chave e ontologias (indexação semântica), a executar essas tarefas por meio de tesauros e
fim de facilitar o processo de recuperação da in- taxonomias navegacionais encapsulados na
formação. camada de apresentação, além de ontologias
Os dados poderão ser apresentados e metadados, disponibilizados como índices e
aos usuários finais após serem processados acessíveis por meio do Hadoop, para a descrição e
pelo Hadoop. Para facilitar a recuperação da contextualização da área de negócio e respectivas
informação, a camada de apresentação será fontes de dados. Após a identificação das
composta por interfaces implementadas segundo fontes de interesse, o próprio Hadoop pode ser
os princípios de usabilidade. Esta também utilizado para a execução do pré-processamento
encapsulará tesauros e taxonomias navegacionais, dos dados, transportando os dados dos arquivos
a fim de enriquecerem as consultas à informação CSV para o formato proprietário da ferramenta
– consultas que farão uso das ontologias e de mineração a ser utilizada. No caso de dados
metadados, que estão disponíveis como índices, já armazenados no DW, o pré-processamento

226 Inf. & Soc.:Est., João Pessoa, v.27, n.1, p. 213-230, jan./abr. 2017
Uma proposta de ecossistema de Big data para a análise de dados abertos governamentais conectados

é mais simples, bastando transportá-los para tarefa simples processar o volume massivo
o ambiente de mineração, pois, a princípio, as dos dados gerados pelo governo brasileiro,
transformações dos dados necessárias já foram em uma enorme variedade de formatos a
executadas anteriormente pela operação de ETL. uma velocidade apropriada, a fim de gerar
• Infraestrutura de segurança do Big Data: insights úteis a gestores públicos, cidadãos e
a segurança da informação prevista para organizações interessadas.
o ecossistema tem como objetivo proteger Neste ínterim, a presente pesquisa
os dados e seus respectivos refinamentos, apresentou uma abordagem integrada para a
para que o ecossistema atinja seus criação de um Ecossistema de Big Data para
objetivos. Ela tem início com a proteção a análise de dados abertos governamentais
do dado na sua origem e permeia todo conectados, com base em princípios e técnicas
o ciclo da informação até o seu público das áreas de Ciência da Informação e Ciência
alvo, devendo ser integrada ao processo da Computação, que envolvem tecnologias
corporativo da segurança da informação e processos de coleta, representação,
das organizações geradoras de dados armazenamento e disseminação da
envolvidas. Apesar do ecossistema tratar informação.
os dados abertos, tem-se a necessidade O ecossistema proposto tem por objetivo
de se prover o controle do acesso aos disponibilizar dados compatíveis com o nível “5
dados e um ambiente de processamento Estrelas” para os dados abertos governamentais
seguro, haja vista que após a coleta, conectados por meio de uma AI composta por
pretende-se agregar inteligência a este princípios de usabilidade, metadados, tesauros,
conjunto de dados. Assim, é possível a taxonomias e ontologias, a fim de organizar
necessidade de restrição do acesso a tais e representar o volume de dados massivo e a
insights. E também ocorre a preocupação respectiva semântica.
de privacidade para garantir os direitos Para dar continuidade a esta pesquisa, a
individuais constitucionais. Outro aspecto equipe responsável, composta por pesquisadores
importante a ser analisado é a necessidade da área de Ciência da Informação e Ciência da
e viabilidade de cópias de segurança Computação, planeja conceber uma arquitetura
de parte dos dados, pois, mesmo sendo de software capaz de dar suporte ao ecossistema
possível refazer o tratamento dos dados apresentado a fim de proporcionar a sua
em uma situação de perda de informações, materialização.
o tempo necessário empregado na Pretende-se, com o referido ecossistema,
referida atividade pode ser impeditivo. proporcionar ao usuário final a consulta de um
Portanto, tem-se aí as questões inerentes grande volume de dados públicos das mais
à confidencialidade, integridade, diversas áreas do governo; ao profissional da
disponibilidade e autenticidade – informação, identificar fontes relevantes para
características básicas da segurança da preparar um ambiente apropriado à tomada
informação que devem ser preservadas. de decisão, com base na análise e mineração
de dados; ao gestor público, realizar análises
em busca de insights que possam ajudar no
10 CONSIDERAÇÕES FINAIS estabelecimento de políticas públicas eficazes,
proporcionando o emprego racional de recursos
Diante do exposto, não se pode duvidar públicos para o desenvolvimento do País;
que a divulgação de dados governamentais além de incentivar a população em geral no
de forma aberta e conectada incrementa a acompanhamento das políticas públicas por
transparência da administração pública e meio do acesso irrestrito, no ambiente web,
pode proporcionar inúmeros benefícios aos a dados abertos governamentais conectados
governos e cidadãos. No entanto, não é uma consistentes.

Inf. & Soc.:Est., João Pessoa, v.27, n.1, p. 213-230, jan./abr. 2017 227
Marcio de Carvalho Victorino, et al

Artigo recebido em 26/06/2016 e aceito para publicação em 23/01/2017

A PROPOSAL FOR BIG DATA ECOSYSTEM FOR THE


GOVERNMENT LINKED OPEN DATA ANALYSIS

ABSTRACT The present study proposes a Big Data Ecosystem to support the analysis of government linked open
data. Big Data environments are characterized by large volume of data, in a wide variety of formats,
which require appropriate velocity processing. In the Ecosystem proposed in this study, the processing
of massive volumes of data is done using new approaches in Information Science and Computer
Science, which involves technologies and processes for the collection, representation, storage and
dissemination of information. An Information Architecture model, composed of usability principles,
metadata, thesaurus, taxonomies and ontologies is used to organize and represent these enormous
volumes of data and the respective semantics. With the implementation of the Ecosystem, we intend
to provide the end user with the means to consult a large volume of public data from the most diverse
areas of government. This aids information professionals in identifying sources of relevant data, to
prepare an appropriate environment for making decisions, based on the analysis and data mining, and
helps public managers carry out analyses in search of insights that can support them in establishing
and monitoring public policies efficiently.

Keywords: Big Data. Ecosystem. Open data. Linked data. Information architecture.

REFERÊNCIAS da Informação, v. 34, n. 1, p. 95-103, 2005.


Disponível em: <http://www.bibliotecadigital.
ufmg.br/dspace/bitstream/handle/1843/
BATLEY, S. Information architecture for
LHLS-69XPCF/mestrado___paula_bohmerwald.
information professionals. Elsevier, 2007.
pdf?sequence=1>. Acesso em: 20 jan. 2016.
BAX, M. P.; ALMEIDA, M. B. Uma visão geral
BORST, W. N. Construction of engineering
sobre ontologias: pesquisa sobre definições, tipos,
ontologies for knowledge sharing and reuse.
aplicações, métodos de avaliação e de construção.
1997. Tese (Doutorado) — Institute for Telematica
Ciência da Informação, Brasília, v. 32, n. 3, p.
and Information Technology, University of
7-20, set./dez. 2003. Disponível em: <http://
Twente, Enschede, The Netherlands. Disponível
www.scielo.br/pdf/ci/v32n3/19019.pdf>.
em: <http://doc.utwente.nl/17864/>. Acesso
Acesso em: 15 fev. 2016.
em: 10 maio 2016.
BERNERS-LEE, T. Linked data-design issues.
BRANCHEAU, J. C.; WETHERBE, J. C.
W3C, 2006. Disponível em: < https://www.
Information Architectures: methods and practice.
w3.org/DesignIssues/LinkedData.html>. Acesso
Information Processing & Management, v. 22, n.
em: 15 jan. 2016.
6, p. 453-463, 1986.
BEVAN, N. Usability is quality of use. In: 6TH
CAMPOS, M. L. A; GOMES H. E. Taxonomia e
INTERNATIONAL CONFERENCE ON HUMAN
classificação: a categorização como princípio. In:
COMPUTER INTERACTION, Yokohama, v.
ENCONTRO NACIONAL DE PESQUISA EM
20, p. 349-354, jul. 1995. Disponível em: http://
CIÊNCIA DA INFORMAÇÃO, 8, 2007, Salvador,
citeseerx.ist.psu.edu/viewdoc/download?
Anais. Salvador: ANCIB, 2007. Disponível em:
doi=10.1.1.87.7123&rep=rep1&type=pdf> Acesso
< http://www.enancib.ppgci.ufba.br/artigos/
em: 15 out. 2015.
GT2--101.pdf>. Acesso em: 10 maio 2016.
BOHMERWALD, P. Uma proposta metodológica
FUNDAÇÃO COORDENAÇÃO DE
para avaliação de bibliotecas digitais: usabilidade
APERFEIÇOAMENTO DE PESSOAL DE NÍVEL
e comportamento da busca por informação
SUPERIOR - CAPES, Portal de Periódicos, 2000.
na Biblioteca Digital da PUC/Minas. Ciência

228 Inf. & Soc.:Est., João Pessoa, v.27, n.1, p. 213-230, jan./abr. 2017
Uma proposta de ecossistema de Big data para a análise de dados abertos governamentais conectados

Disponível em:< http://www.periodicos.capes. curricula for online and campus education. In: 1ST
gov.br/>. Acesso em: 25 abr. 2016. IEEE STC CC AND RDA WORKSHOP ON CUR-
RICULA AND TEACHING METHODS IN CLOUD
CAVALCANTI, C. R. Indexação e tesauro: COMPUTING, BIG DATA, AND DATA SCIENCE,
metodologia e técnica. Brasília: ABDF, 1978. Singapore, dez. 2014. Disponível em: <https://
www.researchgate.net/publication/273945502_Ins-
CHECKLAND, P. B. Systems Thinkings,
tructional_Model_for_Building_Effective_Big_Data_
Systems Practice. Chichester: Wiley, 1981.
Curricula_for_Online_and_Campus_Education>.
CONTROLADORIA-GERAL DA UNIÃO – CGU. Acesso em: 10 jan. 2016.
Páginas da Transparência Pública. Brasília, 2006.
_____; LAAT, C; MEMBREY, P. Defining
Disponível em: <http://www3.transparencia.
architecture components of the Big Data
gov.br/>. Acesso em: 28 jul. 2015.
Ecosystem. In: 2 ND BDDAC2014 SYMPOSIUM,
_____. Portal da Transparência. Brasília, CTS2014 CONFERENCE, Minneapolis, maio
2012. Disponível em: <http://www. 2014. Disponível em: <http://www.uazone.
portaldatransparencia.gov.br//>. Acesso em: 05 org/demch/presentations/bddac2014-bigdata-
fev. 2017. architecture-v01.pdf>. Acesso em: 10 jan. 2016.

CONWAY, S.; SLIGAR, C. Unlocking knowledge DUBLIN CORE METADATA INITIATIVE


assets. Washington: Microsoft Press, 2002. – DMCI. Dublin core metadata element set,
version 1.1. 2012. Disponível em: < http://
COSTA, S. M. S. Metodologia de sistemas flexí- dublincore.org/documents/dces/>. Acesso em:
veis aplicada a estudos em cência da informação: 15 jul. 2015.
uma experiência pedagógica. Transinformação,
Campinas, v. 15, n. 2, p. 259-271, maio/ago., 2003. GANTZ, J.; REINSEL, D. Extracting value from
chaos. IDC Iview, v. 1142, n. 2011, p. 1-12,
CUZZOCREA, A. Analytics over Big Data: 2011. Disponível em: <http://www.emc.com/
exploring the convergence of DataWarehousing, collateral/analyst-reports/idc-extracting-value-
OLAP and data-intensive cloud infrastructures. from-chaos-ar.pdf> Acesso em: 23 jun. 2015.
In: COMPUTER SOFTWARE AND
APPLICATIONS CONFERENCE – COMPSAC, GOMES, H. E. Manual de elaboração de tesauros
IEEE 37th Annual, 2013. p. 481-483. monolíngues. Brasília: Programa Nacional de
Bibliotecas de Ensino Superior, 1990.
DAVENPORT, T. H. Ecologia da Informação. 6.
ed. São Paulo: Futura, 1998. GRUBER, T. R. What is an ontology? 1993.
Disponível em: <http://www-ksl.stanford.edu/
_____; KIM, J. Keeping up with the quants. kst/what-is-an-ontology.html> Acesso em: 10
Harvard Business Review Press, 2013. dez. 2015.
_____, T. H. Big Data at work: dispelling the GUARINO, N. Formal ontology and information
myths, uncovering the opportunities. Harvard systems. In: PROCEEDINGS OF FOIS’98, Trento,
Business Review Press, 2014. Italy, p. 81-97, jun. 1998. Disponível em: <http://
DAVID, E. Dados Abertos Governamentais. www.mif.vu.lt/~donatas /Vadovavimas/Temos/
2009. Disponível em: <http://www.w3c.br/ OntologiskaiTeisingas KoncepcinisModeliavimas/
divulgacao/pdf/dados-abertos-governamentais. papildoma/Guarino98-Formal%20O ntology%20
pdf>. Acesso em: 10 jul. 2015. and%20Information%20Systems.pdf>. Acesso em:
10 jan. 2016.
DEAN, J.; SANJAY, G. MapReduce:
simplified data processing on large clusters. INDRAWAN-SANTIAGO, M. Database research:
Communications of the ACM, v. 51, n. 1, p. are we at a crossroad? Reflection on NoSQL. In:
107-113, 2008. Disponível em: <http://static. FIFTEENTH INTERNATIONAL CONFERENCE
googleusercontent.com/media/research.google. ON NETWORK-BASED INFORMATION
com/pt-BR//archive/mapreduce-osdi04.pdf>. SYSTEMS, p. 45-51, 2012.
Acesso em: 10 jan. 2016.
ISOTANI, S.; BITTENCOURT, I. I. Dados
DEMCHENKO, Y.; GRUENGARD, E.; KLOUS, S. Abertos Conectados: Em busca da Web do
Instructional model for building effective Big Data Conhecimento. São Paulo: Novatec, 2015.

Inf. & Soc.:Est., João Pessoa, v.27, n.1, p. 213-230, jan./abr. 2017 229
Marcio de Carvalho Victorino, et al

KIMBALL, R., ROSS, M. The Data Warehouse SCHIESSL, M. Lexicalização de ontologias: o


toolkit: the definitive guide to dimensional relacionamento entre conteúdo e significado no
modeling. 3. ed. Indiana: John Wiley & Sons, 2013. contexto da recuperação da informação. 2015.
Tese (Doutorado) – Programa de Pós-Graduação
LANEY, D. Application delivery strategies. em Ciência da Informação, Faculdade de Ciência
Meta Group. 2001. Disponível em: <http://blogs. da Informação, Universidade de Brasília, Brasília.
gartner.com/doug-laney/files/2012/01/ad949- Disponível em: <http://repositorio.unb.br/
3D-Data-Management-Controlling-Data-Volume- bitstream/10482/18663/1/2015_MarceloSchiessl.
Velocity-and-Variety.pdf> Acesso em: 23 jan. pdf>. Acesso em: 10 jun. 2016.
2016.
SHIN, D. H.; CHOI, M. J. Ecological views of Big
MACEDO, F. L. O. Arquitetura da Informação: Data: perspectives and issues. Telematics and
aspectos epistemológicos, científicos e práticos. Informatics, v. 32, n. 2, p. 311-320, maio 2015.
2005. Dissertação (Mestrado) – Departamento
de Ciência da Informação e Documentação, STUDER, R.; BENJAMINS, R. R.; FENSEL, D.
Universidade de Brasília, Brasília. Knowledge engineering: principles and methods.
Data & Knowledge Engineering, v. 25, n.
MAUAD, T; et al. Análise comparativa 1-2, p. 161-197, 1998. Disponível em: <http://
entre distritos industriais: uma aplicação do www.sciencedirect.com/science/article/pii/
enfoque sistêmico para avaliar projetos de S0169023X97000566>. Acesso em: 10 jan. 2016.
desenvolvimento local. In: PROCEEDINGS OF
THE THIRD INTERNATIONAL CONFERENCE TRIBUNAL DE CONTAS DA UNIÃO – TCU.
OF THE IBEROAMERICAN ACADEMY OF Secretaria de Fiscalização de Tecnologia da
MANAGEMENT. 2003. Disponível em: <http:// Informação. 5 motivos para a abertura de
www.fgvsp.br/iberoamerican/Papers/0112_ dados na Administração Pública. Brasília, 2015.
Artigo%20IAM_final%20formatado.pdf> Acesso Disponível em: <http://portal3.tcu.gov.br/
em: 4 dez. 2015. portal/pls/portal/docs/2689107.PDF>. Acesso
em: 23 jun. 2015.
MORROGH, E. Information architecture: An
emerging 21st century profession. Pearson USCHOLD, M.; GRÜNINGER, M. Ontologies:
Education, 2002. principles, methods and application. The
Knowledge Engineering Review, v. 11, n. 2,
OPEN GOVERNMENT PARTNERSHIP – p. 93-136, 1996. Disponível em: <http://www.
OGP. Open by Default, Policy by the People, upv.es/sma/teoria/sma/onto/96-ker-intro-
Accountability for Results, 2011. Disponível em: ontologies.pdf>. Acesso em: 10 jan. 2016.
<http://www.opengovpartnership.org/sites/
default/files/091116_OGP_Booklet_digital.pdf> VICTORINO, M. C. Organização da
Acesso em: 10 jul. 2015. informação para dar suporte à arquitetura
orientada a serviços: reuso da informação
ROSENFELD, L.; MORVILLE, P. Information nas organizações. 2011. Tese (Doutorado)
architecture for the world wide web. California: – Programa de Pós-Graduação em Ciência
O’Reilly Media, Inc., 2002. da Informação, Faculdade de Ciência da
Informação, Universidade de Brasília,
SCHMIDT, E. Every 2 days we create as much
Brasília. Disponível em: <http://repositorio.
information as we did up to 2003. TechCrunch,
unb.br/bitstream/10482/10056/1/2011_
2010. Disponível em: <http://techcrunch.
MarcioCarvalhoVictorino.pdf>. Acesso em: 10
com/2010/08/04/schmidt-data/>. Acesso em:
jan. 2016.
23 jan. 2016.
WODTKE, C.; GOVELLA, A. Information
SHEARER, C. The CRISP-DM model: the new
architecture: Blueprints for the Web. Pearson
blueprint for Data Mining. Journal of Data
Education India, 2011.
Warehousing, v. 5, n. 4, p. 13-22, 2000. Disponível
em: <https://mineracaodedados.files.wordpress. WURMAN, R. S. Ansiedade de informação 2:
com/2012/04/the-crisp-dm-model-the-new- um guia para quem comunica e dá instruções.
blueprint-for-data-mining-shearer-colin.pdf>.
São Paulo: Cultura, 2005.
Acesso em: 10 jan. 2016.

230 Inf. & Soc.:Est., João Pessoa, v.27, n.1, p. 213-230, jan./abr. 2017
Reproduced with permission of copyright owner.
Further reproduction prohibited without
permission.

Você também pode gostar