Você está na página 1de 66

BIG DATA

Professor:
Me. Luis Claudio Perini
DIREÇÃO

Reitor Wilson de Matos Silva


Vice-Reitor Wilson de Matos Silva Filho
Pró-Reitor de Administração Wilson de Matos Silva Filho
Pró-Reitor de EAD William Victor Kendrick de Matos Silva
Presidente da Mantenedora Cláudio Ferdinandi

NEAD - NÚCLEO DE EDUCAÇÃO A DISTÂNCIA

Diretoria Operacional de Ensino Kátia Coelho


Diretoria de Planejamento de Ensino Fabrício Lazilha
Head de Planejamento de Ensino Camilla Cocchia
Supervisão do Núcleo de Produção de Materiais Nádila de Almeida Toledo
Supervisão de Projetos Especiais Daniel F. Hey
Projeto Gráfico Thayla Guimarães
Designer Educacional Rossana Costa Giani
Editoração Produção de Materiais

C397 CENTRO UNIVERSITÁRIO DE MARINGÁ. Núcleo de Educação


a Distância; PERINI, Luis Claudio.

Tópicos Especiais Big Data, Data Mining e Data
Warehouse. Luis Claudio Perini;
Maringá-Pr.: UniCesumar, 2017.
66 p.
“Pós-graduação Universo - EaD”.
1. Big data 2. Mining Data. 3. EaD. I. Título.

CDD - 22 ed. 025


CIP - NBR 12899 - AACR/2

As imagens utilizadas neste livro foram


obtidas a partir do site shutterstock.com

NEAD - Núcleo de Educação a Distância


Av. Guedner, 1610, Bloco 4 - Jardim Aclimação - Cep 87050-900
Maringá - Paraná | unicesumar.edu.br | 0800 600 6360
sumário
01 06| CIÊNCIA DE DADOS

02 18| INTRODUÇÃO AO BIG DATA

03 31| ECOSSISTEMA DE BIG DATA

04 42| TECNOLOGIA NOSQL E HADOOP


BIG DATA

OBJETIVOS DE APRENDIZAGEM
• definir conceitos da ciência de dados. Entender a importância da ciência
de dados no tratamento das informações nas organizações. Definir os ce-
nários de aplicação da ciência de dados nos diversos ramos de negócios.
Definir quem é e o que faz um cientista de dado;
• descrever os processos de Big Data. Entender quais dados fazem parte do
contexto de Big Data, qual a definição desse conceito, como obter dados
de diferentes fontes, como extrair valor a partir dos dados, qual a infraes-
trutura necessária para criar uma solução de Big Data, quais habilidades
são necessárias para se atuar com Big Data. Descrever as influências das
tecnologias de Big Data nas atividades do dia a dia. Descrever as principais
utilizações do Big Data. Descrever os V´s de Big Data;
• conceituar o ecossistema de Big Data. Descrever o ciclo de adoção de
Tecnologia. Entender a curva de aprendizagem necessária no ecossistema
de Big Data.
• conceituar a tecnologia NoSQL. Descrever a estrutura como os dados são
armazenados nos modelos existentes no NoSQL. Descrever a importância
da governança dos dados.

PLANO DE ESTUDO

A seguir, apresentam-se os tópicos que você estudará nesta unidade:


• Ciência de Dados
• Introdução ao BIG DATA
• Ecossistema de BIG DATA
• Tecnologia NoSQL e Governança de Dados
INTRODUÇÃO

Uma ciência que incorpora vários elementos e fundamenta-se em técnicas e teorias


de várias áreas desde as ciências básicas até as engenharias e estritamente ligada a
muitas das disciplinas tradicionais, porém viabilizando uma nova área altamente in-
terdisciplinar, é a área da Ciência de Dados. Assim sendo, a ciência de dados surge
como componente cada vez mais destacado nas mais diversas áreas, tais como
saúde, financeira, energia, esporte, comunicação móvel, petróleo, dentre outras.
Nesse ambiente altamente interdisciplinar e em áreas tão distintas, o maior
desafio é identificar os princípios, métodos e técnicas fundamentais para o ge-
renciamento de grandes volumes de dados, vencendo as dificuldades ao imenso
volume dados.
Um desafio correlato que surge é a formação de recursos humanos altamen-
te qualificados no desenvolvimento de pesquisa e aplicada em ciência de dados,
pois tal elemento deve possuir uma formação sólida em ciência da computação e
em aplicações de modelagem estatística, analítica e matemática, além de conhe-
cimento no domínio da aplicação.
O enfoque é dado aos processos existentes em um projeto de Big Data. Para
isso, cada aula foi planejada para apresentar informações sobre as principais ativi-
dades em um projeto, desde a captura até a visualização de dados. Partindo dessa
estrutura, analisam-se as posturas profissionais de diferentes áreas que desejam atuar
com esse tema e poderão também se beneficiar desse conteúdo, obtendo informa-
ções relevantes para inspirá-los na aplicação de Big Data em sua área de atuação.
Na aula 1, apresentamos a motivação para o conhecimento a respeito da ciência
de dados e as atividades dos cientistas de dados e como podem contribuir para sua
aplicação tanto na esfera científica, empresarial e governamental.
Na aula 2, apresentamos introdução ao Big Data, dando visão geral sobre Big
Data e os tipos de dados existentes nesse contexto. Serão apresentados os famosos
3 Vs de Big Data (volume, variedade e velocidade), as tendências para o aumento
de volume de dados digitais no decorrer dos anos e a aplicabilidade dos dados
gerados por humanos e por máquinas.
Na aula 3, daremos ênfase no ecossistema de Big Data, abordando além do ecos-
sistema de Big Data, também será visto o ciclo de adoção de tecnologia, a curva de
aprendizagem governança de dados.
Bons estudos!
introdução
6 Pós-Universo

ciência de dados
Pós-Universo 7

Vivemos na era da informação, e o mundo nunca gerou tanta informação como nos
dias atuais. A informação é gerada a partir de dados, e dados são produzidos por cada
um dos seres humanos no planeta, por máquinas, sistemas, celulares, dispositivos e
muito em breve até mesmo por eletrodomésticos.
A ciência de dados nos traz as ferramentas, métodos e tecnologias para analisar,
visualizar e tomar decisões a partir dos dados.
Imagine, caro(a) aluno(a), a quantidade de dados gerados a cada dia por uma
empresa, pedidos, vendas, pagamentos, relacionamentos com os clientes, proces-
sos internos, auditoria, contabilidade, finanças, marketing, bancos de dados, e-mails,
sistemas, redes sociais. E, diante isso, como esses dados se relacionam? Como eles
se relacionam com o mundo externo à empresa? Como tomar melhores decisões a
partir de dados? E, por fim, como fazer isso com dados gerados em tempo real?
A ciência de dados cresce na mesma velocidade como os dados são gerados.
Novos métodos, tecnologias e processos são necessários para que se possa extrair
informação valiosa diante de tamanha imensidão de dados.
A ciência dos dados tem o desafio de ajudar aqueles que precisam responder às
perguntas que ainda não foram feitas.
Estima-se que no futuro todos serão cientistas de dados, ou seja, na prática já
somos vistos como quem recebe toneladas de dados todos os dias, das mais variadas
fontes e formatos e cada um de nós decidimos o que fazer com esses dados e como
transformá-los em informação útil. Nosso dia a dia já é baseado em dados, e preci-
samos apenas aprender as melhores técnicas para fazer que os dados nos ajudem a
tomar melhores decisões.
8 Pós-Universo

De acordo com Porto e Zaviani (2017, p. 3), a ciência de dados é


[...] apresentada de forma geral como um vetor de múltiplas facetas, o fenô-
meno ainda está sendo interpretado pelos cientistas e vem impulsionando
iniciativas em diversas áreas. Nas ciências, incitando biólogos, astrônomos,
físicos e demais pesquisadores em diversas áreas científicas, a enfrentarem
problemas computacionais na chamada e-ciência, que se tornam barreiras
para as suas descobertas. Na indústria, aparece fortemente como análise pre-
ditiva em sintonia com o ambiente de computação em nuvem, provendo
escalabilidade e tolerância a falhas, em ambientes computacionais cada vez
mais complexos e de tamanho proporcional ao desafio. No setor governa-
mental, há oportunidades sobre imensas bases de dados do setor público
com vistas a gerar planejamento mais eficiente bem como novos serviços
que possam melhorar o atendimento ao cidadão.

O grande desafio relacionado à ciência de dados relaciona-se com a experiência an-


terior em realizar atividades de pesquisa e desenvolvimento em gestão e análise de
dados, bem como análise de redes complexas, em cenários de aplicação das áreas
mais diversas, tais como astronomia, biodiversidade, Internet, petróleo & gás, saúde
e comunicação móvel.
Essa experiência permitiu a identificação de um clamor por pesquisa básica nos
aspectos fundamentais de análise de dados em larga escala, tendo como principal
motivação a proposta de ciência de dados como grande desafio a computação nos
próximos anos. Podemos notar na Figura 1 esse ciclo de motivação para a pesquisa
básica e aplicada em ciência de dados
Pós-Universo 9

motivam
pesquisa básica
em

Aspectos
Cenários fundamentais de
de aplicação análise de dados
em larga-escala

motivam
pesquisa aplicada
em

Figura 1 - Motivação cíclica para pesquisa básica e aplicada em ciência de dados


Fonte: Porto e Zaviani (2017, p. 3).
Na Tabela 1, podemos ver alguns exemplos de cenários de aplicação e ciência de
dados em algumas áreas.

Tabela 1 – Cenários de Aplicação atuais da Ciência de Dados

ÁREA CENÁRIO

O Laboratório Nacional de Computação Científica-LNCC e membro


do Laboratório Interinstitucional de Astronomia tem gerenciado
e processado dados obtidos de grandes levantamentos astro-
nômicos, produzindo dados a partir de imagens telescópicas
Astronomia fotografadas por instrumentos terrestres, gerando um conjun-
to de dados chamado Catálogo Astronômico. Catálogos estes que
podem conter centenas de bilhões de objetos celestes e processar
tal volume incomum de dados desses catálogos de forma eficiente
requer seu particionamento e alocação distribuída em um cluster.

A necessidade de monitorar as mudanças na biodiversidade, é es-


sencial coletar, documentar, armazenar e analisar indicadores
a respeito da distribuição das espécies, bem como obter infor-
mações sobre como elas interagem entre si e com o ambiente
Biodiversidade
em que vivem. O Sistema de Informação sobre a Biodiversidade
Brasileira (SiBBr) permite a agregação de dados de espécies e ocor-
rências disponibilizadas por diversas instituições acadêmicas e de
pesquisa bem como de órgãos governamentais.
10 Pós-Universo

Por sua própria constituição, isto é, um conjunto de redes comple-


xas interdependentes entre si, formam a infraestrutura básica de
interconexão até redes sociais online envolvendo bilhões de usuá-
rios, passando por redes no nível aplicativo de troca de conteúdo.
Internet Com isso, sendo um grande desafio para a caracterização, análise
e modelagem de tais redes na Internet, incluindo a WWW. Tais
estudos devem também preservar a privacidade de usuários, o que
impõe desafios adicionais à coleta eficiente e detalhada de infor-
mações importantes para condução de pesquisa.
A pesquisa de petróleo e gás em áreas profundas é um grande
desafio no Brasil. A investigação nesses campos envolve a captura
de reflexos de ondas sísmicas enviadas a partir da superfície. Uma
vez capturadas e processadas para limpeza dos dados, os chama-
dos traços sísmicos são combinados em um grande conjunto de
Petróleo e Gás dados representando a região investigada. A atividade de analisar
os sinais sísmicos para detecção de feições de interesse é chamada
de interpretação geofísica e tem valor econômico bastante rele-
vante. Além do problema básico da gerência de grande volume de
dados, a inferência de feições a partir de sinais em ondas sísmicas é
um grande desafio.
A área de saúde manipula rotineiramente com enormes quanti-
dades de dados e que só aumenta devido ao uso crescente de
sistemas de informação em saúde e prontuários eletrônicos do pa-
ciente. Aqui também há grandes desafios na gestão e análise de
Saúde dados ligados à área de saúde, pois há uma tendência ainda maior
na expansão no volume de dados num futuro próximo devido ao
uso crescente de sensores ou mesmo dispositivos móveis para
coleta de dados individualizados em ambientes residenciais ou
pré-hospitalares.
Os dados coletados de redes de telefonia celular têm um enorme
potencial de prover informações valiosas sobre o relacionamento
dinâmico de indivíduos ou sobre mobilidade humana a um custo
Comunicação relativamente baixo e numa escala sem precedentes. A análise
móvel de enormes volumes de dados de redes celulares hoje apresenta
impacto em diversas áreas, de melhor planejamento e dimen-
sionamento das próprias redes de telecomunicação até mesmo
indiretamente o planejamento urbano.
Fonte: adaptado de Porto e Zaviani (2017, p. 3-5).
Pós-Universo 11

Os maiores desafios das pesquisas em ciência de dados estão relacionados na forma


como as estratégias de Tecnologia de Informação e Comunicação (TIC´s) estão sendo
projetadas. Desde 2006, o Ministério da Ciência, Tecnologia e Inovação (MCTI) já previa
a gestão de informações em grandes volumes de dados, e hoje esses desafios são
ainda maiores visto os volumes atuais de dados a análise, aliado com seu dinamismo
e capilaridade, fazendo surgir boas oportunidades de progresso científico e inova-
ção tecnológica em diversas áreas do eixo ciência-indústria-governo.
A Figura 2 ilustra a visão baseada no eixo ciência-indústria-governo, tendo as linhas
de pesquisas propostas como ponto de ligação entre tais áreas e a ciência de dados.

Biodiversidade Geociências

Esporte Defesa

Física Educação

Análise de Gerência de
Astronomia Dados Dados Química

Engenharias Saúde
Ciência
de
Energia Dados Petróleo/Gás

Mobilidade Ciências sociais

Análise de Business
Ciências biológicas
Redes Complexas intelligence

Meteorologia/
Ciências humanas
Ciências climáticas

... Internet/Web

Figura 2 - Desafios de pesquisa em ciência de dados


Fonte: adaptado de Porto e Zaviani (2017, p. 6).
12 Pós-Universo

Cientista de Dados
Para tirar benefícios do Big Data, é essencial possuir um recurso escasso, um cientis-
ta de dados, sendo o maior desafio para gestores identificar esse profissional, atraí-lo
para a empresa e torná-lo produtivo. Nenhuma tarefa de uma empresa é mais árdua
do que essa, uma vez que não há cursos de nível superior que formem cientistas
de dados, além disso, há pouco consenso sobre o lugar que o cargo deveria ocupar
dentro do organograma da organização e também como o cientista de dados agre-
garia valor para empresa e de que maneira deveria ser medido seu desempenho.
Os cientistas de dados são especialistas analíticos de uma nova geração de es-
pecialistas que possuem habilidades técnicas para resolver problemas complexos e
também a curiosidade de explorar quais são os problemas que precisam ser resolvi-
dos. Os cientistas de dados são matemáticos, cientistas da computação, analistas de
tendências, dentre outras áreas e, por transitarem entre o mundo dos negócios e de
TI, são muito procurados e bem remunerados.
Dessa forma, inicialmente para localizar cientistas de dados, portanto, é necessá-
rio entender qual sua função na empresa e depois descobrir qual qualificação esse
profissional precisa possuir e em qual área seria mais fácil encontrar tal profissional.
Tal profissional faz descobertas enquanto está mergulhado num mar de dados e esse
é seu método favorito para navegar no mundo a seu redor, pois se sente em casa no
universo digital, sendo capaz de estruturar grandes volumes de dados sem valores
definidos e tornar possível a sua análise.
O cientista de dados é uma pessoa que identifica fontes de dados, combinando
isso tudo com a informação potencialmente incompleta de outras fontes, e depura
o conjunto resultante. Num cenário competitivo em que os desafios são mutantes e
o fluxo de dados é contínuo, o cientista de dados ajuda os gestores a decidir a migrar
da análise pontual para o diálogo permanente com os dados.
Há uma década, os cientistas de dados não estavam no radar das organizações,
mas sua popularidade repentina reflete como as empresas agora pensam sobre Big
Data.
Esse grande volume de informações não estruturadas não pode mais ser ignorado
e esquecido, pois é uma mina de ouro virtual que ajuda a aumentar receitas, desde
que haja alguém que escave e desenterre visões empresariais que ninguém havia
pensado em procurar, é nesse momento que o cientista de dados entra em cena.
Pós-Universo 13

O cientista de dados, mesmo sabendo que poderá enfrentar limitações técnicas,


não deixa que isso prejudique a busca de novas soluções. À medida que vai fazendo
descobertas, informa o que aprendeu e sugere implicações dessas descobertas para
novos rumos na empresa, ou seja, vale-se da criatividade na hora de exibir informa-
ções visualmente e indica padrões detectados de forma clara e convincente, dessa
maneira, orientando os executivos e gerentes de produtos sobre implicações dos
dados para produtos, processos e decisões.
Levando em consideração o estágio embrionário que ocupa, geralmente compete
ao próprio cientista de dados criar suas ferramentas e até conduzir estudos à moda
acadêmica.
O cientista de dados é um profissional híbrido de hacker de dados, analista, co-
municador e assessor de confiança. É uma combinação formidável e rara. Hoje, a
competência mais básica e universal do cientista de dados é a capacidade de escre-
ver código. A persistência e a curiosidade serão as habilidades fundamentais para
esse profissional se comunicar em linguagem que toda parte interessada possa en-
tender — e de exibir particular habilidade para contar histórias com dados de forma
verbal ou visual, ou, de preferência, ambas.
O desejo de aprofundar mais a solução de um problema, de chegar às interroga-
ções em sua origem e de sintetizar isso tudo em uma série de hipóteses claras que
possam ser testadas. Isso requer, geralmente, o raciocínio associativo que caracte-
riza os cientistas mais criativos em qualquer campo. Por exemplo, um cientista de
dados que vinha estudando um problema de fraude percebeu que era análogo a
um problema específico de sequenciamento de DNA e, ao juntar esses mundos tão
distintos, ele e a equipe conseguiram criar uma solução que reduziu drasticamente
perdas decorrentes de fraudes.
Muitos desses cientistas de dados atuantes no mercado começaram suas carrei-
ras como estatísticos ou analistas de dados. Mas com o crescimento e evolução do
Big Data e das tecnologias de armazenamento e processamento de Big Data, como
o Hadoop, tais papéis também evoluíram. Dados não são mais somente uma refle-
xão tardia para o departamento de TI cuidar, agora são informações importantes que
exigem análise, curiosidade criativa e um talento especial para traduzir ideias de alta
tecnologia em novas maneiras de obter lucro.
14 Pós-Universo

Talvez esteja ficando claro por que o termo “cientista” aplica-se a essa nova função. O
profissional da física experimental também tem de conceber equipamentos, coletar
dados, conduzir experimentos e informar resultados obtidos. Por esse motivo, as em-
presas estão atrás de gente capaz de trabalhar com dados complexos terem tido
sucesso ao buscar entre indivíduos com formação acadêmica ou experiência pro-
fissional em ciências físicas ou sociais. Menos surpreendente é o fato de muitos dos
cientistas de dados atualmente em empresas terem recebido educação formal em
ciência da computação, matemática ou economia. Dessa forma, a formação tradi-
cional do profissional de dez ou quinze anos atrás simplesmente não serve nos dias
de hoje.
Um analista quantitativo pode ser ótimo na análise de dados, mas não para digerir
uma massa de dados desestruturados e deixá-la num formato que permita a análise.
Um especialista em gestão de dados pode saber como ninguém gerar e organizar
dados em formato estruturado, mas não ser bom para transformar dados desestrutu-
rados em dados estruturados — e tampouco para analisá-los. E, embora gente sem
fortes habilidades sociais possa se dar bem em ocupações tradicionais envolvendo
dados, o cientista de dados precisa desse traquejo para ser eficaz.
Com o aumento da oferta de ensino, o estoque de talentos deve cresce e os for-
necedores de tecnologias de Big Data também estão trabalhando para facilitar seu
uso, porém, enquanto isso não ocorre, um cientista de dados achou um jeito origi-
nal de preencher a lacuna.
Cientistas de dados não convivem bem com rédea curta. Devem ter liberdade
para experimentar e explorar possibilidades. Isso posto, precisam de um relaciona-
mento estreito com o resto da empresa. Em seu caso, os laços mais importantes a
forjar são com executivos a cargo de produtos e serviços, não com indivíduos no
comando de departamentos da empresa.
Há, no entanto, um potencial perigo em colocar gente com forte conhecimen-
to de um campo em rápida evolução para trabalhar com colegas da gestão geral
da empresa. Isso porque o cientista de dados vai interagir menos com especialistas
como ele, algo necessário para manter seu know-how afiado e seu jogo de ferra-
mentas na vanguarda. Cientistas de dados têm de se conectar com comunidades de
prática, tanto no âmbito de uma grande empresa como externamente.
Pós-Universo 15

saiba mais
HADOOP
O Apache Hadoop é um projeto de software de código aberto que pode ser
usado para processar de modo eficiente grandes conjuntos de dados. Em
vez de usar um grande computador para processar e armazenar os dados,
ele permite o agrupamento de hardware padrão em clusters para analisar
em paralelo grandes conjuntos de dados (AWS, 2017).
Hadoop é um ambiente completo para Big Data, utilizado pelas maiores
empresas.

Funções típicas dos cientistas de dados


Não existe uma descrição de trabalho definitiva quando se trata de um cientista de
dados, mas geralmente as suas funções são:

• coletar grandes quantidades de dados desafiadores e transformá-los em


um formato mais prático;

• solucionar problemas de negócios com técnicas de orientação a dados;

• trabalhar com uma variedade de linguagens de programação (tais como


R e Python);

• ter uma sólida compreensão de estatísticas, incluindo testes estatísticos e


distribuições;

• estar sempre atualizado sobre as técnicas analíticas, como a aprendizagem


de máquinas (machine learning), a aprendizagem profunda (deep lear-
ning) e análise de dados textuais (text analytics);

• manter uma comunicação e colaboração com TI e área de negócios;

• procurar por ordens e padrões nos dados, bem como detectar tendências
que podem ajudar os resultados de uma empresa.
16 Pós-Universo

A linguagem, termos e tecnologias que são comumente usados pelos cientistas de


dados para realizar as buscas e a análise de dados estão demonstradas na Tabela 2:

Tabela 2 – Tecnologias usadas para buscas e análise de dados

TECNOLOGIA DESCRIÇÃO
A apresentação de dados em um formato pictóri-
Visualização de dados co ou gráfico para que eles possam ser facilmente
analisados.

Ou aprendizagem de máquinas é um ramo da inteli-


gência artificial baseado em algoritmos matemáticos
Machine learning
e automação, que permitam uma máquina a aprender
e/ou aperfeiçoar seu desempenho em alguma tarefa.

Ou aprendizagem profunda, uma área da pesqui-


Deep learning sa de machine learning que usa dados para modelar
abstrações complexas.

A tecnologia que reconhece padrões nos dados


Reconhecimento de
(usada muitas vezes como sinônimo de aprendizagem
padrões
de máquina).

O processo de conversão de dados brutos em um


Preparação de dados outro formato para que eles possam ser consumidos
mais facilmente.

Ou análise de dados textuais é o processo de exami-


Text analytics nar dados não estruturados para reunir os principais
insights de negócios.
Fonte: adaptado de SAS (2013).
Pós-Universo 17

As empresas que trabalham com grandes volumes de informações estão à “caça” de


profissionais capacitados a auxiliá-las no tratamento das informações, porém, antes
de aceitar um cargo de cientista de dados, necessita-se avaliar algumas coisas sobre
a organização. Primeiro tem que checar se a empresa trabalha com grandes quan-
tidades de dados e tem problemas complexos que precisam ser resolvidos, pois
as organizações que realmente precisam de cientistas de dados têm duas coisas
em comum: elas gerenciam enormes quantidades de dados e enfrentam questões
importantes diariamente, e geralmente são empresas do ramo financeiro e gover-
namental. Segundo, tem que verificar se a empresa valoriza seus dados, visto que a
cultura de uma empresa tem um impacto sobre sua decisão de contratar um cien-
tista de dados. Ela tem um ambiente que suporta o uso de grande quantidade de
dados disponível e ferramentas de TI muito avançadas, também deve perceber se a
empresa tem um comprometimento da alta direção, caso contrário, investir em um
cientista de dados seria jogar dinheiro fora. E, por fim, se a empresa está pronta para
mudanças, sendo que como um bom cientista de dados, você espera ser levado a
sério, e parte disso significa ver seu trabalho concretizado, pois dessa forma o cien-
tista de dados dedica seu tempo a encontrar maneiras para sua empresa funcionar
melhor, e consequentemente a empresa precisa estar pronta e disposta para seguir
os resultados de suas descobertas.
18 Pós-Universo

introdução ao

big data
Pós-Universo 19

Hoje, toda organização ao redor do mundo encara um aumento sem precedentes


no volume de dados. Imagine isto: estima-se que o universo digital de dados tenha
alcançado 2,7 zettabytes (ZB) ao final de 2012. Depois disso, estima-se que ele vá
dobrar a cada dois anos, alcançando 8 ZB ao final de 2015. É difícil compreender esse
volume de informação, mas aqui vai um exemplo: se a Biblioteca do Congresso dos
Estados Unidos armazena 462 terabytes (TB) de dados digitais, então 8 ZB equivale
a quase 18 milhões de Bibliotecas do Congresso. Isso realmente é Big Data (INTEL IT
CENTER, 2013, p.3).
Hoje, não importa qual seja a sua profissão, o cargo que ocupa ou as pessoas
com quem conversa, possivelmente já deve ter ouvido falar em algum momento
o termo Big Data. Diante desse fato, não é preciso muito esforço para encon-
trarmos uma notícia referente a esse termo nos dias atuais, seja em sites, jornais
ou revistas das áreas de astronomia, biologia, educação, economia, política ou até
culinária, podemos encontrar alguma publicação que relate o potencial e as carac-
terísticas de Big Data.
De fato, o Big Data tem sido alvo de muita atenção no mundo dos negócios, no
governo e no meio acadêmico, podemos encontrar casos de uso em que Big Data
permitiu a redução do número de fraudes, aumento de lucros, conquista de eleito-
res, redução de custos na produção, eficiência energética, aumento de segurança,
entre outros benefícios tão almejados em diversos domínios.
Embora o interesse sobre Big Data esteja em alta, este ainda é um termo incipien-
te, gerando incertezas sobre sua definição, características, aplicabilidade e desafios.
Quais dados fazem parte do contexto de Big Data? Qual a definição desse concei-
to? Como obter dados de diferentes fontes? Como extrair valor a partir dos dados?
Qual a infraestrutura necessária para criar uma solução de Big Data? Quais habilida-
des são necessárias para se atuar com Big Data?
20 Pós-Universo

De acordo com Marquesone (2017, p. 17), em um ato de tomar café, comprar uma
passagem aérea ou pagar um boleto bancário por meio de um aplicativo, se neces-
sitamos de um documento que não esteja conosco, podemos facilmente acessar a
internet e buscá-lo em um serviço de computação em nuvem para armazenamento
de dados. Tais exemplos nos revelam que a tecnologia está em constante evolução.
Décadas se passaram e temos atualmente uma variedade de soluções capazes de
facilitar nossas ações diárias, transformar o modo como nos comunicamos e gerar
novas estratégias de negócios. Por exemplo, você é capaz de imaginar como seria
sua rotina sem os recursos tecnológicos disponíveis atualmente? Para auxiliar essa
compreensão, verifique a Tabela 3 mais adiante e perceba como a tecnologia tem
influência direta na maneira com que realizamos nossas atividades.
Tabela 3 – Influência das tecnologias nas atividades do dia a dia

Categoria Como ocorre atualmente


VIAGEM Comparação de preços de passagens; compra de passagem pela in-
ternet; check-in online; recomendação de serviços de hospedagem;
serviços de reserva de hospedagem; definição de trajeto por auxílio
de GPS.

TRABALHO Reuniões por videoconferência; agenda de compromissos online; hos-


pedagem de arquivos online; serviços de financiamento coletivo.

LAZER Crowdfunding; busca e candidatura de vagas de trabalho online. ser-


viços de streaming de filmes, seriados e músicas; compartilhamento
de momentos em redes sociais; leitura de livros eletrônicos; jogos
online.

COMPRAS Compras via comércio eletrônico; avaliação online de produtos; com-


paração de preços; compras coletivas; pedidos online de serviços
alimentícios; SAC online; internet banking.
Fonte: Marquesone (2017, p. 17).
Pós-Universo 21

quadro resumo
Crowdfunding
O termo crowdfunding alude a um mecanismo de financiamento que con-
siste na participação de pequenas quantias por muitas pessoas.
O crowdfunding, por conseguinte, também é conhecido como microcré-
dito. Trata-se de um financiamento coletivo, em que um empreendedor
recebe um apoio financeiro de numerosos investidores.
De um modo geral, o crowdfunding ocorre através da Internet. Quem estiver
interessado em receber financiamento divulga o seu projeto, estabelecen-
do uma meta a alcançar e solicitando apoio.

Conforme a Figura 3, além da crescente adoção de dispositivos móveis, dois outros


fatores que contribuíram significativamente para o aumento do volume de dados
foram o aumento do poder de processamento e a redução de custo de armazena-
mento de dados. Em relação ao armazenamento de dados, enquanto em 1990 o
custo para armazenar 1 megabyte era de aproximadamente U$ 12.000, a média de
custo atual é de apenas U$ 0,03. Ao passo que o volume de dados crescia e novas
tecnologias habilitadoras para a geração desses dados eram criadas, empresas de
diversos segmentos passaram a perceber o potencial que diferentes tipos de dados
poderiam oferecer, seja para aperfeiçoar um processo, aumentar a produtividade,
melhorar o processo de tomada de decisão, ou até mesmo para desenvolver novos
produtos e serviços.
A indústria varejista, com a adoção de etiquetas de identificação por radiofre-
quência, ou RFID (do inglês Radio-Frequency IDentification), passou a otimizar seu
processo de armazenamento, catalogação e transporte de mercadorias. Assim, tiveram
uma maior agilidade no gerenciamento de seus processos. Na agricultura, temos a
utilização de redes de sensores, que coletavam fluxos de dados em tempo real para
fornecer suporte às ações referentes ao processo de plantação, cultivo e colheita.
22 Pós-Universo

+ Uso de dispositivos móveis Fatores para o


- Custo de armazenamento
+ Poder de processamento aumento do
de dados em disco rígido
+ Internet das coisas volume de dados

Figura 3 – Principais fatores para o aumento do volume de dados


Fonte: Marquesone (2017 p. 19).

O termo Big Data tem sido utilizado para designar diversas coisas. O único ponto em
comum entre essas diferentes designações é que todas tratam de grande quantida-
de de dados digitais. Entende-se que não existe certo ou errado e que cada definição
reflete a abordagem ou o uso que se faz dos dados digitais. As principais utilizações
do termo estão definidas na Tabela 4:
Tabela 4 – Principais utilizações do Big Data

TERMOS DESCRIÇÃO
Big Data como banco de Nessa abordagem identificamos as quatro dimensões
dados: críticas do Big Data: volume, variedade, veracidade e
velocidade.
Big Data como disciplina Quando é utilizado para se referir a uma disciplina, o
termo big data corresponde ao campo empírico de
estudo de uma ciência.
Big data como instrumento Muitas vezes ouvimos falar de big data como uma
metodologia, tecnologia ou ferramenta capaz de
extrair valor de uma grande quantidade de dados
digitais.
Fonte: adaptado de Costa et. al. (2013, p. 20-24).
De acordo com Costa et.al (2013, p. 20), “a primeira utilização do termo Big Data
como banco de dados foi descrita por cientistas da NASA que o definiram como os
grandes conjuntos de dados complexos que desafiam os limites de captura, análise
e armazenagem.”
Pós-Universo 23

Os cientistas lidavam com os dados gerados nas pesquisas específicas do seu domínio
e que eram livremente compartilhadas, o que gerava conhecimentos e novos dados
de forma exponencial, estava definida a primeira dimensão crítica do big data: o
volume que inicialmente era totalmente representado por dados estruturados que
são os dados organizados em estruturas pré-estabelecidas.

Todos os Vs de Big Data


É comum, ao ouvir pela primeira vez o termo Big Data, pensarmos que ele está uni-
camente relacionado a um grande volume de dados (o que é normal, já que o nome
diz exatamente isso). Entretanto, o volume de dados não é sua única característica.
Além dessa, pelo menos outras duas propriedades devem ser consideradas: a
variedade e a velocidade dos dados. Tais propriedades são popularmente denomi-
nadas os 3 Vs de Big Data, conforme apresentado na Figura 4 a seguir:

Volume Variedade Velocidade


terabytes estruturados streaming de dados
petabytes semi-estruturados processamento em
zettabytes não-estruturados tempo real

BIG DATA

Figura 4 - Os 3 Vs de Big Data


Fonte: Marquesone (2017, p. 22).
24 Pós-Universo

Volume
Marquezone (2017, p.9) afirma que o atributo volume é a característica mais signi-
ficativa no conceito de Big Data. Ele faz referência à dimensão sem precedentes do
volume de dados.
Confira a seguir algumas estatísticas que nos fazem perceber o que esse volume
representa:

• a cada segundo, cerca de 40.000 buscas são realizadas no Google;

• a empresa Walmart manipula mais de 1 milhão de transações dos clientes


por hora;

• a rede social Facebook contabilizou em junho de 2016 uma média de 1.13


bilhão de usuários, 2.5 bilhões de compartilhamentos e 2.7 bilhões de “cur-
tidas” diariamente;

• a rede social de compartilhamento de fotos Instagram recebe atualmente


cerca de 80 milhões de fotos por dia;

• em 2013, a plataforma de blogs WordPress relatou a quantidade de 42


milhões de comentários por mês, entre os 3.6 bilhões de páginas existen-
tes na plataforma.

Você consegue imaginar a quantidade de espaço em disco necessária para arma-


zenar todos esses dados? Esse volume gerou uma mudança de escala de petabytes
para exabytes e zettabytes de dados nos últimos anos.
Segundo Marquesone (2017, p.10) estima-se que, em 2013, havia 4.4 zettabytes
(4.4 trilhões de gigabytes) de dados em todo o mundo, e que esse número deverá
chegar a 44 zettabytes em 2020. Dada essa dimensão, a complexidade envolvida
com essa mudança de escala torna-se difícil de ser mensurável por nós humanos.
Para tentarmos compreender o impacto desse crescimento, imagine se a população
mundial que hoje (2017) possui 7.4 bilhões de pessoas aumentasse para 1 trilhão
daqui 10 anos. Como prover, adaptar e gerir recursos para suportar esse crescimen-
to populacional tão expressivo e em tão pouco tempo?
Dessa forma, o que de fato define se o atributo volume requer uma tecnologia
de Big Data é a limitação das ferramentas tradicionais para lidar com determinado
volume de dados.
Pós-Universo 25

Variedade
De acordo com Marquesone (2017, p.11), o banco de dados relacional é o modelo
mais usado nas últimas 4 décadas pelas organizações. Nesse modelo, dados são arma-
zenados em formato de tabelas, de acordo com uma estrutura previamente definida.
Isso quer dizer que, antes de armazenar alguma informação, é necessário definir
a estrutura, a sequência, o tamanho e os tipos de dados em questão. Outra notável
característica desse modelo é o suporte à propriedade ACID (vide Tabela 5), que
garante a integridade dos dados. Porém, mesmo sendo muito eficiente e aplicado a
diversos cenários, o banco de dados relacional é projetado para armazenar majori-
tariamente dados estruturados, ou seja, dados com esquemas rígidos e adequados
para o formato de tabelas, limitando para o uso de Big Data, uma vez que esse termo
também inclui dados semiestruturados e não estruturados.
Na classe de dados não estruturados, estão inclusos os vídeos, imagens e alguns
formatos de textos. Por não terem um formato que pode ser facilmente armazena-
do em tabelas, eles se tornam complexos para serem processados em ferramentas
tradicionais de armazenamento e gerenciamento de dados.
Tabela 5 - Variedade de BD como suporte à propriedade ACID

PROPRIEDADE RECURSOS
Atomicidade Garante que todas as alterações realizadas por uma transa-
ção serão efetivadas no banco de dados, ou nenhuma delas,
caso ocorra algum problema, ou seja, não há atualização
parcial da transação.

Consistência Nesse caso, é garantido que novas transações somente serão


completadas se elas não ferirem nenhuma regra do banco
de dados que possa torná-lo inconsistente.

Isolamento Propriedade que permite que os eventos em uma transação


não interfiram nos eventos de outra transação concorrente.

Durabilidade Garante que o resultado de toda transação executada com


sucesso deverá ser mantido no banco de dados, mesmo na
ocorrência de falhas.

Fonte: adaptado de Marquesone (2017, p. 12).


26 Pós-Universo

Velocidade
Além dos desafios impostos pelo volume e variedade dos dados, o Big Data também
faz referência a outra propriedade: a velocidade com que os dados são coletados,
analisados e utilizados. Um exemplo disso: imaginemos que um cliente receba re-
comendações de um produto em um e-commerce somente uma semana após ele
ter realizado uma compra. Embora tal recomendação ainda possa minimamente
gerar um efeito positivo, é muito provável que o impacto negativo teria sido supe-
rior, pois tal situação nos mostra que os dados coletados perdem seu valor com o
decorrer do tempo.
Por outro lado, há empresas que compreendem bem o benefício da velocida-
de, por exemplo, a Amazon, que adota um mecanismo de precificação dinâmica,
podendo chegar a atualizar os valores de seus produtos a cada 10 minutos, de acordo
com a análise da demanda em tempo real de seus suprimentos. O fator velocidade
está se tornando tão importante, ao ponto que empresas que não conseguirem agi-
lizar o tempo de análise dos dados terão dificuldades em se manterem competitivas
no mercado (MARQUEZONE, 2017, p.15).
Além da velocidade de análise, o fator velocidade também está relacionado à
rapidez com que os dados estão sendo gerados. Estatísticas mencionam que, em
apenas 1 minuto, mais de 2 milhões de pesquisas são realizadas no buscador Google,
6 milhões de páginas são visitadas no Facebook e 1.3 milhão de vídeos são vistos no
YouTube. Em complemento, temos os inúmeros aplicativos que mantêm seus servi-
ços em execução 24 horas por dia, e os sensores que geram dados continuamente
a cada segundo.
Em resumo, diante do exposto acima, vale salientar que, quando nos referimos a
Big Data, o importante não é somente a mudança quantitativa dos dados, sendo pos-
sível que uma organização possua grandes conjuntos de dados e não faça nenhuma
análise relevante sobre deles, e a maior mudança está no valor que se consegue
obter a partir do volume, variedade e velocidade de dados analisados, ou seja, uma
mudança qualitativa.
Marquezone (2017, p.16) cita o exemplo de duas empresas de telecomunica-
ção que podem obter milhões de registros de arquivos CDR (Call Detail Record).
Entretanto, só terá vantagens a empresa que conseguir gerar conhecimento a partir
desses dados e utilizá-lo para diferentes aplicações, tais como a segmentação dos
assinantes, a identificação de fraude e a predição de falhas.
Pós-Universo 27

Sendo assim, a partir dos três atributos mencionados, podemos chegar à seguin-
te definição de Big Data criada pela consultora Gartner: “Big Data faz referência não
somente ao volume, mas também à variedade e à velocidade de dados, necessitan-
do de estratégias inovadoras e rentáveis para extração de valor dos dados e aumento
da percepção”, ou seja, precisamos lidar com novos tamanhos de dados, novas ve-
locidades, novas tecnologias e novos métodos de análise de dados e não há como
atuar com Big Data estando resistente a mudanças (MARQUEZONE, 2017, p. 28).
Ainda de acordo com Marquezone (2017, p.17), além dos 3 Vs, você pode en-
contrar outros pesquisadores que adotam os 5 Vs, em que são acrescentados os
atributos valor e veracidade dos dados. O valor é um atributo que faz referência ao
quão valioso e significativo um dado pode ser em uma solução. O atributo veraci-
dade está relacionado à confiabilidade dos dados, pois pelo fato de que Big Data
está inserido em um contexto de dados em grande volume e variedade, é comum
a existência de dados inconsistentes, a veracidade refere-se ao quão confiável é um
conjunto de dados usado em uma solução de Big Data.

Dados gerados por humanos e por


máquinas
O conteúdo gerado em cada categoria implica em funcionalidades e característi-
cas específicas que devem ser consideradas em um projeto. Dessa forma, os dados
gerados por humanos são aqueles em que o conteúdo foi originado a partir do pen-
samento de uma pessoa, em que a propriedade intelectual está integrada ao dado
e que reflete a interação das pessoas no mundo digital.
A maior parte de dados gerados por humanos advém das mídias sociais, onde
publicam, geram debates, publicam suas preferências e emoções. Informações estas
geradas no formato de textos, áudio, imagem e vídeo, gerando uma base de dados
ampla e volumosa.
Essas informações são úteis para gerar recomendações aos usuários, para avaliar
o nível de satisfação com um determinado serviço ou produto e para segmentar os
usuários de acordo com os perfis analisados.
28 Pós-Universo

Os dados gerados por máquinas, como dados digitais produzidos por processos de
computadores, aplicações e outros mecanismos, não necessitam explicitamente
de intervenção humana. Ao utilizar uma aplicação Web para fazer o upload de uma
foto ou vídeo, para publicar um comentário, jogar ou assistir um vídeo via streaming,
não temos muita percepção da infraestrutura necessária para suportar tais serviços.
Tais dados têm sido amplamente gerados com o advento da tecnologia de
comunicação máquina a máquina (Machine-to-Machine — M2M), uma tecno-
logia integrada ao paradigma de Internet das Coisas (Internet of Things — IoT) que
permite a comunicação direta entre dispositivos.
Por esse motivo, além de armazenar os dados gerados, é importante armazenar
o seu significado, como informações sobre o tempo e espaço em que eles foram
produzidos. A fusão dos dados gerados por diferentes objetos também é necessá-
ria para aferir novos conhecimentos, tornando assim o ambiente mais inteligente.
Outros dados fabricados por máquinas e muito usados atualmente no universo de
Big Data são os dados genéticos, na área da bioinformática, uma área multidisciplinar
que tem como foco o estudo da aplicação de técnicas computacionais e matemáti-
cas à (bio)informação, na qual pesquisadores manipulam grandes volumes de dados
genéticos para descobrir padrões ocultos sobre eles.
Pós-Universo 29

saiba mais
Mitos Sobre Big Data

Por se tratar de um conceito recente, ainda há muitas dúvidas sobre o que


é verdade e o que é mito sobre Big Data. Por esse motivo, antes de darmos
continuidade ao conteúdo, confira a seguir algumas informações que você
já pode ter escutado em algum momento, mas que não retratam a realidade:

• Big Data engloba somente dados não estruturados: com o cres-


cente volume de dados nos últimos anos, o banco de dados
relacional precisou ser complementado com outras estruturas,
devido principalmente à escalabilidade e flexibilidade de arma-
zenamento. Entretanto, os dados relacionais continuam sendo
valiosos e são muito utilizados em soluções de Big Data. O que
mudou de fato foi a inclusão de mais tipos de dados, além dos
estruturados;
• Big Data refere-se somente a soluções com petabytes de dados:
embora o volume de dados seja o fator que impulsionou o fenô-
meno Big Data, aplicações que utilizam conjuntos de dados em
uma escala menor do que petabytes também podem se benefi-
ciar das tecnologias de Big Data. Afinal, o mais importante nessas
aplicações é a capacidade de extrair valor dos dados.
• Big Data é aplicado somente às empresas do Vale do Silício:
quando se fala sobre Big Data, é comum que sejam usados como
exemplos as grandes empresas de serviços Web do Vale do Silício,
tais como o Facebook, Twitter e Netflix. Embora elas tenham sido
as primeiras a serem desafiadas com o grande volume, variedade
e velocidade de dados, atualmente empresas de diversos outros
domínios, como agricultura e varejo, também necessitam de tec-
nologias de Big Data para atender suas necessidades em relação
aos dados que elas adquirem;
30 Pós-Universo

• Big Data é aplicado somente em grandes empresas: ainda há essa


percepção de que Big Data oferece valor somente para grandes
organizações. Entretanto, pequenas e médias empresas também
podem obter vantagem competitiva por meio de soluções de
Big Data, oferecendo uma melhor experiência aos seus clientes,
otimizando processos, reduzindo custos ou criando novos pro-
dutos e serviços orientados por dados;
• Big Data requer o uso de dados externos: embora a adoção de
dados de diferentes fontes seja uma prática muito adotada em
soluções de Big Data, a aquisição de dados externos não é um
requisito obrigatório. Na verdade, a sugestão para quem inicia
um projeto de Big Data é buscar extrair valor primeiramente dos
dados internos, para somente depois ampliar sua jornada utili-
zando dados de terceiros;
• As tecnologias de Big Data já estão bem estabelecidas: infeliz-
mente (ou felizmente, se pensarmos nas oportunidades) não.
Estamos vivendo um momento de transição de soluções tradi-
cionais para tecnologias de Big Data. Portanto, se você for atuar
em um projeto de Big Data, deve ficar sempre atento ao surgi-
mento de novas versões das tecnologias adotadas, bem como
verificar o surgimento de tecnologias complementares presen-
tes no mercado.
Pós-Universo 31

ecossistema de

big data
32 Pós-Universo

Uma das principais contribuições da Ciência das Redes para as organizações que
desejam desenvolver metodologias e ferramentas em Big Data vem da afirmação de
que devemos enxergar os dados como parte de um ecossistema, ou seja, não deve
existir uma abordagem a partir de uma única visão e que todos os usuários da rede
deverão ser levados em conta nos estudos das ameaças e oportunidades na mode-
lagem de novos empreendimentos.
Os dados que temos são universais, gerados por todos (gerados por humanos
ou por máquinas) e com um potencial de inovação que não deve respeitar fronteiras
geográficas ou de domínio do conhecimento. Dessa forma, diante de tais afirmações
e concordando com elas, aceitamos o desafio de esquematizar o que seria um ecos-
sistema Big Data.
A descrição primária de um sistema de geração de conhecimento com base em
dados digitais seria que, a partir de dados armazenados, aplicam-se tecnologias de
processamento em que as informações geram visões para os tomadores de decisão,
conforme a Figura 5.

saiba mais
Ciência das redes é um campo acadêmico interdisciplinar que estuda redes
complexas, tais como redes de telecomunicações, redes de computadores,
redes biológicas, redes cognitivas e semânticas e redes sociais.
Pós-Universo 33

Data Store Analítica

Figura 5 - Ecossistema: descrição básica


Fonte: Costa et. al. (2013, p.28).

Se fizermos algumas perguntas simples para entendê-lo um pouco mais, iremos agre-
gando diversos outros agentes que mostram uma maior complexidade ao sistema.

• Quem gera os dados do sistema?

• Como eles são gerados?

• Quais os seus conteúdos?

• Como são enviados para armazenagem?

• Quem decide o que tem valor?

• Que valor os dados geram e para quem?

A Figura 6 apresenta o ecossistema Big Data com um maior grau de complexida-


de. Vale ressaltar que por se tratar de um ambiente big data, estão representadas na
figura exclusivamente as relações digitais entre os agentes.
34 Pós-Universo

Figura 6 - Ecossistema Big Data


Fonte: Costa et. al. (2013, p.29).

No esquema acima, estão representados os seguintes agentes e relações: a geração


de dados está representada na parte baixa do desenho pelas silhuetas pretas, e os
agentes geradores de dados são pessoas, organizações, objetos, animais e plantas.
As setas azuis representam os dados que são gerados a partir das relações que os
agentes estabelecem uns com os outros. Tais dados podem ser das relações entre
pessoas (comportamentais), das relações entre empresas e entre elas e pessoas (tran-
sacionais) e de localização, de utilização, de condição física, química e funcional etc.
(gerados por objetos, animais e plantas e suas relações através da internet das coisas).
A codificação dos dados no esquema são os agentes responsáveis pela modi-
ficação da informação com o objetivo de deixá-la em condições de transmissão e
armazenamento digital. A captação dos dados é feitos por computadores, tablets,
celulares, GPS, radares e sensores de todos os tipos, pois tais agentes dataficam as
informações do ambiente a partir de códigos previamente definidos.
Pós-Universo 35

Após dataficar as informações, é feita a transmissão de dados digitais. Na figura,


estão representados pelo contorno laranja, e as setas laranja representam relações
de mobilidade, que são parte das relações de governança dos dados.

Na parte superior da figura, representada pela nuvem, há o local no ecossistema Big


Data que pressupõe armazenagem em nuvem para atender as necessidades da di-
mensão “velocidade” dos dados. Os ícones dentro da nuvem representam o apoio ao
processo de armazenagem, são agentes que prestam serviços de tagging, indexação,
cópia, integração, segurança e compartilhamento. Foram usadas duas setas forman-
do um círculo para indicar inter-relação entre todos esses agentes de governança.
A planilha de dados representa o processamento de dados. No ecossistema de
Big Data, são as ferramentas de analítica de dados que fazem a extração de informa-
ções dos dados digitais. Já as setas verdes indicam relações de entrega dos resultados
da analítica para os tomadores de decisão, entrega esta que pode passar ainda pelos
designers e os desenvolvedores de aplicativos ou outros agentes que agregam mais
valor à informação gerada.
A parte colorida no centro da figura são os designs de resultados de analítica, os
criadores de soluções para visualização de dados, esses agentes dão uma visão mais
concreta e intuitiva, aumentando a sua acessibilidade por parte de profissionais que
não são da área de TI.
O desenvolvimento de interface para analítica está representado no centro da
figura pelo celular com o ícone de aplicativos, tais agentes colocam todo processo
analítico nas mãos de usuários finais, ou seja, de pessoas comuns ou gestores fora
da área de tecnologia da informação. As setas na cor rosa indicam relações de agre-
gação de valor aos dados digitais.
O agente de utilização de dados considera como tomadores de decisão não
apenas gestores de organizações, mas também qualquer pessoa, institucionalizada
ou não, que utilize a analítica de dados para gerar soluções que transformem uma
situação real em uma situação desejada. E se ampliar um pouco mais o conceito,
pode-se considerar a Internet das Coisas também como um agente de utilização de
dados, nesse caso, se não há o elemento humano agindo na transformação, consi-
deramos o conhecimento como o produto da inteligência artificial e a tomada de
decisão como resultado de um processo de automação.
36 Pós-Universo

Ciclo Da Adoção De Tecnologia


Segundo Costa et. al. (2013, p.31), os primeiros estudos que despertaram o mundo
para a utilização dos dados gerados em rede foram feitos há mais de uma década
e, a partir disso, muitas pesquisas foram feitas, muitas tecnologias foram desenvol-
vidas e várias iniciativas foram tomadas para gerar soluções a partir do uso de big
data. Porém, os resultados, embora animadores, ainda não representam todo o po-
tencial da tecnologia.
Segundo o Instituto Gartner apud Costa et. al. (2013, p.31), toda tecnologia percorre
um ciclo semelhante desde que sai dos laboratórios de pesquisa e desenvolvimento
(P&D) até atingir a maturidade identificada como a fase em que a tecnologia atende
plenamente a sociedade. Para facilitar o posicionamento e permitir a visualização da
dinâmica de cada tecnologia em direção à maturidade, o Gartner criou o Technology
Hype Cycle Graph. Como mostra a Figura 7 que, ao percorrer esse ciclo uma nova
tecnologia, passa pelas seguintes fases:

Figura 7 - Technology Hype Cycle Graph (Gartner Institute)


Fonte: Costa et. al (2013, p;32).
Pós-Universo 37

Fazendo uma leitura da figura, na fase da inflação das expectativas, justificada pela no-
vidade e pelo desejo de soluções inovadoras, a nova tecnologia recebe os primeiros
financiamentos de investidores visionários e consegue ser adotada pelas empresas
que lideram a inovação no seu setor de atuação e recebem uma atenção incentiva-
dora da mídia.
Quando atinge o pico das expectativas, conquista indústrias dispostas a suprir a
tecnologia propiciando a sua adoção por seguidores próximos dos inovadores. Com
casos para serem analisados e massa crítica formada, dá-se início à fase de análise dos
primeiros resultados e ponderação das promessas, então a mídia coloca em pauta o
lado negativo da tecnologia.
Poço da desilusão, ou seja, a fase que pode ser um ajuste entre expectativa e rea-
lidade, mas sempre arrasta junto os mais desavisados que pensam tratar-se de uma
desqualificação da tecnologia. Quando atinge o ponto mais baixo do ciclo, a tecno-
logia conquista apenas 5% do potencial inicialmente projetado. Insatisfeitos com tais
resultados, entusiastas da tecnologia buscam corrigir os rumos tomados, surgindo
assim a segunda geração de aplicações e a possibilidade de fazer diferentes e novas
oportunidades de negócio. Então a tecnologia entra na fase de escalada em direção
à maturidade.
Na fase do platô de produtividade, a tecnologia estará na terceira geração de apli-
cações, já possui maturidade de metodologias, processos e indicadores de sucesso
e atinge em torno de 30% do seu mercado potencial.
38 Pós-Universo

Curva de Aprendizagem
Ao adotar uma nova tecnologia, esta apresentará uma curva de aprendizagem que
pode representar uma barreira para o alcance do potencial previsto.
A curva de aprendizagem é um conceito que representa o nível médio cognitivo
de aprendizagem para uma determinada atividade ou ferramenta, e a maneira mais
simples de entender isso é através das regras de um jogo. Quando se decide partici-
par de um jogo novo, quanto tempo vai levar até que o jogador aprenda as regras,
os movimentos básicos, domine as sutilezas, tenha interesse de interagir com outros
jogadores, desenvolva suas próprias táticas, para começar a ficar satisfeito com o seu
desempenho?
Na curva de aprendizagem, todo o caminho percorrido, de modo consciente ou
não, pelas organizações que já obtiveram retorno satisfatório sobre o investimento
em projetos Big Data. O objetivo é identificar quais as características comuns das
organizações que já atingiram o ponto da curva em que o desempenho compen-
sa o investimento.
Embora a longevidade de atuação na rede seja importante para esse fator, não é
uma variável decisiva. O que define a ordem das organizações melhores colocadas
na curva é o tipo de relação que elas têm com a internet.

Abrangência de domínios na busca


de dados
Esse fator é a comprovação da importância da diversidade de dados no valor do Big
Data. As empresas que lideram nesse ambiente são aquelas que conseguem gerar
conhecimento a partir de dados das mais diferentes origens, coletados para os mais
diferentes fins.
Assim, dados que aparentemente não se relacionam com o negócio da empresa
podem ser definitivos para o sucesso dos projetos. Dentre os mais utilizados, podemos
citar os dados de redes sociais e os de geolocalização. Essa agressividade na abran-
gência de domínios implica também na capacidade de lidar com uma quantidade
cada vez maior de dados não estruturados.
Pós-Universo 39

Abrangência na aplicação
O Big Data é utilizado para ajudar na tomada de decisões. Porém, isso é muito abran-
gente porque decisões podem ser tomadas nas mais diversas áreas de atuação de
uma empresa. As empresas líderes utilizam Big Data para aumento das vendas, re-
posicionamento de produtos, pesquisa e desenvolvimento, prospecção de novos
negócios, melhor experiência do cliente em lojas físicas, monitoramento da concor-
rência, monitoramento da percepção da marca, monitoramento do desempenho de
seus produtos (durabilidade, eficiência etc), melhorias na logística etc.

Big data em “casa própria”


Uma das conclusões mais interessantes da pesquisa é a de que 80% das empresas
líderes em big data empoderam um profissional específico para esse fim, dando
assim uma “casa própria” ao projeto.
Na prática, isso significa dizer que essas organizações têm como responsáveis
pelo projeto um profissional que não pertence à área de TI e tão pouco é o tomador
de decisão. De fato, profissionais de TI, embora dominem as ferramentas para analíti-
ca de dados não colocam projetos de big data em perspectiva nem em consonância
com a estratégia organizacional.
Em poucas palavras, não sabem o que procuram, portanto não entendem o que
encontram. Por outro lado, na seara do tomador de decisão, as iniciativas em Big Data
são pressionadas a confirmar as ações que já estão sendo feitas ou as decisões que
se deseja tomar. O objetivo desse profissional é fazer o Big Data ser um ativo nuclear
em toda a organização, gerando valor em toda cadeia da informação.
Entre outras informações e análises trazidas pela pesquisa, destacamos a que
foi feita com as organizações que já estão adiantadas na curva de aprendizagem da
tecnologia, A partir da abordagem que têm com Big Data, os autores da pesquisa
hierarquizaram essas organizações por sua sofisticação analítica.
40 Pós-Universo

Innovators (inovadores)
A mais sofisticada categoria é a dos inovadores que usam analítica de dados para
inovação e ganham vantagem competitiva, com isso eles correspondem a 11% dos
pesquisados e esse grupo possui 3 características chave:

• Mentalidade (mindset): veem dados digitais como ativo fundamental, uti-


lizam analítica em diversas atividades e estão abertos a novas maneiras de
pensar que desafiem o que são;

• Ação: são mais efetivos em toda cadeia de valor de Big Data (capturam mais
dados de forma inteligente, integram melhor os dados coletados, usam
maior quantidade dos dados coletados e usam os resultados para gerar in-
sights para tomada de decisão);

• Resultados: analítica de dados tem forte impacto na estrutura de poder da


organização. Aqueles que têm habilidade de gerar valor a partir de dados
participam de certa dinâmica no poder de inovar e decidir.

Practitioners (pragmáticos)
Os pragmáticos representam a grande maioria, 60% dos pesquisados. Nessa ca-
tegoria, incluem-se todos aqueles que já fizeram um significante progresso no uso
de analítica e já veem os resultados disso. Entretanto, não usam dados digitais para
inovar, e sim para ganho de eficiência, o que não se traduz em grande vantagem
competitiva.
As principais características são:

• Baixa ambição na coleta de dados: grupo que possui uma série histórica
relevante, acessível e confiável, porém restringem-se basicamente a dados
transacionais;

• Analítica focada no operacional: utilizam mais a analítica descritiva para co-


nhecer melhor o negócio e aumentar a eficiência de práticas do dia a dia.
A analítica preditiva e prescritiva continua se apoiando exclusivamente na
capacidade intuitiva dos gestores;
Pós-Universo 41

• Ecossistema analítico fragmentado: tem valor diferente em diferentes pontos


da cadeia de valor da informação. Muitas vezes, é a ponta que tem maior
potencial de utilização das visões da analítica que não recebe a informa-
ção gerada.

Challenged (desafiados)
É a categoria dos que ainda são desafiados pelo ambiente de inovação em Big Data
e possui menos maturidade no uso de dados digitais, ou seja, não os utiliza para ino-
vação. Isso explica o fato desse grupo não ter alcançado vantagem competitiva com
o uso do Big Data. Esse grupo comporta 29% dos pesquisados.
As principais características desse grupo são:

• Deficiência de dados: significa baixo aproveitamento dos dados por sua


inadequação ou por falta de habilidade em utilizá-los da melhor maneira;

• Cadeia de valor deficiente: capturam os dados em grande quantidade sem


um plano específico para eles; armazenam dados em silos (Data Warehouses)
que não se comunicam;

• Falta de colaboração: baixa propensão em compartilhar dados, pelo des-


conhecimento da sua importância. Essa característica se manifesta na
tecnologia e nas pessoas desse grupo, ambas despreparadas para o com-
partilhamento (reflete a cultura da empresa);

• Falta de incentivo: resistência cultural à mudança pelo sucesso de métodos


mais tradicionais ou baixa competitividade criam um ambiente que não
incentiva a inovação.

As empresas que já estão numa posição confortável na curva de aprendizagem já


quebraram o paradigma de abordagem da analítica digital, ou já nasceram no novo
paradigma.
A conclusão sobre os resultados dessas pesquisas é de que a curva de aprendi-
zagem em Big Data é o processo de sofisticação da compreensão dessa tecnologia
que, de modo consciente ou não, vai se aproximando dos princípios da Ciência das
Redes.
42 Pós-Universo

tecnologia

NoSQL e HADOOP
Pós-Universo 43

Tecnologia NoSQL
NoSQL é uma abreviação de Not only SQL, ou seja, “não somente SQL”. Esse termo é
utilizado para definir os novos modelos de armazenamento de dados, criados para
atenderem as necessidades de flexibilidade, disponibilidade, escalabilidade e desem-
penho das aplicações inseridas no contexto de Big Data. Nele, diferente do banco
de dados relacional, em que seu foco principal é voltado à integridade dos dados, os
modelos em NoSQL tendem a sacrificar uma ou mais propriedades ACID, para ofere-
cer maior desempenho e escalabilidade às soluções que lidam com grande volume
de dados.
Assim como não existe um padrão único para criação de aplicações de Big Data,
não existe um modelo de armazenamento único que seja adequado para todos os
cenários de aplicações, uma vez que cada solução requer necessidades específicas.
Um e-commerce que precisa de rapidez na pesquisa de seus produtos tem
necessidades de manipulação de dados diferentes de uma empresa que precisa reco-
mendar produtos em tempo real para seus clientes. Da mesma forma, uma aplicação
que precisa armazenar dados genéticos para analisá-los tem necessidades diferen-
tes de um game online que captura informações dos jogadores.
Enquanto uma solução pode ter como requisito a gravação de informações em
fluxos constantes ao banco, outras podem necessitar de leituras periódicas em sua
base. Para que cada uma dessas soluções tivesse recursos capazes de atender seus
requisitos, diferentes modelos de armazenamento passaram a ser criados no con-
texto de NoSQL.
Podemos classificar os modelos existentes em NoSQL de acordo com a estrutura
que os dados são armazenados. Atualmente, existem 4 modelos principais: o modelo
orientado a chave-valor, orientado a documentos, orientado a colunas e orientado
a grafos.
44 Pós-Universo

Modelo orientado a chave-valor


Dos modelos existentes em NoSQL, o banco de dados orientado a chave-valor é o
que possui a estrutura mais simples. Como o próprio nome já indica, esse tipo de ar-
mazenamento tem como estratégia o armazenamento de dados utilizando chaves
como identificadores das informações gravadas em um campo identificado como
valor.
A chave é composta normalmente de um campo do tipo string. O campo valor
pode conter diferentes tipos de dados, sem necessitar de um esquema predefinido,
como acontece em bancos de dados relacionais.
Você pode utilizar o banco de dados orientado a chave-valor tanto para persistir
os dados em um banco quanto para mantê-los em memória e assim agilizar o acesso
às informações. Nesse segundo caso, é possível recuperar os valores em um banco e
armazená-los em um cache, criando uma chave para cada valor armazenado.
Bancos de dados orientados a chave-valor são adequados para aplicações que
realizam leituras frequentes. Considere, por exemplo, o aplicativo de vendas da Big
Compras. Os clientes acessam o catálogo de produtos do aplicativo e selecionam os
itens desejados para colocá-los no carrinho de compras.
Nesse momento, a aplicação precisa guardar as informações dos produtos selecio-
nados até o momento em que o cliente finalize sua compra. Na Figura 8, é apresentado
um exemplo da estrutura de armazenamento chave-valor para esse cenário:
chave valor

sessao_ID: “xszfbgish2kh” {”carrinho_compras” : produto111, produto23, produto10, ...}

sessao_ID: “dft40ihjawsd” {”carrinho_compras” : produto23, produto367, ...}

sessao_ID: “twspslfgbsa5” {”carrinho_compras” : produto44, produto13, produto182, ...}

Figura 8 - Estrutura de um banco de dados orientado a chave-valor


Fonte: Marquesone (2017, p.51).
Pós-Universo 45

O campo chave usado para fazer a recuperação das informações nesse caso é o ID da
sessão de compra do cliente. O campo valor é preenchido com informações sobre
os itens inseridos no carrinho de compras. Perceba como esse modelo possui uma
estrutura bem mais simples do que o relacional, não sendo necessária a criação de
tabelas, colunas e chaves estrangeiras. É necessário apenas que cada registro tenha
uma chave única e que se armazene um conjunto de informações referentes aos
valores dessa chave.
Existem atualmente diversas opções de banco de dados orientado a chave-valor.
Embora cada um possua suas próprias características, todas as opções disponíveis
são criadas com foco em oferecer flexibilidade, desempenho e escalabilidade no ge-
renciamento dos dados. Por esse motivo, esse modelo de banco de dados pode ser
uma solução ideal para resolver questões de lentidão para leitura e escrita de dados
em grande variedade e volume. Com sua estrutura simples, ele é capaz de otimizar
o desempenho da consulta e realizar operações com alta vazão.
Embora a estrutura simples do banco de dados orientado a chave-valor ofereça
benefícios, ela também possui algumas limitações. O conteúdo do campo valor é
“opaco”, não sendo possível fazer uma indexação com esse campo e uma consulta
mais complexa.
Porém, mesmo com essa limitação, bancos de dados orientados a chave-valor
podem ser adequados para diversos cenários, como o armazenamento de imagens
e de documentos, criação de cache de objetos, armazenamento de dados de sessões
do usuário e rastreamento de atributos transientes, como no caso do carrinho de
compras.
São exemplos de bancos de dados orientados a chave-valor:

• DynamoDB — https://aws.amazon.com/pt/dynamodb/

• Redis — http://redis.io/

• Riak — http://basho.com/

• Memcached — https://memcached.org/
46 Pós-Universo

Modelo orientado a documentos


Considerado uma extensão do banco de dados orientado a chave-valor, o banco de
dados orientado a documentos é provavelmente a categoria NoSQL mais popular
atualmente. Também oferece a simplicidade, a flexibilidade no gerenciamento dos
dados e os meios de criação de índices sobre os valores dos dados armazenados, en-
riquecendo as possibilidades de consultas.
Podemos definir documentos como sendo estruturas flexíveis que podem ser
obtidas por meio de dados semiestruturados, como o formato XML e JSON. Para com-
preender melhor sua estrutura, pense em um documento como sendo uma linha de
uma tabela, e um conjunto de documentos como sendo a tabela com todos os regis-
tros. A diferença é que cada documento (ou seja, cada linha da tabela) pode conter
variações em sua estrutura. Isso é possível pelo fato de que você não precisa definir
um esquema antes de adicionar os registros.
Além dessa flexibilidade, diferente do modelo chave-valor, o banco de dados
orientado a documentos permite a criação de consultas e filtros sobre os valores ar-
mazenados, e não somente pelo campo chave.
Caso você necessite de uma solução que armazene atributos variados em cada
registro, o banco de dados orientado a documentos é uma ótima opção. Além disso,
ele oferece grande escalabilidade e velocidade de leitura, pois os dados são armaze-
nados em forma desnormalizada. Assim sendo, um documento armazenado deve
conter todas as informações relevantes para uma consulta, sem necessitar da criação
de joins.
Você se lembra da questão de alta disponibilidade? Essa também é uma caracte-
rística desse banco, que permite trabalhar com a replicação dos dados em um cluster,
e assim garantir que o dado ficará disponível mesmo com a ocorrência de falha em
um dos servidores.
Esse modelo é indicado para realizar o armazenamento de conteúdo de páginas
Web, na catalogação de documentos de uma empresa e no gerenciamento de in-
ventário de um e-commerce, pois são aplicações que trabalham diretamente com
coleções de documentos e, portanto, podem se beneficiar da flexibilidade que o ar-
mazenamento orientado a documentos oferece.
Pós-Universo 47

Além dos cenários apresentados, esse modelo pode também ser muito útil em demais
aplicações que utilizem estruturas de dados no formato JSON e que se beneficiam
da desnormalização das estruturas dos dados.
São exemplos de bancos de dados orientados a documentos:

• Couchbase — http://www.couchbase.com/

• CouchDB — http://couchdb.apache.org/

• MarkLogic — http://www.marklogic.com/

• MongoDB — https://www.mongodb.com/

Modelo orientado a colunas


De todos os modelos de armazenamento NoSQL, provavelmente o orientado a colunas
seja o mais complexo. Ele também é considerado uma extensão do armazenamento
orientado a chave-valor e possui conceitos similares ao do modelo relacional, como
a criação de linhas e colunas.
Imagine ter de reestruturar todos os registros já armazenados na tabela para
cada inclusão de um novo campo. E se a quantidade de dados armazenados chegar
à escala de terabytes? Mesmo se você realizar uma consulta para buscar um único
campo da tabela, o banco de dados relacional precisará passar por todos os registros
de todas as linhas para trazer os resultados, impactando o desempenho da consulta.
O banco de dados orientado a colunas se diferencia do banco de dados relacio-
nal, pois busca resolver principalmente o problema de escalabilidade e flexibilidade
no armazenamento de dados. Já no que se refere à flexibilidade, ao invés de definir
antecipadamente as colunas necessárias para armazenar um registro, o responsá-
vel pela modelagem de dados define o que é chamado de “famílias de colunas”. As
famílias de colunas são organizadas em grupos de itens de dados que são frequen-
temente usados em conjunto com uma aplicação.
Por exemplo, no cenário anteriormente descrito, poderíamos definir ao menos
três famílias de colunas: dados_cadastrais, preferencia_roupas e preferencia_livros.
A partir delas, o desenvolvedor possui a flexibilidade de inserir as colunas que consi-
derar necessárias em cada registro armazenado, sem precisar alterar a estrutura dos
dados já armazenados.
48 Pós-Universo

Conforme a estrutura apresentada na Figura 9, perceba que o cliente “João” (ID_1) tem
informações gravadas nas famílias de colunas dados_cadastrais, preferencia_roupas
e preferencia_livros. No entanto, o cliente “José” (ID_2) possui informações gravadas
somente nas famílias de colunas dados_cadastrais e preferencia_livros.
dados_cadastrais
nome idade email fone
5-5-16 10-15-20 5-5-16 10-15-20 5-5-16 10-15-21 8-5-16 14-00-18

ID_1 “Joao” 30 “xx@y.com” “11-984592015”


nome idade email
3-2-15 05-10-02 3-2-15 05-10-02 3-2-15 05-10-02

ID_2 “Jose” 28 “a@b.com”

preferencia_roupas
marca tamanho
8-5-16 14-00-19 8-5-16 14-00-19

“mjeans” “M”

preferencia_livros
categoria editora
8-5-16 14-00-18 8-5-16 14-00-18

“romance” “foccus”
categoria editora idioma
3-2-15 05-11-05 3-2-15 05-11-05 3-2-15 05-11-05

“biografia” “lince” “Inglês”

Figura 9 – Exemplo de família de colunas


Fonte: Marquesone (2017, p.58).

Além desse fator, note que o número de colunas pode ser diferente para cada re-
gistro. Outra informação armazenada no banco de dados orientado a colunas é o
timestamp de cada item gravado. Essa abordagem é utilizada para prover o versio-
namento das colunas.
Com essa estratégia de armazenamento por famílias de colunas, além de fornecer
flexibilidade, esse modelo oferece também grande escalabilidade. O registro de um
item pode ter informações gravadas em diversas famílias de colunas, que podem estar
armazenadas em diferentes servidores. Isso é possível pelo fato de que os dados são
armazenados fisicamente em uma sequência orientada a colunas, e não por linhas.
Dessa forma, mesmo em um ambiente distribuído, com milhões de colunas, o
banco de dados orientado a colunas pode distribuir as consultas em um grande
número de nós de processamento sem realizar operações de join.
Pós-Universo 49

Se sua aplicação trabalha com volumes imensos de dados, se ela necessita de


alto desempenho e de alta disponibilidade na leitura e escrita dos dados, ou se você
necessita de inclusão de campos dinâmicos e sua solução tolera eventuais incon-
sistências, provavelmente o banco de dados orientado a colunas é a solução mais
adequada. Por atender tais necessidades, esse modelo é muito utilizado por aplica-
ções de larga escala. como ocorre com o serviço de mensagens do Facebook.

A seguir exemplos de bancos de dados orientados a colunas, sendo que muitos


deles foram inspirados na solução BigTable, introduzida pelo Google (https://cloud.
google.com/bigtable/):

• Accumulo — https://accumulo.apache.org/

• Cassandra — http://cassandra.apache.org/

• HBase — https://hbase.apache.org/

• Hypertable — http://www.hypertable.org/

Modelo orientado a grafos


Entre os quatro tipos de armazenamento NoSQL apresentados, o orientado a grafos é
provavelmente o mais especializado. Diferente dos outros modelos, pois em vez dos
dados serem modelados utilizando um formato de linhas e colunas, eles possuem
uma estrutura definida na teoria dos grafos, usando vértices e arestas para armaze-
nar os dados dos itens coletados (como pessoas, cidades, produtos e dispositivos) e
os relacionamentos entre esses dados, respectivamente.
Esse modelo oferece maior desempenho nas aplicações que precisam traçar os
caminhos existentes nos relacionamentos entre os dados, por exemplo, as que pre-
cisam identificar como um conjunto de amigos está conectado em uma rede, ou
descobrir a melhor rota para se chegar a um local em menor tempo.
Existem casos em que a descoberta de como os dados estão relacionados é mais
importante do que os dados em si. Observe o grafo apresentado na Figura 10, que
ilustra um exemplo dos relacionamentos da rede de usuários.
50 Pós-Universo

tipo: “seguidor”
data: “05-08-2015”
Usuario: Usuario:
“João” “José”
tipo: “seguidor”
data: “06-02-2015”

tipo: “seguidor” Usuario: tipo: “seguidor”


data: “02-07-2015” “Maria” data: “04-03-2015”

Figura 10 – Exemplo de banco de dados orientado a grafos


Fonte: Marquesone (2017, p.60).

Além das informações armazenadas sobre cada usuário, são também armazenadas
informações sobre a ligação entre eles. Podemos identificar no exemplo que o usuário
“João” é um seguidor do usuário “José”, que também é seu seguidor.
Esse mesmo tipo de informação pode ser usado em toda a rede de usuários,
possibilitando a criação de soluções baseada nessa análise, tais como a recomenda-
ção de amigos com base na rede de relacionamento. Em situações como essa, com
foco no relacionamento dos dados, é que o banco de dados orientado a grafos é
recomendado.
Um outro modelo de armazenamento, até mesmo o relacional, também é capaz
de realizar consultas sobre os relacionamentos entre os itens armazenados. Entretanto,
em soluções com milhões de relacionamentos, essa consulta se tornaria muito com-
plexa, resultando em um baixo desempenho.
São exemplos de bancos de dados orientados a grafos:

• AllegroGraph — http://franz.com/agraph/allegrograph/

• ArangoDB — https://www.arangodb.com/

• InfoGrid — http://infogrid.org/trac/

• Neo4J — https://neo4j.com/

• Titan — http://titan.thinkaurelius.com/
Pós-Universo 51

Resumo dos modelos de


armazenamento NoSQL
Diferentes aplicações necessitam de diferentes tipos de bancos de dados. É exata-
mente esse fato que impulsionou a criação dos sistemas de gerenciamento de bancos
de dados relacionais e, agora, dos bancos de dados NoSQL.
É importante enfatizar que as novas soluções NoSQL não estão sendo construídas
para substituir os SGBDRs. Essas são soluções complementares, com características
distintas para necessidades não suportadas por um SGBDR.
A tendência é de que empresas adotem soluções híbridas, com diferentes
modelos de bancos de dados, relacionais e NoSQL, para as diversas necessidades de
gerenciamento.
Para exemplificar, confira na Figura 11 uma proposta de armazenamento de dados
para o aplicativo Big Compras. Cada serviço pode utilizar um banco de dados espe-
cífico, para assim garantir um bom funcionamento do aplicativo.

Aplicativo
Big Compras

Rede de
Carrinho de Compras Catálogo de
relacionamento
compras realizadas produtos
dos clientes

Banco de dados Banco de dados Banco de dados


Banco de dados
orientado a orientado a orientado a
relacional
chave-valor documentos grafos

Figura 11 – Exemplo de solução híbrida de armazenamento de dados


Fonte: Marquesone (2017, p.63).
52 Pós-Universo

Mas como decidir qual o melhor banco de dados para cada serviço? Isso ainda é um
desafio. Entretanto, fazer um estudo de comparação é uma ótima estratégia para ga-
rantir que sua solução seja um sucesso.
Embora cada banco de dados NoSQL seja único, com características específicas
para atender um determinado requisito de leitura e escrita dos dados, é possível ob-
servarmos os seguintes aspectos comuns entre eles:

• Não relacional: não seguem as características existentes em um banco de


dados relacional, como as garantias da propriedade ACID;

• Ausência de esquema: não exigem um esquema rígido e previamente defi-


nido como nos bancos de dados relacionais, oferecendo maior flexibilidade
em relação aos tipos de dados armazenados;

• Projetadas para cluster: são projetadas desde o início para serem usadas em
infraestrutura de cluster, oferecendo maior escalabilidade;

• Predominância de software livre: a maioria das soluções existentes em


bancos de dados NoSQL seguem a tendência das tecnologias de Big Data,
sendo de software livre.

A consistência refere-se ao aspecto que todos os nós do sistema devem conter os


mesmos dados, garantindo que diferentes usuários terão a mesma visão do estado
dos dados. Ou seja, é preciso garantir que todos os servidores de um cluster terão
cópias consistentes dos dados.
A consistência aqui descrita não tem o mesmo significado que a existente no
termo ACID, em que consistência refere-se ao fato de que operações que violam
alguma regra do banco de dados não serão aceitas. Para o requisito de disponibili-
dade, o sistema deverá sempre responder a uma requisição, mesmo que não esteja
consistente.
Pós-Universo 53

A Importância da Governança dos


Dados
Se o objetivo da empresa em que você atua é, além de criar um projeto isolado
de Big Data, criar também uma cultura guiada por dados — na qual eles possuem
papel chave para os negócios — é essencial que ela tenha uma estratégia eficaz de
governança de dados. Sem essa governança, não é possível controlar, gerenciar e
monitorar como os dados estão sendo utilizados, nem mensurar o custo e o retorno
que eles estão oferecendo.
A implantação de uma estratégia de governança de dados inclui uma série de
práticas que deve ser adotada dentro da organização, em todos os departamentos,
não somente na equipe de TI, como ainda é comum de se pensar. Políticas, padrões,
regras, processos, métricas e relatórios são utilizados para comunicar, monitorar e ge-
renciar os ativos de dados.
A Tabela 6 apresenta um resumo dos principais tópicos existentes na governan-
ça de dados.

Tabela 6 – Tópicos de Governança de Dados

TIPO DESCRIÇÃO
Arquitetura dos É a partir da arquitetura de dados que se define onde os dados
dados ficarão dispostos em toda a organização e como eles poderão ser
integrados. O gerenciamento é necessário para identificar as trans-
formações necessárias conforme novas tecnologias são utilizadas
e novas soluções são criadas. Nesse sentido, são criadas políticas
para padronizar os elementos dos conjuntos de dados, são defini-
dos protocolos e boas práticas para a modelagem de dados, bem
como a execução de processos para garantir que os padrões defi-
nidos estejam sendo adotados.
Auditoria Uma governança efetiva dos dados deve permitir que profissionais
tenham a habilidade de rastrear e compreender quando os dados
foram criados, como estão sendo utilizados e o impacto que eles
possuem na organização. No contexto de Big Data, esse contro-
le ainda é um desafio, dado que muitas tecnologias e plataformas
utilizadas para Big Data ainda não oferecem as funcionalidades ne-
cessárias para soluções de auditoria dos dados.
54 Pós-Universo

Gerenciamento São esses tipos de dados que servirão de base para as diversas
de metadados outras áreas de controle na governança de dados, como a segu-
rança e a auditoria. Os metadados são importantes para fornecer a
contextualização e padronização dos dados. Sejam metadados téc-
nicos, de negócios ou operacionais, é importante que eles sejam
gerenciados corretamente para dar o suporte necessário na utiliza-
ção dos demais dados da empresa.
Gerenciamento Sabemos que, no contexto de Big Data, os dados não estruturados
de dados são coletados e armazenados em seu formato original, tais como
mestres os dados de mídias sociais e de sensores. No entanto, as iniciati-
(Master Data vas de MDM são propostas para criar uma fonte confiável de dados
Management estruturados. Embora ainda seja um desafio, as empresas estão
— MDM) buscando estratégias que utilizem os processos MDM como um
papel chave para extrair informações úteis do contexto de Big Data
com outros sistemas transacionais da organização.
Modelagem A variedade de dados disponíveis e suas diferentes utilizações têm
dos dados aumentado as formas de modelagem dos dados em uma orga-
nização. Um mesmo conjunto de dados pode ser usado em um
formato de armazenamento chave-valor, em grafo ou em coluna,
por exemplo, necessitando de uma modelagem específica para
cada tipo. É importante que se ofereçam políticas de modelagem
de dados para que se possa estabelecer um padrão entre tantas al-
ternativas disponíveis.
Qualidade dos Por mais que quando falamos sobre Big Data, muitos dados ofer-
dados tados podem conter erros ou estar incompletos, o objetivo de
uma organização é sempre aperfeiçoar a qualidade e a utilidade
dos dados. É comum que esses esforços sejam inicialmente apli-
cados aos dados mestres, porém políticas para criação de profile
dos dados, bem como estratégias de limpeza, filtragem e agrupa-
mento de dados estão pouco a pouco sendo aplicadas aos demais
tipos de dados coletados pela organização.
Segurança Essa prática está relacionada à criação de políticas e ao monitora-
mento contínuo para uma gestão de risco relacionado à coleta,
armazenamento, processamento e análise dos dados. Nesse
aspecto, são criadas estratégias de criptografia dos dados, de-
finição e proteção a dados sensíveis, políticas de proteção da
integridade, disponibilidade, confiabilidade e autenticidade dos
dados. Essas estratégias incluem tanto meios físicos quanto técni-
cos e administrativos.
Fonte: adaptado de Marquesone (2017, p.67-69).
Pós-Universo 55

Se a governança de dados na era pré-Big Data já era difícil, imagine como essa tarefa
se tornou mais desafiadora com a inclusão de dados de inúmeras fontes, grande
volume e utilizados para diferentes propósitos? Dado esse desafio e a crescente im-
portância dos dados dentro em uma organização, um novo cargo está sendo criado,
principalmente nas grandes organizações: o Chief Data Officer (CDO), nome em inglês
para o diretor executivo de dados.
A governança de dados é uma das principais responsabilidades do CDO, que
deverá também gerenciar e controlar a criação de produtos e serviços guiados por
dados em toda a esfera da empresa. Além do conhecimento técnico, esse profissio-
nal também deve ter visão de negócios, sendo capaz de criar produtos e serviços a
partir dos dados.
É muito importante que esse profissional consiga conscientizar os colaboradores
da empresa sobre a importância de uma governança efetiva, para que eles enten-
dam por que precisam seguir determinados processos e padrões. De fato, entre as
tantas tarefas atribuídas a esse profissional, a conscientização dessa mudança cultu-
ral é provavelmente a mais desafiadora, pois a governança somente será efetiva se
todos estiverem dispostos a colaborar.
atividades de estudo

1. Leia o trecho a seguir: “[...] seu Sistema de Informação permite a agregação de dados
de espécies e ocorrências disponibilizadas por diversas instituições acadêmicas e de
pesquisa bem como de órgãos governamentais.”

O trecho acima refere-se a qual cenário de aplicação da ciência de dados?

a) Astronomia.
b) Biodiversidade.
c) Internet.
d) Saúde.
e) Comunicação móvel.

2. Analise o trecho a seguir: “[...] a primeira utilização do termo Big Data como banco de
dados foi descrita por __________________ em que o definiram como os grandes
conjuntos de dados complexos que desafiamos limites de captura, análise e arma-
zenagem.” De acordo com o trecho, assinale a alternativa correta:

a) cientistas da NASA.
b) cientistas de dados.
c) analistas de dados.
d) analistas da informação.
e) cientistas de software.
atividades de estudo

3. Ao se falar sobre a curva de aprendizagem, assinale a alternativa correta:

a) É a categoria dos que ainda são inovadores pelo ambiente de inovação em Big
Data e possui menos maturidade no uso de dados digitais, ou seja, não os utiliza
para inovação.
b) A categoria dos pragmáticos é a dos que usam analítica de dados para inovação
e ganham vantagem competitiva.
c) Na categoria de desafiados, incluem-se aqueles que já fizeram um significan-
te progresso no uso de analítica e já veem os resultados disso, porém não usam
dados digitais para inovar, e sim para ganho de eficiência, o que não se traduz
em grande vantagem competitiva.
d) O fator de abrangência de domínios na busca de dados é a comprovação da im-
portância da diversidade de dados no valor do Big Data.
e) As empresas que lideram no fator de abrangência de aplicação são aquelas que
conseguem gerar conhecimento a partir de dados das mais diferentes origens,
coletados para os mais diferentes fins.
atividades de estudo

4. Com relação aos modelos de armazenamento NoSQL, assinale a alternativa correta:

a) A falta de incentivo, ou seja, a resistência cultural à mudança pelo sucesso de


métodos mais tradicionais ou baixa competitividade criam um ambiente que
não incentiva a inovação.
b) É importante enfatizar que as novas soluções NoSQL não estão sendo construídas
para substituir os SGBDRs. Essas são soluções complementares, com caracterís-
ticas distintas para necessidades não suportadas por um SGBDR. A tendência é
de que empresas adotem soluções híbridas, com diferentes modelos de bancos
de dados, relacionais e NoSQL, para as diversas necessidades de gerenciamento.
c) Baixa ambição na coleta de dados, isto é, o grupo que possui uma série histó-
rica relevante, acessível e confiável, porém restringem-se basicamente a dados
transacionais.
d) As empresas líderes utilizam Big Data para aumento das vendas, reposicionamen-
to de produtos, pesquisa e desenvolvimento, prospecção de novos negócios,
melhor experiência do cliente em lojas físicas, monitoramento da concorrência,
monitoramento da percepção da marca, monitoramento do desempenho de
seus produtos (durabilidade, eficiência etc), melhorias na logística etc.
e) A curva de aprendizagem é todo o caminho percorrido, de modo consciente ou
não, pelas organizações que já obtiveram retorno satisfatório sobre o investimen-
to em projetos Big Data. O objetivo é identificar quais as características comuns
das organizações que já atingiram o ponto da curva onde o desempenho com-
pensa o investimento.
resumo

Neste encontro foram abordados os seguintes aspectos relativos ao tema proposto e relaciona-
dos aos objetivos de aprendizagem:

A ciência de dados nos traz as ferramentas, métodos e tecnologias para analisar, visualizar e tomar
decisões a partir dos dados e o desafio de ajudar aqueles que precisam responder às perguntas
que ainda não foram feitas.

O grande desafio relacionado à ciência de dados relaciona-se com a experiência anterior em rea-
lizar atividades de pesquisa e desenvolvimento em gestão e análise de dados, bem como análise
de redes complexas, em cenários de aplicação das áreas mais diversas tais como astronomia, bio-
diversidade, Internet, petróleo & gás, saúde e comunicação móvel.

Os cientistas de dados são especialistas analíticos de uma nova geração de especialistas que
possuem habilidades técnicas para resolver problemas complexos e também a curiosidade de
explorar quais são os problemas que precisam ser resolvidos.

O cientista de dados, é uma pessoa que identifica fontes de dados, combinando isso tudo com
a informação potencialmente incompleta de outras fontes e depura o conjunto resultante. Não
convivem bem com rédea curta. Devem ter liberdade para experimentar e explorar possibilidades.

Big Data tem sido alvo de muita atenção no mundo dos negócios, no governo e no meio aca-
dêmico, podemos encontrar casos de uso em que o Big Data permitiu a redução do número de
fraudes, aumento de lucros, conquista de eleitores, redução de custos na produção, eficiência
energética, aumento de segurança, entre outros benefícios tão almejados em diversos domínios.

O termo big data tem sido utilizado para designar diversas coisas. O único ponto em comum
entre essas diferentes designações é que todas tratam de grande quantidade de dados digitais.

O atributo volume é a característica mais significativa no conceito de Big Data. Ele faz referência
à dimensão sem precedentes do volume de dados.

Antes de armazenar alguma informação, é necessário definir a estrutura, a sequência, o tamanho


e os tipos de dados em questão. Além dos desafios impostos pelo volume e variedade dos dados,
Big Data também faz referência a outra propriedade: a velocidade com que os dados são coleta-
dos, analisados e utilizados
resumo

O valor é um atributo que faz referência ao quão valioso e significativo um dado pode ser em
uma solução.

O atributo veracidade está relacionado à confiabilidade dos dados, pois pelo fato de que Big Data
está inserido em um contexto de dados em grande volume e variedade, é comum a existência
de dados inconsistentes, a veracidade refere-se ao quão confiável é um conjunto de dados usado
em uma solução de Big Data, dados gerados por humanos são aqueles em que o conteúdo foi
originado a partir do pensamento de uma pessoa, em que a propriedade intelectual está inte-
grada ao dado e que refletem a interação das pessoas no mundo digital.

Os dados gerados por máquinas, como dados digitais produzidos por processos de computa-
dores, aplicações e outros mecanismos não necessitam explicitamente de intervenção humana.

Uma das principais contribuições da Ciência das Redes para as organizações que desejam de-
senvolver metodologias e ferramentas em Big Data vem da afirmação de que devemos enxergar
os dados como parte de um ecossistema, ou seja, não deve existir uma abordagem a partir de
uma única visão e que todos os usuários da rede deverão ser levados em conta nos estudos das
ameaças e oportunidades na modelagem de novos empreendimentos.

Os primeiros estudos que despertaram o mundo para a utilização dos dados gerados em rede
foram feitos há mais de uma década e a partir disso muitas pesquisas foram feitas, muitas tec-
nologias foram desenvolvidas e várias iniciativas foram tomadas para gerar soluções a partir do
uso de Big Data;

A curva de aprendizagem é um conceito que representa o nível médio cognitivo de aprendiza-


gem para uma determinada atividade ou ferramenta, e maneira mais simples de entender isso é
através das regras de um jogo.

NoSQL é uma abreviação de Not only SQL, ou seja “não somente SQL”. Esse termo é utilizado para
definir os novos modelos de armazenamento de dados, criados para atenderem as necessida-
des de flexibilidade, disponibilidade, escalabilidade e desempenho das aplicações inseridas no
contexto de Big Data. Ele, diferente do banco de dados relacional, em que seu foco principal é
voltado à integridade dos dados, os modelos em NoSQL tendem a sacrificar uma ou mais pro-
priedades ACID, para oferecer maior desempenho e escalabilidade às soluções que lidam com
grande volume de dados.
resumo

O banco de dados orientado a chave-valor é o que possui a estrutura mais simples.

Bancos de dados orientados a chave-valor são adequados para aplicações que realizam leituras
frequentes.

O banco de dados orientado a chave-valor, o banco de dados orientado a documentos é pro-


vavelmente a categoria NoSQL mais popular atualmente. Também oferece a simplicidade, a
flexibilidade no gerenciamento dos dados e os meios de criação de índices sobre os valores dos
dados armazenados, enriquecendo as possibilidades de consultas.

De todos os modelos de armazenamento NoSQL, provavelmente o orientado a colunas seja o


mais complexo. Ele também é considerado uma extensão do armazenamento orientado a cha-
ve-valor e possui conceitos similares ao do modelo relacional, como a criação de linhas e colunas.

Entre os quatro tipos de armazenamento NoSQL apresentados, o orientado a grafos é provavelmen-


te o mais especializado. Diferente dos outros modelos, pois em vez dos dados serem modelados
utilizando um formato de linhas e colunas, eles possuem uma estrutura definida na teoria dos
grafos, usando vértices e arestas para armazenar os dados dos itens coletados (como pessoas,
cidades, produtos e dispositivos) e os relacionamentos entre esses dados, respectivamente.

Se o objetivo da empresa em que você atua é, além de criar um projeto isolado de Big Data, criar
também uma cultura guiada por dados — na qual eles possuem papel chave para os negócios
— é essencial que ela tenha uma estratégia eficaz de governança de dados. Sem essa governan-
ça, não é possível controlar, gerenciar e monitorar como os dados estão sendo utilizados, nem
mensurar o custo e o retorno que eles estão oferecendo.
material complementar

Big Data – Técnicas e tecnologias para extração de valor dos dados


Autor: Rosangela Marquesone
Editora: Casa do Código
Sinopse: estamos na era dos dados. Não importa qual seja a sua área
de atuação, uma palavra atualmente em evidência é: Big Data. Podemos
encontrar casos de uso em que esse conceito permitiu a redução do
número de fraudes, redução de custos na produção, eficiência energé-
tica, aumento de segurança, entre outros benefícios tão almejados em
diversos domínios. Muito embora o interesse esteja em alta, Big Data ainda é um termo inci-
piente, gerando incertezas sobre sua definição, características, aplicabilidade e desafios. Como
obter dados de diferentes fontes? Como extrair valor a partir dos dados? Qual a infraestru-
tura necessária para criar uma solução de Big Data? Quais habilidades são necessárias para
atuar com Big Data em seu projeto?
Nesse livro, Rosangela Marquesone apresenta as tecnologias e as soluções de Big Data, em
uma abordagem conceitual que detalha as características e capacidades de cada uma delas.
Você verá as principais fases de um projeto de Big Data, desde a captura, o armazenamento,
o processamento, análise, até a visualização de dados.

Na Web
Ciência e Tecnologia: Big Data
https://www.youtube.com/watch?v=LsMt5jp1a9k
Reportagem especial sobre Big Data veiculado em 11 de Março, no Programa Ciência e
Tecnologia, da Globo News.

Na Web
Palestra Big Data do Criador
https://www.youtube.com/watch?v=9FaF8PKYbRk
Palestra que mostra desde conceitos a aplicações práticas
material complementar

Na Web
O QUE É CIÊNCIA DE DADOS EM 5 MINUTOS - Explorar Big Data para prever o futuro
https://www.youtube.com/watch?v=c6fdZmTwhWo
Uma tentativa bem simplificada de explicar Ciência de Dados

Na Web
O dia a dia do Cientista de Dados
https://www.youtube.com/watch?v=ZVv_W3-PUKY
Com o novo buzzword de tecnologia Big Data, surgiu uma nova profissão: a do Cientista de
Dados. Nesa palestra apresenta-se o que o mercado (e os outros profissionais) deve esperar
de um Cientista de Dados e como essa nova profissão pode ajudar sua empresa.
referências

COSTA, Luciana Sodré; FERNANDES, Soraya; ZUPPO, Daniella. Big Data: Estudo do Ambiente,
Desafios e Análise Estratégica para o Brasil. Rio de Janeiro: UFRJ/COPPE, 2013. Disponível em:
<http://www.crie.ufrj.br/application/assets/uploads/files/RJ24_Projeto_Big_Data.pdf>. Acesso
em 20 out. 2017.

Intel IT Center. Guia de Planejamento: saiba mais sobre big data. 2013. Disponível em <https://
www.intel.com.br/content/www/br/pt/business-topics/documents/tudo-sobre-big-data.html>.
Acesso em 19 out. 2017.

MARQUESONE, Rosangela. Big Data: técnicas e tecnologias para extração de valor dos dados.
São Paulo: Casa do Código, 2017.

PORTO, Fábio e ZIVIANI, Artur. Ciência de Dados. Petrópolis-RJ : LNCC, 2014. Disponível em:
<http://www.lncc.br/~ziviani/papers/III-Desafios-SBC2014-CiD.pdf>. Acesso em 27 set. 2017.

SAS Institute Inc. O que é um Cientista de Dados. Disponível em: <https://www.sas.com/pt_


br/insights/analytics/cientistas-de-dados.html>. Acesso em 10 out. 2017.
resolução de exercícios

1. b. Biodiversidade.

2. a. cientistas da NASA.

3. d. O fator de abrangência de domínios na busca de dados é a comprovação da


importância da diversidade de dados no valor do Big Data.

4. b. É importante enfatizar que as novas soluções NoSQL não estão sendo construídas
para substituir os SGBDRs. Essas são soluções complementares, com características
distintas para necessidades não suportadas por um SGBDR. A tendência é de que
empresas adotem soluções híbridas, com diferentes modelos de bancos de dados,
relacionais e NoSQL, para as diversas necessidades de gerenciamento.

Você também pode gostar