Escolar Documentos
Profissional Documentos
Cultura Documentos
Professor:
Me. Luis Claudio Perini
DIREÇÃO
OBJETIVOS DE APRENDIZAGEM
• definir conceitos da ciência de dados. Entender a importância da ciência
de dados no tratamento das informações nas organizações. Definir os ce-
nários de aplicação da ciência de dados nos diversos ramos de negócios.
Definir quem é e o que faz um cientista de dado;
• descrever os processos de Big Data. Entender quais dados fazem parte do
contexto de Big Data, qual a definição desse conceito, como obter dados
de diferentes fontes, como extrair valor a partir dos dados, qual a infraes-
trutura necessária para criar uma solução de Big Data, quais habilidades
são necessárias para se atuar com Big Data. Descrever as influências das
tecnologias de Big Data nas atividades do dia a dia. Descrever as principais
utilizações do Big Data. Descrever os V´s de Big Data;
• conceituar o ecossistema de Big Data. Descrever o ciclo de adoção de
Tecnologia. Entender a curva de aprendizagem necessária no ecossistema
de Big Data.
• conceituar a tecnologia NoSQL. Descrever a estrutura como os dados são
armazenados nos modelos existentes no NoSQL. Descrever a importância
da governança dos dados.
PLANO DE ESTUDO
ciência de dados
Pós-Universo 7
Vivemos na era da informação, e o mundo nunca gerou tanta informação como nos
dias atuais. A informação é gerada a partir de dados, e dados são produzidos por cada
um dos seres humanos no planeta, por máquinas, sistemas, celulares, dispositivos e
muito em breve até mesmo por eletrodomésticos.
A ciência de dados nos traz as ferramentas, métodos e tecnologias para analisar,
visualizar e tomar decisões a partir dos dados.
Imagine, caro(a) aluno(a), a quantidade de dados gerados a cada dia por uma
empresa, pedidos, vendas, pagamentos, relacionamentos com os clientes, proces-
sos internos, auditoria, contabilidade, finanças, marketing, bancos de dados, e-mails,
sistemas, redes sociais. E, diante isso, como esses dados se relacionam? Como eles
se relacionam com o mundo externo à empresa? Como tomar melhores decisões a
partir de dados? E, por fim, como fazer isso com dados gerados em tempo real?
A ciência de dados cresce na mesma velocidade como os dados são gerados.
Novos métodos, tecnologias e processos são necessários para que se possa extrair
informação valiosa diante de tamanha imensidão de dados.
A ciência dos dados tem o desafio de ajudar aqueles que precisam responder às
perguntas que ainda não foram feitas.
Estima-se que no futuro todos serão cientistas de dados, ou seja, na prática já
somos vistos como quem recebe toneladas de dados todos os dias, das mais variadas
fontes e formatos e cada um de nós decidimos o que fazer com esses dados e como
transformá-los em informação útil. Nosso dia a dia já é baseado em dados, e preci-
samos apenas aprender as melhores técnicas para fazer que os dados nos ajudem a
tomar melhores decisões.
8 Pós-Universo
“
[...] apresentada de forma geral como um vetor de múltiplas facetas, o fenô-
meno ainda está sendo interpretado pelos cientistas e vem impulsionando
iniciativas em diversas áreas. Nas ciências, incitando biólogos, astrônomos,
físicos e demais pesquisadores em diversas áreas científicas, a enfrentarem
problemas computacionais na chamada e-ciência, que se tornam barreiras
para as suas descobertas. Na indústria, aparece fortemente como análise pre-
ditiva em sintonia com o ambiente de computação em nuvem, provendo
escalabilidade e tolerância a falhas, em ambientes computacionais cada vez
mais complexos e de tamanho proporcional ao desafio. No setor governa-
mental, há oportunidades sobre imensas bases de dados do setor público
com vistas a gerar planejamento mais eficiente bem como novos serviços
que possam melhorar o atendimento ao cidadão.
motivam
pesquisa básica
em
Aspectos
Cenários fundamentais de
de aplicação análise de dados
em larga-escala
motivam
pesquisa aplicada
em
ÁREA CENÁRIO
Biodiversidade Geociências
Esporte Defesa
Física Educação
Análise de Gerência de
Astronomia Dados Dados Química
Engenharias Saúde
Ciência
de
Energia Dados Petróleo/Gás
Análise de Business
Ciências biológicas
Redes Complexas intelligence
Meteorologia/
Ciências humanas
Ciências climáticas
... Internet/Web
Cientista de Dados
Para tirar benefícios do Big Data, é essencial possuir um recurso escasso, um cientis-
ta de dados, sendo o maior desafio para gestores identificar esse profissional, atraí-lo
para a empresa e torná-lo produtivo. Nenhuma tarefa de uma empresa é mais árdua
do que essa, uma vez que não há cursos de nível superior que formem cientistas
de dados, além disso, há pouco consenso sobre o lugar que o cargo deveria ocupar
dentro do organograma da organização e também como o cientista de dados agre-
garia valor para empresa e de que maneira deveria ser medido seu desempenho.
Os cientistas de dados são especialistas analíticos de uma nova geração de es-
pecialistas que possuem habilidades técnicas para resolver problemas complexos e
também a curiosidade de explorar quais são os problemas que precisam ser resolvi-
dos. Os cientistas de dados são matemáticos, cientistas da computação, analistas de
tendências, dentre outras áreas e, por transitarem entre o mundo dos negócios e de
TI, são muito procurados e bem remunerados.
Dessa forma, inicialmente para localizar cientistas de dados, portanto, é necessá-
rio entender qual sua função na empresa e depois descobrir qual qualificação esse
profissional precisa possuir e em qual área seria mais fácil encontrar tal profissional.
Tal profissional faz descobertas enquanto está mergulhado num mar de dados e esse
é seu método favorito para navegar no mundo a seu redor, pois se sente em casa no
universo digital, sendo capaz de estruturar grandes volumes de dados sem valores
definidos e tornar possível a sua análise.
O cientista de dados é uma pessoa que identifica fontes de dados, combinando
isso tudo com a informação potencialmente incompleta de outras fontes, e depura
o conjunto resultante. Num cenário competitivo em que os desafios são mutantes e
o fluxo de dados é contínuo, o cientista de dados ajuda os gestores a decidir a migrar
da análise pontual para o diálogo permanente com os dados.
Há uma década, os cientistas de dados não estavam no radar das organizações,
mas sua popularidade repentina reflete como as empresas agora pensam sobre Big
Data.
Esse grande volume de informações não estruturadas não pode mais ser ignorado
e esquecido, pois é uma mina de ouro virtual que ajuda a aumentar receitas, desde
que haja alguém que escave e desenterre visões empresariais que ninguém havia
pensado em procurar, é nesse momento que o cientista de dados entra em cena.
Pós-Universo 13
Talvez esteja ficando claro por que o termo “cientista” aplica-se a essa nova função. O
profissional da física experimental também tem de conceber equipamentos, coletar
dados, conduzir experimentos e informar resultados obtidos. Por esse motivo, as em-
presas estão atrás de gente capaz de trabalhar com dados complexos terem tido
sucesso ao buscar entre indivíduos com formação acadêmica ou experiência pro-
fissional em ciências físicas ou sociais. Menos surpreendente é o fato de muitos dos
cientistas de dados atualmente em empresas terem recebido educação formal em
ciência da computação, matemática ou economia. Dessa forma, a formação tradi-
cional do profissional de dez ou quinze anos atrás simplesmente não serve nos dias
de hoje.
Um analista quantitativo pode ser ótimo na análise de dados, mas não para digerir
uma massa de dados desestruturados e deixá-la num formato que permita a análise.
Um especialista em gestão de dados pode saber como ninguém gerar e organizar
dados em formato estruturado, mas não ser bom para transformar dados desestrutu-
rados em dados estruturados — e tampouco para analisá-los. E, embora gente sem
fortes habilidades sociais possa se dar bem em ocupações tradicionais envolvendo
dados, o cientista de dados precisa desse traquejo para ser eficaz.
Com o aumento da oferta de ensino, o estoque de talentos deve cresce e os for-
necedores de tecnologias de Big Data também estão trabalhando para facilitar seu
uso, porém, enquanto isso não ocorre, um cientista de dados achou um jeito origi-
nal de preencher a lacuna.
Cientistas de dados não convivem bem com rédea curta. Devem ter liberdade
para experimentar e explorar possibilidades. Isso posto, precisam de um relaciona-
mento estreito com o resto da empresa. Em seu caso, os laços mais importantes a
forjar são com executivos a cargo de produtos e serviços, não com indivíduos no
comando de departamentos da empresa.
Há, no entanto, um potencial perigo em colocar gente com forte conhecimen-
to de um campo em rápida evolução para trabalhar com colegas da gestão geral
da empresa. Isso porque o cientista de dados vai interagir menos com especialistas
como ele, algo necessário para manter seu know-how afiado e seu jogo de ferra-
mentas na vanguarda. Cientistas de dados têm de se conectar com comunidades de
prática, tanto no âmbito de uma grande empresa como externamente.
Pós-Universo 15
saiba mais
HADOOP
O Apache Hadoop é um projeto de software de código aberto que pode ser
usado para processar de modo eficiente grandes conjuntos de dados. Em
vez de usar um grande computador para processar e armazenar os dados,
ele permite o agrupamento de hardware padrão em clusters para analisar
em paralelo grandes conjuntos de dados (AWS, 2017).
Hadoop é um ambiente completo para Big Data, utilizado pelas maiores
empresas.
• procurar por ordens e padrões nos dados, bem como detectar tendências
que podem ajudar os resultados de uma empresa.
16 Pós-Universo
TECNOLOGIA DESCRIÇÃO
A apresentação de dados em um formato pictóri-
Visualização de dados co ou gráfico para que eles possam ser facilmente
analisados.
introdução ao
big data
Pós-Universo 19
De acordo com Marquesone (2017, p. 17), em um ato de tomar café, comprar uma
passagem aérea ou pagar um boleto bancário por meio de um aplicativo, se neces-
sitamos de um documento que não esteja conosco, podemos facilmente acessar a
internet e buscá-lo em um serviço de computação em nuvem para armazenamento
de dados. Tais exemplos nos revelam que a tecnologia está em constante evolução.
Décadas se passaram e temos atualmente uma variedade de soluções capazes de
facilitar nossas ações diárias, transformar o modo como nos comunicamos e gerar
novas estratégias de negócios. Por exemplo, você é capaz de imaginar como seria
sua rotina sem os recursos tecnológicos disponíveis atualmente? Para auxiliar essa
compreensão, verifique a Tabela 3 mais adiante e perceba como a tecnologia tem
influência direta na maneira com que realizamos nossas atividades.
Tabela 3 – Influência das tecnologias nas atividades do dia a dia
quadro resumo
Crowdfunding
O termo crowdfunding alude a um mecanismo de financiamento que con-
siste na participação de pequenas quantias por muitas pessoas.
O crowdfunding, por conseguinte, também é conhecido como microcré-
dito. Trata-se de um financiamento coletivo, em que um empreendedor
recebe um apoio financeiro de numerosos investidores.
De um modo geral, o crowdfunding ocorre através da Internet. Quem estiver
interessado em receber financiamento divulga o seu projeto, estabelecen-
do uma meta a alcançar e solicitando apoio.
O termo Big Data tem sido utilizado para designar diversas coisas. O único ponto em
comum entre essas diferentes designações é que todas tratam de grande quantida-
de de dados digitais. Entende-se que não existe certo ou errado e que cada definição
reflete a abordagem ou o uso que se faz dos dados digitais. As principais utilizações
do termo estão definidas na Tabela 4:
Tabela 4 – Principais utilizações do Big Data
TERMOS DESCRIÇÃO
Big Data como banco de Nessa abordagem identificamos as quatro dimensões
dados: críticas do Big Data: volume, variedade, veracidade e
velocidade.
Big Data como disciplina Quando é utilizado para se referir a uma disciplina, o
termo big data corresponde ao campo empírico de
estudo de uma ciência.
Big data como instrumento Muitas vezes ouvimos falar de big data como uma
metodologia, tecnologia ou ferramenta capaz de
extrair valor de uma grande quantidade de dados
digitais.
Fonte: adaptado de Costa et. al. (2013, p. 20-24).
De acordo com Costa et.al (2013, p. 20), “a primeira utilização do termo Big Data
como banco de dados foi descrita por cientistas da NASA que o definiram como os
grandes conjuntos de dados complexos que desafiam os limites de captura, análise
e armazenagem.”
Pós-Universo 23
Os cientistas lidavam com os dados gerados nas pesquisas específicas do seu domínio
e que eram livremente compartilhadas, o que gerava conhecimentos e novos dados
de forma exponencial, estava definida a primeira dimensão crítica do big data: o
volume que inicialmente era totalmente representado por dados estruturados que
são os dados organizados em estruturas pré-estabelecidas.
BIG DATA
Volume
Marquezone (2017, p.9) afirma que o atributo volume é a característica mais signi-
ficativa no conceito de Big Data. Ele faz referência à dimensão sem precedentes do
volume de dados.
Confira a seguir algumas estatísticas que nos fazem perceber o que esse volume
representa:
Variedade
De acordo com Marquesone (2017, p.11), o banco de dados relacional é o modelo
mais usado nas últimas 4 décadas pelas organizações. Nesse modelo, dados são arma-
zenados em formato de tabelas, de acordo com uma estrutura previamente definida.
Isso quer dizer que, antes de armazenar alguma informação, é necessário definir
a estrutura, a sequência, o tamanho e os tipos de dados em questão. Outra notável
característica desse modelo é o suporte à propriedade ACID (vide Tabela 5), que
garante a integridade dos dados. Porém, mesmo sendo muito eficiente e aplicado a
diversos cenários, o banco de dados relacional é projetado para armazenar majori-
tariamente dados estruturados, ou seja, dados com esquemas rígidos e adequados
para o formato de tabelas, limitando para o uso de Big Data, uma vez que esse termo
também inclui dados semiestruturados e não estruturados.
Na classe de dados não estruturados, estão inclusos os vídeos, imagens e alguns
formatos de textos. Por não terem um formato que pode ser facilmente armazena-
do em tabelas, eles se tornam complexos para serem processados em ferramentas
tradicionais de armazenamento e gerenciamento de dados.
Tabela 5 - Variedade de BD como suporte à propriedade ACID
PROPRIEDADE RECURSOS
Atomicidade Garante que todas as alterações realizadas por uma transa-
ção serão efetivadas no banco de dados, ou nenhuma delas,
caso ocorra algum problema, ou seja, não há atualização
parcial da transação.
Velocidade
Além dos desafios impostos pelo volume e variedade dos dados, o Big Data também
faz referência a outra propriedade: a velocidade com que os dados são coletados,
analisados e utilizados. Um exemplo disso: imaginemos que um cliente receba re-
comendações de um produto em um e-commerce somente uma semana após ele
ter realizado uma compra. Embora tal recomendação ainda possa minimamente
gerar um efeito positivo, é muito provável que o impacto negativo teria sido supe-
rior, pois tal situação nos mostra que os dados coletados perdem seu valor com o
decorrer do tempo.
Por outro lado, há empresas que compreendem bem o benefício da velocida-
de, por exemplo, a Amazon, que adota um mecanismo de precificação dinâmica,
podendo chegar a atualizar os valores de seus produtos a cada 10 minutos, de acordo
com a análise da demanda em tempo real de seus suprimentos. O fator velocidade
está se tornando tão importante, ao ponto que empresas que não conseguirem agi-
lizar o tempo de análise dos dados terão dificuldades em se manterem competitivas
no mercado (MARQUEZONE, 2017, p.15).
Além da velocidade de análise, o fator velocidade também está relacionado à
rapidez com que os dados estão sendo gerados. Estatísticas mencionam que, em
apenas 1 minuto, mais de 2 milhões de pesquisas são realizadas no buscador Google,
6 milhões de páginas são visitadas no Facebook e 1.3 milhão de vídeos são vistos no
YouTube. Em complemento, temos os inúmeros aplicativos que mantêm seus servi-
ços em execução 24 horas por dia, e os sensores que geram dados continuamente
a cada segundo.
Em resumo, diante do exposto acima, vale salientar que, quando nos referimos a
Big Data, o importante não é somente a mudança quantitativa dos dados, sendo pos-
sível que uma organização possua grandes conjuntos de dados e não faça nenhuma
análise relevante sobre deles, e a maior mudança está no valor que se consegue
obter a partir do volume, variedade e velocidade de dados analisados, ou seja, uma
mudança qualitativa.
Marquezone (2017, p.16) cita o exemplo de duas empresas de telecomunica-
ção que podem obter milhões de registros de arquivos CDR (Call Detail Record).
Entretanto, só terá vantagens a empresa que conseguir gerar conhecimento a partir
desses dados e utilizá-lo para diferentes aplicações, tais como a segmentação dos
assinantes, a identificação de fraude e a predição de falhas.
Pós-Universo 27
Sendo assim, a partir dos três atributos mencionados, podemos chegar à seguin-
te definição de Big Data criada pela consultora Gartner: “Big Data faz referência não
somente ao volume, mas também à variedade e à velocidade de dados, necessitan-
do de estratégias inovadoras e rentáveis para extração de valor dos dados e aumento
da percepção”, ou seja, precisamos lidar com novos tamanhos de dados, novas ve-
locidades, novas tecnologias e novos métodos de análise de dados e não há como
atuar com Big Data estando resistente a mudanças (MARQUEZONE, 2017, p. 28).
Ainda de acordo com Marquezone (2017, p.17), além dos 3 Vs, você pode en-
contrar outros pesquisadores que adotam os 5 Vs, em que são acrescentados os
atributos valor e veracidade dos dados. O valor é um atributo que faz referência ao
quão valioso e significativo um dado pode ser em uma solução. O atributo veraci-
dade está relacionado à confiabilidade dos dados, pois pelo fato de que Big Data
está inserido em um contexto de dados em grande volume e variedade, é comum
a existência de dados inconsistentes, a veracidade refere-se ao quão confiável é um
conjunto de dados usado em uma solução de Big Data.
Os dados gerados por máquinas, como dados digitais produzidos por processos de
computadores, aplicações e outros mecanismos, não necessitam explicitamente
de intervenção humana. Ao utilizar uma aplicação Web para fazer o upload de uma
foto ou vídeo, para publicar um comentário, jogar ou assistir um vídeo via streaming,
não temos muita percepção da infraestrutura necessária para suportar tais serviços.
Tais dados têm sido amplamente gerados com o advento da tecnologia de
comunicação máquina a máquina (Machine-to-Machine — M2M), uma tecno-
logia integrada ao paradigma de Internet das Coisas (Internet of Things — IoT) que
permite a comunicação direta entre dispositivos.
Por esse motivo, além de armazenar os dados gerados, é importante armazenar
o seu significado, como informações sobre o tempo e espaço em que eles foram
produzidos. A fusão dos dados gerados por diferentes objetos também é necessá-
ria para aferir novos conhecimentos, tornando assim o ambiente mais inteligente.
Outros dados fabricados por máquinas e muito usados atualmente no universo de
Big Data são os dados genéticos, na área da bioinformática, uma área multidisciplinar
que tem como foco o estudo da aplicação de técnicas computacionais e matemáti-
cas à (bio)informação, na qual pesquisadores manipulam grandes volumes de dados
genéticos para descobrir padrões ocultos sobre eles.
Pós-Universo 29
saiba mais
Mitos Sobre Big Data
ecossistema de
big data
32 Pós-Universo
Uma das principais contribuições da Ciência das Redes para as organizações que
desejam desenvolver metodologias e ferramentas em Big Data vem da afirmação de
que devemos enxergar os dados como parte de um ecossistema, ou seja, não deve
existir uma abordagem a partir de uma única visão e que todos os usuários da rede
deverão ser levados em conta nos estudos das ameaças e oportunidades na mode-
lagem de novos empreendimentos.
Os dados que temos são universais, gerados por todos (gerados por humanos
ou por máquinas) e com um potencial de inovação que não deve respeitar fronteiras
geográficas ou de domínio do conhecimento. Dessa forma, diante de tais afirmações
e concordando com elas, aceitamos o desafio de esquematizar o que seria um ecos-
sistema Big Data.
A descrição primária de um sistema de geração de conhecimento com base em
dados digitais seria que, a partir de dados armazenados, aplicam-se tecnologias de
processamento em que as informações geram visões para os tomadores de decisão,
conforme a Figura 5.
saiba mais
Ciência das redes é um campo acadêmico interdisciplinar que estuda redes
complexas, tais como redes de telecomunicações, redes de computadores,
redes biológicas, redes cognitivas e semânticas e redes sociais.
Pós-Universo 33
Se fizermos algumas perguntas simples para entendê-lo um pouco mais, iremos agre-
gando diversos outros agentes que mostram uma maior complexidade ao sistema.
Fazendo uma leitura da figura, na fase da inflação das expectativas, justificada pela no-
vidade e pelo desejo de soluções inovadoras, a nova tecnologia recebe os primeiros
financiamentos de investidores visionários e consegue ser adotada pelas empresas
que lideram a inovação no seu setor de atuação e recebem uma atenção incentiva-
dora da mídia.
Quando atinge o pico das expectativas, conquista indústrias dispostas a suprir a
tecnologia propiciando a sua adoção por seguidores próximos dos inovadores. Com
casos para serem analisados e massa crítica formada, dá-se início à fase de análise dos
primeiros resultados e ponderação das promessas, então a mídia coloca em pauta o
lado negativo da tecnologia.
Poço da desilusão, ou seja, a fase que pode ser um ajuste entre expectativa e rea-
lidade, mas sempre arrasta junto os mais desavisados que pensam tratar-se de uma
desqualificação da tecnologia. Quando atinge o ponto mais baixo do ciclo, a tecno-
logia conquista apenas 5% do potencial inicialmente projetado. Insatisfeitos com tais
resultados, entusiastas da tecnologia buscam corrigir os rumos tomados, surgindo
assim a segunda geração de aplicações e a possibilidade de fazer diferentes e novas
oportunidades de negócio. Então a tecnologia entra na fase de escalada em direção
à maturidade.
Na fase do platô de produtividade, a tecnologia estará na terceira geração de apli-
cações, já possui maturidade de metodologias, processos e indicadores de sucesso
e atinge em torno de 30% do seu mercado potencial.
38 Pós-Universo
Curva de Aprendizagem
Ao adotar uma nova tecnologia, esta apresentará uma curva de aprendizagem que
pode representar uma barreira para o alcance do potencial previsto.
A curva de aprendizagem é um conceito que representa o nível médio cognitivo
de aprendizagem para uma determinada atividade ou ferramenta, e a maneira mais
simples de entender isso é através das regras de um jogo. Quando se decide partici-
par de um jogo novo, quanto tempo vai levar até que o jogador aprenda as regras,
os movimentos básicos, domine as sutilezas, tenha interesse de interagir com outros
jogadores, desenvolva suas próprias táticas, para começar a ficar satisfeito com o seu
desempenho?
Na curva de aprendizagem, todo o caminho percorrido, de modo consciente ou
não, pelas organizações que já obtiveram retorno satisfatório sobre o investimento
em projetos Big Data. O objetivo é identificar quais as características comuns das
organizações que já atingiram o ponto da curva em que o desempenho compen-
sa o investimento.
Embora a longevidade de atuação na rede seja importante para esse fator, não é
uma variável decisiva. O que define a ordem das organizações melhores colocadas
na curva é o tipo de relação que elas têm com a internet.
Abrangência na aplicação
O Big Data é utilizado para ajudar na tomada de decisões. Porém, isso é muito abran-
gente porque decisões podem ser tomadas nas mais diversas áreas de atuação de
uma empresa. As empresas líderes utilizam Big Data para aumento das vendas, re-
posicionamento de produtos, pesquisa e desenvolvimento, prospecção de novos
negócios, melhor experiência do cliente em lojas físicas, monitoramento da concor-
rência, monitoramento da percepção da marca, monitoramento do desempenho de
seus produtos (durabilidade, eficiência etc), melhorias na logística etc.
Innovators (inovadores)
A mais sofisticada categoria é a dos inovadores que usam analítica de dados para
inovação e ganham vantagem competitiva, com isso eles correspondem a 11% dos
pesquisados e esse grupo possui 3 características chave:
• Ação: são mais efetivos em toda cadeia de valor de Big Data (capturam mais
dados de forma inteligente, integram melhor os dados coletados, usam
maior quantidade dos dados coletados e usam os resultados para gerar in-
sights para tomada de decisão);
Practitioners (pragmáticos)
Os pragmáticos representam a grande maioria, 60% dos pesquisados. Nessa ca-
tegoria, incluem-se todos aqueles que já fizeram um significante progresso no uso
de analítica e já veem os resultados disso. Entretanto, não usam dados digitais para
inovar, e sim para ganho de eficiência, o que não se traduz em grande vantagem
competitiva.
As principais características são:
• Baixa ambição na coleta de dados: grupo que possui uma série histórica
relevante, acessível e confiável, porém restringem-se basicamente a dados
transacionais;
Challenged (desafiados)
É a categoria dos que ainda são desafiados pelo ambiente de inovação em Big Data
e possui menos maturidade no uso de dados digitais, ou seja, não os utiliza para ino-
vação. Isso explica o fato desse grupo não ter alcançado vantagem competitiva com
o uso do Big Data. Esse grupo comporta 29% dos pesquisados.
As principais características desse grupo são:
tecnologia
NoSQL e HADOOP
Pós-Universo 43
Tecnologia NoSQL
NoSQL é uma abreviação de Not only SQL, ou seja, “não somente SQL”. Esse termo é
utilizado para definir os novos modelos de armazenamento de dados, criados para
atenderem as necessidades de flexibilidade, disponibilidade, escalabilidade e desem-
penho das aplicações inseridas no contexto de Big Data. Nele, diferente do banco
de dados relacional, em que seu foco principal é voltado à integridade dos dados, os
modelos em NoSQL tendem a sacrificar uma ou mais propriedades ACID, para ofere-
cer maior desempenho e escalabilidade às soluções que lidam com grande volume
de dados.
Assim como não existe um padrão único para criação de aplicações de Big Data,
não existe um modelo de armazenamento único que seja adequado para todos os
cenários de aplicações, uma vez que cada solução requer necessidades específicas.
Um e-commerce que precisa de rapidez na pesquisa de seus produtos tem
necessidades de manipulação de dados diferentes de uma empresa que precisa reco-
mendar produtos em tempo real para seus clientes. Da mesma forma, uma aplicação
que precisa armazenar dados genéticos para analisá-los tem necessidades diferen-
tes de um game online que captura informações dos jogadores.
Enquanto uma solução pode ter como requisito a gravação de informações em
fluxos constantes ao banco, outras podem necessitar de leituras periódicas em sua
base. Para que cada uma dessas soluções tivesse recursos capazes de atender seus
requisitos, diferentes modelos de armazenamento passaram a ser criados no con-
texto de NoSQL.
Podemos classificar os modelos existentes em NoSQL de acordo com a estrutura
que os dados são armazenados. Atualmente, existem 4 modelos principais: o modelo
orientado a chave-valor, orientado a documentos, orientado a colunas e orientado
a grafos.
44 Pós-Universo
O campo chave usado para fazer a recuperação das informações nesse caso é o ID da
sessão de compra do cliente. O campo valor é preenchido com informações sobre
os itens inseridos no carrinho de compras. Perceba como esse modelo possui uma
estrutura bem mais simples do que o relacional, não sendo necessária a criação de
tabelas, colunas e chaves estrangeiras. É necessário apenas que cada registro tenha
uma chave única e que se armazene um conjunto de informações referentes aos
valores dessa chave.
Existem atualmente diversas opções de banco de dados orientado a chave-valor.
Embora cada um possua suas próprias características, todas as opções disponíveis
são criadas com foco em oferecer flexibilidade, desempenho e escalabilidade no ge-
renciamento dos dados. Por esse motivo, esse modelo de banco de dados pode ser
uma solução ideal para resolver questões de lentidão para leitura e escrita de dados
em grande variedade e volume. Com sua estrutura simples, ele é capaz de otimizar
o desempenho da consulta e realizar operações com alta vazão.
Embora a estrutura simples do banco de dados orientado a chave-valor ofereça
benefícios, ela também possui algumas limitações. O conteúdo do campo valor é
“opaco”, não sendo possível fazer uma indexação com esse campo e uma consulta
mais complexa.
Porém, mesmo com essa limitação, bancos de dados orientados a chave-valor
podem ser adequados para diversos cenários, como o armazenamento de imagens
e de documentos, criação de cache de objetos, armazenamento de dados de sessões
do usuário e rastreamento de atributos transientes, como no caso do carrinho de
compras.
São exemplos de bancos de dados orientados a chave-valor:
• DynamoDB — https://aws.amazon.com/pt/dynamodb/
• Redis — http://redis.io/
• Riak — http://basho.com/
• Memcached — https://memcached.org/
46 Pós-Universo
Além dos cenários apresentados, esse modelo pode também ser muito útil em demais
aplicações que utilizem estruturas de dados no formato JSON e que se beneficiam
da desnormalização das estruturas dos dados.
São exemplos de bancos de dados orientados a documentos:
• Couchbase — http://www.couchbase.com/
• CouchDB — http://couchdb.apache.org/
• MarkLogic — http://www.marklogic.com/
• MongoDB — https://www.mongodb.com/
Conforme a estrutura apresentada na Figura 9, perceba que o cliente “João” (ID_1) tem
informações gravadas nas famílias de colunas dados_cadastrais, preferencia_roupas
e preferencia_livros. No entanto, o cliente “José” (ID_2) possui informações gravadas
somente nas famílias de colunas dados_cadastrais e preferencia_livros.
dados_cadastrais
nome idade email fone
5-5-16 10-15-20 5-5-16 10-15-20 5-5-16 10-15-21 8-5-16 14-00-18
preferencia_roupas
marca tamanho
8-5-16 14-00-19 8-5-16 14-00-19
“mjeans” “M”
preferencia_livros
categoria editora
8-5-16 14-00-18 8-5-16 14-00-18
“romance” “foccus”
categoria editora idioma
3-2-15 05-11-05 3-2-15 05-11-05 3-2-15 05-11-05
Além desse fator, note que o número de colunas pode ser diferente para cada re-
gistro. Outra informação armazenada no banco de dados orientado a colunas é o
timestamp de cada item gravado. Essa abordagem é utilizada para prover o versio-
namento das colunas.
Com essa estratégia de armazenamento por famílias de colunas, além de fornecer
flexibilidade, esse modelo oferece também grande escalabilidade. O registro de um
item pode ter informações gravadas em diversas famílias de colunas, que podem estar
armazenadas em diferentes servidores. Isso é possível pelo fato de que os dados são
armazenados fisicamente em uma sequência orientada a colunas, e não por linhas.
Dessa forma, mesmo em um ambiente distribuído, com milhões de colunas, o
banco de dados orientado a colunas pode distribuir as consultas em um grande
número de nós de processamento sem realizar operações de join.
Pós-Universo 49
• Accumulo — https://accumulo.apache.org/
• Cassandra — http://cassandra.apache.org/
• HBase — https://hbase.apache.org/
• Hypertable — http://www.hypertable.org/
tipo: “seguidor”
data: “05-08-2015”
Usuario: Usuario:
“João” “José”
tipo: “seguidor”
data: “06-02-2015”
Além das informações armazenadas sobre cada usuário, são também armazenadas
informações sobre a ligação entre eles. Podemos identificar no exemplo que o usuário
“João” é um seguidor do usuário “José”, que também é seu seguidor.
Esse mesmo tipo de informação pode ser usado em toda a rede de usuários,
possibilitando a criação de soluções baseada nessa análise, tais como a recomenda-
ção de amigos com base na rede de relacionamento. Em situações como essa, com
foco no relacionamento dos dados, é que o banco de dados orientado a grafos é
recomendado.
Um outro modelo de armazenamento, até mesmo o relacional, também é capaz
de realizar consultas sobre os relacionamentos entre os itens armazenados. Entretanto,
em soluções com milhões de relacionamentos, essa consulta se tornaria muito com-
plexa, resultando em um baixo desempenho.
São exemplos de bancos de dados orientados a grafos:
• AllegroGraph — http://franz.com/agraph/allegrograph/
• ArangoDB — https://www.arangodb.com/
• InfoGrid — http://infogrid.org/trac/
• Neo4J — https://neo4j.com/
• Titan — http://titan.thinkaurelius.com/
Pós-Universo 51
Aplicativo
Big Compras
Rede de
Carrinho de Compras Catálogo de
relacionamento
compras realizadas produtos
dos clientes
Mas como decidir qual o melhor banco de dados para cada serviço? Isso ainda é um
desafio. Entretanto, fazer um estudo de comparação é uma ótima estratégia para ga-
rantir que sua solução seja um sucesso.
Embora cada banco de dados NoSQL seja único, com características específicas
para atender um determinado requisito de leitura e escrita dos dados, é possível ob-
servarmos os seguintes aspectos comuns entre eles:
• Projetadas para cluster: são projetadas desde o início para serem usadas em
infraestrutura de cluster, oferecendo maior escalabilidade;
TIPO DESCRIÇÃO
Arquitetura dos É a partir da arquitetura de dados que se define onde os dados
dados ficarão dispostos em toda a organização e como eles poderão ser
integrados. O gerenciamento é necessário para identificar as trans-
formações necessárias conforme novas tecnologias são utilizadas
e novas soluções são criadas. Nesse sentido, são criadas políticas
para padronizar os elementos dos conjuntos de dados, são defini-
dos protocolos e boas práticas para a modelagem de dados, bem
como a execução de processos para garantir que os padrões defi-
nidos estejam sendo adotados.
Auditoria Uma governança efetiva dos dados deve permitir que profissionais
tenham a habilidade de rastrear e compreender quando os dados
foram criados, como estão sendo utilizados e o impacto que eles
possuem na organização. No contexto de Big Data, esse contro-
le ainda é um desafio, dado que muitas tecnologias e plataformas
utilizadas para Big Data ainda não oferecem as funcionalidades ne-
cessárias para soluções de auditoria dos dados.
54 Pós-Universo
Gerenciamento São esses tipos de dados que servirão de base para as diversas
de metadados outras áreas de controle na governança de dados, como a segu-
rança e a auditoria. Os metadados são importantes para fornecer a
contextualização e padronização dos dados. Sejam metadados téc-
nicos, de negócios ou operacionais, é importante que eles sejam
gerenciados corretamente para dar o suporte necessário na utiliza-
ção dos demais dados da empresa.
Gerenciamento Sabemos que, no contexto de Big Data, os dados não estruturados
de dados são coletados e armazenados em seu formato original, tais como
mestres os dados de mídias sociais e de sensores. No entanto, as iniciati-
(Master Data vas de MDM são propostas para criar uma fonte confiável de dados
Management estruturados. Embora ainda seja um desafio, as empresas estão
— MDM) buscando estratégias que utilizem os processos MDM como um
papel chave para extrair informações úteis do contexto de Big Data
com outros sistemas transacionais da organização.
Modelagem A variedade de dados disponíveis e suas diferentes utilizações têm
dos dados aumentado as formas de modelagem dos dados em uma orga-
nização. Um mesmo conjunto de dados pode ser usado em um
formato de armazenamento chave-valor, em grafo ou em coluna,
por exemplo, necessitando de uma modelagem específica para
cada tipo. É importante que se ofereçam políticas de modelagem
de dados para que se possa estabelecer um padrão entre tantas al-
ternativas disponíveis.
Qualidade dos Por mais que quando falamos sobre Big Data, muitos dados ofer-
dados tados podem conter erros ou estar incompletos, o objetivo de
uma organização é sempre aperfeiçoar a qualidade e a utilidade
dos dados. É comum que esses esforços sejam inicialmente apli-
cados aos dados mestres, porém políticas para criação de profile
dos dados, bem como estratégias de limpeza, filtragem e agrupa-
mento de dados estão pouco a pouco sendo aplicadas aos demais
tipos de dados coletados pela organização.
Segurança Essa prática está relacionada à criação de políticas e ao monitora-
mento contínuo para uma gestão de risco relacionado à coleta,
armazenamento, processamento e análise dos dados. Nesse
aspecto, são criadas estratégias de criptografia dos dados, de-
finição e proteção a dados sensíveis, políticas de proteção da
integridade, disponibilidade, confiabilidade e autenticidade dos
dados. Essas estratégias incluem tanto meios físicos quanto técni-
cos e administrativos.
Fonte: adaptado de Marquesone (2017, p.67-69).
Pós-Universo 55
Se a governança de dados na era pré-Big Data já era difícil, imagine como essa tarefa
se tornou mais desafiadora com a inclusão de dados de inúmeras fontes, grande
volume e utilizados para diferentes propósitos? Dado esse desafio e a crescente im-
portância dos dados dentro em uma organização, um novo cargo está sendo criado,
principalmente nas grandes organizações: o Chief Data Officer (CDO), nome em inglês
para o diretor executivo de dados.
A governança de dados é uma das principais responsabilidades do CDO, que
deverá também gerenciar e controlar a criação de produtos e serviços guiados por
dados em toda a esfera da empresa. Além do conhecimento técnico, esse profissio-
nal também deve ter visão de negócios, sendo capaz de criar produtos e serviços a
partir dos dados.
É muito importante que esse profissional consiga conscientizar os colaboradores
da empresa sobre a importância de uma governança efetiva, para que eles enten-
dam por que precisam seguir determinados processos e padrões. De fato, entre as
tantas tarefas atribuídas a esse profissional, a conscientização dessa mudança cultu-
ral é provavelmente a mais desafiadora, pois a governança somente será efetiva se
todos estiverem dispostos a colaborar.
atividades de estudo
1. Leia o trecho a seguir: “[...] seu Sistema de Informação permite a agregação de dados
de espécies e ocorrências disponibilizadas por diversas instituições acadêmicas e de
pesquisa bem como de órgãos governamentais.”
a) Astronomia.
b) Biodiversidade.
c) Internet.
d) Saúde.
e) Comunicação móvel.
2. Analise o trecho a seguir: “[...] a primeira utilização do termo Big Data como banco de
dados foi descrita por __________________ em que o definiram como os grandes
conjuntos de dados complexos que desafiamos limites de captura, análise e arma-
zenagem.” De acordo com o trecho, assinale a alternativa correta:
a) cientistas da NASA.
b) cientistas de dados.
c) analistas de dados.
d) analistas da informação.
e) cientistas de software.
atividades de estudo
a) É a categoria dos que ainda são inovadores pelo ambiente de inovação em Big
Data e possui menos maturidade no uso de dados digitais, ou seja, não os utiliza
para inovação.
b) A categoria dos pragmáticos é a dos que usam analítica de dados para inovação
e ganham vantagem competitiva.
c) Na categoria de desafiados, incluem-se aqueles que já fizeram um significan-
te progresso no uso de analítica e já veem os resultados disso, porém não usam
dados digitais para inovar, e sim para ganho de eficiência, o que não se traduz
em grande vantagem competitiva.
d) O fator de abrangência de domínios na busca de dados é a comprovação da im-
portância da diversidade de dados no valor do Big Data.
e) As empresas que lideram no fator de abrangência de aplicação são aquelas que
conseguem gerar conhecimento a partir de dados das mais diferentes origens,
coletados para os mais diferentes fins.
atividades de estudo
Neste encontro foram abordados os seguintes aspectos relativos ao tema proposto e relaciona-
dos aos objetivos de aprendizagem:
A ciência de dados nos traz as ferramentas, métodos e tecnologias para analisar, visualizar e tomar
decisões a partir dos dados e o desafio de ajudar aqueles que precisam responder às perguntas
que ainda não foram feitas.
O grande desafio relacionado à ciência de dados relaciona-se com a experiência anterior em rea-
lizar atividades de pesquisa e desenvolvimento em gestão e análise de dados, bem como análise
de redes complexas, em cenários de aplicação das áreas mais diversas tais como astronomia, bio-
diversidade, Internet, petróleo & gás, saúde e comunicação móvel.
Os cientistas de dados são especialistas analíticos de uma nova geração de especialistas que
possuem habilidades técnicas para resolver problemas complexos e também a curiosidade de
explorar quais são os problemas que precisam ser resolvidos.
O cientista de dados, é uma pessoa que identifica fontes de dados, combinando isso tudo com
a informação potencialmente incompleta de outras fontes e depura o conjunto resultante. Não
convivem bem com rédea curta. Devem ter liberdade para experimentar e explorar possibilidades.
Big Data tem sido alvo de muita atenção no mundo dos negócios, no governo e no meio aca-
dêmico, podemos encontrar casos de uso em que o Big Data permitiu a redução do número de
fraudes, aumento de lucros, conquista de eleitores, redução de custos na produção, eficiência
energética, aumento de segurança, entre outros benefícios tão almejados em diversos domínios.
O termo big data tem sido utilizado para designar diversas coisas. O único ponto em comum
entre essas diferentes designações é que todas tratam de grande quantidade de dados digitais.
O atributo volume é a característica mais significativa no conceito de Big Data. Ele faz referência
à dimensão sem precedentes do volume de dados.
O valor é um atributo que faz referência ao quão valioso e significativo um dado pode ser em
uma solução.
O atributo veracidade está relacionado à confiabilidade dos dados, pois pelo fato de que Big Data
está inserido em um contexto de dados em grande volume e variedade, é comum a existência
de dados inconsistentes, a veracidade refere-se ao quão confiável é um conjunto de dados usado
em uma solução de Big Data, dados gerados por humanos são aqueles em que o conteúdo foi
originado a partir do pensamento de uma pessoa, em que a propriedade intelectual está inte-
grada ao dado e que refletem a interação das pessoas no mundo digital.
Os dados gerados por máquinas, como dados digitais produzidos por processos de computa-
dores, aplicações e outros mecanismos não necessitam explicitamente de intervenção humana.
Uma das principais contribuições da Ciência das Redes para as organizações que desejam de-
senvolver metodologias e ferramentas em Big Data vem da afirmação de que devemos enxergar
os dados como parte de um ecossistema, ou seja, não deve existir uma abordagem a partir de
uma única visão e que todos os usuários da rede deverão ser levados em conta nos estudos das
ameaças e oportunidades na modelagem de novos empreendimentos.
Os primeiros estudos que despertaram o mundo para a utilização dos dados gerados em rede
foram feitos há mais de uma década e a partir disso muitas pesquisas foram feitas, muitas tec-
nologias foram desenvolvidas e várias iniciativas foram tomadas para gerar soluções a partir do
uso de Big Data;
NoSQL é uma abreviação de Not only SQL, ou seja “não somente SQL”. Esse termo é utilizado para
definir os novos modelos de armazenamento de dados, criados para atenderem as necessida-
des de flexibilidade, disponibilidade, escalabilidade e desempenho das aplicações inseridas no
contexto de Big Data. Ele, diferente do banco de dados relacional, em que seu foco principal é
voltado à integridade dos dados, os modelos em NoSQL tendem a sacrificar uma ou mais pro-
priedades ACID, para oferecer maior desempenho e escalabilidade às soluções que lidam com
grande volume de dados.
resumo
Bancos de dados orientados a chave-valor são adequados para aplicações que realizam leituras
frequentes.
Se o objetivo da empresa em que você atua é, além de criar um projeto isolado de Big Data, criar
também uma cultura guiada por dados — na qual eles possuem papel chave para os negócios
— é essencial que ela tenha uma estratégia eficaz de governança de dados. Sem essa governan-
ça, não é possível controlar, gerenciar e monitorar como os dados estão sendo utilizados, nem
mensurar o custo e o retorno que eles estão oferecendo.
material complementar
Na Web
Ciência e Tecnologia: Big Data
https://www.youtube.com/watch?v=LsMt5jp1a9k
Reportagem especial sobre Big Data veiculado em 11 de Março, no Programa Ciência e
Tecnologia, da Globo News.
Na Web
Palestra Big Data do Criador
https://www.youtube.com/watch?v=9FaF8PKYbRk
Palestra que mostra desde conceitos a aplicações práticas
material complementar
Na Web
O QUE É CIÊNCIA DE DADOS EM 5 MINUTOS - Explorar Big Data para prever o futuro
https://www.youtube.com/watch?v=c6fdZmTwhWo
Uma tentativa bem simplificada de explicar Ciência de Dados
Na Web
O dia a dia do Cientista de Dados
https://www.youtube.com/watch?v=ZVv_W3-PUKY
Com o novo buzzword de tecnologia Big Data, surgiu uma nova profissão: a do Cientista de
Dados. Nesa palestra apresenta-se o que o mercado (e os outros profissionais) deve esperar
de um Cientista de Dados e como essa nova profissão pode ajudar sua empresa.
referências
COSTA, Luciana Sodré; FERNANDES, Soraya; ZUPPO, Daniella. Big Data: Estudo do Ambiente,
Desafios e Análise Estratégica para o Brasil. Rio de Janeiro: UFRJ/COPPE, 2013. Disponível em:
<http://www.crie.ufrj.br/application/assets/uploads/files/RJ24_Projeto_Big_Data.pdf>. Acesso
em 20 out. 2017.
Intel IT Center. Guia de Planejamento: saiba mais sobre big data. 2013. Disponível em <https://
www.intel.com.br/content/www/br/pt/business-topics/documents/tudo-sobre-big-data.html>.
Acesso em 19 out. 2017.
MARQUESONE, Rosangela. Big Data: técnicas e tecnologias para extração de valor dos dados.
São Paulo: Casa do Código, 2017.
PORTO, Fábio e ZIVIANI, Artur. Ciência de Dados. Petrópolis-RJ : LNCC, 2014. Disponível em:
<http://www.lncc.br/~ziviani/papers/III-Desafios-SBC2014-CiD.pdf>. Acesso em 27 set. 2017.
1. b. Biodiversidade.
2. a. cientistas da NASA.
4. b. É importante enfatizar que as novas soluções NoSQL não estão sendo construídas
para substituir os SGBDRs. Essas são soluções complementares, com características
distintas para necessidades não suportadas por um SGBDR. A tendência é de que
empresas adotem soluções híbridas, com diferentes modelos de bancos de dados,
relacionais e NoSQL, para as diversas necessidades de gerenciamento.