Introdução à Big Data em

1.
Introdução a Big Data

Na última década, temos observado inúmeras revoluções culturais, sociais
e tecnológicas em nossa sociedade, temos dentre elas a explosão no volume
de dados, mais que se popularizou com o termo Big Data. Conceito, que
que surge em 2010, que até então abstrato. Denominado por grandes
quantidades de dados que se tornam a cada dia mais difíceis de armazenar,
analisar e processar. Formatos esses que são oriundos das mais diversas
origens, causando enormes dificuldades para as tecnologias de banco de
dados tradicionais. Embora, não seja um termo novo Big Data, ainda gera
muitas incertezas quanto ao que é, sua definição, suas características, suas
aplicações e claro seus desafios.
O que realmente pode se considerar como Big Data? Qual a melhor forma
de conceituá-lo? Como e onde obter as fontes de dados? Como extrair
essas informações, gerando valor no processamento destes dados? Para se
ter uma solução Big Data, qual é a melhor infraestrutura para ter?
Figura 1 - Nuvem de Tags Big Data
Fonte:https://www.acessa.com/tecnologia/arquivo/artigo/2018/06/18-que-big-data/, 2021.
As técnicas empregadas em Big Data, o tornaram um grande diferencial

competitivo para as empresas, é importante enfatizar que, não existem
aplicação somente nessa área. Podemos utilizar como exemplo, as eleições
Presidenciais dos Estados Unidos em 2016, através de métodos de
http://ocubo.cpscetec.com.br/
pesquisas, utilizando termos mais pesquisados, o objetivo para encontrar e
conseguir chegar no maior número de delegados para os presidenciáveis.
1.1 Mas o que, de fato, vem a ser a big data?

Este termo é utilizado quando nos referimos a uma base de dados com uma
grande ou enorme quantidade de dados, pode estar armazenada em um
servidor ou alocada em múltiplos servidores, dados estes que
necessariamente não precisam estar estruturados, como ocorre nos bancos
de dados relacional, ou seja, a cada dia as organizações precisam lidar com
um enorme crescimento de dados, gerados por elas e por seus
consumidores e potenciais consumidores, o que se tornou imprescindível e
necessário pensar cada vez mais, em formas que facilitem o processo de
analisar esses dados, o Big Data porém, vem normalmente sendo utilizado
para definir o fluxo de dados desestruturados, cuja a estrutura de dados
relacionais, simplesmente é incapaz de processar. Dados esses que se
encontram em uma escala muito grande e complexa para serem
gerenciados por técnicas tradicionais de processamento.
Na tentativa de buscar e a analisar estes dados armazenados, a ciência de
dados tem de pôr objetivo tratar esses dados brutos, na tentativa de extrair
informações úteis que gerem conhecimento. Preocupado sempre, com a
concepção de modelos que tornem capaz, a extração através destes
padrões, gerando respostas para problemas da vida real, em contrapartida
o Big Data está mais preocupado com a tecnologia, com as quantidade de
dados que extrapolam a capacidade dos sistemas tradicionais, tornando-os
lentos e insuficientes para fornecerem informações às organizações.
1.2 Por que estamos na era dos dados

O processo de geração dos dados é contínuo pelas pessoas e empresas e
das mais diferentes fontes, dados que muitas vezes são classificados como
sem qualidade, ou seja, não fornecem segurança nas informações, para
decisões competitivas, o que é o grande desafio.
Os dados dentro do sistema de gerenciamento de banco de dados (SGBD)
podem estar organizados de três formas: estruturados, não estruturados
ou semiestruturados, que abordaremos com mais detalhes mais adiante.
Estamos vivendo numa era de grandes volumes de informações. Chamam,
Big Data.
Figura 2 - Era dos dados
Fonte: https://www.cotiinformatica.com.br/blog/bi-bigdata-a-era-dos-dados/, 2021.
O volume vem aumentando a cada ano por diversas razões como o

armazenamento de dados atualmente é barato ou até mesmo de graça
como por exemplo serviços de hospedagem gratuitas na Web. As pessoas
estão mais familiarizadas com a tecnologia que por sua vez, geram e
armazenam mais informações, há uma tendência de não jogar nada fora, e
sem deixar de levar em conta a possibilidades de serviços para publicar e
difundi Estes primeiros passos geram volumes grandes de dados, conforme
figura 03.
Figura 3 - Empresas mais valiosas
Fonte: https://macmagazine.com.br/wp-content/uploads/2021/01/27-marcas.jpg/, 2021
Deve-se utilizar ferramentas próprias para registrar os dados, seus

relacionamentos, de forma a facilitar a análise e filtragem das informações
posteriormente.
1.3 Todos os 5Vs de Big Data

Conhecendo os tipos de dados utilizados em um SGBD, facilitam a
compreensão da forma de como o big data é estruturado seguindo os
conceitos dos 5 Vs.
Figura 4 - Os 5Vs do Big data
Fonte: https://pt.semrush.com/blog/big-data-conheca-os-5-vs-e-sua-aplicacao-pratica-para-pmes/, 2021.
Volume: refere ao conceito principal do big data, onde a quantidade dos

dados a serem coletados e tratados, representam um grande volume, que
temos, em MB (Megabytes), GB (Gigabytes), TB (Terabytes), etc.
Dados esses, que são advindos de diversas fontes, como redes sociais,
motores de busca da internet, e-commerce, entre outras. Talvez esse seja
o grande diferencial em relação aos outros bancos de dados: o tratamento
de grandes volumes de informações de dados, com formas diferentes
estruturados ou não estruturados e até mesmo os semiestruturados.
Figura 5 - Escala global do Volume de Dados
Fonte: https://www.commsbusiness.co.uk/features/big-data-can-help-businesses-make-smart-
decisions/zettabytes , 2021.
revisão
Os computadores realizam seu processamento através impulsos
elétricos, sendo positivos ou negativos, e representados por 0 ou 1. Cada
impulso elétrico recebe o nome de bit (BInary digiT). Um conjunto de 8
bits unidos como uma única unidade formam um byte.
Nos computadores, representar 256 números binários é suficiente para
que possamos lidar a contento com estas máquinas. Assim, os bytes
possuem 8 bits. É só fazer os cálculos: como um bit representa dois tipos
de valores (1 ou 0) e um byte representa 8 bits, basta fazer 2 (do bit)
elevado a 8 (do byte) que é igual a 256.
Os bytes representam todas as letras (maiúsculas e minúsculas), sinais
de pontuação, acentos, caracteres especiais e até informações que não
podemos ver, mas’ que servem para comandar o computador e que
podem inclusive ser enviados pelo teclado ou por outro dispositivo de
entrada de dados e instruções.
Para que isso aconteça, os computadores utilizam uma tabela que
combina números binários com símbolos: a tabela ASCII (American
Standard Code for Information Interchange). Nela, cada byte representa
um caractere ou um sinal.
Velocidade: Assim como os dados são gerados em grandes volumes, seu

processamento deve ser efetuado da mesma forma, caso contrário,
ocorreram filas e a consequentemente a degradação do serviço, é
basicamente a velocidade com que capturamos e salvamos informações e
as deixamos disponíveis para análise.
Estes dados gerados devem possuir uma capacidade de processamento
adequada às necessidades. Para tal o SGBD também deve suportar grandes
quantidades de dados a serem recebidas e claro, processadas.
Figura 6 - Tráfego de Dados intenso
Fonte: https://www.bitmag.com.br/2014/02/cisco-preve-que-trafego-de-dados-moveis-cresca-11-vezes-no-
brasil/, 2021.
Veracidade: O grande desafio do Big Data, dados coletados nem sempre

vão representar uma informação, em que se possa ter total confiabilidade.
Para isso, ao estruturar uma análise de dados, se faz necessário verificar
as fontes, os dados tendenciosos e as datas de sua publicação.
Figura 7 - Verdadeiro ou Falso
Fonte: https://www.istockphoto.com/pt/vetorial/true-and-false-option-green-and-red-check-mark-and-x-icon-
isolated-on-wthte-gm1140391362-305156372, 2021.
Variedade: é a heterogeneidade dos dados. Para os SGBD’s que trabalham

dentro do conceito do big data devem possuir técnicas que possibilitem o
tratamento dos mais diferentes tipos de dados, como textos, números,
imagens, tags etc. Fazendo referência é claro, aos três tipos de dados:
estruturados, não estruturados e semiestruturados.
Figura 8 - Variedade de Dados
Fonte: https://cappra.com.br/2012/09/10/a-era-do-excesso-da-informacao/, 2021.
Valor: Apresenta resultados quanto a significância dos dados coletados e

tratados pela organização, de forma que possam adquirir informações
relevantes, que proporcionem conhecimento para um diferencial de
mercado ou, ainda, auxiliar os gestores nas tomadas de decisões.
É exatamente o ponto que as empresas buscam nas características do big
data é o que precisam, converter em informações relevantes para o
crescimento ou posicionamento, garantindo que esses dados sejam de
grande significância e valor para a empresa.
Figura 9 - O valor da informação
Fonte: https://newsroom.br.paypal-corp.com/Mitos-do-Big-Data-Dados-sao-a-coisa-mais-valiosa-do-mundo,
2021.
Em 2001, o Gartner, acidentalmente talvez tenha estimulado uma

avalanche de alterações com um artigo que previa algumas tendências para
o setor, reunindo-as sob os títulos Volume, Velocidade e Variedade de
dados, tínhamos então os 3 V's, posteriormente os 4 V's, 5 V's, 7 V's, 10
V's e depois os 42 V's.
Dados gerados por máquinas

O funcionamento desses sistemas inteligentes se baseia na mineração de
dados e no respectivo tratamento desses dados (big data), de forma que a
inteligência artificial de uma aplicação possa tomar a melhor decisão. Isso,
por sua vez, permite que os robôs investidores executem as melhores
opções de mercado, como: compra de ações, tradings, câmbio de moedas,
entre outras possíveis operações do mercado financeiro. Essas operações
efetuadas são recapturadas pelas ferramentas do big data, e o processo é
reiniciado.
Figura 10 - Dados gerados por máquinas
Fonte: https://www.proof.com.br/blog/tag/dados-gerados-por-maquina/, 2021.
Você já deve ter ouvido aquela expressão “o céu é o limite” — ela se encaixa
muito bem no contexto dos cenários em que o big data pode atuar. Não
existe uma limitação para determinado segmento. Desde que seja possível,
de alguma forma, gerar e captar dados, será possível fazer com que o big
data se torne uma importante ferramenta de estratégia de mercado.
Contudo, deve sempre haver um cuidado dos profissionais ligados a essa
área do conhecimento em desenvolver os métodos mais adequados para
cada caso.
1.4 Mitos sobre Big Data

Existem muitos mitos quando o assunto é Big Data, iremos destacar 6
grandes mitos sobre na tentativa de trazer eficaz no tratamento dos dados:
Figura 11 - Mitos sobre big data
Fonte: https://celsocestaro.com.br/analise-de-dados/mitos-data-analytics-big-data/, 2021.
1.3.1 Big Data significa “muitos” dados

Em relação ao número de dados, muitas acreditam que se trata apenas de
um grande volume de informação, entretanto, é um pouco mais complexo,
Big Data é a forma como os dados estão separados em conjuntos,
estruturados, semiestruturados ou não estruturados, organizados e
analisados, possibilitando tendências e projeções para uma organização, o
que muito mais complexo utilizando técnicas analíticas tradicionais.
1.4.1. Os dados precisam ser “limpos”

É comum as informações capturadas em registros, estarem incompletas ou
até mesmo incorretas, classificados como dados sujos, o que certamente
podem gerar decisões equivocadas, o intuito é mediante aos problemas e
desafios que a empresa possui, ter qualidade nos dados, para que se torne
possível obter uma visão melhor da situação, para isso, é importante
identificar primeiramente as deficiências dos dados, realizar um plano de
organização e extração para que possam ser dados limpos.
1.4.2. Esperar para aperfeiçoar seus dados
Após a limpeza dos dados, ou seja, separamos para utilização apenas dados
relevantes ao que se espera encontrar, esta mesma análise pode e deve ser
refeita passando por novos processos de refinamento, assim a cada análise
feita espera-se obter maior precisão na interpretação, trazendo resultados
uteis para organização e agilidade nos processos.
1.4.3. Possuir um lago de dados (Lake Data)

Termo esse que se refere a um processo de seleção e manutenção de
objetos digitais em repositórios de armazenamento que armazenam
grandes quantidades de dados em seus formatos originais para quando
necessário as empresas usá-los. Entretanto, os dados de uma organização
não são armazenados em um lago de dados, é produzida uma curadoria
digital que faz a distribuição deles em silos, que irão fornecer transparência
e agilidade para a conformidade e governança.
1.4.4. A análise de dados é cara

Muitas organizações acreditam que para investir em análise de dados, é
necessário investir muito. Porém, temos várias ferramentas disponíveis
hoje, que veremos mais a frente neste curso para a realização deste
processo. Além disso, existem ferramentas em computação em nuvem que
facilitam ainda mais as tarefas.
1.4.5. Os algoritmos podem substituir os analistas humanos

Cada vez as empresas estão usando os algoritmos para agrupar e
transformar os grandes volumes de dados, para transformá-los em
informações úteis. A capacidade dos algoritmos tem levado muitas pessoas
acreditarem que em breve eles realizarão todo o processo. No entanto os
trabalhos se complementam, pois, a “máquina” chegará a uma resposta
para qual foi programada, mas nunca uma explicação, ou seja, é necessário
a participação dos especialistas para a interpretação dos resultados, e cada
vez mais os cientistas de dados vem se especializando a cada dia.
Caso ainda exista algum receio por parte das empresas sobre os projetos
de Big Data, devem aproveitar essas oportunidades e capturar elementos
que possam trazer grande impacto nas projeções e resultados de seus
negócios.
Assim como a computação em nuvem em seu começo, o Big Data é uma
tecnologia que ainda deve sofrer alterações e aprimoramentos, sendo
essencial compreender como esse processo é, e fundamental para
acompanhar o mercado.
1.4.6. Um mundo de oportunidades

O Big Data é um advento tecnológico, capaz de processar de grandes
volumes de dados, e vem ganhando destaque devido as oportunidades e
aos desafios frete as necessidades das organizações e seus recursos para
os negócios, o que traz grandes possibilidade com seu uso nas mais diversas
organizações. Empresas on-line, as seguradoras, de cartões de crédito, de
bens de consumo, do turismo, transporte, companhias bancárias,
telecomunicações, mídia e entretenimento, varejo, de utilidade pública, as
concessionárias de energia elétrica, como de saúde, de empresas B2B
(business-to-business) ou de produtos industriais etc.
O objetivo é adquirir conhecimento de uma forma eficaz otimizando os
custos, informações mais precisas sobre os clientes e os serviços,
permitindo diagnósticos e dados que otimizem o tempo de decisão, é
importante dizer que, existem várias oportunidades com o Big Data, mas
dúvidas sobre acesso, armazenamento, busca, compartilhamento, entre
outros, ainda dificultam e restringem o entendimento e a busca de soluções
e sua operacionalização.
1.4.7. Tomando decisão baseada em dados.
Um tomador de decisões não deve basear apenas na experiência. É preciso
se basear na análise de dados, porém a ciência de dados envolve processos,
técnicas e princípios para compreender os fenômenos por meio de uma
análise (automatizada) de dados.
Figura 12 - Tomando decisões
Fonte: https://melhorrh.com.br/os-principais-estilos-do-tomador-de-decisao/, 2021.
Uma decisão sempre envolverá riscos, elas impactam diretamente diversos

setores do negócio. Portanto, é preciso saber coletar as informações para
que a organização. Para tal adotarmos ferramentas e conceitos analíticos
para decifrar os dados e extrair os pontos relevantes, podendo vir de fontes
internas, externas, redes sociais, transações financeiras, concorrência etc.
Conhecer os hábitos, os problemas, as necessidades dos seus clientes é
imprescindível para que a sua empresa ofereça um produto ou um serviço
adequado a eles, lembrando que também que, cada ação depende do
contexto e do momento, levando em consideração sempre o cenário atual,
os riscos e as oportunidades.
1.4.8. Tipos de Dados
Basicamente temos dois tipos de dados estruturados e dados não
estruturados
Figura 13 - Comparativo entre dados estruturados e não estruturados
Fonte: https://www.grupotreinar.com.br/blog/2016/4/9/vis%C3%A3o-geral-sobre-a-gest%C3%A3o-de-
conte%C3%BAdo-n%C3%A3o-estruturado-e-ecm.aspx, 2021.
2. Dados estruturados
São aqueles com tamanhos definidos em seu desenvolvimento. Em grande
parte, correspondem a números, datas e palavras. Geralmente são
utilizados em bancos de dados do tipo relacional, em que a estrutura precisa
estar definida por tipos e tamanhos, o que define o relacionamento por meio
das chaves, podendo ser qualitativo ou quantitativo.
Qualitativos geralmente são atributos que podem ser categorizados por
nome, sexo, estado civil, cor, raça etc.
Quantitativos são atributos numéricos que se originam de alguma medida
objetiva, podendo ser: idade, altura, data de nascimento, peso e dentre
outros.
Tabela 01: Exemplo de dados estruturados
Nome Idade Altura Data Sexo Estado
Nasc. civil
ANA 22 1,72 25/01/1999 F Solteira
MARCIO 19 1,78 31/07/2002 M Solteiro
JOÃO 76 1,69 14/06/1945 M Viúvo
MARIA 43 1,67 06/02/1978 F Casada
Fonte: elabora pelo autor, 2021.
3. Dados não estruturados

Dados não estruturados são difíceis de serem utilizados diretamente. São
bastante utilizados relacionados a imagens, são encontrados em
fotografias, vídeos, imagens de satélites, dados científicos e mídias sociais,
entre outros.
Figura 14 - Imagens, vídeos e áudio
Fonte: https://i1.wp.com/www.tecnoup.net.br/wp-content/uploads/2019/07/banco-de-
imagens.jpg?w=1280&ssl=1, 2021.
4. Preparação dos dados

A etapa de preparação dos dados é de extrema importância e envolve
tarefas como: transformação e engenharia de atributos, a checagem de
consistência e a verificação de atributos redundantes que possuem
informações correlatas que não agregam valor aos dados, podendo,
inclusive, piorar o desempenho de modelos quando utilizadas
conjuntamente, sem esquecer de eventuais dados faltantes, que são muito
comuns em problemas reais, pode não ser uma tarefa simples, seu
tratamento depende do tipo de dado e da quantidade de dados faltantes.
O tipo de atributo define que operações podem ser aplicadas sobre ele,
transformar atributos via agrupamento ou categorização é extremamente
útil, pois viabiliza a análise de fenômenos sazonais e a identificação de
propriedades particulares de grupos de instâncias.
Figura 15 - comparativo das análises
Fonte: https://rogerioaraujo.files.wordpress.com/2020/06/tipos-de-analise-1.jpg?w=925, 2021.
5. Análise exploratória
A análise exploratória através de estatística descritiva fornece métodos para
sumarizar dados, muitas vezes, estes sumários são exibidos por meio de
visualizações que facilitam a interpretação dos dados e o tipo de dado
influencia no tipo de sumário que pode ser realizado, podendo ser
qualitativo ou quantitativo. via técnicas estatísticas ou de visualização é
extremamente útil para revelar padrões, tendências e valores discrepantes
(outliers) nos dados, auxiliando tanto na tarefa de processamento e limpeza
dos dados como na construção de modelos.
Figura 16 - Análise exploratória
Fonte: https://www.harbor.com.br/harbor-blog/2016/08/30/histograma/, 2021.
A medida de frequência conta quantas vezes um determinado valor aparece

em um atributo, pode ser relativa, indicando a sua porcentagem.
O cálculo de frequência por meio de contagem só é possível quando o
atributo é categórico, em caso de atributos contínuos, a frequência da
ocorrência de valores é analisada por meio de histogramas. Essas medidas
pode ser: menor valor; maior valor, média, valor mais frequente etc.
Ferramentas de visualização como gráficos temporais e de barra,
histogramas e scatter plots são muito úteis na compreensão dos dados,
porém precisam ser empregados sempre com cautela.
6. Escolha do Modelo
Depende da natureza do problema que se deseja abordar para escolha o
método que será utilizado em uma análise de dados.
Figura 17 - Escolha do modelo
Fonte: https://abracd.org/etapas-de-um-projeto-de-big-data-analytics-coleta-ingestao-tratamento-de-dados/,
2021.
• Preditivos: ajudam a prever cenários futuros se baseando em

análise de padrões de base de dados, assim, tornando possível tomar
decisões precisas. Buscam definir modelos capazes de realizar
predições a partir dos dados e informações contidas nos atributos dos
dados, os métodos preditivos buscam realizar predições de valores
contínuos ou categóricos, que demandam, conjunto de respostas
esperadas associadas a um subconjunto de objetos que demanda um
conjunto de respostas esperadas
• Prescritiva: analisa as consequências das ações que foram tomadas,

possibilitando o entendimento do que deve ocorrer quando escolher
determinadas atitudes. Se tornando a camada que possui maior valor,
pois necessita do elemento humano para a concretização. Além disso,
ela é relevante porque definindo o caminho que será tomado para que
a ação ou as ações ocorram conforme o esperado, quando uma meta
é traçada, a partir disso, são recomendados os caminhos que devem
ser percorridos para alcançar o resultado esperado.
• Descritiva: o principal objetivo é permitir que ao analisar os dados,

possam ser compreendidos através dos eventos em tempo real
buscando encontrar padrões nos dados, como atributos que
caracterizem certas classes de objetos ou conjuntos de objetos com
propriedades semelhantes, operando diretamente nas informações
contidas nos atributos dos dados, não demandando um conjunto de
controle que indique, para um subconjunto dos dados procurados.
• Diagnóstica: A sua finalidade é compreender as causas de um

evento, ou seja, responder às perguntas: Quem? Quando? Onde?
Como? Por quê? O ideal é analisar o alcance e o impacto quando uma
ação é tomada. Depois disso, podem traçar as estratégias para
aprimorar os resultados. Este modelo é muito usado em vendas e
deve ser concluído com a análise preditiva reforçando a projeção dos
dados.
Figura 18 - diagnostica
Fonte: https://blog.academiain1.com.br/big-data-voce-conhece-os-4-tipos-de-analise-de-dados/, 2021.
7. Avaliação dos modelos

Uma vez que o método ou modelo tenha sido escolhido, é importante saber
o quão eficaz ele é, que sempre estará associada ao tipo de problema,
dividindo o dado de treinamento em duas partes: uma de treinamento de
fato e outra para avaliação do modelo.
Figura 19 - avaliar modelo
Fonte:https://minerandodados.com.br/guia-passo-a-passo-de-como-um-projeto-de-data-science-e-
desenvolvido/, 2021.
8. Data Warehouse
Depósito de dados operacionais ou armazém de dados, é um tipo específico
de banco de dados, que pode ser definido como um depósito de dados
organizado por assunto, integrado e não volátil, ou seja, uma vez inserido
os dados eles não podem ser alterados, mas podem ser excluído, variam
com o tempo, para apoiar as decisões.
Figura 20 - DW
Fonte: https://www.techtem.com.br/voce-sabe-o-que-e-um-data-warehouse/, 2021.
Surgiu basicamente por duas razões, pela demanda de fornecer uma origem
única para os dados, limpa e consistente para finalidade de apoiar à decisão
sem causar impacto sobre os sistemas operacionais.
Por delimitação, as cargas de trabalho do data warehouse são cargas de
apoio à decisão que, realizam consultas intensamente; além disso, os
próprios data warehouse costumam ser bem grandes frequentemente com
muitos terabytes, crescem cerca de 50% ao ano, ou ainda mais do que isso.
Como resultado, o ajuste de desempenho é difícil, embora não impossível.
Porém, a escalabilidade pode ser um problema. Os fatores que contribuem
para esse problema incluem
• erros de projetos em bancos de dados;
• uso ineficaz de operações relacionais;
• fraqueza na implementação do modelo relacional pelo SGBD (Sistema
de Gerenciamento de Banco de Dados);
• falta de escalabilidade do próprio SGBD; e
• erros de projeto arquitetônico que limitam a capacidade e impedem a
escalabilidade da plataforma
Figura 21 - DW etapas
Fonte: https://www.cetax.com.br/data-warehouse/, 2021.
REVISÃO
SGBD é a sigla para Sistema Gerenciador de Banco de Dados – em inglês,
Data Base Management System.
9. Data Mart
Os data warehouse geralmente são destinados a fornecer uma única origem
de dados para todas as atividades de apoio à decisão. Porém, quando os
data warehouse se tornaram populares no início da década de 1990, logo
se percebeu que os usuários, com frequência, executavam extensivas
operações de relatórios e análise de dados sobre um subconjunto
relativamente pequeno do data warehouse completo.
Na verdade, os usuários provavelmente repetiam as mesmas operações
sobre o mesmo subconjunto dos dados toda vez que eles eram renovados.
Além disso, algumas dessas atividades por exemplo, a análise de
prognósticos (previsão), a simulação, a modelagem de dados comerciais
envolviam a criação de novos esquemas e dados, com atualizações
subsequentes desses novos dados.
A execução repetida dessas operações sobre o mesmo subconjunto do
warehouse completo obviamente não é muito eficiente; a ideia de construir
alguma espécie de “warehouse” limitado e de uso especial, adaptado à
finalidade imediata, parece assim uma ideia muito boa.
Além disso, em alguns casos, talvez seja possível extrair e preparar os
dados exigidos diretamente de fontes locais, fornecendo acesso mais rápido
aos dados do que se eles tivessem de serem sincronizados com todos os
outros dados a serem carregados no warehouse completo.
Figura 22 - DW / Data Mart
Fonte: https://www.everit.com.br/data-mart/, 2021.
Essas considerações levaram ao conceito de data marts. Na realidade,

existe alguma controvérsia sobre a definição precisa do termo data mart.
Para nossos fins, podemos defini-lo como um depósito de dados
especializado, podendo ser orientados por assunto, volátil, integrado,
variável no tempo, fornecendo apoio a subconjunto específico de decisões
para a gerência.
Como podemos observar, as principais diferenças entre um data mart e um
data warehouse são que, um data mart é volátil e especializado.
Volátil, se refere aos usuários que podem atualizar os dados, e talvez até
mesmo criar dados para algum propósito. Especializado, possuem dados
que apoiarão determinada área de análise. Existem três técnicas principais
para criação de um data mart:
• Os dados podem simplesmente ser extraídos do data warehouse com
efeito, seguindo uma tática de “dividir e conquistar” para a carga de
trabalho global de apoio à decisão, a fim de obter melhor desempenho e
escalabilidade. Normalmente, os dados extraídos são carregados em um
banco de dados com um esquema físico muito semelhante ao subconjunto
aplicável destinado ao data warehouse; contudo, pode ser possível
simplificá-lo um pouco, graças à natureza especializada do data mart.
• Apesar do fato de o data warehouse se destinar a fornecer um “único
ponto de controle”, um data mart pode ainda ser criado de modo
independente (não pela extração do data warehouse). Essa técnica poderia
ser apropriada se o data warehouse estivesse inacessível por alguma razão,
digamos por questões financeiras, operacionais ou mesmo políticas (ou o
data warehouse poderia nem sequer existir ainda.)
• Algumas instalações seguiram uma abordagem de “data mart
primeiro”, na qual os data marts são criados conforme a necessidade, com
o data warehouse global sendo criado finalmente como uma consolidação
dos diversos data marts.
As duas últimas técnicas sofrem de possíveis problemas de divergência
semântica. Os data marts independentes são particularmente suscetíveis a
tais problemas, pois não existe um modo óbvio de verificar problemas de
divergência semântica quando os bancos de dados são projetados de forma
independente.
Figura 23 - processo do DW
Fonte: https://www.gratispng.com/png-7zcnp1/, 2021.
A consolidação de data marts em um data warehouse em geral falha, a

menos que seja construído primeiro um único esquema lógico para o data
warehouse e os esquemas para os data marts individuais sejam, então,
derivados desse esquema de warehouse.
Uma decisão importante a ser observada em projetos de banco de dados é
referente ao apoio à decisão com respeito à granularidade do banco de
dados. O termo granularidade se refere ao nível mais baixo da agregação
de dados sendo mantido no banco de dados, entretanto, em sua maioria,
essas aplicações de apoio à decisão exigem acesso aos dados, que acaba
sendo uma decorrência.
Para um Data Mart, o processo de extração de grandes quantidades de
dados do Data Warehouse de forma detalhada e armazená-los em um Data
Mart pode ser tornar muito ineficiente, caso o nível de detalhes frequente.
Por outro lado, às vezes é difícil enunciar de forma definitiva qual é
realmente o nível mais baixo de agregação necessário.
Em tais casos, o acesso aos dados de detalhe pode ser feito diretamente a
partir do data warehouse se e quando necessário, com dados um pouco
agregados sendo mantidos no data mart.
Ao mesmo tempo, a agregação total dos dados não costuma ser feita,
porque as muitas possibilidades de agregação dos dados produzirão
quantidades enormes de dados de totalização.
Um ponto adicional: como os usuários de data marts frequentemente
empregam certas ferramentas analíticas, o projeto físico muitas vezes é
determinado em parte pelas ferramentas específicas a serem usadas.
10. Data Mining

A mineração, possibilita a descoberta de informações de grande valor,
principalmente nas tomadas de decisões utilizando como base
experimentos em algumas áreas como a inteligência artificial e a estatística,
volume de dados grandes, capaz de mudar de escala em relação ao
tamanho destes dados.
Figura 24 - Nuvem de Tags Data Mining
Fonte: https://abracd.org/data-mining-o-que-e-e-por-onde-comecar/, 2021.
Algoritmos que têm a capacidade de mudança de escala, mas a mineração

é muito mais do que aplicar algoritmos, geralmente, os dados estão
incompletas ou podem conter ruído, comprometendo os padrões e gerando
baixa confiabilidade.
Sendo importante tomar a decisão sobre quais tipos de algoritmos de
mineração serão aplicados em conjunto de amostra de dados específico,
sintetizando os resultados, aplicando ferramentas de apoio à decisão e
mineração, iterando o processo.
Assim, as principais etapas do processo de mineração podem ser:
• a tomada de decisão do analista sobre quais algoritmos serão
utilizados.
• aplicação dos algoritmos em conjunto com amostra de dados e
variáveis específicas.
• síntese dos resultados.
• aplicação de várias ferramentas de apoio à decisão de mineração.
• iteração do processo.
Entre os tipos de dados, existem diferentes técnicas de mineração. Esse
processo de criação e definição do modelo a será utilizado demanda a maior
parte do processo, quando serão incluídas as perguntas sobre os dados e
devem conter, devendo constar também um modelo de respostas para as
perguntas que serão feitas, partindo para implantação do modelo
propriamente dito.
Figura 25 - mineração
Fonte: https://www.estrategiaconcursos.com.br/blog/mineracao-de-dados-para-pf/, 2021.
Várias técnicas e algoritmos podem ser utilizados nesse processo, como por
exemplo os algoritmos de árvores de decisão, clustering (análise de
agrupamento de dados), associação, itens mais frequentes, classificação
bayesiana (classe mais provável) e a mineração por redes neurais.
11. Data Lake e Data Swamp

Diante de números, que são multiplicados em escala global, é possível
estabelecer um ponto de referência no universo do Big Data. Os V’s de
Volume e Velocidade são vencidos por outro fator, o terceiro V, de
Variedade.
Figura 26 - Data Lake x Data Swamp
Fonte: https://www.collibra.com/blog/data-lake-vs-data-swamp-pushing-the-analogy/, 2021.
Neste espaço os dados podem ser estruturados, semiestruturados ou não

estruturados, além de serem provenientes dos mais diversos dispositivos
eletrônicos.
Dos principais desafios originalmente associados ao Big Data, ou seja,
volume, velocidade e variedade, o aspecto Variedade é o menos abordado
pelas arquiteturas analíticas padrão.
É importante destacar que a falta de semântica entre os dados, que
considerem sua origem, tempo, metadados de descrição padronizado, entre
outros fatores, tem proporcionado o surgimento de Lago de Dados (Data
Lakes), que são repositórios com dados de todos os tipos.
Quando não tratados corretamente, um Data Lake pode se tornar um
“Pântano de Dados” (Data Swamp). Portanto, o valor dos metadados e das
anotações semânticas estão rapidamente se tornando uma consideração
chave, em relação à concepção e manutenção de lagos de dados
11.1 Como Evitar que o seu Data Lake vire um Data Swamp
Para que se evite que um Data Lake vire um Data Swamp, é necessário
realizar a governança de dados, que determinarão a estrutura e como as
informações serão gerenciadas no Data Lake, tornando-as acessíveis e
valiosas.
Figura 27 - como evitar o Data Swamp
Fonte: https://bjdooleytoons.wordpress.com/2015/03/05/as-companies-continue-to-implement-data-lakes-
and-bring-their-unstructured-data-together/, 2021.
À medida que as empresas continuam implementando data Lakes e

trazendo seus dados não estruturados para descoberta, novos conceitos
surgirão para fortalecer essa ideia e, esperamos, ajudar a garantir que o
data lake não se torne o temido pântano de dados
12. Análise de dados
É um campo que está ganhando popularidade a cada dia e muitas empresas
estão evoluindo seus produtos e serviços de acordo com as necessidades
de seus clientes.
O conceito de Data Warehousing e Análise de dados parecia novo no
passado, mas hoje, essas são algumas das ferramentas mais importantes
necessárias para atender a diferentes serviços fornecidos por grandes
empresas em todo o mundo.
As empresas implementam o processo de Transformação e Unificação de
Dados através de ETL (Extract, Transform & Load) ou ELT (Extract, Load &
Transform).
Figura 28 - analisando os dados
Fonte: https://www.striim.com/etl-vs-elt/, 2021.
13. ETL - Extract, Transform and Load

ETL – Extração, Transformação e Carga, deve ser planejado e o
armazenamento dos dados deve estar à altura do que poderá ser exigido
dele.
Após os dados serem disponibilizados, começa a fase de processamento e
produção das informações reais.
Figura 29 - extração dos dados
Fonte: https://blogs.bmc.com/is-etl-extract-transform-load-still-relevant/?print=print/, 2021.
O processo ETL começa com a extração de dados de vários arquivos de

origem (docx, csv, xlsx, pdf) ou bancos de dados OLTP (Online
Transactional Processing).
Para compreender o que é um banco de dados OLTP, imagine uma simples
transação de venda, em que a empresa vende um produto ou serviço assim
que recebe o dinheiro do cliente.
Um aplicativo OLTP reúne dados de entrada (produto ou serviço, preço,
pagamento, cliente), gerencia a transação até a conclusão e armazena os
dados por meio de inserções ou atualizações em tempo real em um banco
de dados OLTP (Oracle, SQL Server, IBM DB2 ou outro).
A camada de computação é talvez a parte mais diversa do sistema, já que
os requisitos são a melhor abordagem e podem variar de maneira
significativa, dependendo diretamente do tipo de informação deseja extrair
dos dados.
Estes são frequentemente processados, repetidamente e iterativamente por
uma única ferramenta ou várias ferramentas com o objetivo de apresentar
diferentes tipos de insights.
Os requisitos principais para se trabalhar com Big Data, são exatamente os
mesmos para trabalhar com conjuntos de dados de qualquer tamanho.
Entretanto, o tamanho, a velocidade, o processamento e as características
dos dados que serão tratados em cada etapa do processo, vão apresentar
novos desafios significativos ao projetar as soluções.
Sua principal finalidade na maioria dos casos, é apresentar informações e
conexões entre grandes volumes de dados heterogêneos que não seriam
possíveis aplicando os métodos convencionais.
14. ELT - Extract, Load and Transform

ETL que significa, Extração, Transformação e Carga, embora esse termo se
refira convencionalmente a processos de data warehouse, alguns dos
mesmos conceitos se aplicam aos dados que entram no sistema de Big
Data.
As operações típicas podem incluir ou modificar os dados recebidos e
formatá-los, categorizando e rotulando, por meio de filtros identificando os
dados desnecessários ou incorretos, ou ainda, validar seu potencial em
conformidade à certos requisitos.
Figura 30 - transformação dos dados
Fonte: https://hevodata.com/learn/understanding-elt /, 2021.
O processo de ETL é um ciclo que passa por três etapas. Na etapa de

extração é onde se obtém os dados, em seu formato original e bruto. Para
que ele se adapte à arquitetura de big data que será utilizada, os dados
serão transformados em uma segunda etapa, sendo tratados quanto ao seu
formato.
Após os devidos ajustes e padronizações dos dados, eles serão carregados
ou inseridos dentro de uma base de dados que, nesse caso, pode ser em
ambiente distribuído e clusterizado.
Os processos de ingestão normalmente apresentam dados aos
componentes que vão gerenciar seu armazenamento, para serem mantidos
no disco de maneira confiável. Embora pareça uma operação simples, o
grande volume de dados recebidos e os requisitos quanto à disponibilidade
com a camada de computação distribuída tornam os sistemas de
armazenamento mais complexos.
15. Staging Area
Staging Area ou Preparação dos Dados compreende as ações de pré-
processamento dos dados para a fase de modelagem propriamente dita.
Figura 31 - preparação dos dados
Fonte: http://bufallos.com.br/bg_br/staging-area/, 2021.
É um local temporário em que os dados originais (sistemas de origem) são

copiados. Portanto, ao invés de acessar os dados diretamente da fonte
original, os dados serão processados ou até transformados nesta área, que
pode ser uma tabela temporária, ou uma view, que é uma maneira
alternativa de observação dos dados, que pode ser executada. O ETL solicita
os dados da Staging Area, trata-os e realizada a entrega dos dados.
Figura 32 - processo da preparação da área
Fonte: https://www.unidax.com.br/blog/2018/07/09/bi-big-data-frequently-asked-questions-faq/, 2021.
São exemplos de ações desta fase:

• Selecionar os dados que serão efetivamente analisados, a seleção de
dados pode integrar dados coletados de diferentes fontes,
enriquecendo o conjunto de dados que será analisado.
• Promover a limpeza dos dados, procurando remover inconsistências
e completar (ou eliminar) dados ausentes.
• Adequar o formato dos dados. • Construir novos atributos a partir de
atributos existentes.
Os esforços de preparação dos dados sejam direcionados em função da
tarefa e do algoritmo/técnica de mineração a ser utilizado.
15.1 Modelagem:
O processo KDD (Knowledge Discovery in Databases) foi regularizado em
1989, em conta da procura de conhecimento a partir das bases de dados.
Seu principal objetivo é extrair conhecimento de grandes bases dados. Essa
descoberta do conhecimento, envolve uma sequência de fases que devem
ser obedecidas, se inicia com a coleta de informações, passa pelo
tratamento e, finalmente, a apresentação desses resultados obtidos através
da extração, gerando conhecimento.
Para trabalhar com o processo de KDD, é importante ter objetivos definidos,
saber quais os resultados pretendem atingir e dominar a aplicação,
processo esse que envolve três profissionais:
• Analista de dados: responsável por manusear as ferramentas que
serão aplicadas no processo, como por exemplo, inteligência
computacional e algoritmos, mas nem sempre conhecem o domínio
para o qual os dados são pertencentes;
• Especialista no domínio: tem ciência e domínio dos dados e sabe como
e onde aplicá-los;
• Usuário (pessoa ou empresa): o que fará uso das informações que
são obtidos no KDD. Fase essa, que comtempla a escolha da(s)
aplicação(ões), da(s) técnica(s) de modelagem algoritmo(s) de
mineração dos dados que serão analisados, que corresponde à etapa
de Mineração de Dados do Processo de KDD.
O KDD é composto por cinco fases em seu processo, sendo: a seleção de
dados, o pré-processamento, a transformação, a mineração e interpretação
/ avaliação.
É um processo iterativo, que pode se repetir quantas vezes for necessário
na busca de melhores resultados, entretanto, também é considerado um
processo interativo porque acontece à participação não somente de
profissionais como o especialista e o analista do domínio, mas também do
usuário final. Esse processo é realizado para a identificação de padrões que
sejam compreensíveis e válidos, novos e potencialmente úteis a partir de
grandes bases de dados.
Embora cada fase do KDD seja independente, podemos tratar de forma
individual, existindo uma forte dependência entre elas. De tal modo, para
que seja feita a transformação dos dados de forma correta, é preciso ter
uma base de dados modelada corretamente. Da mesma forma, para que os
dados sejam devidamente preparados, se faz necessário ter como objetivo
a aplicação de ferramentas que realizem a extração gerando conhecimento,
através de um algoritmo da mineração.
Figura 33 - processo KDD
Fonte: https://www.researchgate.net/figure/Figura-31-Principais-fases-do-processo-de-KDD_fig2_34009292/,
2021.
Envolvem testes, inicialmente direcionados à calibração de parâmetros

do(s) algoritmo(s). Nesta fase, diversas técnicas de modelagem dos dados
são experimentadas e, em cada uma delas, diversos valores de parâmetros
são testados.
Essa atividade antevê um retorno da atividade na preparação dos dados,
visto que, algumas técnicas de modelagem apresentam processos
diferentes quanto ao formato do conjunto de dados utilizado.
Resumo
Para um projeto em ciência de dados é importante, entender o problema a

ser resolvido, definir os objetivos do projeto, procurar os dados necessários,
preparar esses dados para que possam ser usados, identificar métodos
adequados e escolher entre eles, ajustar os parâmetros de cada método,
analisar e avaliar os resultados e refazer as tarefas de pré-processamento
e repetir os experimentos.
O big data, apresenta-se como ferramenta competitiva para as empresas,
através de bases de conhecimento bem sólidas que permitem alcançar os
resultados esperados, juntamente com uma infraestrutura composta por
equipamentos e serviços. Vale ressaltar as grande oportunidade de
mercado que os profissionais especializados e qualificados têm diante da
necessidade das empresas
Big Data é certamente uma das mais populares expressões surgidas nos
últimos anos para referenciar o massivo crescimento da quantidade de
dados ao redor do mundo. Este termo compreende também todas as
técnicas e iniciativas de tratamento, integração e análise de dados
provenientes de diversas fontes em diferentes mídias e formatos.
Uma área fortemente relacionada com a Big Data é a mineração de dados,
Data Mining
Referências
SANTOS, R.R.D.; BORDIN, M.V.; NUNES, S.E.; AL., E. FUNDAMENTOS DE

BIG GRUPO A, 2021. 9786556901749.
SILVEIRA, MARCIO, CARLA BONATO MARCOLIN, & HENRIQUE MELLO

RODRIGUES FREITAS. "USO CORPORATIVO DO BIG DATA: UMA REVISÃO
DE LITERATURA." REVISTA DE GESTÃO E PROJETOS [ONLINE], 6.3 (2015):
44-59. WEB. 19 JUL. 2021
MAYER, W ET AL. (2018). VARIETY MANAGEMENT FOR BIG DATA. //HOPPE

T., HUMM B., REIBOLD A. (EDS) SEMANTIC APPLICATIONS. SPRINGER
VIEWEG, BERLIM, HEIDELBERG,2018. 47-62.
ARAÚJO, P. M. FRAMEWORK DE BIG DATA. GRUPO A, 2020.
GOLDSCHMIDT, R. DATA MINING. GRUPO GEN, 2015
BLOG SYNNEX WESTCON-COMSTOR - O blog dos negócios de TI. - 6 Mitos

sobre o Big Data. Disponível em: http://digital.br.synnex.com/pt/6-mitos-
sobre-big-data/
BIG DATA: VOCÊ CONHECE OS 4 TIPOS DE ANÁLISE DE DADOS? Disponível

em: https://blog.academiain1.com.br/big-data-voce-conhece-os-4-tipos-
de-analise-de-dados/
Descoberta de conhecimento utilizando o processo KDD. Disponível em:

https://www.devmedia.com.br/descoberta-de-conhecimento-utilizando-o-
processo-kdd/38709

Introdução à Big Data em

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Introdução à Big Data em

Enviado por

Direitos autorais:

Formatos disponíveis

1.

Introdução a Big Data

Figura 1 - Nuvem de Tags Big Data

As técnicas empregadas em Big Data, o tornaram um grande diferencial

1.1 Mas o que, de fato, vem a ser a big data?

1.2 Por que estamos na era dos dados

Figura 2 - Era dos dados

Fonte: https://www.cotiinformatica.com.br/blog/bi-bigdata-a-era-dos-dados/, 2021.

O volume vem aumentando a cada ano por diversas razões como o

Fonte: https://macmagazine.com.br/wp-content/uploads/2021/01/27-marcas.jpg/, 2021

Deve-se utilizar ferramentas próprias para registrar os dados, seus

1.3 Todos os 5Vs de Big Data

Fonte: https://pt.semrush.com/blog/big-data-conheca-os-5-vs-e-sua-aplicacao-pratica-para-pmes/, 2021.

Volume: refere ao conceito principal do big data, onde a quantidade dos

Velocidade: Assim como os dados são gerados em grandes volumes, seu

Figura 6 - Tráfego de Dados intenso

Veracidade: O grande desafio do Big Data, dados coletados nem sempre

Variedade: é a heterogeneidade dos dados. Para os SGBD’s que trabalham

Figura 8 - Variedade de Dados

Fonte: https://cappra.com.br/2012/09/10/a-era-do-excesso-da-informacao/, 2021.

Valor: Apresenta resultados quanto a significância dos dados coletados e

Figura 9 - O valor da informação

Em 2001, o Gartner, acidentalmente talvez tenha estimulado uma

Dados gerados por máquinas

Figura 10 - Dados gerados por máquinas

Fonte: https://www.proof.com.br/blog/tag/dados-gerados-por-maquina/, 2021.

1.4 Mitos sobre Big Data

Fonte: https://celsocestaro.com.br/analise-de-dados/mitos-data-analytics-big-data/, 2021.

1.3.1 Big Data significa “muitos” dados

1.4.1. Os dados precisam ser “limpos”

1.4.3. Possuir um lago de dados (Lake Data)

1.4.4. A análise de dados é cara

1.4.5. Os algoritmos podem substituir os analistas humanos

1.4.6. Um mundo de oportunidades

Figura 12 - Tomando decisões

Fonte: https://melhorrh.com.br/os-principais-estilos-do-tomador-de-decisao/, 2021.

Uma decisão sempre envolverá riscos, elas impactam diretamente diversos

3. Dados não estruturados

Figura 14 - Imagens, vídeos e áudio

4. Preparação dos dados

Figura 15 - comparativo das análises

Fonte: https://rogerioaraujo.files.wordpress.com/2020/06/tipos-de-analise-1.jpg?w=925, 2021.

Figura 16 - Análise exploratória

Fonte: https://www.harbor.com.br/harbor-blog/2016/08/30/histograma/, 2021.

A medida de frequência conta quantas vezes um determinado valor aparece

• Preditivos: ajudam a prever cenários futuros se baseando em

• Prescritiva: analisa as consequências das ações que foram tomadas,

• Descritiva: o principal objetivo é permitir que ao analisar os dados,

• Diagnóstica: A sua finalidade é compreender as causas de um

Fonte: https://blog.academiain1.com.br/big-data-voce-conhece-os-4-tipos-de-analise-de-dados/, 2021.

7. Avaliação dos modelos

Fonte: https://www.techtem.com.br/voce-sabe-o-que-e-um-data-warehouse/, 2021.

Fonte: https://www.cetax.com.br/data-warehouse/, 2021.

Figura 22 - DW / Data Mart

Fonte: https://www.everit.com.br/data-mart/, 2021.

Essas considerações levaram ao conceito de data marts. Na realidade,

Fonte: https://www.gratispng.com/png-7zcnp1/, 2021.

A consolidação de data marts em um data warehouse em geral falha, a

10. Data Mining

Figura 24 - Nuvem de Tags Data Mining

Fonte: https://abracd.org/data-mining-o-que-e-e-por-onde-comecar/, 2021.

Algoritmos que têm a capacidade de mudança de escala, mas a mineração

Fonte: https://www.estrategiaconcursos.com.br/blog/mineracao-de-dados-para-pf/, 2021.